图书情报知识
圖書情報知識
도서정보지식
Documentation,Information & Knowledge
2011年
2期
73~77
,共null页
语义标注 MARTT 机器学习 生物多样性
語義標註 MARTT 機器學習 生物多樣性
어의표주 MARTT 궤기학습 생물다양성
Semantic annotation MARTT Machine learning Biodiversity
针对现有语义标注系统通用性差的问题,本研究设计了基于先导词算法的MARTT语义标注系统。MARTT利用有监督的机器学习方法从文本中提取领域规则,以适应不同的数据集。为了检验算法的效率,研究以中国植物志和北美植物志数据为样本,运用十折交叉论证方法与NB、SVM的标注性能进行了比较。结果表明,先导词算法在准确率、召回率及计算成本上均优于其它两种算法。而且,在两个不同的数据集上都获得了理想的结果,证实MARTT所具有的良好适应性。
針對現有語義標註繫統通用性差的問題,本研究設計瞭基于先導詞算法的MARTT語義標註繫統。MARTT利用有鑑督的機器學習方法從文本中提取領域規則,以適應不同的數據集。為瞭檢驗算法的效率,研究以中國植物誌和北美植物誌數據為樣本,運用十摺交扠論證方法與NB、SVM的標註性能進行瞭比較。結果錶明,先導詞算法在準確率、召迴率及計算成本上均優于其它兩種算法。而且,在兩箇不同的數據集上都穫得瞭理想的結果,證實MARTT所具有的良好適應性。
침대현유어의표주계통통용성차적문제,본연구설계료기우선도사산법적MARTT어의표주계통。MARTT이용유감독적궤기학습방법종문본중제취영역규칙,이괄응불동적수거집。위료검험산법적효솔,연구이중국식물지화북미식물지수거위양본,운용십절교차론증방법여NB、SVM적표주성능진행료비교。결과표명,선도사산법재준학솔、소회솔급계산성본상균우우기타량충산법。이차,재량개불동적수거집상도획득료이상적결과,증실MARTT소구유적량호괄응성。
MARTT,a semantic annotation system based on leading words algorithm,has been designed for handling poor portability of existing systems.The system uses a supervised machine learning method to extract domain knowledge from the text so that it can adapt different description collections.In order to test the efficiency of the algorithm,the study compares leading words algorithm with NB and SVM by ten-fold cross demonstration method,using FNA and FOC as examples.Results show that leading words algorithm outperforms other two general learning algorithms in precision,recall and computational cost.More importantly,the algorithm works relatively equally well on both FNA and FOC descriptions,which verifies the good portability of MARTT.