计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2010年
9期
1567-1573
,共7页
王宇%谭松波%廖祥文%曾依灵
王宇%譚鬆波%廖祥文%曾依靈
왕우%담송파%료상문%증의령
信息抽取%属性抽取%有名属性%扩展领域模型%网页视觉分析
信息抽取%屬性抽取%有名屬性%擴展領域模型%網頁視覺分析
신식추취%속성추취%유명속성%확전영역모형%망혈시각분석
网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法难以推广到其他领域中去.因此,对信息抽取问题进行了分析,从中分离出一个可以完全自动化的信息抽取子任务,即有名属性抽取任务.在多个领域的数据集上进行的统计表明,这个子任务覆盖了60%以上的待抽取属性,因此它在整个信息抽取中占有重要地位.并给出了一种基于扩展领域模型的有名属性抽取方法,实验结果表明,这种方法的准确率接近或大于80%,召回率大于90%.
網頁信息抽取是互聯網挖掘的重要課題.為瞭自動化抽取過程,最新的研究利用特定領域的特徵,通過機器學習方法對信息抽取過程進行統一建模.但是,對領域特徵的依賴使得這類方法難以推廣到其他領域中去.因此,對信息抽取問題進行瞭分析,從中分離齣一箇可以完全自動化的信息抽取子任務,即有名屬性抽取任務.在多箇領域的數據集上進行的統計錶明,這箇子任務覆蓋瞭60%以上的待抽取屬性,因此它在整箇信息抽取中佔有重要地位.併給齣瞭一種基于擴展領域模型的有名屬性抽取方法,實驗結果錶明,這種方法的準確率接近或大于80%,召迴率大于90%.
망혈신식추취시호련망알굴적중요과제.위료자동화추취과정,최신적연구이용특정영역적특정,통과궤기학습방법대신식추취과정진행통일건모.단시,대영역특정적의뢰사득저류방법난이추엄도기타영역중거.인차,대신식추취문제진행료분석,종중분리출일개가이완전자동화적신식추취자임무,즉유명속성추취임무.재다개영역적수거집상진행적통계표명,저개자임무복개료60%이상적대추취속성,인차타재정개신식추취중점유중요지위.병급출료일충기우확전영역모형적유명속성추취방법,실험결과표명,저충방법적준학솔접근혹대우80%,소회솔대우90%.