北京邮电大学学报
北京郵電大學學報
북경유전대학학보
JOURNAL OF BEIJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS
2009年
3期
109-112
,共4页
李谮%黄开妍%任福继%钟义信
李譖%黃開妍%任福繼%鐘義信
리참%황개연%임복계%종의신
维基百科%语义关系%语义相关度
維基百科%語義關繫%語義相關度
유기백과%어의관계%어의상관도
为了研究在线百科全书维基百科在语义相关词抽取、语义相关度计算等方面的应用,从中文维基百科下载并整理了5万余篇解释页面文档,抽取了反映语义关系的站内超级链接网络,通过挖掘文档间相互引用的链接关系抽取了近40万对语义相关词,并研究了语义相关词之间的主题聚类特性,选择两两相关的多个词得到相关词集合并计算了平均语义相关度. 相关度计算综合利用了链接在文档中的位置、频率等信息,通过对比经典算法在同一测试集上的计算结果对算法进行了分析评估,证明了维基百科语义相关词抽取方法的有效性.
為瞭研究在線百科全書維基百科在語義相關詞抽取、語義相關度計算等方麵的應用,從中文維基百科下載併整理瞭5萬餘篇解釋頁麵文檔,抽取瞭反映語義關繫的站內超級鏈接網絡,通過挖掘文檔間相互引用的鏈接關繫抽取瞭近40萬對語義相關詞,併研究瞭語義相關詞之間的主題聚類特性,選擇兩兩相關的多箇詞得到相關詞集閤併計算瞭平均語義相關度. 相關度計算綜閤利用瞭鏈接在文檔中的位置、頻率等信息,通過對比經典算法在同一測試集上的計算結果對算法進行瞭分析評估,證明瞭維基百科語義相關詞抽取方法的有效性.
위료연구재선백과전서유기백과재어의상관사추취、어의상관도계산등방면적응용,종중문유기백과하재병정리료5만여편해석혈면문당,추취료반영어의관계적참내초급련접망락,통과알굴문당간상호인용적련접관계추취료근40만대어의상관사,병연구료어의상관사지간적주제취류특성,선택량량상관적다개사득도상관사집합병계산료평균어의상관도. 상관도계산종합이용료련접재문당중적위치、빈솔등신식,통과대비경전산법재동일측시집상적계산결과대산법진행료분석평고,증명료유기백과어의상관사추취방법적유효성.