厦门大学学报(自然科学版)
廈門大學學報(自然科學版)
하문대학학보(자연과학판)
JOURNAL OF XIAMEN UNIVERSITY (NATURAL SCIENCE)
2015年
2期
257-262
,共6页
知网%词语相似度%逆概念频率%义原权重
知網%詞語相似度%逆概唸頻率%義原權重
지망%사어상사도%역개념빈솔%의원권중
HowNet%word similarity%inverse concept frequency%primitive weight
词语相似性度量在服务选择、自然语言处理、文献检索等领域具有重要的作用,目前通用的词语相似度计算方法是利用《知网》对词的概念解释得出词语之间相似度.对《知网》结构进行分析,认为利用《知网》计算词的相似度的方法中概念的4项基本结构的权重应该动态产生,并提出区分度作为衡量4项基本结构的动态权重.在分析现有研究基础上,借鉴逆文档频率(IDF)权重计算思想,认为义原的区分度与义原在所有概念的相应位置中出现次数成反比,提出了一种基于义原出现频次的义原权重计算方法:逆概念频率(inverse concept frequency,ICF).通过分析概念的组织结构,计算第一基本义原结构、其他基本义原结构、关系义原结构、关系符号结构中各义原的ICF权重,将4个基本结构中的最大义原ICF权重作为基本结构的ICF权重.利用动态ICF值逼近基本结构的区分度,进而计算词语相似度.通过对真实数据的实验对比可以看出ICF算法能有效提高计算词语相似度的准确率.相比较传统算法平均前160个词准确率从30.74%提高到72.28%,平均召回率从15.87%提高到49.64%.
詞語相似性度量在服務選擇、自然語言處理、文獻檢索等領域具有重要的作用,目前通用的詞語相似度計算方法是利用《知網》對詞的概唸解釋得齣詞語之間相似度.對《知網》結構進行分析,認為利用《知網》計算詞的相似度的方法中概唸的4項基本結構的權重應該動態產生,併提齣區分度作為衡量4項基本結構的動態權重.在分析現有研究基礎上,藉鑒逆文檔頻率(IDF)權重計算思想,認為義原的區分度與義原在所有概唸的相應位置中齣現次數成反比,提齣瞭一種基于義原齣現頻次的義原權重計算方法:逆概唸頻率(inverse concept frequency,ICF).通過分析概唸的組織結構,計算第一基本義原結構、其他基本義原結構、關繫義原結構、關繫符號結構中各義原的ICF權重,將4箇基本結構中的最大義原ICF權重作為基本結構的ICF權重.利用動態ICF值逼近基本結構的區分度,進而計算詞語相似度.通過對真實數據的實驗對比可以看齣ICF算法能有效提高計算詞語相似度的準確率.相比較傳統算法平均前160箇詞準確率從30.74%提高到72.28%,平均召迴率從15.87%提高到49.64%.
사어상사성도량재복무선택、자연어언처리、문헌검색등영역구유중요적작용,목전통용적사어상사도계산방법시이용《지망》대사적개념해석득출사어지간상사도.대《지망》결구진행분석,인위이용《지망》계산사적상사도적방법중개념적4항기본결구적권중응해동태산생,병제출구분도작위형량4항기본결구적동태권중.재분석현유연구기출상,차감역문당빈솔(IDF)권중계산사상,인위의원적구분도여의원재소유개념적상응위치중출현차수성반비,제출료일충기우의원출현빈차적의원권중계산방법:역개념빈솔(inverse concept frequency,ICF).통과분석개념적조직결구,계산제일기본의원결구、기타기본의원결구、관계의원결구、관계부호결구중각의원적ICF권중,장4개기본결구중적최대의원ICF권중작위기본결구적ICF권중.이용동태ICF치핍근기본결구적구분도,진이계산사어상사도.통과대진실수거적실험대비가이간출ICF산법능유효제고계산사어상사도적준학솔.상비교전통산법평균전160개사준학솔종30.74%제고도72.28%,평균소회솔종15.87%제고도49.64%.