计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2011年
23期
13-16,24
,共5页
汉语问答系统%关键词扩展%义原树%关键词集合精简
漢語問答繫統%關鍵詞擴展%義原樹%關鍵詞集閤精簡
한어문답계통%관건사확전%의원수%관건사집합정간
针对现存的单纯借助同义词词林或知识词典扩展关键词方法中存在噪音数据和计算量大的问题,提出了先扩展后精简的方法,即先利用同义词词林进行同义扩展,再利用知网义原树计算扩展词之间的语义距离,依据语义距离剔除相似度较小的噪音数据,实现关键词集合的精简.实验表明,当词语相似度阈值取0.8时,精简比例高达46.9%,精简后的关键词集合有效剔除了噪音数据,兼顾了信息检索的召回率和准确率,表现出良好的综合性能.
針對現存的單純藉助同義詞詞林或知識詞典擴展關鍵詞方法中存在譟音數據和計算量大的問題,提齣瞭先擴展後精簡的方法,即先利用同義詞詞林進行同義擴展,再利用知網義原樹計算擴展詞之間的語義距離,依據語義距離剔除相似度較小的譟音數據,實現關鍵詞集閤的精簡.實驗錶明,噹詞語相似度閾值取0.8時,精簡比例高達46.9%,精簡後的關鍵詞集閤有效剔除瞭譟音數據,兼顧瞭信息檢索的召迴率和準確率,錶現齣良好的綜閤性能.
침대현존적단순차조동의사사림혹지식사전확전관건사방법중존재조음수거화계산량대적문제,제출료선확전후정간적방법,즉선이용동의사사림진행동의확전,재이용지망의원수계산확전사지간적어의거리,의거어의거리척제상사도교소적조음수거,실현관건사집합적정간.실험표명,당사어상사도역치취0.8시,정간비례고체46.9%,정간후적관건사집합유효척제료조음수거,겸고료신식검색적소회솔화준학솔,표현출량호적종합성능.