计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2014年
7期
84-87,91
,共5页
相似度%搜索引擎%词典
相似度%搜索引擎%詞典
상사도%수색인경%사전
similarity%search engines%lexicon
汉字词语的语义相似度计算是中文信息处理中的一个关键问题。文中利用网络搜索引擎提供的信息来计算汉语词对的语义相似性。首先通过程序访问搜索引擎,获取汉字词汇的搜索结果数,并依此实现了相似度计算模型WebPMI;然后描述了根据查询返回的文本片段进行语义相关性分析的模型CODC;最后,结合这个两个模型,给出了文中算法的伪代码。实验结果显示,文中的算法较好地利用了互联网信息,实现了一种较新的汉语词汇语义相似度计算方法,接近于利用词典提供的信息计算相似度的传统算法。
漢字詞語的語義相似度計算是中文信息處理中的一箇關鍵問題。文中利用網絡搜索引擎提供的信息來計算漢語詞對的語義相似性。首先通過程序訪問搜索引擎,穫取漢字詞彙的搜索結果數,併依此實現瞭相似度計算模型WebPMI;然後描述瞭根據查詢返迴的文本片段進行語義相關性分析的模型CODC;最後,結閤這箇兩箇模型,給齣瞭文中算法的偽代碼。實驗結果顯示,文中的算法較好地利用瞭互聯網信息,實現瞭一種較新的漢語詞彙語義相似度計算方法,接近于利用詞典提供的信息計算相似度的傳統算法。
한자사어적어의상사도계산시중문신식처리중적일개관건문제。문중이용망락수색인경제공적신식래계산한어사대적어의상사성。수선통과정서방문수색인경,획취한자사회적수색결과수,병의차실현료상사도계산모형WebPMI;연후묘술료근거사순반회적문본편단진행어의상관성분석적모형CODC;최후,결합저개량개모형,급출료문중산법적위대마。실험결과현시,문중적산법교호지이용료호련망신식,실현료일충교신적한어사회어의상사도계산방법,접근우이용사전제공적신식계산상사도적전통산법。
Similarity computation of Chinese words is a key problem in Chinese information processing. It measures semantic similarity between Chinese words using the information returned by web search engines. First,implement a model named WebPMI which computes similarity using page counts,and then,describe another model named CODC which analyzes semantic similarity using text snippets. Final-ly,present the algorithm based on the two models. Experimental results show that this algorithm outperforms all the existing web-based semantic similarity measures for Chinese,and is close to the traditional semantic similarity measures using lexicon.