计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2014年
8期
26-30
,共5页
麦热哈巴·艾力%阿孜古丽·夏力甫%吐尔根·依布拉音
麥熱哈巴·艾力%阿孜古麗·夏力甫%吐爾根·依佈拉音
맥열합파·애력%아자고려·하력보%토이근·의포랍음
多词表达%互信息%对数似然比%卡方%维吾尔语
多詞錶達%互信息%對數似然比%卡方%維吾爾語
다사표체%호신식%대수사연비%잡방%유오이어
collocation%mutual information%log-likelihood%chi-square%Uyghur
多词表达是特殊的语言现象,一般由多个词构成来表示一个意义,语料中常出现在一起。多词表达因是特殊的单元,其抽取在自然语言处理的很多领域有着非常重要的作用。讨论了目前常见的三种统计方法即互信息、对数似然比以及卡方等在维吾尔语多词表达抽取方面的影响。根据维吾尔语的特点,将词干作为一项特征加到抽取方法中。语料的选择上考虑了覆盖面及领域,并探讨了它们对抽取方法的影响。
多詞錶達是特殊的語言現象,一般由多箇詞構成來錶示一箇意義,語料中常齣現在一起。多詞錶達因是特殊的單元,其抽取在自然語言處理的很多領域有著非常重要的作用。討論瞭目前常見的三種統計方法即互信息、對數似然比以及卡方等在維吾爾語多詞錶達抽取方麵的影響。根據維吾爾語的特點,將詞榦作為一項特徵加到抽取方法中。語料的選擇上攷慮瞭覆蓋麵及領域,併探討瞭它們對抽取方法的影響。
다사표체시특수적어언현상,일반유다개사구성래표시일개의의,어료중상출현재일기。다사표체인시특수적단원,기추취재자연어언처리적흔다영역유착비상중요적작용。토론료목전상견적삼충통계방법즉호신식、대수사연비이급잡방등재유오이어다사표체추취방면적영향。근거유오이어적특점,장사간작위일항특정가도추취방법중。어료적선택상고필료복개면급영역,병탐토료타문대추취방법적영향。
Multi word expression is a special language phenomenon, which is combination of words. As a block of meaning, multi word expression appears together more often than by chance. They play more important role in natural language processing applications. In this study, it explores the effect of three more used statistical methods on extracting multi word expression in Uyghur texts. The three methods contain mutual information, log-likelihood and chi-square. According to the characteristics of Uighur, it adds stemmed form of words as features of extraction methods. On the choosing corpus, it considers the coverage and field, and explores its effect on extraction methods.