西南师范大学学报(自然科学版)
西南師範大學學報(自然科學版)
서남사범대학학보(자연과학판)
JOURNAL OF SOUTHWEST CHINA NORMAL UNIVERSITY
2014年
7期
41-46
,共6页
木合亚提·尼亚孜别克%古力沙吾利·塔里甫%古丽拉·阿东别克
木閤亞提·尼亞孜彆剋%古力沙吾利·塔裏甫%古麗拉·阿東彆剋
목합아제·니아자별극%고력사오리·탑리보%고려랍·아동별극
哈萨克语%最大熵模型%NP VP搭配%歧义消除
哈薩剋語%最大熵模型%NP VP搭配%歧義消除
합살극어%최대적모형%NP VP탑배%기의소제
Kazakh%maximum entropy%NP and VP-collocation%attachment disambiguation
以现代哈萨克语短语识别与短语块库构建技术研究工程为背景,以NP和VP结构的歧义类型研究及消除为目的,提取统计方法来处理NP和VP结构的歧义问题.该方法在已经统计与分析出的哈萨克语短语基础上,对哈萨克语NP和VP短语组合结构歧义做全面分析和整理.用互信息方法解决NP和VP的歧义问题准确率(72%)并不高.为了达到更好的准确率就需要数量较大的训练语料库,但是目前实验环境并没有足够的语料.因此,基于规则方法标注好语料并采用人工方式完善训练语料库,再使用最大熵方法来处理歧义问题.实验结果表明,基于统计方法解决N P和V P结构的歧义问题是有效的,其准确率在封闭测试中达到了80.1%.
以現代哈薩剋語短語識彆與短語塊庫構建技術研究工程為揹景,以NP和VP結構的歧義類型研究及消除為目的,提取統計方法來處理NP和VP結構的歧義問題.該方法在已經統計與分析齣的哈薩剋語短語基礎上,對哈薩剋語NP和VP短語組閤結構歧義做全麵分析和整理.用互信息方法解決NP和VP的歧義問題準確率(72%)併不高.為瞭達到更好的準確率就需要數量較大的訓練語料庫,但是目前實驗環境併沒有足夠的語料.因此,基于規則方法標註好語料併採用人工方式完善訓練語料庫,再使用最大熵方法來處理歧義問題.實驗結果錶明,基于統計方法解決N P和V P結構的歧義問題是有效的,其準確率在封閉測試中達到瞭80.1%.
이현대합살극어단어식별여단어괴고구건기술연구공정위배경,이NP화VP결구적기의류형연구급소제위목적,제취통계방법래처리NP화VP결구적기의문제.해방법재이경통계여분석출적합살극어단어기출상,대합살극어NP화VP단어조합결구기의주전면분석화정리.용호신식방법해결NP화VP적기의문제준학솔(72%)병불고.위료체도경호적준학솔취수요수량교대적훈련어료고,단시목전실험배경병몰유족구적어료.인차,기우규칙방법표주호어료병채용인공방식완선훈련어료고,재사용최대적방법래처리기의문제.실험결과표명,기우통계방법해결N P화V P결구적기의문제시유효적,기준학솔재봉폐측시중체도료80.1%.
This paper aims to building modern Kazakh phrase recognition chunk library in technology re-search ,and use statistical methods to solve the problem that NP and VP ambiguous structure the ambigui-ty .In this method statistics and Analysis Kazakh phrase structure knowledge ,and analysis the Kazakh NP and VP phrase combination of structural ambiguity in more comprehensive system .The study has ap-plied mutual information processing NP VP of ambiguity ,but this algorithm is the accuracy rate is not high only 72% .To achieve better accuracy need a large number of training corpus in order ,but the experi-mental environment and do not have enough corpus .Therefore ,based on a small number of rule-based method marked corpus and added artificially to improve the training corpus ,and then in the maximum en-tropy method to deal with the ambiguity problem .Experimental results show that :statistics-based ap-proach to solve NP and VP structure ambiguity is valid ,closed test accuracy of 80 .1% .