计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
2期
218-223,240
,共7页
古丽扎达·海沙%古丽拉·阿东别克
古麗扎達·海沙%古麗拉·阿東彆剋
고려찰체·해사%고려랍·아동별극
哈萨克语基本动词短语%短语分析%歧义%最大熵模型%规则集
哈薩剋語基本動詞短語%短語分析%歧義%最大熵模型%規則集
합살극어기본동사단어%단어분석%기의%최대적모형%규칙집
Kazakh base verb phrase%phrase analysis%ambiguity%maximum entropy%rules collection
由于哈萨克语基本动词短语KzBaseVP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克语基本动词短语(KzBaseVP)进行识别。在该混合策略系统中,根据专属KzBaseVP的特点构建了KzBaseVP搭配规则集,通过规则集对无歧义的KzBaseVP进行标注,其正确率为85.43%;运用基于统计的最大熵模型对存在歧义的KzBaseVP进行识别,根据哈萨克语的单词、词性、词缀和上下文信息等来设计最大熵模型的特征模板,并对模型进行了改进,在解码中选取概率最大的前n个上下文信息分别加入到下一个VP的特征向量中,以此类推直至文本结束,最终选出一条概率最优的VP标注。实验证明,在封闭和开发测试条件下对基本动词短语的识别准确率分别为97.23%和93.22%。
由于哈薩剋語基本動詞短語KzBaseVP的組成結構比較複雜,併且存在歧義情況和訓練語料規模不夠大等問題,所以既不能直接使用基于規則的方法,又不能直接使用基于統計的方法來進行處理。所以提齣瞭一種規則與最大熵相結閤的方法對哈薩剋語基本動詞短語(KzBaseVP)進行識彆。在該混閤策略繫統中,根據專屬KzBaseVP的特點構建瞭KzBaseVP搭配規則集,通過規則集對無歧義的KzBaseVP進行標註,其正確率為85.43%;運用基于統計的最大熵模型對存在歧義的KzBaseVP進行識彆,根據哈薩剋語的單詞、詞性、詞綴和上下文信息等來設計最大熵模型的特徵模闆,併對模型進行瞭改進,在解碼中選取概率最大的前n箇上下文信息分彆加入到下一箇VP的特徵嚮量中,以此類推直至文本結束,最終選齣一條概率最優的VP標註。實驗證明,在封閉和開髮測試條件下對基本動詞短語的識彆準確率分彆為97.23%和93.22%。
유우합살극어기본동사단어KzBaseVP적조성결구비교복잡,병차존재기의정황화훈련어료규모불구대등문제,소이기불능직접사용기우규칙적방법,우불능직접사용기우통계적방법래진행처리。소이제출료일충규칙여최대적상결합적방법대합살극어기본동사단어(KzBaseVP)진행식별。재해혼합책략계통중,근거전속KzBaseVP적특점구건료KzBaseVP탑배규칙집,통과규칙집대무기의적KzBaseVP진행표주,기정학솔위85.43%;운용기우통계적최대적모형대존재기의적KzBaseVP진행식별,근거합살극어적단사、사성、사철화상하문신식등래설계최대적모형적특정모판,병대모형진행료개진,재해마중선취개솔최대적전n개상하문신식분별가입도하일개VP적특정향량중,이차유추직지문본결속,최종선출일조개솔최우적VP표주。실험증명,재봉폐화개발측시조건하대기본동사단어적식별준학솔분별위97.23%화93.22%。
The method based on rules can’t be used to process because the structure of KzBaseVP is complex and ambi-guity is common, so this paper puts forward a combined method of rules and statistics to recognize Kazakh Base Verb Phrase(KzBaseVP). In this mixed strategy system, the set of KzBaseVP match rules has been established according to the features of exclusive KzBaseVP, the unambiguous KzBaseVP has been tagged through a set of rules, the correct rate is 85.43%. It uses the maximum entropy model to identify ambiguities KzBaseVP based on statistics, designs maximum entropy model feature template according to the Kazakh word, POS, affix and context information, the model has been improved, the first N maximum probability of context information has been added to the feature vectors of next VP and so on until the end of the text, an optimal probability VP tagging has been selected in the end. Experimental results show that the close test and open test of average accuracy of identifying Kazakh Base VP is 97.23%and 93.22%.