计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2014年
21期
205-209,223
,共6页
桑海岩%古丽拉·阿东别克%孙瑞娜%陈莉
桑海巖%古麗拉·阿東彆剋%孫瑞娜%陳莉
상해암%고려랍·아동별극%손서나%진리
自然语言处理%固定短语%排序集成%互信息%似然比%C-value算法
自然語言處理%固定短語%排序集成%互信息%似然比%C-value算法
자연어언처리%고정단어%배서집성%호신식%사연비%C-value산법
natural language processing%fixed phrases%rank aggregation%mutual information%log-likelihood%C-value
短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富,这些特点给哈语固定短语的抽取带来了一定的困难。提出一个总体的固定短语抽取算法,把固定短语抽取看作一个排序问题,使用C-value、互信息和log-likelihood进行抽取排序,并设计了一个新的排序集成方法对抽取的结果进行集成。实验分析结果表明,与单独的抽取算法比较,该算法达到了更高的准确率。
短語抽取是文本自動分類、主題提取及專利檢索分析等文本信息理解等工作中都要應用到的一項關鍵技術。固定短語抽取作為短語研究的一部分,對短語標註、辭典編撰等自然語言處理任務都具有重要的現實意義。哈薩剋語是黏著語,詞形變化豐富,這些特點給哈語固定短語的抽取帶來瞭一定的睏難。提齣一箇總體的固定短語抽取算法,把固定短語抽取看作一箇排序問題,使用C-value、互信息和log-likelihood進行抽取排序,併設計瞭一箇新的排序集成方法對抽取的結果進行集成。實驗分析結果錶明,與單獨的抽取算法比較,該算法達到瞭更高的準確率。
단어추취시문본자동분류、주제제취급전리검색분석등문본신식리해등공작중도요응용도적일항관건기술。고정단어추취작위단어연구적일부분,대단어표주、사전편찬등자연어언처리임무도구유중요적현실의의。합살극어시점착어,사형변화봉부,저사특점급합어고정단어적추취대래료일정적곤난。제출일개총체적고정단어추취산법,파고정단어추취간작일개배서문제,사용C-value、호신식화log-likelihood진행추취배서,병설계료일개신적배서집성방법대추취적결과진행집성。실험분석결과표명,여단독적추취산법비교,해산법체도료경고적준학솔。
Phrase extraction plays a key role in text information understanding, such as automatic text classification, topic extraction, and analysis of patent search, etc. As the part of phrase research, the fixed phrase extraction has important prac-tical significance on natural language processing tasks including the lexicographer. The Kazakh is agglutinative language, rich in inflections. These characteristics of the Kazakh bring certain difficulties to fixed phrase extraction. This paper proposes a general fixed phrase extraction algorithm. The algorithm considers the fixed phrase extraction as a scheduling problem, uses C-value, mutual information and log-likelihood statistics to extract and schedule, and presents a new rank aggregation method to obtain a scheduling result set. The experimental results indicate that the algorithm gets higher accuracy compared with popular signal extraction algorithms.