计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
16期
130-135
,共6页
买哈铺热提·外力%赵梦原%艾斯卡尔·艾木都拉
買哈鋪熱提·外力%趙夢原%艾斯卡爾·艾木都拉
매합포열제·외력%조몽원%애사잡이·애목도랍
维吾尔文%自动文摘%TF-IDF算法%Textrank%ROUGE
維吾爾文%自動文摘%TF-IDF算法%Textrank%ROUGE
유오이문%자동문적%TF-IDF산법%Textrank%ROUGE
Uyghur%automatic summarization%TF-IDF algorithm%TextRank%ROUGE
以互联网为代表的信息技术的发展使人们索取信息变得前所未有的便捷,同时也对如何有效利用信息提出了挑战。自动文摘技术通过自动选择文档中的代表句子,可以极大提高信息使用的效率。近年来,基于英文和中文的自动文摘技术获得广泛关注并取得长足进展,而对少数民族语言的自动文摘研究还不够充分,例如维吾尔语。构造了一个面向维吾尔语的自动文摘系统。首先利用维吾尔语的语言学知识对文档进行预处理,之后对文档进行了关键词提取,利用这些关键词进行了抽取式自动文摘。比较了基于TF-IDF和基于TextRank的两种关键词提取算法,证明TextRank方法提取出的关键词更适合自动文摘应用。通过研究证明了在充分考虑到维吾尔语语言信息的前提下,基于关键词的自动文摘方法可以取得让人满意的效果。
以互聯網為代錶的信息技術的髮展使人們索取信息變得前所未有的便捷,同時也對如何有效利用信息提齣瞭挑戰。自動文摘技術通過自動選擇文檔中的代錶句子,可以極大提高信息使用的效率。近年來,基于英文和中文的自動文摘技術穫得廣汎關註併取得長足進展,而對少數民族語言的自動文摘研究還不夠充分,例如維吾爾語。構造瞭一箇麵嚮維吾爾語的自動文摘繫統。首先利用維吾爾語的語言學知識對文檔進行預處理,之後對文檔進行瞭關鍵詞提取,利用這些關鍵詞進行瞭抽取式自動文摘。比較瞭基于TF-IDF和基于TextRank的兩種關鍵詞提取算法,證明TextRank方法提取齣的關鍵詞更適閤自動文摘應用。通過研究證明瞭在充分攷慮到維吾爾語語言信息的前提下,基于關鍵詞的自動文摘方法可以取得讓人滿意的效果。
이호련망위대표적신식기술적발전사인문색취신식변득전소미유적편첩,동시야대여하유효이용신식제출료도전。자동문적기술통과자동선택문당중적대표구자,가이겁대제고신식사용적효솔。근년래,기우영문화중문적자동문적기술획득엄범관주병취득장족진전,이대소수민족어언적자동문적연구환불구충분,례여유오이어。구조료일개면향유오이어적자동문적계통。수선이용유오이어적어언학지식대문당진행예처리,지후대문당진행료관건사제취,이용저사관건사진행료추취식자동문적。비교료기우TF-IDF화기우TextRank적량충관건사제취산법,증명TextRank방법제취출적관건사경괄합자동문적응용。통과연구증명료재충분고필도유오이어어언신식적전제하,기우관건사적자동문적방법가이취득양인만의적효과。
As represented by the Internet, development of information technology has enabled people to obtain information easier than ever before, but it also presents challenges to the effective use of information. Automatic summarization techniques greatly improve efficiency in the use of information by automatically selecting representatives of the sentences in the document. In recent years, automatic summarization techniques based on English and Chinese received wide attention and achieved significant progress while the automatic summarization of minority languages is not sufficient, such as Uyghur language. This paper constructs a Uyghur-oriented automatic summarization system. Uyghur linguistic knowledge is used to handle the document, and then keywords which are extracted from the document is used for automatic text summarization. Two different TF-IDF-based and TextRank-based extraction algorithms are compared;it proves TextRank method is more suitable for automatic text summarization. It is demonstrated that on the premise of full account of Uygur language infor-mation, automatic text summarization based on keywords can achieve satisfactory results.