软件学报
軟件學報
연건학보
JOURNAL OF SOFTWARE
2002年
2期
159-167
,共9页
尹中航%王永成%蔡巍%韩客松
尹中航%王永成%蔡巍%韓客鬆
윤중항%왕영성%채외%한객송
网页信息处理%网上新闻%主题提取%串匹配%词
網頁信息處理%網上新聞%主題提取%串匹配%詞
망혈신식처리%망상신문%주제제취%천필배%사
Web information processing%Internet news%subject extraction%strin g match%thesaurus
从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据" 词典加匹配"的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上新闻的主题提取. 提出并实现了一种不用词典即可提取新闻主题的新方法.该方法利用网上新闻的特殊结构,在标题和正文间寻找重复的字串.经过简单地处理,这些字串能够较好地反映新闻的主题.实验结果显示该方法能够准确、有效地提取出绝大部分网上新闻的主题,满足新闻自动处理的需要.该方法同样适用于其它亚洲语言和西方语言.
從文本中提取主題串是自然語言處理的重要基礎之一.傳統的提取方法主要是依據" 詞典加匹配"的模式.由于詞典的更新速度無法同步于網上新聞中新詞彙湧現的速度,而且詞典的內容也無法完全涵蓋網上新聞的範圍, 因此這種方法不適用于網上新聞的主題提取. 提齣併實現瞭一種不用詞典即可提取新聞主題的新方法.該方法利用網上新聞的特殊結構,在標題和正文間尋找重複的字串.經過簡單地處理,這些字串能夠較好地反映新聞的主題.實驗結果顯示該方法能夠準確、有效地提取齣絕大部分網上新聞的主題,滿足新聞自動處理的需要.該方法同樣適用于其它亞洲語言和西方語言.
종문본중제취주제천시자연어언처리적중요기출지일.전통적제취방법주요시의거" 사전가필배"적모식.유우사전적경신속도무법동보우망상신문중신사회용현적속도,이차사전적내용야무법완전함개망상신문적범위, 인차저충방법불괄용우망상신문적주제제취. 제출병실현료일충불용사전즉가제취신문주제적신방법.해방법이용망상신문적특수결구,재표제화정문간심조중복적자천.경과간단지처리,저사자천능구교호지반영신문적주제.실험결과현시해방법능구준학、유효지제취출절대부분망상신문적주제,만족신문자동처리적수요.해방법동양괄용우기타아주어언화서방어언.
Subject extraction from a text is very important for natural languag e processing. Traditional methods mainly depend on the mode of "thesaurus plus m atch". It is not fit to process Internet news because of its limited volume and slow update speed. After analyzing the news structure carefully, this paper pres ents a new practical method to extract news subjects without thesaurus, and give the main implementing procedure. Instead of large thesaurus, it uses the specia l structure of Internet news to find the repeated strings. These repeated string s could express the news subjects very well. Experimental results show that this method can extract the most important subject strings from most of Internet new s rapidly and efficiently. Moreover, this method is equally efficient to other A sian languages such as Japanese and Korean, as well as other western languages.