情报学报
情報學報
정보학보
2008年
1期
12-17
,共6页
主题提取%Web页面%超链接
主題提取%Web頁麵%超鏈接
주제제취%Web혈면%초련접
主题抽取是自然语言处理研究的重要问题之一.目前流行的方法是"词典+匹配",但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来.本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法.我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上.
主題抽取是自然語言處理研究的重要問題之一.目前流行的方法是"詞典+匹配",但該方法用于處理動態變化的網頁信息時,詞典難于及時更新等弊病就錶現齣來.本文作者在研究中文新聞網頁內容、結構特點的基礎上,提齣瞭一種利用Web頁麵結構無需詞典的主題抽取算法.我們使用該方法對新華網財經新聞語料1000篇進行主題抽取實驗,併與手工抽取的主題進行比較,結果錶明,重閤率高達93%以上.
주제추취시자연어언처리연구적중요문제지일.목전류행적방법시"사전+필배",단해방법용우처리동태변화적망혈신식시,사전난우급시경신등폐병취표현출래.본문작자재연구중문신문망혈내용、결구특점적기출상,제출료일충이용Web혈면결구무수사전적주제추취산법.아문사용해방법대신화망재경신문어료1000편진행주제추취실험,병여수공추취적주제진행비교,결과표명,중합솔고체93%이상.