广西师范大学学报(自然科学版)
廣西師範大學學報(自然科學版)
엄서사범대학학보(자연과학판)
JOURNAL OF GUANGXI NORMAL UNIVERSITY(NATURAL SCIENCE EDITION)
2007年
2期
30-33
,共4页
关键词提取%新词识别%文档相似度
關鍵詞提取%新詞識彆%文檔相似度
관건사제취%신사식별%문당상사도
去除内容相同或相近的新闻是提高搜索引擎的关键技术之一.提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链的方法,能够找到对主题贡献大的非高频词,从而抽取出完整文档关键词集合,该方法能够基于小规模语料库识别新词;为了提高网页去重速度和质量,基于关键词建立去重倒排文档.实验结果显示,该方法与传统方法相比排斥错误率降低了5%,去重时间缩短了20%~30%.
去除內容相同或相近的新聞是提高搜索引擎的關鍵技術之一.提齣一種基于關鍵詞提取的新聞去重算法,通過以標題為種子點構建詞彙鏈的方法,能夠找到對主題貢獻大的非高頻詞,從而抽取齣完整文檔關鍵詞集閤,該方法能夠基于小規模語料庫識彆新詞;為瞭提高網頁去重速度和質量,基于關鍵詞建立去重倒排文檔.實驗結果顯示,該方法與傳統方法相比排斥錯誤率降低瞭5%,去重時間縮短瞭20%~30%.
거제내용상동혹상근적신문시제고수색인경적관건기술지일.제출일충기우관건사제취적신문거중산법,통과이표제위충자점구건사회련적방법,능구조도대주제공헌대적비고빈사,종이추취출완정문당관건사집합,해방법능구기우소규모어료고식별신사;위료제고망혈거중속도화질량,기우관건사건립거중도배문당.실험결과현시,해방법여전통방법상비배척착오솔강저료5%,거중시간축단료20%~30%.