计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2007年
6期
119-121
,共3页
新闻网页%主题内容抽取%网页去重%权值计算
新聞網頁%主題內容抽取%網頁去重%權值計算
신문망혈%주제내용추취%망혈거중%권치계산
网页检索结果中,用户经常会得到内容相同的冗余页面.它们不但浪费了存储资源,而且给信息检索或其它文本处理带来诸多不便.论文在抽取出新闻标题、主题内容和发布日期的前提下,依据新闻的时间性(易碎性),按发布日期分"群",对冗余网页去重方法进行了探索性研究,从而很大程度地缩小了计算时问,提高了去重准确性.
網頁檢索結果中,用戶經常會得到內容相同的冗餘頁麵.它們不但浪費瞭存儲資源,而且給信息檢索或其它文本處理帶來諸多不便.論文在抽取齣新聞標題、主題內容和髮佈日期的前提下,依據新聞的時間性(易碎性),按髮佈日期分"群",對冗餘網頁去重方法進行瞭探索性研究,從而很大程度地縮小瞭計算時問,提高瞭去重準確性.
망혈검색결과중,용호경상회득도내용상동적용여혈면.타문불단낭비료존저자원,이차급신식검색혹기타문본처리대래제다불편.논문재추취출신문표제、주제내용화발포일기적전제하,의거신문적시간성(역쇄성),안발포일기분"군",대용여망혈거중방법진행료탐색성연구,종이흔대정도지축소료계산시문,제고료거중준학성.