燕山大学学报
燕山大學學報
연산대학학보
JOURNAL OF YANSHAN UNIVERSITY
2011年
2期
121-123,161
,共4页
元搜索%网页%去重%分词
元搜索%網頁%去重%分詞
원수색%망혈%거중%분사
针对元搜索的重复网页问题,提出基于元搜索的网页去重算法,并通过实验对算法进行有效性验证.该算法首先对各成员搜索引擎返回来的结果网页的URL进行比较,然后对各结果网页的标题进行有关处理,提取出网页的主题信息,再对摘要进行分词,计算摘要的相似度,三者结合能很好的检测出重复网页,实现网页去重.该算法有效,并且比以往算法有明显的优势,更接近人工统计结果.
針對元搜索的重複網頁問題,提齣基于元搜索的網頁去重算法,併通過實驗對算法進行有效性驗證.該算法首先對各成員搜索引擎返迴來的結果網頁的URL進行比較,然後對各結果網頁的標題進行有關處理,提取齣網頁的主題信息,再對摘要進行分詞,計算摘要的相似度,三者結閤能很好的檢測齣重複網頁,實現網頁去重.該算法有效,併且比以往算法有明顯的優勢,更接近人工統計結果.
침대원수색적중복망혈문제,제출기우원수색적망혈거중산법,병통과실험대산법진행유효성험증.해산법수선대각성원수색인경반회래적결과망혈적URL진행비교,연후대각결과망혈적표제진행유관처리,제취출망혈적주제신식,재대적요진행분사,계산적요적상사도,삼자결합능흔호적검측출중복망혈,실현망혈거중.해산법유효,병차비이왕산법유명현적우세,경접근인공통계결과.