计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2011年
3期
1138-1140,封3
,共4页
李超%陈世强%谢坤武%向军
李超%陳世彊%謝坤武%嚮軍
리초%진세강%사곤무%향군
实时Web%结构信息%相似性%重复识别%排序
實時Web%結構信息%相似性%重複識彆%排序
실시Web%결구신식%상사성%중복식별%배서
为了解决现有Web信息检索结果中存在较多内容相似甚至相同页面的问题,给出了实时Web内容和结构信息提取的算法及内容重复识别的方法.利用Google提供的PageRank查询接口取得各个页面的PageRank值,结合特定用户的特征信息、查询请求及提取的各Web页内容及结构信息,完成了文档相似度比较,实现了实时页面的重复识别及二次排序,实验结果表明该方法达到了较好的效果.
為瞭解決現有Web信息檢索結果中存在較多內容相似甚至相同頁麵的問題,給齣瞭實時Web內容和結構信息提取的算法及內容重複識彆的方法.利用Google提供的PageRank查詢接口取得各箇頁麵的PageRank值,結閤特定用戶的特徵信息、查詢請求及提取的各Web頁內容及結構信息,完成瞭文檔相似度比較,實現瞭實時頁麵的重複識彆及二次排序,實驗結果錶明該方法達到瞭較好的效果.
위료해결현유Web신식검색결과중존재교다내용상사심지상동혈면적문제,급출료실시Web내용화결구신식제취적산법급내용중복식별적방법.이용Google제공적PageRank사순접구취득각개혈면적PageRank치,결합특정용호적특정신식、사순청구급제취적각Web혈내용급결구신식,완성료문당상사도비교,실현료실시혈면적중복식별급이차배서,실험결과표명해방법체도료교호적효과.