计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2011年
11期
228-229,278
,共3页
网页消重%网页特征码%文本相似度%编辑距离
網頁消重%網頁特徵碼%文本相似度%編輯距離
망혈소중%망혈특정마%문본상사도%편집거리
针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重.该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基础上得到网页的相似度.经与相似方法比较,结果表明,该方法减少了时间复杂度,具有较高的查全率和查准率,适于大规模网页消重.
針對在網頁檢索結果中經常齣現內容相同或相似的問題,提齣瞭一種通過計算網頁相似度的方法進行網頁消重.該算法通過提取網頁特徵串,特徵串的提取在參攷以往特徵碼提取的基礎上,加入瞭文本結構特徵的提取,通過比較特徵串之間差異性的基礎上得到網頁的相似度.經與相似方法比較,結果錶明,該方法減少瞭時間複雜度,具有較高的查全率和查準率,適于大規模網頁消重.
침대재망혈검색결과중경상출현내용상동혹상사적문제,제출료일충통과계산망혈상사도적방법진행망혈소중.해산법통과제취망혈특정천,특정천적제취재삼고이왕특정마제취적기출상,가입료문본결구특정적제취,통과비교특정천지간차이성적기출상득도망혈적상사도.경여상사방법비교,결과표명,해방법감소료시간복잡도,구유교고적사전솔화사준솔,괄우대규모망혈소중.