计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2014年
10期
2239-2247
,共9页
搜索引擎%内容签名%文本聚类%机器学习%线性回归模型
搜索引擎%內容籤名%文本聚類%機器學習%線性迴歸模型
수색인경%내용첨명%문본취류%궤기학습%선성회귀모형
search engine%content signature%text clustering%machine learning%linear regression model
随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求.
隨著互聯網的快速髮展,網頁數量呈現爆炸式增長,其中充斥著大量內容相似的或低質量的網頁.對于搜索引擎來講,索引這樣的網頁對于檢索效果併沒有顯著作用,反而增加瞭搜索引擎索引和檢索的負擔.提齣一種用于海量網頁數據中構建搜索引擎的索引網頁集閤的網頁選取算法.一方麵使用基于內容籤名的聚類算法對網頁進行濾重,壓縮索引集閤的規模;另一方麵融閤瞭網頁維度和用戶維度的多種特徵來保證索引集閤的網頁質量.相關實驗錶明,使用該選取算法得到的索引網頁集閤的規模隻有整箇網頁集閤的約1/3,併且能夠覆蓋絕大多數的用戶點擊,可以滿足實際用戶需求.
수착호련망적쾌속발전,망혈수량정현폭작식증장,기중충척착대량내용상사적혹저질량적망혈.대우수색인경래강,색인저양적망혈대우검색효과병몰유현저작용,반이증가료수색인경색인화검색적부담.제출일충용우해량망혈수거중구건수색인경적색인망혈집합적망혈선취산법.일방면사용기우내용첨명적취류산법대망혈진행려중,압축색인집합적규모;령일방면융합료망혈유도화용호유도적다충특정래보증색인집합적망혈질량.상관실험표명,사용해선취산법득도적색인망혈집합적규모지유정개망혈집합적약1/3,병차능구복개절대다수적용호점격,가이만족실제용호수구.