微计算机应用
微計算機應用
미계산궤응용
MICROCOMPUTER APPLICATIONS
2008年
2期
41-45
,共5页
近似网页%搜索引擎%网页消重
近似網頁%搜索引擎%網頁消重
근사망혈%수색인경%망혈소중
针对海量Web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型.对一篇新入库的网页文档,利用所包含的关键词迅速缩小计算范围,提高计算效率.实验结果表明该算法是有效的,小规模评测结果得到较好的效果.
針對海量Web文本信息,利用從網頁主題內容提取齣來的特徵關鍵詞,在倒排索引基礎上建立相似度計算模型.對一篇新入庫的網頁文檔,利用所包含的關鍵詞迅速縮小計算範圍,提高計算效率.實驗結果錶明該算法是有效的,小規模評測結果得到較好的效果.
침대해량Web문본신식,이용종망혈주제내용제취출래적특정관건사,재도배색인기출상건립상사도계산모형.대일편신입고적망혈문당,이용소포함적관건사신속축소계산범위,제고계산효솔.실험결과표명해산법시유효적,소규모평측결과득도교호적효과.