计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2014年
2期
116-119,128
,共5页
网络爬虫%主题搜索引擎%搜索策略%向量空间模型
網絡爬蟲%主題搜索引擎%搜索策略%嚮量空間模型
망락파충%주제수색인경%수색책략%향량공간모형
web spider%topic-oriented search engine%search strategy%Vector Space Model(VSM)
为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL和无标的待判别URL实现对无标URL的相关性判别,并推导出迭代初值选取对结果的不敏感性。实验结果表明,与传统的网络爬虫算法相关性判别方法相比,提出的方法效率更高。
為瞭解決傳統主題爬蟲效率偏低的問題,傳統主題爬蟲會選擇最有價值的鏈接進行訪問,僅簡單地計算鏈接的相關性,卻忽視待分析URL之間的相關性關繫,緻使主題爬蟲爬取效率較低。提齣一種基于鏈接模型的相關性判彆算法,綜閤利用有標種子URL和無標的待判彆URL實現對無標URL的相關性判彆,併推導齣迭代初值選取對結果的不敏感性。實驗結果錶明,與傳統的網絡爬蟲算法相關性判彆方法相比,提齣的方法效率更高。
위료해결전통주제파충효솔편저적문제,전통주제파충회선택최유개치적련접진행방문,부간단지계산련접적상관성,각홀시대분석URL지간적상관성관계,치사주제파충파취효솔교저。제출일충기우련접모형적상관성판별산법,종합이용유표충자URL화무표적대판별URL실현대무표URL적상관성판별,병추도출질대초치선취대결과적불민감성。실험결과표명,여전통적망락파충산법상관성판별방법상비,제출적방법효솔경고。
In order to solve the low efficiency problem of traditional focused crawler, web spider always selects the most valuable links to visit, so how to focus the search around a given topic is a key problem. The traditional method always only computes the relevance of the links, but ignores the relevance among the unlabeled URL, now it proposes the algorithm based on link model which combines the seed URL with unlabeled URL to compute the relevance of the other URL, and it deduces the point that initial iterative is insensitivity of the results. Compared with the methods based on traditional algorithm, experimental result proves the performance of the new algorithm is more efficient than the traditional ones.