计算机与数字工程
計算機與數字工程
계산궤여수자공정
COMPUTER & DIGITAL ENGINEERING
2009年
1期
22-24,80
,共4页
主题爬虫%爬行策略%Web挖掘%论文评估
主題爬蟲%爬行策略%Web挖掘%論文評估
주제파충%파행책략%Web알굴%논문평고
在分析目前常用的主题爬行策略的基础之上,根据PageRank算法的思想,结合基于文本内容的启发式策略和基于Web超链分析的策略二者之间的优点,提出了一种新的爬行策略,并实现了一个主题爬虫.通过与传统策略的对比,可以得出该策略既可以利用链接分析扩大某个主题的资源覆盖度,又可以保证搜索结果与主题的高度相关.
在分析目前常用的主題爬行策略的基礎之上,根據PageRank算法的思想,結閤基于文本內容的啟髮式策略和基于Web超鏈分析的策略二者之間的優點,提齣瞭一種新的爬行策略,併實現瞭一箇主題爬蟲.通過與傳統策略的對比,可以得齣該策略既可以利用鏈接分析擴大某箇主題的資源覆蓋度,又可以保證搜索結果與主題的高度相關.
재분석목전상용적주제파행책략적기출지상,근거PageRank산법적사상,결합기우문본내용적계발식책략화기우Web초련분석적책략이자지간적우점,제출료일충신적파행책략,병실현료일개주제파충.통과여전통책략적대비,가이득출해책략기가이이용련접분석확대모개주제적자원복개도,우가이보증수색결과여주제적고도상관.