计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2014年
8期
99-102,107
,共5页
主题爬虫%HITS算法%主题相关度
主題爬蟲%HITS算法%主題相關度
주제파충%HITS산법%주제상관도
topic crawler%HITS algorithm%topic similarity
在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。文中在分析主题爬虫的结构及特征的基础上,通过引入自己的主题相关度评价方法以及HITS网页排序算法,构建了一个主题爬虫。文中给出了爬虫实现的具体步骤,以云计算为主题,进行了实验。实验结果较好地反映了主题爬虫的实用性。
在信息化爆炸的時代,一般搜索引擎的搜索結果已經滿足不瞭人們的需要,能穫得更準確全麵信息的垂直搜索引擎越來越受到關註。其中,主題爬蟲作為垂直搜索引擎的覈心部分一直是搜索方嚮的研究熱點。文中在分析主題爬蟲的結構及特徵的基礎上,通過引入自己的主題相關度評價方法以及HITS網頁排序算法,構建瞭一箇主題爬蟲。文中給齣瞭爬蟲實現的具體步驟,以雲計算為主題,進行瞭實驗。實驗結果較好地反映瞭主題爬蟲的實用性。
재신식화폭작적시대,일반수색인경적수색결과이경만족불료인문적수요,능획득경준학전면신식적수직수색인경월래월수도관주。기중,주제파충작위수직수색인경적핵심부분일직시수색방향적연구열점。문중재분석주제파충적결구급특정적기출상,통과인입자기적주제상관도평개방법이급HITS망혈배서산법,구건료일개주제파충。문중급출료파충실현적구체보취,이운계산위주제,진행료실험。실험결과교호지반영료주제파충적실용성。
In the era of information explosion,the general crawler cannot meet the requirements of personalized search in specific areas, but the topic crawler which can obtain more accurate and comprehensive information gets more attention. Among them,the topic crawler as the core part of the vertical search engine has been the research focus in the search direction. On the basis of analyzing the structure and characteristics of the topic crawler,design a topic crawler by introducing its own measurement of topic similarity and page ranking algo-rithm of HITS. Offer specific steps of implementing the crawler. An experiment with the theme of cloud computing has been carried out, which proves the practical applicability of topic crawler.