重庆工商大学学报:自然科学版
重慶工商大學學報:自然科學版
중경공상대학학보:자연과학판
Journal of Chongqing Technology and Business University:Natural Science Edition
2012年
2期
66-72
,共7页
谢治军%杨武%李稚楹%宋静静
謝治軍%楊武%李稚楹%宋靜靜
사치군%양무%리치영%송정정
主题爬虫%隐马尔科夫模型%向量空间模型%主题相关度%垂直搜索引擎
主題爬蟲%隱馬爾科伕模型%嚮量空間模型%主題相關度%垂直搜索引擎
주제파충%은마이과부모형%향량공간모형%주제상관도%수직수색인경
focused crawler%Hidden Markov Model%Vector Space Model%topic correlativity%VerticalSearch Engine
主题爬虫是垂直搜索引擎的核心组成部分,它为面向主题的用户查询准备数据资源;提出了一种基于HMM的主题爬虫方法,方法不仅分析网页内容,而且还考虑网页的上下文链接结构,首先将当前网页的聚类结果作为观察状态、将当前网页到目标网页的链接距离作为隐含状态,然后通过HMM模型学习用户的主题浏览模式并利用它采集更多的主题网页;实验结果表明:方法能采集大量与指定主题相关的高质量网页,主题爬行效率优于Best-First主题爬虫。
主題爬蟲是垂直搜索引擎的覈心組成部分,它為麵嚮主題的用戶查詢準備數據資源;提齣瞭一種基于HMM的主題爬蟲方法,方法不僅分析網頁內容,而且還攷慮網頁的上下文鏈接結構,首先將噹前網頁的聚類結果作為觀察狀態、將噹前網頁到目標網頁的鏈接距離作為隱含狀態,然後通過HMM模型學習用戶的主題瀏覽模式併利用它採集更多的主題網頁;實驗結果錶明:方法能採集大量與指定主題相關的高質量網頁,主題爬行效率優于Best-First主題爬蟲。
주제파충시수직수색인경적핵심조성부분,타위면향주제적용호사순준비수거자원;제출료일충기우HMM적주제파충방법,방법불부분석망혈내용,이차환고필망혈적상하문련접결구,수선장당전망혈적취류결과작위관찰상태、장당전망혈도목표망혈적련접거리작위은함상태,연후통과HMM모형학습용호적주제류람모식병이용타채집경다적주제망혈;실험결과표명:방법능채집대량여지정주제상관적고질량망혈,주제파행효솔우우Best-First주제파충。
Focused crawler is a core component of the vertical search engine, it collected data resources for the subject-oriented user's query. This paper proposes an approach for focused crawler based on HMM, it not only considers the web content, but also analyzes the context of web link structure. Firstly, the observation state represents the clustering of the current web page, the hidden state represents the link distance from current web page to target web page, then through the HMM model learning user browsing patterns, more topic webpages are downloaded by using the model. Experiments show that the focused crawler based on HMM can capture a large number of high quality web pages related to target topics, and its crawling oerforms better than Best-First crawler.