中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2009年
3期
31-38
,共8页
陈竹敏%马军%韩晓晖%雷景生
陳竹敏%馬軍%韓曉暉%雷景生
진죽민%마군%한효휘%뢰경생
计算机应用%中文信息处理%主题爬取%优先级计算%网页分块%相关度计算
計算機應用%中文信息處理%主題爬取%優先級計算%網頁分塊%相關度計算
계산궤응용%중문신식처리%주제파취%우선급계산%망혈분괴%상관도계산
垂直检索系统中主题爬虫的性能对整个系统至关重要.在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度, 二是计算待爬取URLs的访问优先级.对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法; 对第二个问题, 给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法.在此基础上, 提出基于上述方法的主题爬取算法.实验证明, 新算法在不增加时间复杂度的前提下, 在查准率和信息量总和方面明显优于其他三种经典的爬取算法.
垂直檢索繫統中主題爬蟲的性能對整箇繫統至關重要.在設計主題爬蟲時需要解決兩箇問題:一是計算噹前頁麵與給定主題的相關度, 二是計算待爬取URLs的訪問優先級.對第一箇問題,給齣利用頁麵的主題文本塊和相關鏈接塊的相關度計算方法; 對第二箇問題, 給齣基于主題上下文和四種不同的粒度(即站點級、頁麵級、塊級和鏈接級)的優先級計算方法.在此基礎上, 提齣基于上述方法的主題爬取算法.實驗證明, 新算法在不增加時間複雜度的前提下, 在查準率和信息量總和方麵明顯優于其他三種經典的爬取算法.
수직검색계통중주제파충적성능대정개계통지관중요.재설계주제파충시수요해결량개문제:일시계산당전혈면여급정주제적상관도, 이시계산대파취URLs적방문우선급.대제일개문제,급출이용혈면적주제문본괴화상관련접괴적상관도계산방법; 대제이개문제, 급출기우주제상하문화사충불동적립도(즉참점급、혈면급、괴급화련접급)적우선급계산방법.재차기출상, 제출기우상술방법적주제파취산법.실험증명, 신산법재불증가시간복잡도적전제하, 재사준솔화신식량총화방면명현우우기타삼충경전적파취산법.