中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2010年
4期
32-38,62
,共8页
韩国辉%陈黎%梁时木%唐小棚%王亚强%于中华
韓國輝%陳黎%樑時木%唐小棚%王亞彊%于中華
한국휘%진려%량시목%당소붕%왕아강%우중화
计算机应用%中文信息处理%搜索引擎%专业爬虫%Na(i)ve Bayesian Classifier%链接前后文
計算機應用%中文信息處理%搜索引擎%專業爬蟲%Na(i)ve Bayesian Classifier%鏈接前後文
계산궤응용%중문신식처리%수색인경%전업파충%Na(i)ve Bayesian Classifier%련접전후문
从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术.在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件.该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Naive Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法.以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Naive Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率.
從Web中快速、準確地檢索齣所需信息的迫切需求催生瞭專業搜索引擎技術.在專業搜索引擎中,網絡爬蟲(Crawler)負責在Web上搜集特定專業領域的信息,是專業搜索引擎的重要覈心部件.該文對中文專業網頁的爬取問題進行瞭研究,基于KL距離驗證瞭網頁內容與鏈接前後文在分佈上的差異,在此基礎上提齣瞭以鏈接錨文本及其前後文為特徵、Naive Bayes分類器製導的中文專業網頁爬取算法,設計瞭自動穫取帶鏈接類標的訓練數據的算法.以金融專業網頁的爬取為例,分彆對所提齣的算法進行瞭離線和在線測試,結果錶明,Naive Bayes分類器製導的網絡爬蟲可以達到近90%的專業網頁收割率.
종Web중쾌속、준학지검색출소수신식적박절수구최생료전업수색인경기술.재전업수색인경중,망락파충(Crawler)부책재Web상수집특정전업영역적신식,시전업수색인경적중요핵심부건.해문대중문전업망혈적파취문제진행료연구,기우KL거리험증료망혈내용여련접전후문재분포상적차이,재차기출상제출료이련접묘문본급기전후문위특정、Naive Bayes분류기제도적중문전업망혈파취산법,설계료자동획취대련접류표적훈련수거적산법.이금융전업망혈적파취위례,분별대소제출적산법진행료리선화재선측시,결과표명,Naive Bayes분류기제도적망락파충가이체도근90%적전업망혈수할솔.