计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2010年
12期
2059-2066
,共8页
实体搜索%聚焦爬行%链接路径预测%条件随机场%增强学习
實體搜索%聚焦爬行%鏈接路徑預測%條件隨機場%增彊學習
실체수색%취초파행%련접로경예측%조건수궤장%증강학습
实体搜索是一个有前景的研究领域,因为它能够为用户提供更为详细的Web信息.快速、完全地收集特定领域实体所在的网页是实体搜索中的一个关键问题.为了解决这个问题,将Web网站建模为一组互连的状态构成的图,提出一种链接路径预测学习算法LPC,该模型能够学习大型网站中从主页通向目标网页的最优路径,从而指导爬虫快速定位到含有Web实体的目标网页.LPC算法分为两个阶段:首先,使用概率无向图模型CRF,学习从网站主页通往目标网页的链接路径模型,CRF模型能够融合超连接和网页中的各种特征,包括状态特征和转移特征;其次,结合增强学习技术和训练的CRF模型对爬行前端队列的超链接进行优先级评分.一种来自增强学习的折扣回报方法通过利用路径分类阶段学习的CRF模型来计算连接的回报值.在多个领域大量真实数据上的实验结果表明,所提出的适用CRF模型指导的链接路径预测爬行算法LPC的性能明显优于其他聚焦爬行算法.
實體搜索是一箇有前景的研究領域,因為它能夠為用戶提供更為詳細的Web信息.快速、完全地收集特定領域實體所在的網頁是實體搜索中的一箇關鍵問題.為瞭解決這箇問題,將Web網站建模為一組互連的狀態構成的圖,提齣一種鏈接路徑預測學習算法LPC,該模型能夠學習大型網站中從主頁通嚮目標網頁的最優路徑,從而指導爬蟲快速定位到含有Web實體的目標網頁.LPC算法分為兩箇階段:首先,使用概率無嚮圖模型CRF,學習從網站主頁通往目標網頁的鏈接路徑模型,CRF模型能夠融閤超連接和網頁中的各種特徵,包括狀態特徵和轉移特徵;其次,結閤增彊學習技術和訓練的CRF模型對爬行前耑隊列的超鏈接進行優先級評分.一種來自增彊學習的摺釦迴報方法通過利用路徑分類階段學習的CRF模型來計算連接的迴報值.在多箇領域大量真實數據上的實驗結果錶明,所提齣的適用CRF模型指導的鏈接路徑預測爬行算法LPC的性能明顯優于其他聚焦爬行算法.
실체수색시일개유전경적연구영역,인위타능구위용호제공경위상세적Web신식.쾌속、완전지수집특정영역실체소재적망혈시실체수색중적일개관건문제.위료해결저개문제,장Web망참건모위일조호련적상태구성적도,제출일충련접로경예측학습산법LPC,해모형능구학습대형망참중종주혈통향목표망혈적최우로경,종이지도파충쾌속정위도함유Web실체적목표망혈.LPC산법분위량개계단:수선,사용개솔무향도모형CRF,학습종망참주혈통왕목표망혈적련접로경모형,CRF모형능구융합초련접화망혈중적각충특정,포괄상태특정화전이특정;기차,결합증강학습기술화훈련적CRF모형대파행전단대렬적초련접진행우선급평분.일충래자증강학습적절구회보방법통과이용로경분류계단학습적CRF모형래계산련접적회보치.재다개영역대량진실수거상적실험결과표명,소제출적괄용CRF모형지도적련접로경예측파행산법LPC적성능명현우우기타취초파행산법.