计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2012年
8期
268-270
,共3页
唐朝伟%李俊%苗光胜%杜欣慧
唐朝偉%李俊%苗光勝%杜訢慧
당조위%리준%묘광성%두흔혜
网络爬虫%信息采集%URL调度%增量更新%DOM树
網絡爬蟲%信息採集%URL調度%增量更新%DOM樹
망락파충%신식채집%URL조도%증량경신%DOM수
目前多数抽取方法主要针对主题信息块的提取,未深入到各单独信息块.为此,设计一种基于DOM树的视频元数据抽取系统.通过改进Heritrix的链接过滤功能和URL队列管理策略,结合网页DOM树节点类型,从各单独信息块中抽取网页元数据.实验结果表明,该系统的网页平均查准率为95.7%,平均抽取准确率为98.4%,高于同类系统.
目前多數抽取方法主要針對主題信息塊的提取,未深入到各單獨信息塊.為此,設計一種基于DOM樹的視頻元數據抽取繫統.通過改進Heritrix的鏈接過濾功能和URL隊列管理策略,結閤網頁DOM樹節點類型,從各單獨信息塊中抽取網頁元數據.實驗結果錶明,該繫統的網頁平均查準率為95.7%,平均抽取準確率為98.4%,高于同類繫統.
목전다수추취방법주요침대주제신식괴적제취,미심입도각단독신식괴.위차,설계일충기우DOM수적시빈원수거추취계통.통과개진Heritrix적련접과려공능화URL대렬관리책략,결합망혈DOM수절점류형,종각단독신식괴중추취망혈원수거.실험결과표명,해계통적망혈평균사준솔위95.7%,평균추취준학솔위98.4%,고우동류계통.