现代图书情报技术
現代圖書情報技術
현대도서정보기술
NEW TECHNOLOGY OF LIBRARY AND INFORMATION SERVICE
2007年
2期
49-52
,共4页
搜索引擎%Web信息抽取%包装器生成%HTML标签树%节点相似度
搜索引擎%Web信息抽取%包裝器生成%HTML標籤樹%節點相似度
수색인경%Web신식추취%포장기생성%HTML표첨수%절점상사도
提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链接分别识别出来,然后利用其在标签树上的位置信息分别构造Wrapper.实验结论及与已有方法的比较表明,该方法简单可行且高效.
提齣一種從搜索引擎返迴結果頁麵上自動抽取結果記錄及後續頁麵鏈接信息併生成Wrapper的方法:對于一箇有效的結果頁麵,通過比較其HTML標籤樹上節點的相似度從而識彆齣潛在記錄塊,利用啟髮式規則從潛在記錄塊中將結果記錄塊和後續頁麵鏈接分彆識彆齣來,然後利用其在標籤樹上的位置信息分彆構造Wrapper.實驗結論及與已有方法的比較錶明,該方法簡單可行且高效.
제출일충종수색인경반회결과혈면상자동추취결과기록급후속혈면련접신식병생성Wrapper적방법:대우일개유효적결과혈면,통과비교기HTML표첨수상절점적상사도종이식별출잠재기록괴,이용계발식규칙종잠재기록괴중장결과기록괴화후속혈면련접분별식별출래,연후이용기재표첨수상적위치신식분별구조Wrapper.실험결론급여이유방법적비교표명,해방법간단가행차고효.