山东师范大学学报(自然科学版)
山東師範大學學報(自然科學版)
산동사범대학학보(자연과학판)
JOURNAL OF SHANGOND NORMAL UNIVERSITY(NATURAL SCIENCE)
2015年
2期
16-19
,共4页
Web信息抽取%HTML解析器%Jsoup%网络爬虫%Heritirx
Web信息抽取%HTML解析器%Jsoup%網絡爬蟲%Heritirx
Web신식추취%HTML해석기%Jsoup%망락파충%Heritirx
Web information extraction%the HTML parser%Jsoup%Web crawler%Hertirx
应用开源的Heritrix和Jsoup设计了一个通用性强的网络商品信息抽取系统,实现了Web信息的抽取、存储.系统由三个分别独立的功能模块组成,即采集网页模块、抽取信息模块、数据存储模块,并对抽取算法在真实数据页面上进行了验证.实验结果表明系统具有良好的召回率和准确率,抽取效果良好.
應用開源的Heritrix和Jsoup設計瞭一箇通用性彊的網絡商品信息抽取繫統,實現瞭Web信息的抽取、存儲.繫統由三箇分彆獨立的功能模塊組成,即採集網頁模塊、抽取信息模塊、數據存儲模塊,併對抽取算法在真實數據頁麵上進行瞭驗證.實驗結果錶明繫統具有良好的召迴率和準確率,抽取效果良好.
응용개원적Heritrix화Jsoup설계료일개통용성강적망락상품신식추취계통,실현료Web신식적추취、존저.계통유삼개분별독립적공능모괴조성,즉채집망혈모괴、추취신식모괴、수거존저모괴,병대추취산법재진실수거혈면상진행료험증.실험결과표명계통구유량호적소회솔화준학솔,추취효과량호.