淮海工学院学报(自然科学版)
淮海工學院學報(自然科學版)
회해공학원학보(자연과학판)
JOURNAL OF HUAIHAI INSTITUTE OF TECHNOLOGY(NATURAL SCIENCES EDITION)
2013年
4期
31-35
,共5页
采集系统%HTMLUNIT%Java浏览器内核
採集繫統%HTMLUNIT%Java瀏覽器內覈
채집계통%HTMLUNIT%Java류람기내핵
data-collecting system%HTMLUNIT%Java browser kernel
首先分析了传统 HttpClient方式进行网页信息抓取时的不足,进而讨论了 HTMLUNIT技术对富JavaScript页面的支持、获取Ajax技术页面的异步数据和需要模拟交互的页面数据的机器自动抓取问题,并给出实例和实现。进行了 HTMLUNIT与流行浏览器内核JavaScript解析速度的对比性试验,最后得出了分析结论。
首先分析瞭傳統 HttpClient方式進行網頁信息抓取時的不足,進而討論瞭 HTMLUNIT技術對富JavaScript頁麵的支持、穫取Ajax技術頁麵的異步數據和需要模擬交互的頁麵數據的機器自動抓取問題,併給齣實例和實現。進行瞭 HTMLUNIT與流行瀏覽器內覈JavaScript解析速度的對比性試驗,最後得齣瞭分析結論。
수선분석료전통 HttpClient방식진행망혈신식조취시적불족,진이토론료 HTMLUNIT기술대부JavaScript혈면적지지、획취Ajax기술혈면적이보수거화수요모의교호적혈면수거적궤기자동조취문제,병급출실례화실현。진행료 HTMLUNIT여류행류람기내핵JavaScript해석속도적대비성시험,최후득출료분석결론。
Analyzing the shortcomings in collecting web page information by the traditional way of HttpClient,we focused on the ways to use HtmlUnit technology to collect information from web pages by using rich JavaScript technology or Ajax technology.We also discussed the ways to log in web sites by using HtmlUnit in Java program,and we provided examples and implementa-tions.Meanwhile,we made JavaScript parsing speed comparison tests in the HtmlUnit browser kernel,and arrived at the final conclusions based on our analysis.