电脑编程技巧与维护
電腦編程技巧與維護
전뇌편정기교여유호
COMPUTER PROGRAMMING SKILLS & MAINTENANCE
2014年
15期
22-25
,共4页
搜索引擎%邮址提取%HtmlParser框架%正则表达式
搜索引擎%郵阯提取%HtmlParser框架%正則錶達式
수색인경%유지제취%HtmlParser광가%정칙표체식
在百度、谷歌等现有搜索引擎基础上,利用HtmlParser开源框架,用Java语言开发了一种基于搜索引擎关键字的邮址搜集软件.提取邮址的过程包括页面链接的获取和页面邮址的提取.在获取页面链接阶段,首先拼接初始链接,然后获取分页链接,之后再利用HtmlParser解析深层链接.在页面邮址提取阶段,则利用正则表达式匹配页面源码获取邮箱地址.
在百度、穀歌等現有搜索引擎基礎上,利用HtmlParser開源框架,用Java語言開髮瞭一種基于搜索引擎關鍵字的郵阯搜集軟件.提取郵阯的過程包括頁麵鏈接的穫取和頁麵郵阯的提取.在穫取頁麵鏈接階段,首先拼接初始鏈接,然後穫取分頁鏈接,之後再利用HtmlParser解析深層鏈接.在頁麵郵阯提取階段,則利用正則錶達式匹配頁麵源碼穫取郵箱地阯.
재백도、곡가등현유수색인경기출상,이용HtmlParser개원광가,용Java어언개발료일충기우수색인경관건자적유지수집연건.제취유지적과정포괄혈면련접적획취화혈면유지적제취.재획취혈면련접계단,수선병접초시련접,연후획취분혈련접,지후재이용HtmlParser해석심층련접.재혈면유지제취계단,칙이용정칙표체식필배혈면원마획취유상지지.