通讯世界
通訊世界
통신세계
Telecom World
2015年
19期
210-211
,共2页
网页正文%信息抽取%HTML树%方法
網頁正文%信息抽取%HTML樹%方法
망혈정문%신식추취%HTML수%방법
随着社会的快速发展与互联网时代的到来,Web页面上所包含的信息已经是包罗万象,而面对如此海量的信息资源,我们要如何有效快速的检索并提取对我们有价值的信息资源已经成为对Web研究的一个重要命题。而基于信息抽取方法只能够处理一种特定的信息资源,并且对网页的依懒性较强,因此,在此提出一种将标点符号与HTML树结构相结合,作为网页识别正文内容的分析方法。其后通过对标点符号进行数据统计从而确定部分的正文信息,再根据正文信息的结构来确定其他信息内容。经此实验该提取方法能够有效的提取网页正文并屏蔽网页噪音。而且其普及性和准确性都比较高,在此本文将对网页正文提取信息进行探索。
隨著社會的快速髮展與互聯網時代的到來,Web頁麵上所包含的信息已經是包囉萬象,而麵對如此海量的信息資源,我們要如何有效快速的檢索併提取對我們有價值的信息資源已經成為對Web研究的一箇重要命題。而基于信息抽取方法隻能夠處理一種特定的信息資源,併且對網頁的依懶性較彊,因此,在此提齣一種將標點符號與HTML樹結構相結閤,作為網頁識彆正文內容的分析方法。其後通過對標點符號進行數據統計從而確定部分的正文信息,再根據正文信息的結構來確定其他信息內容。經此實驗該提取方法能夠有效的提取網頁正文併屏蔽網頁譟音。而且其普及性和準確性都比較高,在此本文將對網頁正文提取信息進行探索。
수착사회적쾌속발전여호련망시대적도래,Web혈면상소포함적신식이경시포라만상,이면대여차해량적신식자원,아문요여하유효쾌속적검색병제취대아문유개치적신식자원이경성위대Web연구적일개중요명제。이기우신식추취방법지능구처리일충특정적신식자원,병차대망혈적의라성교강,인차,재차제출일충장표점부호여HTML수결구상결합,작위망혈식별정문내용적분석방법。기후통과대표점부호진행수거통계종이학정부분적정문신식,재근거정문신식적결구래학정기타신식내용。경차실험해제취방법능구유효적제취망혈정문병병폐망혈조음。이차기보급성화준학성도비교고,재차본문장대망혈정문제취신식진행탐색。