微型机与应用
微型機與應用
미형궤여응용
MICROCOMPUTER & ITS APPLICATIONS
2010年
3期
38-41
,共4页
页面分块%信息提取%视觉特征
頁麵分塊%信息提取%視覺特徵
혈면분괴%신식제취%시각특정
page segmentation%information extraction%visual features
利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块.对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容.试验表明,这种方法是切实可行的.
利用網頁的視覺特徵和DOM樹的結構特性對網頁進行分塊,併採用逐層分塊逐層刪減的方法將與正文無關的譟音塊刪除,從而得到正文塊.對得到的正文塊運用VIPS算法得到完整的語義塊,最後在語義塊的基礎上提取正文內容.試驗錶明,這種方法是切實可行的.
이용망혈적시각특정화DOM수적결구특성대망혈진행분괴,병채용축층분괴축층산감적방법장여정문무관적조음괴산제,종이득도정문괴.대득도적정문괴운용VIPS산법득도완정적어의괴,최후재어의괴적기출상제취정문내용.시험표명,저충방법시절실가행적.
To get the useful information blocks,this paper first segmented the Web page into blocks with its visual features and its DOM tree's characteristics,and then deleted the noise blocks.This is a recursive process until no block can be deleted.Then handled the reserved blocks with the VIPS algorithm to get the semantic blocks.At last,got the text content by handling the semantic blocks.Experiment shows that this method is feasible.