西南交通大学学报
西南交通大學學報
서남교통대학학보
JOURNAL OF SOUTHWEST JIAOTONG UNIVERSITY
2007年
4期
473-477
,共5页
VIPS(基于视觉信息的页面分割算法)%内聚度%最大深度%内容信息%结构信息
VIPS(基于視覺信息的頁麵分割算法)%內聚度%最大深度%內容信息%結構信息
VIPS(기우시각신식적혈면분할산법)%내취도%최대심도%내용신식%결구신식
针对Web页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据Web页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容.
針對Web頁麵存在與主題無關的譟音的問題,提齣瞭基于頁麵結構與頁麵內容相結閤的多策略頁麵內容提取算法.該算法根據改進的VIPS(基于視覺信息的頁麵分割算法)生成頁麵的塊結構樹,通過定義內聚度閾值和塊結構樹的最大深度,實現瞭塊結構樹中不同區域內不同分塊粒度的要求;根據Web頁麵提供的結構信息和內容信息提取塊結構樹葉子節點中的"主題"塊和"主題相關"塊;最後,對主題塊和主題相關塊的內容進行閤併,提取頁麵的主要內容.實驗錶明,對任意下載、不同內容類型的頁麵,該算法都能有效地提取頁麵內容.
침대Web혈면존재여주제무관적조음적문제,제출료기우혈면결구여혈면내용상결합적다책략혈면내용제취산법.해산법근거개진적VIPS(기우시각신식적혈면분할산법)생성혈면적괴결구수,통과정의내취도역치화괴결구수적최대심도,실현료괴결구수중불동구역내불동분괴립도적요구;근거Web혈면제공적결구신식화내용신식제취괴결구수협자절점중적"주제"괴화"주제상관"괴;최후,대주제괴화주제상관괴적내용진행합병,제취혈면적주요내용.실험표명,대임의하재、불동내용류형적혈면,해산법도능유효지제취혈면내용.