计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2013年
4期
88-91
,共4页
信息提取%重复模式%主题识别%逆序匹配
信息提取%重複模式%主題識彆%逆序匹配
신식제취%중복모식%주제식별%역서필배
网页中的信息主要以重复的HTML结构进行组织并形成一致的展现形式,主要研究具备复杂重复模式的网页主题信息块识别,提出一种改进的基于逆序匹配重复模式的算法.该算法依据HTML标签结构和class属性改进DOM树,重构页面的向量空间模型,逆序匹配重复结构模式并完成对主题信息的提取.实验结果表明,该方法能准确识别复杂页面结构中主题重复模式,有效避免非主题重复模式的干扰,有较好的召回率和准确率.
網頁中的信息主要以重複的HTML結構進行組織併形成一緻的展現形式,主要研究具備複雜重複模式的網頁主題信息塊識彆,提齣一種改進的基于逆序匹配重複模式的算法.該算法依據HTML標籤結構和class屬性改進DOM樹,重構頁麵的嚮量空間模型,逆序匹配重複結構模式併完成對主題信息的提取.實驗結果錶明,該方法能準確識彆複雜頁麵結構中主題重複模式,有效避免非主題重複模式的榦擾,有較好的召迴率和準確率.
망혈중적신식주요이중복적HTML결구진행조직병형성일치적전현형식,주요연구구비복잡중복모식적망혈주제신식괴식별,제출일충개진적기우역서필배중복모식적산법.해산법의거HTML표첨결구화class속성개진DOM수,중구혈면적향량공간모형,역서필배중복결구모식병완성대주제신식적제취.실험결과표명,해방법능준학식별복잡혈면결구중주제중복모식,유효피면비주제중복모식적간우,유교호적소회솔화준학솔.