CAJ | 학술논문

간체로 보기 번체로 보기

Web信息抽取中基于结点权重的树编辑距离匹配法研究
Web신식추취중기우결점권중적수편집거리필배법연구
Research on Node-Weighted Tree Edit Distance Matching in Web Information Extraction

万方数据

计算机时代計算機時代 계산궤시대
COMPUTER ERA
2010年 3期 49-51 ,共3页

朱南丽%朱晓鸣%叶五梅硃南麗%硃曉鳴%葉五梅

주남려%주효명%협오매

信息抽取%DOM%树编辑距离%模式识别信息抽取%DOM%樹編輯距離%模式識彆
신식추취%DOM%수편집거리%모식식별

提出一种改进的树匹配算法,通过考量HTML特性,对树编辑距离方法进行改进,根据不同HTML树结点在浏览器中所显示的相关数据的不同权重赋以不同的权重值.算法由HTML数据对象构造具有结点权重的HTML树,模式识别通过取得两棵构造树的最大映射值达成.通过基于商用网站的实验对算法有效性进行了证实.
제출일충개진적수필배산법,통과고량HTML특성,대수편집거리방법진행개진,근거불동HTML수결점재류람기중소현시적상관수거적불동권중부이불동적권중치.산법유HTML수거대상구조구유결점권중적HTML수,모식식별통과취득량과구조수적최대영사치체성.통과기우상용망참적실험대산법유효성진행료증실.