计算机时代
計算機時代
계산궤시대
COMPUTER ERA
2010年
3期
49-51
,共3页
信息抽取%DOM%树编辑距离%模式识别
信息抽取%DOM%樹編輯距離%模式識彆
신식추취%DOM%수편집거리%모식식별
提出一种改进的树匹配算法,通过考量HTML特性,对树编辑距离方法进行改进,根据不同HTML树结点在浏览器中所显示的相关数据的不同权重赋以不同的权重值.算法由HTML数据对象构造具有结点权重的HTML树,模式识别通过取得两棵构造树的最大映射值达成.通过基于商用网站的实验对算法有效性进行了证实.
提齣一種改進的樹匹配算法,通過攷量HTML特性,對樹編輯距離方法進行改進,根據不同HTML樹結點在瀏覽器中所顯示的相關數據的不同權重賦以不同的權重值.算法由HTML數據對象構造具有結點權重的HTML樹,模式識彆通過取得兩棵構造樹的最大映射值達成.通過基于商用網站的實驗對算法有效性進行瞭證實.
제출일충개진적수필배산법,통과고량HTML특성,대수편집거리방법진행개진,근거불동HTML수결점재류람기중소현시적상관수거적불동권중부이불동적권중치.산법유HTML수거대상구조구유결점권중적HTML수,모식식별통과취득량과구조수적최대영사치체성.통과기우상용망참적실험대산법유효성진행료증실.