计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2007年
4期
164-166
,共3页
Web%抽取%STU-DOM树%信息熵
Web%抽取%STU-DOM樹%信息熵
Web%추취%STU-DOM수%신식적
提出了一种剪枝信息熵增较大结点的信息抽取方法.通过对HTML文档解析来构造DOM树,根据配置过滤掉不需处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面,初步实验结果验证了用这种方法进行Web页面信息抽取的有效性.方法的数学模型简单可靠,基本不需要人工干预即可完成主题信息抽取.可应用于Web数据挖掘系统以及PDA等移动设备的信息获取方面.
提齣瞭一種剪枝信息熵增較大結點的信息抽取方法.通過對HTML文檔解析來構造DOM樹,根據配置過濾掉不需處理的相關內容併建立語義模型樹,最後對熵增超過閾值的結點進行剪枝併輸齣抽取的主題信息頁麵,初步實驗結果驗證瞭用這種方法進行Web頁麵信息抽取的有效性.方法的數學模型簡單可靠,基本不需要人工榦預即可完成主題信息抽取.可應用于Web數據挖掘繫統以及PDA等移動設備的信息穫取方麵.
제출료일충전지신식적증교대결점적신식추취방법.통과대HTML문당해석래구조DOM수,근거배치과려도불수처리적상관내용병건립어의모형수,최후대적증초과역치적결점진행전지병수출추취적주제신식혈면,초보실험결과험증료용저충방법진행Web혈면신식추취적유효성.방법적수학모형간단가고,기본불수요인공간예즉가완성주제신식추취.가응용우Web수거알굴계통이급PDA등이동설비적신식획취방면.