微计算机信息
微計算機信息
미계산궤신식
CONTROL & AUTOMATION
2006年
33期
196-197,177
,共3页
XML%web文本挖掘%多叉树
XML%web文本挖掘%多扠樹
XML%web문본알굴%다차수
Internet的快速发展和大量非结构化数据的出现,给传统的数据挖掘工具带来了极大的挑战.XML(可扩展标记语言)技术一方面继承了HTML的灵活性和简单性,另一方面又具有强制结构的完整性和标签的自定义性,已经成为web挖掘的一个重要方向.本文在介绍XML语言基本特点的基础上,针对web上大量异构数据的特点,探讨了基于多叉树的HTML到XML的转换方法,实现web上文本的规范化,并将其用于提出的基于XML的web文本挖掘模型,提高web文本挖掘的有效性.
Internet的快速髮展和大量非結構化數據的齣現,給傳統的數據挖掘工具帶來瞭極大的挑戰.XML(可擴展標記語言)技術一方麵繼承瞭HTML的靈活性和簡單性,另一方麵又具有彊製結構的完整性和標籤的自定義性,已經成為web挖掘的一箇重要方嚮.本文在介紹XML語言基本特點的基礎上,針對web上大量異構數據的特點,探討瞭基于多扠樹的HTML到XML的轉換方法,實現web上文本的規範化,併將其用于提齣的基于XML的web文本挖掘模型,提高web文本挖掘的有效性.
Internet적쾌속발전화대량비결구화수거적출현,급전통적수거알굴공구대래료겁대적도전.XML(가확전표기어언)기술일방면계승료HTML적령활성화간단성,령일방면우구유강제결구적완정성화표첨적자정의성,이경성위web알굴적일개중요방향.본문재개소XML어언기본특점적기출상,침대web상대량이구수거적특점,탐토료기우다차수적HTML도XML적전환방법,실현web상문본적규범화,병장기용우제출적기우XML적web문본알굴모형,제고web문본알굴적유효성.