计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2005年
18期
179-183
,共5页
信息抽取%Web采掘%机器学习
信息抽取%Web採掘%機器學習
신식추취%Web채굴%궤기학습
提出了一种从复杂网页中发现和切分有用的数据对象的自动方法.文章比较来自于同一网站的相似网页,从而发现其内容的组织和结构.首先,通过剔除页面中无关的部件,获得干净的数据区,它覆盖了数据对象的描述.其次,我们切分数据区中属于不同数据对象的结点,并由此构造结构良好、具备自我解释能力的XML输出文件,其中每一个文件恰包含一个数据对象.用户可以很方便地进一步从这些文件中提取数据到数据库和模板.实验结果表明该方法是有效的.
提齣瞭一種從複雜網頁中髮現和切分有用的數據對象的自動方法.文章比較來自于同一網站的相似網頁,從而髮現其內容的組織和結構.首先,通過剔除頁麵中無關的部件,穫得榦淨的數據區,它覆蓋瞭數據對象的描述.其次,我們切分數據區中屬于不同數據對象的結點,併由此構造結構良好、具備自我解釋能力的XML輸齣文件,其中每一箇文件恰包含一箇數據對象.用戶可以很方便地進一步從這些文件中提取數據到數據庫和模闆.實驗結果錶明該方法是有效的.
제출료일충종복잡망혈중발현화절분유용적수거대상적자동방법.문장비교래자우동일망참적상사망혈,종이발현기내용적조직화결구.수선,통과척제혈면중무관적부건,획득간정적수거구,타복개료수거대상적묘술.기차,아문절분수거구중속우불동수거대상적결점,병유차구조결구량호、구비자아해석능력적XML수출문건,기중매일개문건흡포함일개수거대상.용호가이흔방편지진일보종저사문건중제취수거도수거고화모판.실험결과표명해방법시유효적.