北京工商大学学报(自然科学版)
北京工商大學學報(自然科學版)
북경공상대학학보(자연과학판)
JOURNAL OF BEIJING TECHNOLOGY AND BUSINESS UNIVERSITY(NATURAL SCIENCE EDITION)
2006年
5期
54-58
,共5页
朱英%瞿有利%陈谊%孙悦红
硃英%瞿有利%陳誼%孫悅紅
주영%구유리%진의%손열홍
信息抽取%网站%结构图%结构树%编辑距离
信息抽取%網站%結構圖%結構樹%編輯距離
신식추취%망참%결구도%결구수%편집거리
随着Internet技术的发展和普及,Web上的信息量猛增,使信息抽取更具有挑战性.从网站的拓扑结构入手,提出了信息抽取中网站结构树的生成算法,该算法首先根据网页结点URL所在目录的层次关系,去掉网站结构图中的部分回溯边;然后在宽度优先遍历的过程中去掉已经遍历过的重复结点,生成网站结构树.最后引入编辑距离对算法生成的网站结构树与实际的网站结构树的相似程度进行评价,两棵树的相似程度比较高,均达到了90%以上.利用生成的网站结构树可以对网站的内容页面(即结构树的叶子结点)进行聚类,最后进行信息抽取,大大提高抽取的准确率与召回率.
隨著Internet技術的髮展和普及,Web上的信息量猛增,使信息抽取更具有挑戰性.從網站的拓撲結構入手,提齣瞭信息抽取中網站結構樹的生成算法,該算法首先根據網頁結點URL所在目錄的層次關繫,去掉網站結構圖中的部分迴溯邊;然後在寬度優先遍歷的過程中去掉已經遍歷過的重複結點,生成網站結構樹.最後引入編輯距離對算法生成的網站結構樹與實際的網站結構樹的相似程度進行評價,兩棵樹的相似程度比較高,均達到瞭90%以上.利用生成的網站結構樹可以對網站的內容頁麵(即結構樹的葉子結點)進行聚類,最後進行信息抽取,大大提高抽取的準確率與召迴率.
수착Internet기술적발전화보급,Web상적신식량맹증,사신식추취경구유도전성.종망참적탁복결구입수,제출료신식추취중망참결구수적생성산법,해산법수선근거망혈결점URL소재목록적층차관계,거도망참결구도중적부분회소변;연후재관도우선편력적과정중거도이경편력과적중복결점,생성망참결구수.최후인입편집거리대산법생성적망참결구수여실제적망참결구수적상사정도진행평개,량과수적상사정도비교고,균체도료90%이상.이용생성적망참결구수가이대망참적내용혈면(즉결구수적협자결점)진행취류,최후진행신식추취,대대제고추취적준학솔여소회솔.