中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2004年
1期
6-13
,共8页
瞿有利%于浩%徐国伟%西野文人
瞿有利%于浩%徐國偉%西野文人
구유리%우호%서국위%서야문인
计算机应用%中文信息处理%Web页面%信息提取%信息块
計算機應用%中文信息處理%Web頁麵%信息提取%信息塊
계산궤응용%중문신식처리%Web혈면%신식제취%신식괴
随着Internet的发展,Web页面数量的急剧增加,如何快速有效地获取信息变得越来越重要.一类Web页面往往包含着多个信息单元,它们在展现上排列紧凑、风格相似,在HTML语法上具有类似的模式,例如一个BBS页面上多个发言,每个信息被称为一个信息块.对于信息抽取、信息过滤等应用,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理.本文提出了一种自动将Web页面分割为信息块的方法:首先通过创建Web页面结构化的HMTL分析树,然后根据包含有效文本量等确定包含信息块的子树,最后根据子树深度信息利用2-rank PAT算法进行分割.通过对BBS页面的信息块抽取实验,证明了该方法的有效性.
隨著Internet的髮展,Web頁麵數量的急劇增加,如何快速有效地穫取信息變得越來越重要.一類Web頁麵往往包含著多箇信息單元,它們在展現上排列緊湊、風格相似,在HTML語法上具有類似的模式,例如一箇BBS頁麵上多箇髮言,每箇信息被稱為一箇信息塊.對于信息抽取、信息過濾等應用,需要首先將原始頁麵中分割為若榦閤適的信息塊以便于後續的處理.本文提齣瞭一種自動將Web頁麵分割為信息塊的方法:首先通過創建Web頁麵結構化的HMTL分析樹,然後根據包含有效文本量等確定包含信息塊的子樹,最後根據子樹深度信息利用2-rank PAT算法進行分割.通過對BBS頁麵的信息塊抽取實驗,證明瞭該方法的有效性.
수착Internet적발전,Web혈면수량적급극증가,여하쾌속유효지획취신식변득월래월중요.일류Web혈면왕왕포함착다개신식단원,타문재전현상배렬긴주、풍격상사,재HTML어법상구유유사적모식,례여일개BBS혈면상다개발언,매개신식피칭위일개신식괴.대우신식추취、신식과려등응용,수요수선장원시혈면중분할위약간합괄적신식괴이편우후속적처리.본문제출료일충자동장Web혈면분할위신식괴적방법:수선통과창건Web혈면결구화적HMTL분석수,연후근거포함유효문본량등학정포함신식괴적자수,최후근거자수심도신식이용2-rank PAT산법진행분할.통과대BBS혈면적신식괴추취실험,증명료해방법적유효성.