计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2011年
8期
165-168
,共4页
朱沿旭%王怀民%史殿习%尹刚%袁霖%李翔
硃沿旭%王懷民%史殿習%尹剛%袁霖%李翔
주연욱%왕부민%사전습%윤강%원림%리상
重复模式挖掘%Web数据抽取%Web内容挖掘%缩进轮廓%串联重复波段
重複模式挖掘%Web數據抽取%Web內容挖掘%縮進輪廓%串聯重複波段
중복모식알굴%Web수거추취%Web내용알굴%축진륜곽%천련중복파단
HTML文档重复模式挖掘是找到Web页面编码模版的关键,是Web数据自动抽取和Web内容挖掘的基础.传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的Web页面来说仍然是一个挑战.为了提高性能,提出了一种基于缩进轮廓的HTML文档重复模式挖掘方法.该方法首先定义了缩进轮廓模型,是一种由HTML文档每行代码的缩进值及行首的HTML标签构成的数据结构,它是HTML文档的一种简化抽象;该方法通过检测缩进轮廓中的串联重复波段,间接地挖掘HTML文档中的重复模式.实验表明,该方法不但具有较高的精确度,而且较明显地提升了性能.
HTML文檔重複模式挖掘是找到Web頁麵編碼模版的關鍵,是Web數據自動抽取和Web內容挖掘的基礎.傳統的基于字符串匹配和樹匹配的重複模式挖掘方法雖然具有較高的精確度,但是其性能對于處理海量的Web頁麵來說仍然是一箇挑戰.為瞭提高性能,提齣瞭一種基于縮進輪廓的HTML文檔重複模式挖掘方法.該方法首先定義瞭縮進輪廓模型,是一種由HTML文檔每行代碼的縮進值及行首的HTML標籤構成的數據結構,它是HTML文檔的一種簡化抽象;該方法通過檢測縮進輪廓中的串聯重複波段,間接地挖掘HTML文檔中的重複模式.實驗錶明,該方法不但具有較高的精確度,而且較明顯地提升瞭性能.
HTML문당중복모식알굴시조도Web혈면편마모판적관건,시Web수거자동추취화Web내용알굴적기출.전통적기우자부천필배화수필배적중복모식알굴방법수연구유교고적정학도,단시기성능대우처리해량적Web혈면래설잉연시일개도전.위료제고성능,제출료일충기우축진륜곽적HTML문당중복모식알굴방법.해방법수선정의료축진륜곽모형,시일충유HTML문당매행대마적축진치급행수적HTML표첨구성적수거결구,타시HTML문당적일충간화추상;해방법통과검측축진륜곽중적천련중복파단,간접지알굴HTML문당중적중복모식.실험표명,해방법불단구유교고적정학도,이차교명현지제승료성능.