软件导刊
軟件導刊
연건도간
SOFT WARE GUIDE
2014年
1期
54-55
,共2页
李伟%赵庆展%邓红涛
李偉%趙慶展%鄧紅濤
리위%조경전%산홍도
语义Web%Web挖掘%网页分块
語義Web%Web挖掘%網頁分塊
어의Web%Web알굴%망혈분괴
在已有的基于Dom-Tree的网页信息提取算法基础上,通过对Html标签进行分类,逐个分析各Html标签所包含的结构信息,设计了一种自底向上的网页分块方法,并在此基础上,实现了文本相似度比较的网页主题内容信息块识别算法,提高了主题内容信息块的识别精确度。
在已有的基于Dom-Tree的網頁信息提取算法基礎上,通過對Html標籤進行分類,逐箇分析各Html標籤所包含的結構信息,設計瞭一種自底嚮上的網頁分塊方法,併在此基礎上,實現瞭文本相似度比較的網頁主題內容信息塊識彆算法,提高瞭主題內容信息塊的識彆精確度。
재이유적기우Dom-Tree적망혈신식제취산법기출상,통과대Html표첨진행분류,축개분석각Html표첨소포함적결구신식,설계료일충자저향상적망혈분괴방법,병재차기출상,실현료문본상사도비교적망혈주제내용신식괴식별산법,제고료주제내용신식괴적식별정학도。