计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2010年
20期
1-3,29
,共4页
文本密度%文本特征%信息抽取%网页
文本密度%文本特徵%信息抽取%網頁
문본밀도%문본특정%신식추취%망혈
针对当前互联网网页越来越多样化、复杂化、非规范化的特点,提出了基于特征文本密度的网页正文提取方法.该方法将网页包含的文本根据用途和特征进行分类,并构建数学模型进行比例密度分析,从而精确地识别出主题文本.该方法的时间和空间复杂度均较低.实验显示,它能有效地抽取复杂网页以及多主题段网页的正文信息,具有很好的通用性.
針對噹前互聯網網頁越來越多樣化、複雜化、非規範化的特點,提齣瞭基于特徵文本密度的網頁正文提取方法.該方法將網頁包含的文本根據用途和特徵進行分類,併構建數學模型進行比例密度分析,從而精確地識彆齣主題文本.該方法的時間和空間複雜度均較低.實驗顯示,它能有效地抽取複雜網頁以及多主題段網頁的正文信息,具有很好的通用性.
침대당전호련망망혈월래월다양화、복잡화、비규범화적특점,제출료기우특정문본밀도적망혈정문제취방법.해방법장망혈포함적문본근거용도화특정진행분류,병구건수학모형진행비례밀도분석,종이정학지식별출주제문본.해방법적시간화공간복잡도균교저.실험현시,타능유효지추취복잡망혈이급다주제단망혈적정문신식,구유흔호적통용성.