桂林电子科技大学学报
桂林電子科技大學學報
계림전자과기대학학보
JOURNAL OF GUILIN UNIVERSITY OF ELECTRONIC TECHNOLOGY
2010年
1期
54-58
,共5页
数据库%网页噪音%类别空间模型
數據庫%網頁譟音%類彆空間模型
수거고%망혈조음%유별공간모형
由于网页中大都包含有如广告、版权信息、导航链接等噪音,严重影响了网页数据的自动收集和挖掘.通过一种基于数据库去除网页噪音的有效方法,对网页噪音的处理不用将内容全部放入内存中,而是根据数据库中保存的table和div容器包含内容重复度进行消除噪音操作,一定程度上达到了净化网页的目的.将此方法应用于基于差异频度的类别空间模型的二值分类,结果表明本文提出的网页去噪方法是有效的,并且分类的正确率有了一定的改进.
由于網頁中大都包含有如廣告、版權信息、導航鏈接等譟音,嚴重影響瞭網頁數據的自動收集和挖掘.通過一種基于數據庫去除網頁譟音的有效方法,對網頁譟音的處理不用將內容全部放入內存中,而是根據數據庫中保存的table和div容器包含內容重複度進行消除譟音操作,一定程度上達到瞭淨化網頁的目的.將此方法應用于基于差異頻度的類彆空間模型的二值分類,結果錶明本文提齣的網頁去譟方法是有效的,併且分類的正確率有瞭一定的改進.
유우망혈중대도포함유여엄고、판권신식、도항련접등조음,엄중영향료망혈수거적자동수집화알굴.통과일충기우수거고거제망혈조음적유효방법,대망혈조음적처리불용장내용전부방입내존중,이시근거수거고중보존적table화div용기포함내용중복도진행소제조음조작,일정정도상체도료정화망혈적목적.장차방법응용우기우차이빈도적유별공간모형적이치분류,결과표명본문제출적망혈거조방법시유효적,병차분류적정학솔유료일정적개진.