计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2013年
8期
2651-2655
,共5页
垃圾网页%内容特征%链接特征%分布函数%决策树
垃圾網頁%內容特徵%鏈接特徵%分佈函數%決策樹
랄급망혈%내용특정%련접특정%분포함수%결책수
web spam%content features%linked features%distribution function%decision trees
为了有效地检测垃圾网页,通过分析网页内容特征和链接特征的分布,发现正常网页特征分布有规律而垃圾网页特征分布散乱,根据正常网页特征分布与垃圾网页特征分布的不同,提出了用分布函数拟合正常网页特征分布,并计算正常网页和垃圾网页比例与分布函数的差值,以差值为阈值使用C4.5决策树对垃圾网页进行检测.实验结果表明,该方法能够有效地减少被错误分类的正常网页,提高准确率.
為瞭有效地檢測垃圾網頁,通過分析網頁內容特徵和鏈接特徵的分佈,髮現正常網頁特徵分佈有規律而垃圾網頁特徵分佈散亂,根據正常網頁特徵分佈與垃圾網頁特徵分佈的不同,提齣瞭用分佈函數擬閤正常網頁特徵分佈,併計算正常網頁和垃圾網頁比例與分佈函數的差值,以差值為閾值使用C4.5決策樹對垃圾網頁進行檢測.實驗結果錶明,該方法能夠有效地減少被錯誤分類的正常網頁,提高準確率.
위료유효지검측랄급망혈,통과분석망혈내용특정화련접특정적분포,발현정상망혈특정분포유규률이랄급망혈특정분포산란,근거정상망혈특정분포여랄급망혈특정분포적불동,제출료용분포함수의합정상망혈특정분포,병계산정상망혈화랄급망혈비례여분포함수적차치,이차치위역치사용C4.5결책수대랄급망혈진행검측.실험결과표명,해방법능구유효지감소피착오분류적정상망혈,제고준학솔.