计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2014年
10期
269-272
,共4页
垃圾网页%垃圾网页检测%主成分分析%AdaBoost%支持向量机
垃圾網頁%垃圾網頁檢測%主成分分析%AdaBoost%支持嚮量機
랄급망혈%랄급망혈검측%주성분분석%AdaBoost%지지향량궤
Spam webpage%Spam webpage detection%Principal component analysis%AdaBoost%Support vector machine (SVM)
针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过程引入AdaBoost以提高分类器的性能。此外,采用聚类算法处理训练和测试数据集,解决了样本不均衡问题。通过在WebSpam-UK2007数据集上进行多组对比实验,结果表明,所设计的垃圾网页检测方案具有最高的检测率(0.851)。
針對垃圾網頁的內容特徵和鏈接特徵,設計一種集成主成分分析PCA(Principal Component Analysis)與支持嚮量機分類算法的垃圾網頁檢測方法。該方法使用PCA來提取網頁樣本特徵的主成分,使用主成分特徵訓練支持嚮量機(SVM)分類器。訓練過程引入AdaBoost以提高分類器的性能。此外,採用聚類算法處理訓練和測試數據集,解決瞭樣本不均衡問題。通過在WebSpam-UK2007數據集上進行多組對比實驗,結果錶明,所設計的垃圾網頁檢測方案具有最高的檢測率(0.851)。
침대랄급망혈적내용특정화련접특정,설계일충집성주성분분석PCA(Principal Component Analysis)여지지향량궤분류산법적랄급망혈검측방법。해방법사용PCA래제취망혈양본특정적주성분,사용주성분특정훈련지지향량궤(SVM)분류기。훈련과정인입AdaBoost이제고분류기적성능。차외,채용취류산법처리훈련화측시수거집,해결료양본불균형문제。통과재WebSpam-UK2007수거집상진행다조대비실험,결과표명,소설계적랄급망혈검측방안구유최고적검측솔(0.851)。
In light of the content feature and link feature of spam webpages,we design a spam webpage detection method which combines the principal component analysis (PCA)and the SVMclassifier.The method uses PCA to extract the principal features of the sample websites and then uses them to train SVMclassifier,during the training process the Adaboost is introduced to improve the performance of the classifier. Besides,we adopt clustering algorithm to deal with the training and testing data sets,this solves unbalanced samples problem.Through a couple of contrast experiments on WEBSPAM-UK2007 dataset,the results demonstrate that the spam webpage detection scheme designed in this paper has highest detection rate (0.85 1 ).