计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2015年
1期
239-243
,共5页
网页作弊%集成分类器%特征选择%信息熵%弱分类器
網頁作弊%集成分類器%特徵選擇%信息熵%弱分類器
망혈작폐%집성분류기%특정선택%신식적%약분류기
Web spam%Integrated classifier%Feature selection%Information entropy%Weak classifier
网页作弊不仅造成信息检索质量下降,而且给互联网的安全也带来了极大的挑战.提出了一种基于Bag-ging-SVM集成分类器的网页作弊检测方法.在预处理阶段,首先采用K-means方法解决数据集的不平衡问题,然后采用CFS特征选择方法筛选出最优特征子集,最后对特征子集进行信息熵离散化处理.在分类器训练阶段,通过Bagging方法构建多个训练集并分别对每个训练集进行SVM学习来产生弱分类器.在检测阶段,通过多个弱分类器投票决定测试样本所属类别.在数据集WEBSPAM-UK2006上的实验结果表明,在使用特征数量较少的情况下,本检测方法可以获得非常好的检测效果.
網頁作弊不僅造成信息檢索質量下降,而且給互聯網的安全也帶來瞭極大的挑戰.提齣瞭一種基于Bag-ging-SVM集成分類器的網頁作弊檢測方法.在預處理階段,首先採用K-means方法解決數據集的不平衡問題,然後採用CFS特徵選擇方法篩選齣最優特徵子集,最後對特徵子集進行信息熵離散化處理.在分類器訓練階段,通過Bagging方法構建多箇訓練集併分彆對每箇訓練集進行SVM學習來產生弱分類器.在檢測階段,通過多箇弱分類器投票決定測試樣本所屬類彆.在數據集WEBSPAM-UK2006上的實驗結果錶明,在使用特徵數量較少的情況下,本檢測方法可以穫得非常好的檢測效果.
망혈작폐불부조성신식검색질량하강,이차급호련망적안전야대래료겁대적도전.제출료일충기우Bag-ging-SVM집성분류기적망혈작폐검측방법.재예처리계단,수선채용K-means방법해결수거집적불평형문제,연후채용CFS특정선택방법사선출최우특정자집,최후대특정자집진행신식적리산화처리.재분류기훈련계단,통과Bagging방법구건다개훈련집병분별대매개훈련집진행SVM학습래산생약분류기.재검측계단,통과다개약분류기투표결정측시양본소속유별.재수거집WEBSPAM-UK2006상적실험결과표명,재사용특정수량교소적정황하,본검측방법가이획득비상호적검측효과.