山东师范大学学报(自然科学版)
山東師範大學學報(自然科學版)
산동사범대학학보(자연과학판)
JOURNAL OF SHANGOND NORMAL UNIVERSITY(NATURAL SCIENCE)
2015年
3期
10-13
,共4页
垃圾网页检测%不平衡数据%KPCA%高斯核函数%重构数据集
垃圾網頁檢測%不平衡數據%KPCA%高斯覈函數%重構數據集
랄급망혈검측%불평형수거%KPCA%고사핵함수%중구수거집
Webspam detection%imbalance data%KPCA%Gaussian kernel function%RST
垃圾网页检测具有重要的现实意义。笔者针对 Webspam 数据集特征维数较高且严重不平衡的特点,从两个方面综合处理数据集。首先利用核主成分分析(KPCA)进行特征提取,选择出最具代表性的特征,实现特征降维,再通过重构数据集(RST),将数据集重新划分组合成新的训练子集,降低其不平衡度,最后使用处理后的数据子集训练分类器。在数据集 Webspam - UK2007上进行实验。实验结果表明,使用平衡和降维后的数据集训练的分类器,可有效提高垃圾网页的识别精度。
垃圾網頁檢測具有重要的現實意義。筆者針對 Webspam 數據集特徵維數較高且嚴重不平衡的特點,從兩箇方麵綜閤處理數據集。首先利用覈主成分分析(KPCA)進行特徵提取,選擇齣最具代錶性的特徵,實現特徵降維,再通過重構數據集(RST),將數據集重新劃分組閤成新的訓練子集,降低其不平衡度,最後使用處理後的數據子集訓練分類器。在數據集 Webspam - UK2007上進行實驗。實驗結果錶明,使用平衡和降維後的數據集訓練的分類器,可有效提高垃圾網頁的識彆精度。
랄급망혈검측구유중요적현실의의。필자침대 Webspam 수거집특정유수교고차엄중불평형적특점,종량개방면종합처리수거집。수선이용핵주성분분석(KPCA)진행특정제취,선택출최구대표성적특정,실현특정강유,재통과중구수거집(RST),장수거집중신화분조합성신적훈련자집,강저기불평형도,최후사용처리후적수거자집훈련분류기。재수거집 Webspam - UK2007상진행실험。실험결과표명,사용평형화강유후적수거집훈련적분류기,가유효제고랄급망혈적식별정도。
Webspam detection has important practical significance. This paper focuses on the high -dimensional and imbalance features of Webspam dataset,processes dataset from two aspects comprehensively. Firstly,the KPCA method is used to extract the features and select the most representative features to achieve dimension reduction. Then,based on the Reconstruct Data Set method,the dataset is reassembled and then combined into new training subsets to reduce the imbalanced degree. Finally,the processed data is used to train the classifiers. Experiments are done on the Webspam - UK2007 and the results show that the classifiers trained on the balanced and lower - dimensional dataset can improve precision of the Webspam detection.