中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2012年
5期
94-100
,共7页
牛小飞%马军%马少平%张冬梅
牛小飛%馬軍%馬少平%張鼕梅
우소비%마군%마소평%장동매
网络作弊%集成学习%遗传规划%非平衡数据集分类
網絡作弊%集成學習%遺傳規劃%非平衡數據集分類
망락작폐%집성학습%유전규화%비평형수거집분류
网络作弊检测是搜索引擎的重要挑战之一,该文提出基于遗传规划的集成学习方法(简记为GPENL)来检测网络作弊.该方法首先通过欠抽样技术从原训练集中抽样得到t个不同的训练集;然后使用c个不同的分类算法对t个训练集进行训练得到t*c个基分类器;最后利用遗传规划得到t*c个基分类器的集成方式.新方法不仅将欠抽样技术和集成学习融合起来提高非平衡数据集的分类性能,还能方便地集成不同类型的基分类器.在WEBSPAM-UK2006数据集上所做的实验表明无论是同态集成还是异态集成,GPENL均能提高分类的性能,且异态集成比同态集成更加有效;GPENL比AdaBoost、Bagging、RandomForest、多数投票集成、EDKC算法和基于Prediction Spamicity的方法取得更高的F-度量值.
網絡作弊檢測是搜索引擎的重要挑戰之一,該文提齣基于遺傳規劃的集成學習方法(簡記為GPENL)來檢測網絡作弊.該方法首先通過欠抽樣技術從原訓練集中抽樣得到t箇不同的訓練集;然後使用c箇不同的分類算法對t箇訓練集進行訓練得到t*c箇基分類器;最後利用遺傳規劃得到t*c箇基分類器的集成方式.新方法不僅將欠抽樣技術和集成學習融閤起來提高非平衡數據集的分類性能,還能方便地集成不同類型的基分類器.在WEBSPAM-UK2006數據集上所做的實驗錶明無論是同態集成還是異態集成,GPENL均能提高分類的性能,且異態集成比同態集成更加有效;GPENL比AdaBoost、Bagging、RandomForest、多數投票集成、EDKC算法和基于Prediction Spamicity的方法取得更高的F-度量值.
망락작폐검측시수색인경적중요도전지일,해문제출기우유전규화적집성학습방법(간기위GPENL)래검측망락작폐.해방법수선통과흠추양기술종원훈련집중추양득도t개불동적훈련집;연후사용c개불동적분류산법대t개훈련집진행훈련득도t*c개기분류기;최후이용유전규화득도t*c개기분류기적집성방식.신방법불부장흠추양기술화집성학습융합기래제고비평형수거집적분류성능,환능방편지집성불동류형적기분류기.재WEBSPAM-UK2006수거집상소주적실험표명무론시동태집성환시이태집성,GPENL균능제고분류적성능,차이태집성비동태집성경가유효;GPENL비AdaBoost、Bagging、RandomForest、다수투표집성、EDKC산법화기우Prediction Spamicity적방법취득경고적F-도량치.