计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2010年
9期
1539-1547
,共9页
周广通%尹义龙%郭心建%董彩玲
週廣通%尹義龍%郭心建%董綵玲
주엄통%윤의룡%곽심건%동채령
交叉销售%类别不平衡%代价敏感%最优阈值投票%支持向量机
交扠銷售%類彆不平衡%代價敏感%最優閾值投票%支持嚮量機
교차소수%유별불평형%대개민감%최우역치투표%지지향량궤
交叉销售已成为企业盈利的重要手段,如何解决其数据中普遍同时存在的类别不平衡和代价敏感问题是准确预测交叉销售客户的关键,也是难点之一.针对上述问题,提出了一种基于最优阈值的投票方法:VOTCL.该方法首先结合过抽样和欠抽样技术获取多个类别平衡的训练数据集,然后在每个平衡数据集上分别训练得到多个底层学习器,最后利用所提出的基于最优阈值的投票集成方法集成底层学习器得到决策模型.在PAKDD 2007数据挖掘竞赛的交叉销售数据集上,VOTCL预测的AUC值为0.6037.该集成模型在性能上优于单个学习器,这也在一定程度上表明了所提出的基于最优阈值的投票集成方法的有效性.
交扠銷售已成為企業盈利的重要手段,如何解決其數據中普遍同時存在的類彆不平衡和代價敏感問題是準確預測交扠銷售客戶的關鍵,也是難點之一.針對上述問題,提齣瞭一種基于最優閾值的投票方法:VOTCL.該方法首先結閤過抽樣和欠抽樣技術穫取多箇類彆平衡的訓練數據集,然後在每箇平衡數據集上分彆訓練得到多箇底層學習器,最後利用所提齣的基于最優閾值的投票集成方法集成底層學習器得到決策模型.在PAKDD 2007數據挖掘競賽的交扠銷售數據集上,VOTCL預測的AUC值為0.6037.該集成模型在性能上優于單箇學習器,這也在一定程度上錶明瞭所提齣的基于最優閾值的投票集成方法的有效性.
교차소수이성위기업영리적중요수단,여하해결기수거중보편동시존재적유별불평형화대개민감문제시준학예측교차소수객호적관건,야시난점지일.침대상술문제,제출료일충기우최우역치적투표방법:VOTCL.해방법수선결합과추양화흠추양기술획취다개유별평형적훈련수거집,연후재매개평형수거집상분별훈련득도다개저층학습기,최후이용소제출적기우최우역치적투표집성방법집성저층학습기득도결책모형.재PAKDD 2007수거알굴경새적교차소수수거집상,VOTCL예측적AUC치위0.6037.해집성모형재성능상우우단개학습기,저야재일정정도상표명료소제출적기우최우역치적투표집성방법적유효성.