计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2009年
1期
52-61
,共10页
郝秀兰%陶晓鹏%徐和祥%胡运发
郝秀蘭%陶曉鵬%徐和祥%鬍運髮
학수란%도효붕%서화상%호운발
文本分类%kNN%类偏斜%文本训练集的临界点%权重调节%随机重取样
文本分類%kNN%類偏斜%文本訓練集的臨界點%權重調節%隨機重取樣
문본분류%kNN%류편사%문본훈련집적림계점%권중조절%수궤중취양
类偏斜问题(class imbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷.提出了文本训练集的临界点(criticaI point,CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权七NN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子问进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习.
類偏斜問題(class imbalance problem)是數據挖掘領域的常見問題之一,人們提齣瞭各種策略來處理這箇問題.噹訓練樣本存在類偏斜問題時,kNN分類器會將小類中的樣本錯分到大類,導緻分類的宏F1指標下降.針對kNN存在的這箇缺陷.提齣瞭文本訓練集的臨界點(criticaI point,CP)的概唸併對其性質進行瞭探討,給齣瞭求CP,CP的下近似值LA、上近似值UA的算法.之後,根據LA或UA及訓練樣本數對傳統的kNN決策函數進行脩改,這就是自適應的加權kNN文本分類.為瞭驗證自適應的加權七NN文本分類的有效性,設計瞭2組實驗進行對比:一組為不同的收縮因子問進行對比,可看做是與Tan的工作進行對比,同時用來證實在LA或UA上分類器的宏F1較好;另一組則是與隨機重取樣進行實驗對比,其中,傳統kNN方法作為對比的基線.實驗錶明,所提的自適應加權kNN文本分類優于隨機重取樣,使得宏F1指標明顯上升.該方法有點類似于代價相關學習.
류편사문제(class imbalance problem)시수거알굴영역적상견문제지일,인문제출료각충책략래처리저개문제.당훈련양본존재류편사문제시,kNN분류기회장소류중적양본착분도대류,도치분류적굉F1지표하강.침대kNN존재적저개결함.제출료문본훈련집적림계점(criticaI point,CP)적개념병대기성질진행료탐토,급출료구CP,CP적하근사치LA、상근사치UA적산법.지후,근거LA혹UA급훈련양본수대전통적kNN결책함수진행수개,저취시자괄응적가권kNN문본분류.위료험증자괄응적가권칠NN문본분류적유효성,설계료2조실험진행대비:일조위불동적수축인자문진행대비,가간주시여Tan적공작진행대비,동시용래증실재LA혹UA상분류기적굉F1교호;령일조칙시여수궤중취양진행실험대비,기중,전통kNN방법작위대비적기선.실험표명,소제적자괄응가권kNN문본분류우우수궤중취양,사득굉F1지표명현상승.해방법유점유사우대개상관학습.