情报学报
情報學報
정보학보
2013年
1期
80-85
,共6页
K最近邻%类偏斜%样本剪裁%文本分类
K最近鄰%類偏斜%樣本剪裁%文本分類
K최근린%류편사%양본전재%문본분류
KNN算法是文本分类中广泛应用的算法.作为一种基于实例的算法,训练样本的数量和分布位置影响KNN分类器分类性能.合理的样本剪裁以及样本赋权方法可以提高分类器的效率.提出了一种基于样本分布状况的KNN改进模型.首先基于样本位置对训练集进行删减以节约计算开销,然后针对类偏斜现象对分类器的赋权方式进行优化,改善k近邻选择时大类别、高密度训练样本的占优现象.试验结果表明,本文提出的改进KNN文本分类算法提高了KNN的分类效率.
KNN算法是文本分類中廣汎應用的算法.作為一種基于實例的算法,訓練樣本的數量和分佈位置影響KNN分類器分類性能.閤理的樣本剪裁以及樣本賦權方法可以提高分類器的效率.提齣瞭一種基于樣本分佈狀況的KNN改進模型.首先基于樣本位置對訓練集進行刪減以節約計算開銷,然後針對類偏斜現象對分類器的賦權方式進行優化,改善k近鄰選擇時大類彆、高密度訓練樣本的佔優現象.試驗結果錶明,本文提齣的改進KNN文本分類算法提高瞭KNN的分類效率.
KNN산법시문본분류중엄범응용적산법.작위일충기우실례적산법,훈련양본적수량화분포위치영향KNN분류기분류성능.합리적양본전재이급양본부권방법가이제고분류기적효솔.제출료일충기우양본분포상황적KNN개진모형.수선기우양본위치대훈련집진행산감이절약계산개소,연후침대류편사현상대분류기적부권방식진행우화,개선k근린선택시대유별、고밀도훈련양본적점우현상.시험결과표명,본문제출적개진KNN문본분류산법제고료KNN적분류효솔.