科学技术与工程
科學技術與工程
과학기술여공정
SCIENCE TECHNOLOGY AND ENGINEERING
2013年
16期
4720-4723
,共4页
景永霞%苟和平%冯百明%李勇
景永霞%茍和平%馮百明%李勇
경영하%구화평%풍백명%리용
KNN分类%聚类%样本裁剪%密度%相似度
KNN分類%聚類%樣本裁剪%密度%相似度
KNN분류%취류%양본재전%밀도%상사도
KNN text classification%clustering%samples reducing%density%similarity
针对KNN算法在分类时的样本相似度计算开销大,在处理不均衡数据集时少数类分类误差大的问题,提出一种在不均衡数据集下基于密度的训练样本裁剪算法.对训练样本的各个样本类进行聚类,删除噪声数据并计算每个样本类的平均相似度和样本平均密度,以此获得样本类裁剪的相似度阈值,然后将样本类内相似度小于类相似度阈值的样本进行合并,减少训练样本总数.实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,有效地减少分类计算开销,并能在一定程度上提高少数类的分类性能.
針對KNN算法在分類時的樣本相似度計算開銷大,在處理不均衡數據集時少數類分類誤差大的問題,提齣一種在不均衡數據集下基于密度的訓練樣本裁剪算法.對訓練樣本的各箇樣本類進行聚類,刪除譟聲數據併計算每箇樣本類的平均相似度和樣本平均密度,以此穫得樣本類裁剪的相似度閾值,然後將樣本類內相似度小于類相似度閾值的樣本進行閤併,減少訓練樣本總數.實驗錶明,此樣本裁剪算法能夠在保持KNN算法分類性能基本穩定的前提下,有效地減少分類計算開銷,併能在一定程度上提高少數類的分類性能.
침대KNN산법재분류시적양본상사도계산개소대,재처리불균형수거집시소수류분류오차대적문제,제출일충재불균형수거집하기우밀도적훈련양본재전산법.대훈련양본적각개양본류진행취류,산제조성수거병계산매개양본류적평균상사도화양본평균밀도,이차획득양본류재전적상사도역치,연후장양본류내상사도소우류상사도역치적양본진행합병,감소훈련양본총수.실험표명,차양본재전산법능구재보지KNN산법분류성능기본은정적전제하,유효지감소분류계산개소,병능재일정정도상제고소수류적분류성능.