漳州师范学院学报:自然科学版
漳州師範學院學報:自然科學版
장주사범학원학보:자연과학판
Journal of ZhangZhou Teachers College(Natural Science)
2012年
2期
45-48
,共4页
K近邻%文本分类%样本裁减
K近鄰%文本分類%樣本裁減
K근린%문본분류%양본재감
KNN%Text Categorization%Sample Reduction
KNN算法是一种应用广泛的人工智能算法,在文本分类应用中,简单有效,易于实现.但是,KNN分类的时间复杂度与训练样本数量成正比,而且,训练样本分布密度的不均匀性将导致分类准确性的下降.本文在KNN算法的基础上,提出一种改进算法.算法分析了训练样本的分布密度,通过裁减高密度区域训练样本,降低样本数量,调节训练样本分布,达到提高分类准确性的目的.实验证明,基于密度的改进KNN文本分类算法在降低时间复杂度的同时,还具有较好的准确率和召回率.
KNN算法是一種應用廣汎的人工智能算法,在文本分類應用中,簡單有效,易于實現.但是,KNN分類的時間複雜度與訓練樣本數量成正比,而且,訓練樣本分佈密度的不均勻性將導緻分類準確性的下降.本文在KNN算法的基礎上,提齣一種改進算法.算法分析瞭訓練樣本的分佈密度,通過裁減高密度區域訓練樣本,降低樣本數量,調節訓練樣本分佈,達到提高分類準確性的目的.實驗證明,基于密度的改進KNN文本分類算法在降低時間複雜度的同時,還具有較好的準確率和召迴率.
KNN산법시일충응용엄범적인공지능산법,재문본분류응용중,간단유효,역우실현.단시,KNN분류적시간복잡도여훈련양본수량성정비,이차,훈련양본분포밀도적불균균성장도치분류준학성적하강.본문재KNN산법적기출상,제출일충개진산법.산법분석료훈련양본적분포밀도,통과재감고밀도구역훈련양본,강저양본수량,조절훈련양본분포,체도제고분류준학성적목적.실험증명,기우밀도적개진KNN문본분류산법재강저시간복잡도적동시,환구유교호적준학솔화소회솔.
The KNN algorithm is a widely used in artificial intelligence field. As a text categorization algorithm, it is simple,effectlve, and easy to implement. But the time complexity of KNN is directly proportional to the sample size. And the categorization accuracy will decrease in case of training samples uneven distribution. An improved KNN algorithm is proposed to improve the text categorization accuracy by adjusting training sample distribution. It analyzed and reduced the training samples in high distribution density areas. Experiments show that, the algorithm works with lower time complexity, also has better accuracy rate and r, ecall rate than common KNN in text classification.