情报学报
情報學報
정보학보
2009年
6期
834-838
,共5页
刘海峰%汪泽焱%姚泽清%刘守生
劉海峰%汪澤焱%姚澤清%劉守生
류해봉%왕택염%요택청%류수생
tf-idf%文本分类%KNN算法%特征降维
tf-idf%文本分類%KNN算法%特徵降維
tf-idf%문본분류%KNN산법%특정강유
tf- idf%text classification%KNN algorithm%feature reduction
特征降维与分类算法的性能是文本自动分类的两个主要问题.KNN算法以其简单、有效、非参数特点常用于文本分类,但是训练文本分布的不均匀对KNN的分类效果产生负面影响,而在实际应用中训练文本分布不均是常见现象.本文针对这种分类环境,首先提出了一种改进的tf-idf赋权方法用于特征降维,在此基础上进一步提出了一种基于密度的改进KNN方法用于文本分类, 使处于样本点分布较密集区域的样本点之间的距离增大.随后的文本分类试验表明,本文提出的方法基于密度的KNN方法具有较好的文本分类效果.
特徵降維與分類算法的性能是文本自動分類的兩箇主要問題.KNN算法以其簡單、有效、非參數特點常用于文本分類,但是訓練文本分佈的不均勻對KNN的分類效果產生負麵影響,而在實際應用中訓練文本分佈不均是常見現象.本文針對這種分類環境,首先提齣瞭一種改進的tf-idf賦權方法用于特徵降維,在此基礎上進一步提齣瞭一種基于密度的改進KNN方法用于文本分類, 使處于樣本點分佈較密集區域的樣本點之間的距離增大.隨後的文本分類試驗錶明,本文提齣的方法基于密度的KNN方法具有較好的文本分類效果.
특정강유여분류산법적성능시문본자동분류적량개주요문제.KNN산법이기간단、유효、비삼수특점상용우문본분류,단시훈련문본분포적불균균대KNN적분류효과산생부면영향,이재실제응용중훈련문본분포불균시상견현상.본문침대저충분류배경,수선제출료일충개진적tf-idf부권방법용우특정강유,재차기출상진일보제출료일충기우밀도적개진KNN방법용우문본분류, 사처우양본점분포교밀집구역적양본점지간적거리증대.수후적문본분류시험표명,본문제출적방법기우밀도적KNN방법구유교호적문본분류효과.
Feature reduction and performance of classification algorithm are the two main problems in automatic text categorization. The KNN is a simple, valid and non-parameter method often applied to text categorization, but the uneven distribution in training set will affect the KNN classified result negatively. However, the uneven distribution environment is more familiar in training set in reality. Under the condition we first put forward an improved tf - idfweighting way in feature reduction; then we improve the KNN based on density in automatic text categorization by adding the distance of training swatches which in the dense area. In the last, we have a test about text categorization. The result shows that these methods have a better precision than the common KNN.