东北电力大学学报
東北電力大學學報
동북전력대학학보
JOURNAL OF NORTHEAST DIANLI UNIVERSITY
2013年
6期
60-63
,共4页
主成分分析%降维%KNN算法%文本分类
主成分分析%降維%KNN算法%文本分類
주성분분석%강유%KNN산법%문본분류
PCA%Dimensionality reduction%KNN%Text classification
特征选择和分类算法是文本分类中的两个关键技术,提出了基于主成分分析和KNN相结合的文本分类方法。该方法利用主成分分析对文本向量的高维空间进行特征选择,为克服因类别特征选择不当带来的不利影响,使用KNN算法进行分类可以最大程度地减少分类过程中的误差。为了验证方法的有效性,针对UCI标准数据集进行仿真实验。实验结果显示,PCA-KNN方法优于主成分分析和随机森林相结合的方法,能在一定程度上提高文本分类的精度。
特徵選擇和分類算法是文本分類中的兩箇關鍵技術,提齣瞭基于主成分分析和KNN相結閤的文本分類方法。該方法利用主成分分析對文本嚮量的高維空間進行特徵選擇,為剋服因類彆特徵選擇不噹帶來的不利影響,使用KNN算法進行分類可以最大程度地減少分類過程中的誤差。為瞭驗證方法的有效性,針對UCI標準數據集進行倣真實驗。實驗結果顯示,PCA-KNN方法優于主成分分析和隨機森林相結閤的方法,能在一定程度上提高文本分類的精度。
특정선택화분류산법시문본분류중적량개관건기술,제출료기우주성분분석화KNN상결합적문본분류방법。해방법이용주성분분석대문본향량적고유공간진행특정선택,위극복인유별특정선택불당대래적불리영향,사용KNN산법진행분류가이최대정도지감소분류과정중적오차。위료험증방법적유효성,침대UCI표준수거집진행방진실험。실험결과현시,PCA-KNN방법우우주성분분석화수궤삼림상결합적방법,능재일정정도상제고문본분류적정도。
Feature extraction and categorization algorithm are two crucial technologies for text classification. A text classification method based on PCA and KNN was presented. The proposed method use PCA to select fea-ture of the text vector from multi-dimension space. In order to overcome the negative influence for the improper category feature selection,the classification method KNN can minimize the error of the classification results. Some experiments are executed on the UCI standard data sets to demonstrate the advantages of the proposed method. The results show that PCA-KNN method is better than the method based on PCA and random forests and can improve the accuracy of text classification.