电脑知识与技术
電腦知識與技術
전뇌지식여기술
COMPUTER KNOWLEDGE AND TECHNOLOGY
2015年
10期
169-171
,共3页
文本分类%降维%PCA%kNN%混合分类器%加权
文本分類%降維%PCA%kNN%混閤分類器%加權
문본분류%강유%PCA%kNN%혼합분류기%가권
text classification%dimensionality reduction%PCA%kNN%Hybrid classifier%term weighting
随着文本数据的激增,文本分类的高复杂度是一个重要的问题。k近邻(kNN)算法是一个简单、有效,但是计算复杂度很高的分类算法。一般,在使用kNN算法时,使用主成分分析(PCA)进行预处理来减少维数,但是该算法要求投影空间中的所有向量来执行kNN算法。我们提出一个新的混合算法PCA&kNN,使用一个小的邻居集来执行kNN算法,而不是投影空间中的完整的数据向量,从而减少了计算的复杂性。新的文本被投影到较低维的空间,kNN仅使用每个轴的邻居执行,基于更接近原始空间和投影空间且沿着投影成分的主向量。为了验证该方法的有效性,针对Reuters标准数据集进行实验,实验结果显示,新提出的模型显著优于kNN和标准PCA-kNN混合算法,同时保持了相似的分类精确度。
隨著文本數據的激增,文本分類的高複雜度是一箇重要的問題。k近鄰(kNN)算法是一箇簡單、有效,但是計算複雜度很高的分類算法。一般,在使用kNN算法時,使用主成分分析(PCA)進行預處理來減少維數,但是該算法要求投影空間中的所有嚮量來執行kNN算法。我們提齣一箇新的混閤算法PCA&kNN,使用一箇小的鄰居集來執行kNN算法,而不是投影空間中的完整的數據嚮量,從而減少瞭計算的複雜性。新的文本被投影到較低維的空間,kNN僅使用每箇軸的鄰居執行,基于更接近原始空間和投影空間且沿著投影成分的主嚮量。為瞭驗證該方法的有效性,針對Reuters標準數據集進行實驗,實驗結果顯示,新提齣的模型顯著優于kNN和標準PCA-kNN混閤算法,同時保持瞭相似的分類精確度。
수착문본수거적격증,문본분류적고복잡도시일개중요적문제。k근린(kNN)산법시일개간단、유효,단시계산복잡도흔고적분류산법。일반,재사용kNN산법시,사용주성분분석(PCA)진행예처리래감소유수,단시해산법요구투영공간중적소유향량래집행kNN산법。아문제출일개신적혼합산법PCA&kNN,사용일개소적린거집래집행kNN산법,이불시투영공간중적완정적수거향량,종이감소료계산적복잡성。신적문본피투영도교저유적공간,kNN부사용매개축적린거집행,기우경접근원시공간화투영공간차연착투영성분적주향량。위료험증해방법적유효성,침대Reuters표준수거집진행실험,실험결과현시,신제출적모형현저우우kNN화표준PCA-kNN혼합산법,동시보지료상사적분류정학도。
The high computational complexity of text classification is a significant problem with the growing surge in text data. A simple, effective but computationally expensive classification is the k-nearest-neighbor (kNN) algorithm. Generally, using Princi?pal Component Analysis (PCA) as a preprocessing phase to reduce the dimensionality followed by kNN, but the algorithm requires all the vectors in the projected space to perform the kNN. We propose a new hybrid algorithm PCA&kNN, performs kNN with a small set of neighbors instead of the complete data vector in the projected space, thus reducing the computational complexity. New text is projected into the lower dimensional space, kNN is performed only with the neighbors in each axis that based on the princi?pal that are closer in the original space and closer in the projected space, and also along the projected components. In order to ver?ify the effectiveness of this method, with the standard benchmark dataset Reuters, our experimental results show that the proposed model was significantly better than kNN and the standard PCA-kNN hybrid algorithms, while maintaining a similar classification accuracy.