计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
2期
131-135
,共5页
刘海峰%刘守生%苏展
劉海峰%劉守生%囌展
류해봉%류수생%소전
样本剪裁%样本加权%文本聚类%k近邻%文本分类
樣本剪裁%樣本加權%文本聚類%k近鄰%文本分類
양본전재%양본가권%문본취류%k근린%문본분류
sample cutting%sample weighting%text clustering%k-nearest neighbor%text categorization
k近邻方法是文本分类中广泛应用的方法,对其性能的优化具有现实需求。使用一种改进的聚类算法进行样本剪裁以提高训练样本的类别表示能力;根据样本的空间位置先后实现了基于类内和类间分布的样本加权;改善了k近邻算法中的大类别、高密度训练样本占优现象。实验结果表明,提出的改进文本加权方法提高了分类器的分类效率。
k近鄰方法是文本分類中廣汎應用的方法,對其性能的優化具有現實需求。使用一種改進的聚類算法進行樣本剪裁以提高訓練樣本的類彆錶示能力;根據樣本的空間位置先後實現瞭基于類內和類間分佈的樣本加權;改善瞭k近鄰算法中的大類彆、高密度訓練樣本佔優現象。實驗結果錶明,提齣的改進文本加權方法提高瞭分類器的分類效率。
k근린방법시문본분류중엄범응용적방법,대기성능적우화구유현실수구。사용일충개진적취류산법진행양본전재이제고훈련양본적유별표시능력;근거양본적공간위치선후실현료기우류내화류간분포적양본가권;개선료k근린산법중적대유별、고밀도훈련양본점우현상。실험결과표명,제출적개진문본가권방법제고료분류기적분류효솔。
K nearest neighbor method is widely used in text classification method. There is the real need of improving the algorithm performance. It uses an improved clustering algorithm for sample cut to improve training sample category repre-sentation capability. According to the spatial location of the sample, it realizes the sample weighting based on class inner and class between. It improves the phenomenon that categories, high density of training samples have the advantage in k nearest neighbor algorithm. The experimental result shows that the improved text weighted method improves the classifi-cation efficiency.