计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2013年
12期
55-58
,共4页
文本分类%x2统计量%特征集多类别矩阵%KNN
文本分類%x2統計量%特徵集多類彆矩陣%KNN
문본분류%x2통계량%특정집다유별구진%KNN
Text categorization%x2 statistic%Feature-Multi Class-Matrix%K-Nearest neighbor
特征选择是文本分类的关键阶段,其选择过程将影响文本分类速度与精度.x2统计量能很好地体现词和类别之间的关系,是文本分类领域特征提取阶段的重要方法之一.分析了x2统计量在文本分类中的应用,发现CHI向量所表达的与各类别关系的特征词无法全面表达出此类的概念含义,依赖于训练集中出现的特征情况,且该向量仅用于特征选择阶段;针对x2统计量特征词的表达局限及其向量没有得到充分利用的问题,提出结合同义向量聚合和特征多类别的改进KNN分类算法,该方法能够综合考虑特征所表达的含义,且通过特征集多类别矩阵使CHI向量也能在分类阶段起到提高整个算法效率的作用.实验结果与分析表明,该改进算法明显提高了文本分类效率,并且提高了分类的精度.
特徵選擇是文本分類的關鍵階段,其選擇過程將影響文本分類速度與精度.x2統計量能很好地體現詞和類彆之間的關繫,是文本分類領域特徵提取階段的重要方法之一.分析瞭x2統計量在文本分類中的應用,髮現CHI嚮量所錶達的與各類彆關繫的特徵詞無法全麵錶達齣此類的概唸含義,依賴于訓練集中齣現的特徵情況,且該嚮量僅用于特徵選擇階段;針對x2統計量特徵詞的錶達跼限及其嚮量沒有得到充分利用的問題,提齣結閤同義嚮量聚閤和特徵多類彆的改進KNN分類算法,該方法能夠綜閤攷慮特徵所錶達的含義,且通過特徵集多類彆矩陣使CHI嚮量也能在分類階段起到提高整箇算法效率的作用.實驗結果與分析錶明,該改進算法明顯提高瞭文本分類效率,併且提高瞭分類的精度.
특정선택시문본분류적관건계단,기선택과정장영향문본분류속도여정도.x2통계량능흔호지체현사화유별지간적관계,시문본분류영역특정제취계단적중요방법지일.분석료x2통계량재문본분류중적응용,발현CHI향량소표체적여각유별관계적특정사무법전면표체출차류적개념함의,의뢰우훈련집중출현적특정정황,차해향량부용우특정선택계단;침대x2통계량특정사적표체국한급기향량몰유득도충분이용적문제,제출결합동의향량취합화특정다유별적개진KNN분류산법,해방법능구종합고필특정소표체적함의,차통과특정집다유별구진사CHI향량야능재분류계단기도제고정개산법효솔적작용.실험결과여분석표명,해개진산법명현제고료문본분류효솔,병차제고료분류적정도.