西北师范大学学报(自然科学版)
西北師範大學學報(自然科學版)
서북사범대학학보(자연과학판)
JOURNAL OF NORTHWEST NORMAL UNIVERSITY(NATURAL SCIENCE)
2014年
3期
48-53
,共6页
古丽娜孜·艾力木江%孙铁利%乎西旦%特列克别克
古麗娜孜·艾力木江%孫鐵利%乎西旦%特列剋彆剋
고려나자·애력목강%손철리%호서단%특렬극별극
词干提取%DFR%VSM%SVM-KNN
詞榦提取%DFR%VSM%SVM-KNN
사간제취%DFR%VSM%SVM-KNN
stemming%DFR%VSM%SVM-KNN
为了实现哈萨克语文本分类,根据哈萨克语语法规则,给出了哈萨克语文本词干的提取方法;结合DFR特征选择方法和VSM文本表示模型实现哈萨克语文本的预处理,提出了一种SVM和修正KNN协同的文本分类算法,分别在自行构建的语料集和整理的《新疆日报》哈萨克语数据集上进行大量文本分类仿真实验。结果表明,该方法在哈萨克语文本分类上具有良好的分类性能,并比SVM ,KNN的测试性能优越。
為瞭實現哈薩剋語文本分類,根據哈薩剋語語法規則,給齣瞭哈薩剋語文本詞榦的提取方法;結閤DFR特徵選擇方法和VSM文本錶示模型實現哈薩剋語文本的預處理,提齣瞭一種SVM和脩正KNN協同的文本分類算法,分彆在自行構建的語料集和整理的《新疆日報》哈薩剋語數據集上進行大量文本分類倣真實驗。結果錶明,該方法在哈薩剋語文本分類上具有良好的分類性能,併比SVM ,KNN的測試性能優越。
위료실현합살극어문본분류,근거합살극어어법규칙,급출료합살극어문본사간적제취방법;결합DFR특정선택방법화VSM문본표시모형실현합살극어문본적예처리,제출료일충SVM화수정KNN협동적문본분류산법,분별재자행구건적어료집화정리적《신강일보》합살극어수거집상진행대량문본분류방진실험。결과표명,해방법재합살극어문본분류상구유량호적분류성능,병비SVM ,KNN적측시성능우월。
In order to get the Kazakh language text classification , according to the Kazakh language features , this paper presents the Kazakh stem extract principle , and implementes the Kazakh text preprocessing combined with DFR feature selection and VSM model . This paper proposes a SVM-modified KNN algorithm ,a large number of text categorization experiments are simulated on the own building data sets and the Xinjiang Daily Kazakh data sets respectively . The numerical experiment results show that the method in the Kazakh language text classification has a good classification performance , and its test performance is better than the SVM and KNN .