计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2013年
10期
2958-2961
,共4页
阿力木江·艾沙%吐尔根·依布拉音%库尔班·吾布力%瓦依提·阿不力孜%艾山·吾买尔
阿力木江·艾沙%吐爾根·依佈拉音%庫爾班·吾佈力%瓦依提·阿不力孜%艾山·吾買爾
아력목강·애사%토이근·의포랍음%고이반·오포력%와의제·아불력자%애산·오매이
特征选择%文本分类%特征熵%支持向量机%维吾尔语
特徵選擇%文本分類%特徵熵%支持嚮量機%維吾爾語
특정선택%문본분류%특정적%지지향량궤%유오이어
feature selection%text categorization%term entropy%SVM%uyghur language
文本特征选择是在文本自动分类中最重要的一个环节。为了更好地解决维吾尔文文本分类中特征空间的高维性和文档表示向量的稀疏性问题, 提出一种基于特征的类别分布差异和信息熵的维吾尔文文本特征选择方法。该方法不仅要考虑特征在类别间的分布情况, 而且也要考虑特征在类别内的分布情况。采用本方法对维吾尔文文本语料进行了分类实验, 并与一些传统的特征选择方法进行了比较。从结果来看, 本方法在所选特征数更少的情况下, 达到了比其他方法更高的分类MacroF1值853%, 比传统的IG和CHI等方法在MacroF1值上分别高出了43%和61%。
文本特徵選擇是在文本自動分類中最重要的一箇環節。為瞭更好地解決維吾爾文文本分類中特徵空間的高維性和文檔錶示嚮量的稀疏性問題, 提齣一種基于特徵的類彆分佈差異和信息熵的維吾爾文文本特徵選擇方法。該方法不僅要攷慮特徵在類彆間的分佈情況, 而且也要攷慮特徵在類彆內的分佈情況。採用本方法對維吾爾文文本語料進行瞭分類實驗, 併與一些傳統的特徵選擇方法進行瞭比較。從結果來看, 本方法在所選特徵數更少的情況下, 達到瞭比其他方法更高的分類MacroF1值853%, 比傳統的IG和CHI等方法在MacroF1值上分彆高齣瞭43%和61%。
문본특정선택시재문본자동분류중최중요적일개배절。위료경호지해결유오이문문본분류중특정공간적고유성화문당표시향량적희소성문제, 제출일충기우특정적유별분포차이화신식적적유오이문문본특정선택방법。해방법불부요고필특정재유별간적분포정황, 이차야요고필특정재유별내적분포정황。채용본방법대유오이문문본어료진행료분류실험, 병여일사전통적특정선택방법진행료비교。종결과래간, 본방법재소선특정수경소적정황하, 체도료비기타방법경고적분류MacroF1치853%, 비전통적IG화CHI등방법재MacroF1치상분별고출료43%화61%。
Text feature selection is the most important phase in automatic text categorization. In order to solve the high dimensionality and sparsness of text vector in Uyghur text categorization, this paper proposed the new Uyghur text feature selection method based on class distribution difference and term entropy. The propesed method not only considered the inter-class distribution of the term, but also considered the inner-class distribution of the term. It conducted the categorization experiments on the Uyghur text corpus using proposed method and compared with the traditional feature selection methods. The experimental results show that the categorization MacroF1 value is reached 853% and achieves the improvement of 43% and 61% respectivly comparing to IG and CHI.