计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
3期
216-221,228
,共7页
阿力木江·艾沙%库尔班·吾布力%吐尔根·依布拉音
阿力木江·艾沙%庫爾班·吾佈力%吐爾根·依佈拉音
아력목강·애사%고이반·오포력%토이근·의포랍음
Bigram文本特征%χ2统计量%互信息%维吾尔语
Bigram文本特徵%χ2統計量%互信息%維吾爾語
Bigram문본특정%χ2통계량%호신식%유오이어
Bigram text feature%χ2 statistics%mutual information%Uyghur Language
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了维吾尔文Bigram对文本分类作用的基础上,构造了一个新的统计量CHIMI,并在此基础上提出了一种维吾尔语Bigram特征提取算法。将抽取到的Bigram作为文本特征,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,Bigram作为文本特征能够提高维吾尔文文本分类的准确率和召回率并且通过实验验证了该算法的有效性。
文本特徵錶示是在文本自動分類中最重要的一箇環節。在基于嚮量空間模型(VSM)的文本錶示中特徵單元粒度的選擇直接影響到文本分類的效果。在維吾爾文文本分類中,對于單詞特徵不能更好地錶徵文本內容特徵的問題,在分析瞭維吾爾文Bigram對文本分類作用的基礎上,構造瞭一箇新的統計量CHIMI,併在此基礎上提齣瞭一種維吾爾語Bigram特徵提取算法。將抽取到的Bigram作為文本特徵,採用支持嚮量機(SVM)算法對維吾爾文文本進行瞭分類實驗。實驗結果錶明,與以詞為特徵的文本分類相比,Bigram作為文本特徵能夠提高維吾爾文文本分類的準確率和召迴率併且通過實驗驗證瞭該算法的有效性。
문본특정표시시재문본자동분류중최중요적일개배절。재기우향량공간모형(VSM)적문본표시중특정단원립도적선택직접영향도문본분류적효과。재유오이문문본분류중,대우단사특정불능경호지표정문본내용특정적문제,재분석료유오이문Bigram대문본분류작용적기출상,구조료일개신적통계량CHIMI,병재차기출상제출료일충유오이어Bigram특정제취산법。장추취도적Bigram작위문본특정,채용지지향량궤(SVM)산법대유오이문문본진행료분류실험。실험결과표명,여이사위특정적문본분류상비,Bigram작위문본특정능구제고유오이문문본분류적준학솔화소회솔병차통과실험험증료해산법적유효성。
Text representation is the most important phase in automatic text categorization. In the vector space model based text representation, the selection of feature granularity has the direct impact on the text categorization performance. The word features don’t have the good representative power to represent the Uyghur texts in text categorization. To solve this problem, the CHIMI based Uyghur Bigram extraction method is proposed and the Uyghur text categorization experi-ments are conducted using support vector machine algorithm based on the extracted Bigrams as text features. The experi-mental results show that the Bigram based Uyghur text categorization achieves higher classification precision and recall compared to the word based categorization and experiments demonstrate the effectiveness of the proposed algorithm.