中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2014年
4期
140-144
,共5页
吐尔地·托合提%艾克白尔·帕塔尔%艾斯卡尔·艾木都拉
吐爾地·託閤提%艾剋白爾·帕塔爾%艾斯卡爾·艾木都拉
토이지·탁합제%애극백이·파탑이%애사잡이·애목도랍
维吾尔文分词%词特征%dme-TS%语义词特征%文本分类
維吾爾文分詞%詞特徵%dme-TS%語義詞特徵%文本分類
유오이문분사%사특정%dme-TS%어의사특정%문본분류
Uyghur word segmentation%word features%dme-TS%semantic word features%text classification
基于机器学习的文本分类中,维吾尔文传统分词方法表现出非常明显的不足和局限性.该文使用另外一种维吾尔文自动分词方法dme-TS.dme-TS中,不再以词间空格作为切分标记提取词特征,而是用一种组合统计量(dme)来度量文本中相邻单词之间的关联程度,并以dme度量的弱关联的词间位置作为切分点,提取对学习算法真正有意义的语义词特征.实验结果表明,用dme-TS提取文本特征可以降低特征空间的维度,同时也能有效的提高传统以单词为特征的分类算法的性能.
基于機器學習的文本分類中,維吾爾文傳統分詞方法錶現齣非常明顯的不足和跼限性.該文使用另外一種維吾爾文自動分詞方法dme-TS.dme-TS中,不再以詞間空格作為切分標記提取詞特徵,而是用一種組閤統計量(dme)來度量文本中相鄰單詞之間的關聯程度,併以dme度量的弱關聯的詞間位置作為切分點,提取對學習算法真正有意義的語義詞特徵.實驗結果錶明,用dme-TS提取文本特徵可以降低特徵空間的維度,同時也能有效的提高傳統以單詞為特徵的分類算法的性能.
기우궤기학습적문본분류중,유오이문전통분사방법표현출비상명현적불족화국한성.해문사용령외일충유오이문자동분사방법dme-TS.dme-TS중,불재이사간공격작위절분표기제취사특정,이시용일충조합통계량(dme)래도량문본중상린단사지간적관련정도,병이dme도량적약관련적사간위치작위절분점,제취대학습산법진정유의의적어의사특정.실험결과표명,용dme-TS제취문본특정가이강저특정공간적유도,동시야능유효적제고전통이단사위특정적분류산법적성능.