计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2012年
12期
27-29
,共3页
艾海麦提江·阿布来提%吐尔地·托合提%艾斯卡尔·艾木都拉
艾海麥提江·阿佈來提%吐爾地·託閤提%艾斯卡爾·艾木都拉
애해맥제강·아포래제%토이지·탁합제%애사잡이·애목도랍
维吾尔文%文本分类%Naive Bayes%词干提取%停用词
維吾爾文%文本分類%Naive Bayes%詞榦提取%停用詞
유오이문%문본분류%Naive Bayes%사간제취%정용사
以大规模网络维吾尔文文本的自动分类技术研究为背景,设计模块化结构的维吾尔文本分类系统,在深入调研基础上选择Naive Bayes算法为分类引擎,用C#实现分类系统.预处理中,结合维吾尔语的词法特征,通过引入词干提取方法大大降低特征维数.在包含10大类共计3 000多个较大规模文本语料库基础上给出分类实验结果,再通过x2统计方法选择不同数目的特征,也分别给出分类实验结果.结果表明,预处理后的维吾尔文特征空间中只有1%-3%特征是最佳的,因而进一步确定哪些是最佳特征或降低特征空间维数是有可能的.
以大規模網絡維吾爾文文本的自動分類技術研究為揹景,設計模塊化結構的維吾爾文本分類繫統,在深入調研基礎上選擇Naive Bayes算法為分類引擎,用C#實現分類繫統.預處理中,結閤維吾爾語的詞法特徵,通過引入詞榦提取方法大大降低特徵維數.在包含10大類共計3 000多箇較大規模文本語料庫基礎上給齣分類實驗結果,再通過x2統計方法選擇不同數目的特徵,也分彆給齣分類實驗結果.結果錶明,預處理後的維吾爾文特徵空間中隻有1%-3%特徵是最佳的,因而進一步確定哪些是最佳特徵或降低特徵空間維數是有可能的.
이대규모망락유오이문문본적자동분류기술연구위배경,설계모괴화결구적유오이문본분류계통,재심입조연기출상선택Naive Bayes산법위분류인경,용C#실현분류계통.예처리중,결합유오이어적사법특정,통과인입사간제취방법대대강저특정유수.재포함10대류공계3 000다개교대규모문본어료고기출상급출분류실험결과,재통과x2통계방법선택불동수목적특정,야분별급출분류실험결과.결과표명,예처리후적유오이문특정공간중지유1%-3%특정시최가적,인이진일보학정나사시최가특정혹강저특정공간유수시유가능적.