计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2013年
7期
149-155
,共7页
吐尔地·托合提%艾海麦提江·阿布来提%米也塞·艾尼玩%艾斯卡尔·艾木都拉
吐爾地·託閤提%艾海麥提江·阿佈來提%米也塞·艾尼玩%艾斯卡爾·艾木都拉
토이지·탁합제%애해맥제강·아포래제%미야새·애니완%애사잡이·애목도랍
维吾尔文%文本聚类%K-means%GAAC%结合算法
維吾爾文%文本聚類%K-means%GAAC%結閤算法
유오이문%문본취류%K-means%GAAC%결합산법
Uyghur text%text clustering%K-means%GAAC%combined algorithm
介绍了K-means和GAAC聚类算法思想和两种特征提取方法对维吾尔文文本表示及聚类效率的影响.在较大规模文本语料库基础上,分别用K-means和GAAC的方法进行维吾尔文文本聚类实验及性能对比分析,针对经典K-means算法对初始聚类中心的过分依赖性及不稳定性缺点以及GAAC的高计算复杂性,提出了一种结合GACC和K-means的维吾尔文聚类算法.本算法分两步完成聚类操作,首先是GAAC模块从少量文本集中获取最优的初始类中心,然后是K-means模块对大量文本集进行快速聚类.实验结果表明,新算法在聚类准确率和时间复杂度上都有了显著的提高.
介紹瞭K-means和GAAC聚類算法思想和兩種特徵提取方法對維吾爾文文本錶示及聚類效率的影響.在較大規模文本語料庫基礎上,分彆用K-means和GAAC的方法進行維吾爾文文本聚類實驗及性能對比分析,針對經典K-means算法對初始聚類中心的過分依賴性及不穩定性缺點以及GAAC的高計算複雜性,提齣瞭一種結閤GACC和K-means的維吾爾文聚類算法.本算法分兩步完成聚類操作,首先是GAAC模塊從少量文本集中穫取最優的初始類中心,然後是K-means模塊對大量文本集進行快速聚類.實驗結果錶明,新算法在聚類準確率和時間複雜度上都有瞭顯著的提高.
개소료K-means화GAAC취류산법사상화량충특정제취방법대유오이문문본표시급취류효솔적영향.재교대규모문본어료고기출상,분별용K-means화GAAC적방법진행유오이문문본취류실험급성능대비분석,침대경전K-means산법대초시취류중심적과분의뢰성급불은정성결점이급GAAC적고계산복잡성,제출료일충결합GACC화K-means적유오이문취류산법.본산법분량보완성취류조작,수선시GAAC모괴종소량문본집중획취최우적초시류중심,연후시K-means모괴대대량문본집진행쾌속취류.실험결과표명,신산법재취류준학솔화시간복잡도상도유료현저적제고.