计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2012年
6期
210-212
,共3页
文本分类%最大熵算法%均值聚类%特征选择
文本分類%最大熵算法%均值聚類%特徵選擇
문본분류%최대적산법%균치취류%특정선택
由于传统算法存在着特征词不明确、分类结果有重叠、工作效率低的缺陷,为了解决上述问题,提出了一种改进的最大熵文本分类方法.最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.提出的方法充分结合了均值聚类和最大熵值算法的优点,算法首先以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用均值聚类算法对最优特征进行分类.经过实验论证,所提出的新算法能够在较短的时间内获得分类后得到的特征集,大大缩短了工作的时间,同时提高了工作的效率.
由于傳統算法存在著特徵詞不明確、分類結果有重疊、工作效率低的缺陷,為瞭解決上述問題,提齣瞭一種改進的最大熵文本分類方法.最大熵模型可以綜閤觀察到的各種相關或不相關的概率知識,對許多問題的處理都可以達到較好的結果.提齣的方法充分結閤瞭均值聚類和最大熵值算法的優點,算法首先以香農熵作為最大熵模型中的目標函數,簡化分類器的錶達形式,然後採用均值聚類算法對最優特徵進行分類.經過實驗論證,所提齣的新算法能夠在較短的時間內穫得分類後得到的特徵集,大大縮短瞭工作的時間,同時提高瞭工作的效率.
유우전통산법존재착특정사불명학、분류결과유중첩、공작효솔저적결함,위료해결상술문제,제출료일충개진적최대적문본분류방법.최대적모형가이종합관찰도적각충상관혹불상관적개솔지식,대허다문제적처리도가이체도교호적결과.제출적방법충분결합료균치취류화최대적치산법적우점,산법수선이향농적작위최대적모형중적목표함수,간화분류기적표체형식,연후채용균치취류산법대최우특정진행분류.경과실험론증,소제출적신산법능구재교단적시간내획득분류후득도적특정집,대대축단료공작적시간,동시제고료공작적효솔.