江苏大学学报(自然科学版)
江囌大學學報(自然科學版)
강소대학학보(자연과학판)
JOURNAL OF JIANGSU UNIVERSITY(NATURAL SCIENCE EDITION)
2013年
2期
196-201
,共6页
文本分类%中文信息处理%智能系统%模式识别%演化超网络
文本分類%中文信息處理%智能繫統%模式識彆%縯化超網絡
문본분류%중문신식처리%지능계통%모식식별%연화초망락
为了提高中文文本的分类效果,提出了一种基于演化超网络的中文文本分类方法.采用中国科学院计算技术研究所的汉语词法分析系统对中文文本进行分词,保留文本中的名词、动词和形容词作为特征;以X2统计方法进行特征选择;利用布尔权重计算特征权值.经处理后的特征向量作为系统的训练集和测试集数据.运用超边替代策略训练超网络分类模型,并实现对测试集特征向量的分类.对不同阶数设定下的演化超网络模型进行了性能分析,并将其与传统的KNN和SVM算法进行了比较.结果表明,本方法对复旦大学语料和搜狐语料可获得87.2%和72.5%的宏识别率、86.9%和70.5%的宏召回率、87.0%和71.5%的宏F1,接近或优于KNN和SVM分类方法.所提出的方法是一种有效的中文文本分类手段.
為瞭提高中文文本的分類效果,提齣瞭一種基于縯化超網絡的中文文本分類方法.採用中國科學院計算技術研究所的漢語詞法分析繫統對中文文本進行分詞,保留文本中的名詞、動詞和形容詞作為特徵;以X2統計方法進行特徵選擇;利用佈爾權重計算特徵權值.經處理後的特徵嚮量作為繫統的訓練集和測試集數據.運用超邊替代策略訓練超網絡分類模型,併實現對測試集特徵嚮量的分類.對不同階數設定下的縯化超網絡模型進行瞭性能分析,併將其與傳統的KNN和SVM算法進行瞭比較.結果錶明,本方法對複旦大學語料和搜狐語料可穫得87.2%和72.5%的宏識彆率、86.9%和70.5%的宏召迴率、87.0%和71.5%的宏F1,接近或優于KNN和SVM分類方法.所提齣的方法是一種有效的中文文本分類手段.
위료제고중문문본적분류효과,제출료일충기우연화초망락적중문문본분류방법.채용중국과학원계산기술연구소적한어사법분석계통대중문문본진행분사,보류문본중적명사、동사화형용사작위특정;이X2통계방법진행특정선택;이용포이권중계산특정권치.경처리후적특정향량작위계통적훈련집화측시집수거.운용초변체대책략훈련초망락분류모형,병실현대측시집특정향량적분류.대불동계수설정하적연화초망락모형진행료성능분석,병장기여전통적KNN화SVM산법진행료비교.결과표명,본방법대복단대학어료화수호어료가획득87.2%화72.5%적굉식별솔、86.9%화70.5%적굉소회솔、87.0%화71.5%적굉F1,접근혹우우KNN화SVM분류방법.소제출적방법시일충유효적중문문본분류수단.