计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2013年
8期
204-207,214
,共5页
文本分类%意群%支持向量机%语义概念%依存句法%类别意群库
文本分類%意群%支持嚮量機%語義概唸%依存句法%類彆意群庫
문본분류%의군%지지향량궤%어의개념%의존구법%유별의군고
text categorization%sense group%Support Vector Machine(SVM)%semantic concept%dependency parsing%category sense group library
目前中文文本分类算法大多利用词语或词语映射为特征项的分类方式,未考虑中文语法语义的特点,导致分类性能较低.为此,提出中文文本的意群分类算法.通过中文依存句法分析结果制定规则提取意群,并作为特征项表示文本,进而采用支持向量机的方法对训练集进行学习,最终构建类别意群库对测试文本进行分类.实验结果表明,与基于词语的分类方法相比,意群分类算法在分类性能上平均提升3个百分点,平均查准率达到97%.
目前中文文本分類算法大多利用詞語或詞語映射為特徵項的分類方式,未攷慮中文語法語義的特點,導緻分類性能較低.為此,提齣中文文本的意群分類算法.通過中文依存句法分析結果製定規則提取意群,併作為特徵項錶示文本,進而採用支持嚮量機的方法對訓練集進行學習,最終構建類彆意群庫對測試文本進行分類.實驗結果錶明,與基于詞語的分類方法相比,意群分類算法在分類性能上平均提升3箇百分點,平均查準率達到97%.
목전중문문본분류산법대다이용사어혹사어영사위특정항적분류방식,미고필중문어법어의적특점,도치분류성능교저.위차,제출중문문본적의군분류산법.통과중문의존구법분석결과제정규칙제취의군,병작위특정항표시문본,진이채용지지향량궤적방법대훈련집진행학습,최종구건유별의군고대측시문본진행분류.실험결과표명,여기우사어적분류방법상비,의군분류산법재분류성능상평균제승3개백분점,평균사준솔체도97%.