电子学报
電子學報
전자학보
ACTA ELECTRONICA SINICA
2009年
5期
1019-1024
,共6页
短文本分类%组合分类器%动态调整策略%AdaBoost算法
短文本分類%組閤分類器%動態調整策略%AdaBoost算法
단문본분류%조합분류기%동태조정책략%AdaBoost산법
短文本分类是网络内容安全的一种主要方法.然而,短文本固有的关键词特征稀疏和样本高度不均衡等特点,使得难以直接使用现有针对长文本的分类算法.本文提出了一种针对短文本的动态组合分类算法.首先构造出一种树状组合分类器结构,可有效缓解短文本特征稀疏和样本高度不均衡对分类性能的影响;进一步,提出了一种动态调整策略来训练组合分类器,可以根据样本的分布特点自适应地调整分类器的组合结构.测试实验表明,相对于传统的单一分类方法和集成分类方法,动态组合分类算法在短文本分类中可以获得更好的准确率和召回率.
短文本分類是網絡內容安全的一種主要方法.然而,短文本固有的關鍵詞特徵稀疏和樣本高度不均衡等特點,使得難以直接使用現有針對長文本的分類算法.本文提齣瞭一種針對短文本的動態組閤分類算法.首先構造齣一種樹狀組閤分類器結構,可有效緩解短文本特徵稀疏和樣本高度不均衡對分類性能的影響;進一步,提齣瞭一種動態調整策略來訓練組閤分類器,可以根據樣本的分佈特點自適應地調整分類器的組閤結構.測試實驗錶明,相對于傳統的單一分類方法和集成分類方法,動態組閤分類算法在短文本分類中可以穫得更好的準確率和召迴率.
단문본분류시망락내용안전적일충주요방법.연이,단문본고유적관건사특정희소화양본고도불균형등특점,사득난이직접사용현유침대장문본적분류산법.본문제출료일충침대단문본적동태조합분류산법.수선구조출일충수상조합분류기결구,가유효완해단문본특정희소화양본고도불균형대분류성능적영향;진일보,제출료일충동태조정책략래훈련조합분류기,가이근거양본적분포특점자괄응지조정분류기적조합결구.측시실험표명,상대우전통적단일분류방법화집성분류방법,동태조합분류산법재단문본분류중가이획득경호적준학솔화소회솔.