清华大学学报(自然科学版)
清華大學學報(自然科學版)
청화대학학보(자연과학판)
JOURNAL OF TSINGHUA UNIVERSITY SCIENCE AND TECHNOLOGY
2005年
9期
1802-1805
,共4页
张启蕊%张凌%董守斌%谭景华
張啟蕊%張凌%董守斌%譚景華
장계예%장릉%동수빈%담경화
文本分类%训练集%类别均衡法
文本分類%訓練集%類彆均衡法
문본분류%훈련집%유별균형법
为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,该文对原始训练集使用类别均衡法,即对原始训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类,以降低在训练过程中对小类别的不公平待遇.在复旦大学语料库上使用类别均衡法,分别用Naive Bayes和Rocchio方法分类,前者的宏平均F1从48.62%提高到了80.99%,后者的宏平均F1从64.58%提高到80.26%,微平均F1从73.99%提高到80.47%.实验结果显示,类别均衡法显著提高了分类性能.
為瞭減小訓練集中各類彆資源分佈不均衡對分類性能造成的影響,該文對原始訓練集使用類彆均衡法,即對原始訓練集以類為單位進行重新組閤,使得重組後的訓練集類彆分佈儘可能均衡,從而可以在均衡的類彆上進行訓練和分類,以降低在訓練過程中對小類彆的不公平待遇.在複旦大學語料庫上使用類彆均衡法,分彆用Naive Bayes和Rocchio方法分類,前者的宏平均F1從48.62%提高到瞭80.99%,後者的宏平均F1從64.58%提高到80.26%,微平均F1從73.99%提高到80.47%.實驗結果顯示,類彆均衡法顯著提高瞭分類性能.
위료감소훈련집중각유별자원분포불균형대분류성능조성적영향,해문대원시훈련집사용유별균형법,즉대원시훈련집이류위단위진행중신조합,사득중조후적훈련집유별분포진가능균형,종이가이재균형적유별상진행훈련화분류,이강저재훈련과정중대소유별적불공평대우.재복단대학어료고상사용유별균형법,분별용Naive Bayes화Rocchio방법분류,전자적굉평균F1종48.62%제고도료80.99%,후자적굉평균F1종64.58%제고도80.26%,미평균F1종73.99%제고도80.47%.실험결과현시,유별균형법현저제고료분류성능.