电脑知识与技术
電腦知識與技術
전뇌지식여기술
COMPUTER KNOWLEDGE AND TECHNOLOGY
2014年
1期
133-137
,共5页
潘光强%周军%何洋
潘光彊%週軍%何洋
반광강%주군%하양
文本分类%特征选择
文本分類%特徵選擇
문본분류%특정선택
该文主要对文本自动分类的特征选择方法进行了讨论,分析了几种常见方法存在的缺陷,指出影响出文本特征选择的两个重要因素--特征项在类别内的文档频率和在类别间的分布差异,并以这两个因素为影响因子分别对TF-IDF和IG方法进行了改进。另外还介绍了朴素贝叶斯分类模型,并基于此模型对改进的特征选择方法的分类效果进行评估。实验结果表明,改进后的方法能够强化特征项在特定类别中的影响力,提高文本分类效果。
該文主要對文本自動分類的特徵選擇方法進行瞭討論,分析瞭幾種常見方法存在的缺陷,指齣影響齣文本特徵選擇的兩箇重要因素--特徵項在類彆內的文檔頻率和在類彆間的分佈差異,併以這兩箇因素為影響因子分彆對TF-IDF和IG方法進行瞭改進。另外還介紹瞭樸素貝葉斯分類模型,併基于此模型對改進的特徵選擇方法的分類效果進行評估。實驗結果錶明,改進後的方法能夠彊化特徵項在特定類彆中的影響力,提高文本分類效果。
해문주요대문본자동분류적특정선택방법진행료토론,분석료궤충상견방법존재적결함,지출영향출문본특정선택적량개중요인소--특정항재유별내적문당빈솔화재유별간적분포차이,병이저량개인소위영향인자분별대TF-IDF화IG방법진행료개진。령외환개소료박소패협사분류모형,병기우차모형대개진적특정선택방법적분류효과진행평고。실험결과표명,개진후적방법능구강화특정항재특정유별중적영향력,제고문본분류효과。