中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2004年
3期
17-23
,共7页
计算机应用%中文信息处理%文本分类%特征选择%类别区分词
計算機應用%中文信息處理%文本分類%特徵選擇%類彆區分詞
계산궤응용%중문신식처리%문본분류%특정선택%유별구분사
本文介绍和比较了八种用于文本分类的特征选择方法,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式,并提出了一种新的类别区分词的特征选择方法,结合两种不同的分类方法:文本相似度方法和Nave Bayes方法,在两个不同的数据集上分别作了训练和测试,结果表明,在这八种文本特征选择方法中,多类优势率和类别区分词方法取得了最好的选择效果.其中,当用Nave Bayes分类方法对各类分布严重不均的13890样本集作训练和测试时,当特征维数大于8000以后,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出3%~5%左右.
本文介紹和比較瞭八種用于文本分類的特徵選擇方法,其中把應用于二元分類器中的優勢率改造成適用于多類問題的形式,併提齣瞭一種新的類彆區分詞的特徵選擇方法,結閤兩種不同的分類方法:文本相似度方法和Nave Bayes方法,在兩箇不同的數據集上分彆作瞭訓練和測試,結果錶明,在這八種文本特徵選擇方法中,多類優勢率和類彆區分詞方法取得瞭最好的選擇效果.其中,噹用Nave Bayes分類方法對各類分佈嚴重不均的13890樣本集作訓練和測試時,噹特徵維數大于8000以後,用類彆區分詞作特徵選擇得到的宏F1值比用IG作特徵選擇得到的宏F1值高齣3%~5%左右.
본문개소화비교료팔충용우문본분류적특정선택방법,기중파응용우이원분류기중적우세솔개조성괄용우다류문제적형식,병제출료일충신적유별구분사적특정선택방법,결합량충불동적분류방법:문본상사도방법화Nave Bayes방법,재량개불동적수거집상분별작료훈련화측시,결과표명,재저팔충문본특정선택방법중,다류우세솔화유별구분사방법취득료최호적선택효과.기중,당용Nave Bayes분류방법대각류분포엄중불균적13890양본집작훈련화측시시,당특정유수대우8000이후,용유별구분사작특정선택득도적굉F1치비용IG작특정선택득도적굉F1치고출3%~5%좌우.