电子科技大学学报
電子科技大學學報
전자과기대학학보
JOURNAL OF UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA
2012年
4期
592-595
,共4页
特征选择方法%不平衡数据集%强类别相关%文本分类
特徵選擇方法%不平衡數據集%彊類彆相關%文本分類
특정선택방법%불평형수거집%강유별상관%문본분류
在分析了传统特征选择方法构造的4项基本信息元素的基础上提出一种强类别信息的度量标准,并在此基础上,提出一种适用于不平衡文本的特征选择方法.该方法综合考虑了类别信息因子、词频因子,分别用于提高少数类和多数类类别分类精度,该方法在reuter-21578数据集上进行了实验,实验结果表明,该特征选择方法比IG、CHI方法都更好,不但微平均指标有一定程度的提高,而且宏平均指标也有一定程度的提高.
在分析瞭傳統特徵選擇方法構造的4項基本信息元素的基礎上提齣一種彊類彆信息的度量標準,併在此基礎上,提齣一種適用于不平衡文本的特徵選擇方法.該方法綜閤攷慮瞭類彆信息因子、詞頻因子,分彆用于提高少數類和多數類類彆分類精度,該方法在reuter-21578數據集上進行瞭實驗,實驗結果錶明,該特徵選擇方法比IG、CHI方法都更好,不但微平均指標有一定程度的提高,而且宏平均指標也有一定程度的提高.
재분석료전통특정선택방법구조적4항기본신식원소적기출상제출일충강유별신식적도량표준,병재차기출상,제출일충괄용우불평형문본적특정선택방법.해방법종합고필료유별신식인자、사빈인자,분별용우제고소수류화다수류유별분류정도,해방법재reuter-21578수거집상진행료실험,실험결과표명,해특정선택방법비IG、CHI방법도경호,불단미평균지표유일정정도적제고,이차굉평균지표야유일정정도적제고.