计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2012年
11期
127-130
,共4页
任永功%杨荣杰%尹明飞%马名威
任永功%楊榮傑%尹明飛%馬名威
임영공%양영걸%윤명비%마명위
特征选择%文本分类%信息增益值%冗余特征%不平衡数据集
特徵選擇%文本分類%信息增益值%冗餘特徵%不平衡數據集
특정선택%문본분류%신식증익치%용여특정%불평형수거집
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降.针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG).首先对数据集按类进行特征选择,以减少数据集不平衡性时特征选取的影响.其次运用特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰.最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集.通过对比实验表明,选取的特征具有更好的分类性能.
在類和特徵分佈不均時,傳統信息增益算法的分類性能急劇下降.針對此不足,提齣一種基于信息增益的文本特徵選擇方法(TDpIG).首先對數據集按類進行特徵選擇,以減少數據集不平衡性時特徵選取的影響.其次運用特徵齣現概率計算信息增益權值,以降低低頻詞對特徵選擇的榦擾.最後使用離散度分析特徵在每類中的信息增益值,過濾掉高頻詞中的相對冗餘特徵,併對選取的特徵應用信息增益差值做進一步細化,穫取均勻精確的特徵子集.通過對比實驗錶明,選取的特徵具有更好的分類性能.
재류화특정분포불균시,전통신식증익산법적분류성능급극하강.침대차불족,제출일충기우신식증익적문본특정선택방법(TDpIG).수선대수거집안류진행특정선택,이감소수거집불평형성시특정선취적영향.기차운용특정출현개솔계산신식증익권치,이강저저빈사대특정선택적간우.최후사용리산도분석특정재매류중적신식증익치,과려도고빈사중적상대용여특정,병대선취적특정응용신식증익차치주진일보세화,획취균균정학적특정자집.통과대비실험표명,선취적특정구유경호적분류성능.