计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2013年
10期
252-256
,共5页
任永功%杨雪%杨荣杰%胡志冬
任永功%楊雪%楊榮傑%鬍誌鼕
임영공%양설%양영걸%호지동
特征选择%特征关联树%信息增益值%不平衡数据集%离散度
特徵選擇%特徵關聯樹%信息增益值%不平衡數據集%離散度
특정선택%특정관련수%신식증익치%불평형수거집%리산도
Feature selection%Feature relation tree%Information gain%Imbalanced dataset%Dispersion
传统的信息增益算法在类和特征项分布不均时,分类性能明显下降.针对此不足,提出了一种基于信息增益特征关联树的文本特征选择算法(UDsIG).首先,对数据集按类进行特征选择,降低类分布不均时对特征选择的影响.其次,利用特征分布均匀度改善特征项在类内分布不均对特征选择的干扰,并采用特征关联树模型对类内特征进行处理,保留强相关特征,删除弱相关和不相关特征,降低特征冗余度.最后,使用类间加权离散度的信息增益公式进一步计算,得到更优特征子集.通过对比实验表明,选取的特征具有更好的分类性能.
傳統的信息增益算法在類和特徵項分佈不均時,分類性能明顯下降.針對此不足,提齣瞭一種基于信息增益特徵關聯樹的文本特徵選擇算法(UDsIG).首先,對數據集按類進行特徵選擇,降低類分佈不均時對特徵選擇的影響.其次,利用特徵分佈均勻度改善特徵項在類內分佈不均對特徵選擇的榦擾,併採用特徵關聯樹模型對類內特徵進行處理,保留彊相關特徵,刪除弱相關和不相關特徵,降低特徵冗餘度.最後,使用類間加權離散度的信息增益公式進一步計算,得到更優特徵子集.通過對比實驗錶明,選取的特徵具有更好的分類性能.
전통적신식증익산법재류화특정항분포불균시,분류성능명현하강.침대차불족,제출료일충기우신식증익특정관련수적문본특정선택산법(UDsIG).수선,대수거집안류진행특정선택,강저류분포불균시대특정선택적영향.기차,이용특정분포균균도개선특정항재류내분포불균대특정선택적간우,병채용특정관련수모형대류내특정진행처리,보류강상관특정,산제약상관화불상관특정,강저특정용여도.최후,사용류간가권리산도적신식증익공식진일보계산,득도경우특정자집.통과대비실험표명,선취적특정구유경호적분류성능.