计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2014年
9期
2608-2611,2649
,共5页
互信息%特征优选%模糊C均值聚类%数据分组
互信息%特徵優選%模糊C均值聚類%數據分組
호신식%특정우선%모호C균치취류%수거분조
Mutual Information (MI)%feature selection%Fuzzy C-Means (FCM) clustering%data grouping
针对大型数据中大量冗余特征的存在可能降低数据分类性能的问题,提出了一种基于互信息(MI)与模糊C均值(FCM)聚类集成的特征自动优选方法FCC-MI.首先分析了互信息特征及其相关度函数,根据相关度对特征进行排序;然后按照最大相关度对应的特征对数据进行分组,采用FCM聚类方法自动确定最优特征数目;最后基于相关度对特征进行了优选.在UCI机器学习数据库的7个数据集上进行实验,并与相关文献中提出的基于类内方差与相关度结合的特征选择方法(WCMFS)、基于近似Markov blanket和动态互信息的特征选择算法(B-AMBDMI)及基于互信息和遗传算法的两阶段特征选择方法(T-MI-GA)进行对比.理论分析和实验结果表明,FCC-MI不但提高了数据分类的效率,而且在有效保证分类精度的同时能自动确定最优特征子集,减少了数据集的特征数目,适用于海量、数据特征相关性大的特征约简及数据分析.
針對大型數據中大量冗餘特徵的存在可能降低數據分類性能的問題,提齣瞭一種基于互信息(MI)與模糊C均值(FCM)聚類集成的特徵自動優選方法FCC-MI.首先分析瞭互信息特徵及其相關度函數,根據相關度對特徵進行排序;然後按照最大相關度對應的特徵對數據進行分組,採用FCM聚類方法自動確定最優特徵數目;最後基于相關度對特徵進行瞭優選.在UCI機器學習數據庫的7箇數據集上進行實驗,併與相關文獻中提齣的基于類內方差與相關度結閤的特徵選擇方法(WCMFS)、基于近似Markov blanket和動態互信息的特徵選擇算法(B-AMBDMI)及基于互信息和遺傳算法的兩階段特徵選擇方法(T-MI-GA)進行對比.理論分析和實驗結果錶明,FCC-MI不但提高瞭數據分類的效率,而且在有效保證分類精度的同時能自動確定最優特徵子集,減少瞭數據集的特徵數目,適用于海量、數據特徵相關性大的特徵約簡及數據分析.
침대대형수거중대량용여특정적존재가능강저수거분류성능적문제,제출료일충기우호신식(MI)여모호C균치(FCM)취류집성적특정자동우선방법FCC-MI.수선분석료호신식특정급기상관도함수,근거상관도대특정진행배서;연후안조최대상관도대응적특정대수거진행분조,채용FCM취류방법자동학정최우특정수목;최후기우상관도대특정진행료우선.재UCI궤기학습수거고적7개수거집상진행실험,병여상관문헌중제출적기우류내방차여상관도결합적특정선택방법(WCMFS)、기우근사Markov blanket화동태호신식적특정선택산법(B-AMBDMI)급기우호신식화유전산법적량계단특정선택방법(T-MI-GA)진행대비.이론분석화실험결과표명,FCC-MI불단제고료수거분류적효솔,이차재유효보증분류정도적동시능자동학정최우특정자집,감소료수거집적특정수목,괄용우해량、수거특정상관성대적특정약간급수거분석.