电子科技大学学报
電子科技大學學報
전자과기대학학보
JOURNAL OF UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA
2013年
6期
916-920
,共5页
特征标注%特征过滤%信息增益%Jaccard群落系数%奇异值分解熵
特徵標註%特徵過濾%信息增益%Jaccard群落繫數%奇異值分解熵
특정표주%특정과려%신식증익%Jaccard군락계수%기이치분해적
feature annotation%feature filtering%information gain%Jaccard score%SVD-entropy
提出了一种用于排位特征变量的基于特征矩阵信息增益的无监督特征标注准则(IGC)及直接选择法(DS)、累积最大熵法(CEM)和最大信息增益法(IGM)3种新的特征过滤方法来降低聚类的复杂度。使用经典的QC或K-means聚类算法,在杆状病毒数据集(RSV)、混合血统白血病数据集(MLL)和急性白血病患者数据集(ALP)等3种不同的生物信息数据集上测试并对比了这些特征过滤方法和目前的偏差选择(VS)和基因修剃(GS)过滤方法对聚类结果的影响。试验结果表明,3种特征过滤方法在加速聚类过程及保持初始数据的聚类结构上都具有明显的优势。
提齣瞭一種用于排位特徵變量的基于特徵矩陣信息增益的無鑑督特徵標註準則(IGC)及直接選擇法(DS)、纍積最大熵法(CEM)和最大信息增益法(IGM)3種新的特徵過濾方法來降低聚類的複雜度。使用經典的QC或K-means聚類算法,在桿狀病毒數據集(RSV)、混閤血統白血病數據集(MLL)和急性白血病患者數據集(ALP)等3種不同的生物信息數據集上測試併對比瞭這些特徵過濾方法和目前的偏差選擇(VS)和基因脩剃(GS)過濾方法對聚類結果的影響。試驗結果錶明,3種特徵過濾方法在加速聚類過程及保持初始數據的聚類結構上都具有明顯的優勢。
제출료일충용우배위특정변량적기우특정구진신식증익적무감독특정표주준칙(IGC)급직접선택법(DS)、루적최대적법(CEM)화최대신식증익법(IGM)3충신적특정과려방법래강저취류적복잡도。사용경전적QC혹K-means취류산법,재간상병독수거집(RSV)、혼합혈통백혈병수거집(MLL)화급성백혈병환자수거집(ALP)등3충불동적생물신식수거집상측시병대비료저사특정과려방법화목전적편차선택(VS)화기인수체(GS)과려방법대취류결과적영향。시험결과표명,3충특정과려방법재가속취류과정급보지초시수거적취류결구상도구유명현적우세。
A unsupervised feature annotation criterion-information gain criterion (IGC)-based on feature matrix information gain is proposed to rank the feature variable. According to this rank, three new feature filtering methods:direct selection (DS), cumulate maximum entropy (CEM), and information gain maximum (IGM) are given to reduce clustering complexity. The clustering results of these three filtering methods with two existing variance selection (VS) and gene shaving (GS) methods were tested and compared by using classic QC or K-means algorithm and three biological datasets: rod-shaped viruses (RSV), mixed-lineage leukemia (MLL), and acute leukemia patients (ALP). The experiment results show our feature filtering method has obvious superiority in accelerating the clustering procedure and preserving the clustering structure of initial data.