计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2013年
7期
216-221,235
,共7页
徐菲菲%魏莱%杜海洲%王文欢
徐菲菲%魏萊%杜海洲%王文歡
서비비%위래%두해주%왕문환
特征选取%模糊粗糙集%互信息%基因表达谱数据集
特徵選取%模糊粗糙集%互信息%基因錶達譜數據集
특정선취%모호조조집%호신식%기인표체보수거집
Feature selection%Fuzzy rough sets%Mutual information%Gene expression data
依据基因表达谱建立有效肿瘤分类模型的关键在于准确找出决定样本类别的一组特征基因.粗糙集理论已成功应用于肿瘤分类特征基因选取中.然而,粗糙集方法处理连续值的基因表达谱数据集所必需的离散化过程会使得部分信息丢失,对所选取的特征基因的分类精度造成一定影响.因此,曾提出基于互信息的模糊粗糙集基因表达谱数据集特征基因的选取算法.然而,该算法计算代价较高,当所选取的基因数较多时难以实现.为此,对该算法进行了改进,从最大相关性和最重要性(最小冗余)两方面对互信息进行了近似替代计算,大大降低了算法的复杂度,提高了算法的效率.以急性白血病亚型(leukemia)、直肠癌(colon)和乳腺癌(Breast)分类特征基因选取为例进行实验,然后分别采用1NN和SVM分类器进行特征基因分类精度检验,结果证实了新方法的可行性和有效性.
依據基因錶達譜建立有效腫瘤分類模型的關鍵在于準確找齣決定樣本類彆的一組特徵基因.粗糙集理論已成功應用于腫瘤分類特徵基因選取中.然而,粗糙集方法處理連續值的基因錶達譜數據集所必需的離散化過程會使得部分信息丟失,對所選取的特徵基因的分類精度造成一定影響.因此,曾提齣基于互信息的模糊粗糙集基因錶達譜數據集特徵基因的選取算法.然而,該算法計算代價較高,噹所選取的基因數較多時難以實現.為此,對該算法進行瞭改進,從最大相關性和最重要性(最小冗餘)兩方麵對互信息進行瞭近似替代計算,大大降低瞭算法的複雜度,提高瞭算法的效率.以急性白血病亞型(leukemia)、直腸癌(colon)和乳腺癌(Breast)分類特徵基因選取為例進行實驗,然後分彆採用1NN和SVM分類器進行特徵基因分類精度檢驗,結果證實瞭新方法的可行性和有效性.
의거기인표체보건립유효종류분류모형적관건재우준학조출결정양본유별적일조특정기인.조조집이론이성공응용우종류분류특정기인선취중.연이,조조집방법처리련속치적기인표체보수거집소필수적리산화과정회사득부분신식주실,대소선취적특정기인적분류정도조성일정영향.인차,증제출기우호신식적모호조조집기인표체보수거집특정기인적선취산법.연이,해산법계산대개교고,당소선취적기인수교다시난이실현.위차,대해산법진행료개진,종최대상관성화최중요성(최소용여)량방면대호신식진행료근사체대계산,대대강저료산법적복잡도,제고료산법적효솔.이급성백혈병아형(leukemia)、직장암(colon)화유선암(Breast)분류특정기인선취위례진행실험,연후분별채용1NN화SVM분류기진행특정기인분류정도검험,결과증실료신방법적가행성화유효성.