中国生物医学工程学报
中國生物醫學工程學報
중국생물의학공정학보
CHINESE JOURNAL OF BIOMEDICAL ENGINEERING
2010年
1期
77-85
,共9页
黄伟%刘战民%薛丹%尹京苑
黃偉%劉戰民%薛丹%尹京苑
황위%류전민%설단%윤경원
非线性降维%流形学习%聚类分析%基因芯片
非線性降維%流形學習%聚類分析%基因芯片
비선성강유%류형학습%취류분석%기인심편
non-linear dimensional reduction%manifold learning%clustering analysis%microarray
对基因芯片表达谱的聚类分析有助于发现共表达的基因,而共表达的特性往往是共调控基因所拥有的性质.因此,对基因表达谱的准确聚类将有利于更加准确地发现基因之间的调控关系.本研究使用机器学习中的等度规映射、局部线性嵌入、拉普拉斯特征根映射等流形学习方法处理基因表达谱数据,得到非线性降维后的数据.在此基础上应用K均值聚类、模糊聚类、自组织映射神经网络等聚类方法,根据给定的阈值,从酵母基因表达数据的382个聚类结果中得到了117 个共表达基因对,而从人类血清组织细胞的基因表达数据的132个聚类结果中得到了89个共表达基因对.使用的判别准则表明,基于流形学习的聚类方法与以往的方法相当,且能够被用以发现高维基因芯片表达数据中的低维的流形结构.
對基因芯片錶達譜的聚類分析有助于髮現共錶達的基因,而共錶達的特性往往是共調控基因所擁有的性質.因此,對基因錶達譜的準確聚類將有利于更加準確地髮現基因之間的調控關繫.本研究使用機器學習中的等度規映射、跼部線性嵌入、拉普拉斯特徵根映射等流形學習方法處理基因錶達譜數據,得到非線性降維後的數據.在此基礎上應用K均值聚類、模糊聚類、自組織映射神經網絡等聚類方法,根據給定的閾值,從酵母基因錶達數據的382箇聚類結果中得到瞭117 箇共錶達基因對,而從人類血清組織細胞的基因錶達數據的132箇聚類結果中得到瞭89箇共錶達基因對.使用的判彆準則錶明,基于流形學習的聚類方法與以往的方法相噹,且能夠被用以髮現高維基因芯片錶達數據中的低維的流形結構.
대기인심편표체보적취류분석유조우발현공표체적기인,이공표체적특성왕왕시공조공기인소옹유적성질.인차,대기인표체보적준학취류장유리우경가준학지발현기인지간적조공관계.본연구사용궤기학습중적등도규영사、국부선성감입、랍보랍사특정근영사등류형학습방법처리기인표체보수거,득도비선성강유후적수거.재차기출상응용K균치취류、모호취류、자조직영사신경망락등취류방법,근거급정적역치,종효모기인표체수거적382개취류결과중득도료117 개공표체기인대,이종인류혈청조직세포적기인표체수거적132개취류결과중득도료89개공표체기인대.사용적판별준칙표명,기우류형학습적취류방법여이왕적방법상당,차능구피용이발현고유기인심편표체수거중적저유적류형결구.
The clustering analysis of gene expression profile is helpful to find the co-expressed genes which is the feature in co-regulation genes. The accurate clustering results can improve the accuracy in detecting regulation relationships among genes. This paper introduced some manifold learning methods of machine learning, such as isometric feature mapping (ISOMAP), locally linear embedding (LLE) and Laplacian eigenmaps to deal with gene expression profile data and derive non-linear dimensional reduction data. Then some clustering methods, such as k-means clustering, fuzzy clustering and self organizing map (SOM), were used for classification. 117 co-expressed gene pairs from 382 clustering results of yeast expression data and 89 pairs from 132 clustering results of serum data were found. The discrimination criterions showed that this clustering algorithm was as effective as those existed methods and could find the lower manifold structure in the high dimensional gene expression data.