农业科学与技术:英文版
農業科學與技術:英文版
농업과학여기술:영문판
Agricultural Science & Technology
2012年
6期
1376-1380
,共5页
汪雪红%焦清局%常盼盼%黄继风
汪雪紅%焦清跼%常盼盼%黃繼風
왕설홍%초청국%상반반%황계풍
基因聚类%有损压缩%高斯分布%最小编码长度
基因聚類%有損壓縮%高斯分佈%最小編碼長度
기인취류%유손압축%고사분포%최소편마장도
Genetic clustering%Lossy compression%Gaussian distribution%Minimum coding length
[目的]分析基于最小编码长度的基因数据聚类算法的聚类效果,以期为基因数据聚类提供新的方法。[方法]将基因数据的聚类看成是高维混合数据的聚类,通过对基因数据进行预处理后,再利用主成分分析将基因数据降维,降维后基因数据呈类高斯分布,这样分布的基因数据能够被一个简单的基于有损数据压缩的聚类算法进行有效的聚类,而该基于有损数据压缩的聚类算法是根据聚类后使基因的总体编码长度最小原则对基因进行聚类的。试验中分别利用该新算法与传统聚类算法对酵母和拟南芥基因数据进行聚类,并通过基因聚类内部评价和功能评价来验证该新算法的有效性。[结果]通过利用酵母和拟南芥基因数据对新算法的验证试验表明,该研究中的新算法得到的聚类效果优于传统聚类算法,且避免了聚类数需要主观确定和对初始聚类中心敏感等问题。[结论]该研究结果为基因数据聚类提供了一种全新的聚类方法。
[目的]分析基于最小編碼長度的基因數據聚類算法的聚類效果,以期為基因數據聚類提供新的方法。[方法]將基因數據的聚類看成是高維混閤數據的聚類,通過對基因數據進行預處理後,再利用主成分分析將基因數據降維,降維後基因數據呈類高斯分佈,這樣分佈的基因數據能夠被一箇簡單的基于有損數據壓縮的聚類算法進行有效的聚類,而該基于有損數據壓縮的聚類算法是根據聚類後使基因的總體編碼長度最小原則對基因進行聚類的。試驗中分彆利用該新算法與傳統聚類算法對酵母和擬南芥基因數據進行聚類,併通過基因聚類內部評價和功能評價來驗證該新算法的有效性。[結果]通過利用酵母和擬南芥基因數據對新算法的驗證試驗錶明,該研究中的新算法得到的聚類效果優于傳統聚類算法,且避免瞭聚類數需要主觀確定和對初始聚類中心敏感等問題。[結論]該研究結果為基因數據聚類提供瞭一種全新的聚類方法。
[목적]분석기우최소편마장도적기인수거취류산법적취류효과,이기위기인수거취류제공신적방법。[방법]장기인수거적취류간성시고유혼합수거적취류,통과대기인수거진행예처리후,재이용주성분분석장기인수거강유,강유후기인수거정류고사분포,저양분포적기인수거능구피일개간단적기우유손수거압축적취류산법진행유효적취류,이해기우유손수거압축적취류산법시근거취류후사기인적총체편마장도최소원칙대기인진행취류적。시험중분별이용해신산법여전통취류산법대효모화의남개기인수거진행취류,병통과기인취류내부평개화공능평개래험증해신산법적유효성。[결과]통과이용효모화의남개기인수거대신산법적험증시험표명,해연구중적신산법득도적취류효과우우전통취류산법,차피면료취류수수요주관학정화대초시취류중심민감등문제。[결론]해연구결과위기인수거취류제공료일충전신적취류방법。
[Objective] This paper aimed to provide a new method for genetic data clustering by analyzing the clustering effect of genetic data clustering algorithm based on the minimum coding length. [Method] The genetic data clustering was regarded as high dimensional mixed data clustering. After preprocessing genetic data, the dimensions of the genetic data were reduced by principal component analysis, when genetic data presented Gaussian-like distribution. This distribution of genetic data could be clustered effectively through lossy data compression, which clustered the genes based on a simple clustering algorithm. This algorithm could achieve its best clustering result when the length of the codes of encoding clustered genes reached its minimum value. This algorithm and the traditional clustering algorithms were used to do the genetic data clustering of yeast and Arabidopsis, and the effectiveness of the algorithm was verified through genetic clustering internal evaluation and function evaluation. [Result] The clustering effect of the new algorithm in this study was superior to traditional clustering algorithms, and it also avoided the problems of subjective determination of clustering data and sensitiveness to initial clustering center. [Conclusion] This study provides a new clustering method for the genetic data clustering.