计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2007年
8期
171-176
,共6页
微阵列%聚类%降维
微陣列%聚類%降維
미진렬%취류%강유
DNA微阵列技术使同时监测成千上万的基因表达水平成为可能.直接把传统聚类算法用于高维基因表达数据分析会受到"维难"的困扰.特征转换和特征选择是两种常用的降维方式,但前者产生的新特征难以用原来的领域知识解释,后者通常会丢失信息.另外,传统的聚类算法通常由用户指定聚类参数,参数设置不同对聚类结果有很大的影响.针对上述问题,本文提出了一种新的基于迭代扩张的微阵列数据聚类算法-CIS.它不采用特征转换和特征选择的方式,并自动确定聚类参数.CIS反复用最新得到的样本聚簇得到新的聚类基因,然后以新的基因聚簇为特征重新聚类样本,逐步求精,最终的结果容易解释且避免了信息的丢失.该方法降低了由于用户缺少领域知识引起的实验误差.CIS算法被应用于两个真实的微阵列数据集,实验结果证实了算法的有效性.
DNA微陣列技術使同時鑑測成韆上萬的基因錶達水平成為可能.直接把傳統聚類算法用于高維基因錶達數據分析會受到"維難"的睏擾.特徵轉換和特徵選擇是兩種常用的降維方式,但前者產生的新特徵難以用原來的領域知識解釋,後者通常會丟失信息.另外,傳統的聚類算法通常由用戶指定聚類參數,參數設置不同對聚類結果有很大的影響.針對上述問題,本文提齣瞭一種新的基于迭代擴張的微陣列數據聚類算法-CIS.它不採用特徵轉換和特徵選擇的方式,併自動確定聚類參數.CIS反複用最新得到的樣本聚簇得到新的聚類基因,然後以新的基因聚簇為特徵重新聚類樣本,逐步求精,最終的結果容易解釋且避免瞭信息的丟失.該方法降低瞭由于用戶缺少領域知識引起的實驗誤差.CIS算法被應用于兩箇真實的微陣列數據集,實驗結果證實瞭算法的有效性.
DNA미진렬기술사동시감측성천상만적기인표체수평성위가능.직접파전통취류산법용우고유기인표체수거분석회수도"유난"적곤우.특정전환화특정선택시량충상용적강유방식,단전자산생적신특정난이용원래적영역지식해석,후자통상회주실신식.령외,전통적취류산법통상유용호지정취류삼수,삼수설치불동대취류결과유흔대적영향.침대상술문제,본문제출료일충신적기우질대확장적미진렬수거취류산법-CIS.타불채용특정전환화특정선택적방식,병자동학정취류삼수.CIS반복용최신득도적양본취족득도신적취류기인,연후이신적기인취족위특정중신취류양본,축보구정,최종적결과용역해석차피면료신식적주실.해방법강저료유우용호결소영역지식인기적실험오차.CIS산법피응용우량개진실적미진렬수거집,실험결과증실료산법적유효성.