数据采集与处理
數據採集與處理
수거채집여처리
JOURNAL OF DATA ACQUISITION & PROCESSING
2014年
1期
83-89
,共7页
基因表达谱数据%基因选择%微粒群优化%极限学习机
基因錶達譜數據%基因選擇%微粒群優化%極限學習機
기인표체보수거%기인선택%미립군우화%겁한학습궤
gene expression data%gene selection%particle swarm optimization%extreme learning machine
在高维的基因表达谱数据中,只有少量基因对分类诊断其作用,而且还存在大量冗余的与癌症分类诊断无关的噪声基因,这些都会导致分类性能的下降.通过基因选择选取与分类紧密关联的基因,不仅能够剔除与疾病无关的基因,减少机器学习算法的时间复杂度和空间复杂度,提高分类的正确率,而且选出的特征基因可以作为肿瘤基因诊断和肿瘤药物治疗靶标确定的依据,降低后期生物学分析成本.本文提出一种基于聚类和粒子群算法(Particle swarm optimization,PSO)的基因选择方法,在PSO算法进行搜索之前,先对基因进行聚类,并对聚类结果进行选择,将被选中的簇的中心作为PSO的初始值,每个被选中的簇作为一个搜索空间,并利用极限学习机(Extreme learning machine,ELM)的分类精度作为特征选择的适应评价标准.该算法不仅有效地利用了聚类算法对基因进行初步归并的能力,也利用了PSO算法的全局优化能力,克服了传统PSO算法早熟、局部收敛速度慢的缺点,因此它能够高效地完成最优基因子集的确定,同时提高癌症分类正确率.
在高維的基因錶達譜數據中,隻有少量基因對分類診斷其作用,而且還存在大量冗餘的與癌癥分類診斷無關的譟聲基因,這些都會導緻分類性能的下降.通過基因選擇選取與分類緊密關聯的基因,不僅能夠剔除與疾病無關的基因,減少機器學習算法的時間複雜度和空間複雜度,提高分類的正確率,而且選齣的特徵基因可以作為腫瘤基因診斷和腫瘤藥物治療靶標確定的依據,降低後期生物學分析成本.本文提齣一種基于聚類和粒子群算法(Particle swarm optimization,PSO)的基因選擇方法,在PSO算法進行搜索之前,先對基因進行聚類,併對聚類結果進行選擇,將被選中的簇的中心作為PSO的初始值,每箇被選中的簇作為一箇搜索空間,併利用極限學習機(Extreme learning machine,ELM)的分類精度作為特徵選擇的適應評價標準.該算法不僅有效地利用瞭聚類算法對基因進行初步歸併的能力,也利用瞭PSO算法的全跼優化能力,剋服瞭傳統PSO算法早熟、跼部收斂速度慢的缺點,因此它能夠高效地完成最優基因子集的確定,同時提高癌癥分類正確率.
재고유적기인표체보수거중,지유소량기인대분류진단기작용,이차환존재대량용여적여암증분류진단무관적조성기인,저사도회도치분류성능적하강.통과기인선택선취여분류긴밀관련적기인,불부능구척제여질병무관적기인,감소궤기학습산법적시간복잡도화공간복잡도,제고분류적정학솔,이차선출적특정기인가이작위종류기인진단화종류약물치료파표학정적의거,강저후기생물학분석성본.본문제출일충기우취류화입자군산법(Particle swarm optimization,PSO)적기인선택방법,재PSO산법진행수색지전,선대기인진행취류,병대취류결과진행선택,장피선중적족적중심작위PSO적초시치,매개피선중적족작위일개수색공간,병이용겁한학습궤(Extreme learning machine,ELM)적분류정도작위특정선택적괄응평개표준.해산법불부유효지이용료취류산법대기인진행초보귀병적능력,야이용료PSO산법적전국우화능력,극복료전통PSO산법조숙、국부수렴속도만적결점,인차타능구고효지완성최우기인자집적학정,동시제고암증분류정학솔.