中国医院统计
中國醫院統計
중국의원통계
CHINESE JOURNAL OF HOSPITAL STATISTICS
2011年
1期
1-5
,共5页
Boosting%高维数据%分类研究%特征筛选
Boosting%高維數據%分類研究%特徵篩選
Boosting%고유수거%분류연구%특정사선
目的 随着现代基因组学、蛋白组学和代谢组学等研究兴起,产生了大量的高维组学数据.对高维组学数据的分析,其重要任务是对样品进行分类及筛选出具有生物学意义的特征标志物.本项研究针对这一问题,采用目前公认效果较好的Boosting方法进行高维数据分析,并探讨Boosting算法在高维数据研究中的应用条件和效果.方法 通过多次迭代,Boosting能够将基础弱分类器(决策树)形成优效分类器.模拟试验研究和验证了在含有大量无差异变量情况下对分类及变量重要性度量的效果,并通过实际基因表达数据进一步考核其应用效果.结果 模拟试验显示,应用Boosting方法与决策树所建的组合模型对分类具有较高的准确性,并对噪声变量的干扰具有一定的抵抗能力.分类的同时能够对变量的重要性进行有效的评价;在保留了所有基因的情况下,对结肠癌真实基因表达数据的分类效果甚为理想,并为医学研究中结肠癌致病基因的发现提供了线索.结论 基于决策树所构造的Boosting组合分类模型,可以有效地应用于高维数据的判别分类及变量重要性评价的问题.Boosting算法在解决小样本、多噪声的高维问题中表现出许多潜在的优势,与目前使用的其他方法相比,对于具有复杂结构高维数据,Boosting算法有其明显的自身特点,如运算速度快,适用性更强,软件实现相对容易等,是一种值得推荐和进一步研究的方法.
目的 隨著現代基因組學、蛋白組學和代謝組學等研究興起,產生瞭大量的高維組學數據.對高維組學數據的分析,其重要任務是對樣品進行分類及篩選齣具有生物學意義的特徵標誌物.本項研究針對這一問題,採用目前公認效果較好的Boosting方法進行高維數據分析,併探討Boosting算法在高維數據研究中的應用條件和效果.方法 通過多次迭代,Boosting能夠將基礎弱分類器(決策樹)形成優效分類器.模擬試驗研究和驗證瞭在含有大量無差異變量情況下對分類及變量重要性度量的效果,併通過實際基因錶達數據進一步攷覈其應用效果.結果 模擬試驗顯示,應用Boosting方法與決策樹所建的組閤模型對分類具有較高的準確性,併對譟聲變量的榦擾具有一定的牴抗能力.分類的同時能夠對變量的重要性進行有效的評價;在保留瞭所有基因的情況下,對結腸癌真實基因錶達數據的分類效果甚為理想,併為醫學研究中結腸癌緻病基因的髮現提供瞭線索.結論 基于決策樹所構造的Boosting組閤分類模型,可以有效地應用于高維數據的判彆分類及變量重要性評價的問題.Boosting算法在解決小樣本、多譟聲的高維問題中錶現齣許多潛在的優勢,與目前使用的其他方法相比,對于具有複雜結構高維數據,Boosting算法有其明顯的自身特點,如運算速度快,適用性更彊,軟件實現相對容易等,是一種值得推薦和進一步研究的方法.
목적 수착현대기인조학、단백조학화대사조학등연구흥기,산생료대량적고유조학수거.대고유조학수거적분석,기중요임무시대양품진행분류급사선출구유생물학의의적특정표지물.본항연구침대저일문제,채용목전공인효과교호적Boosting방법진행고유수거분석,병탐토Boosting산법재고유수거연구중적응용조건화효과.방법 통과다차질대,Boosting능구장기출약분류기(결책수)형성우효분류기.모의시험연구화험증료재함유대량무차이변량정황하대분류급변량중요성도량적효과,병통과실제기인표체수거진일보고핵기응용효과.결과 모의시험현시,응용Boosting방법여결책수소건적조합모형대분류구유교고적준학성,병대조성변량적간우구유일정적저항능력.분류적동시능구대변량적중요성진행유효적평개;재보류료소유기인적정황하,대결장암진실기인표체수거적분류효과심위이상,병위의학연구중결장암치병기인적발현제공료선색.결론 기우결책수소구조적Boosting조합분류모형,가이유효지응용우고유수거적판별분류급변량중요성평개적문제.Boosting산법재해결소양본、다조성적고유문제중표현출허다잠재적우세,여목전사용적기타방법상비,대우구유복잡결구고유수거,Boosting산법유기명현적자신특점,여운산속도쾌,괄용성경강,연건실현상대용역등,시일충치득추천화진일보연구적방법.