中国计量学院学报
中國計量學院學報
중국계량학원학보
JOURNAL OF CHINA INSTITUTE OF METROLOGY
2015年
2期
227-231
,共5页
刘亚卿%陆慧娟%杜帮俊%余翠
劉亞卿%陸慧娟%杜幫俊%餘翠
류아경%륙혜연%두방준%여취
主成分分析%旋转森林%集成学习%ReliefF算法%决策树
主成分分析%鏇轉森林%集成學習%ReliefF算法%決策樹
주성분분석%선전삼림%집성학습%ReliefF산법%결책수
principal components analysis%rotation forest%ensemble learning%reliefF%decision tree
针对基因表达数据高维和小样本的特点,介绍一种基于主成分分析的决策树集成分类算法——旋转森林.首先通过对数据属性集的随机分割,再对子集进行主成分分析变换,保留全部的主成分系数,重新组成一个稀疏矩阵.然后对变换后的数据利用非剪枝决策树集成算法进行分类.再结合ReliefF算法,选用3组基因表达数据验证算法,对比Bagging决策树和随机森林两种集成方法.结果表明旋转森林算法对基因数据具有更好的分类精度,同时验证旋转森林在较低的集成数的情况下,可以取得良好的效果.
針對基因錶達數據高維和小樣本的特點,介紹一種基于主成分分析的決策樹集成分類算法——鏇轉森林.首先通過對數據屬性集的隨機分割,再對子集進行主成分分析變換,保留全部的主成分繫數,重新組成一箇稀疏矩陣.然後對變換後的數據利用非剪枝決策樹集成算法進行分類.再結閤ReliefF算法,選用3組基因錶達數據驗證算法,對比Bagging決策樹和隨機森林兩種集成方法.結果錶明鏇轉森林算法對基因數據具有更好的分類精度,同時驗證鏇轉森林在較低的集成數的情況下,可以取得良好的效果.
침대기인표체수거고유화소양본적특점,개소일충기우주성분분석적결책수집성분류산법——선전삼림.수선통과대수거속성집적수궤분할,재대자집진행주성분분석변환,보류전부적주성분계수,중신조성일개희소구진.연후대변환후적수거이용비전지결책수집성산법진행분류.재결합ReliefF산법,선용3조기인표체수거험증산법,대비Bagging결책수화수궤삼림량충집성방법.결과표명선전삼림산법대기인수거구유경호적분류정도,동시험증선전삼림재교저적집성수적정황하,가이취득량호적효과.