计算机与应用化学
計算機與應用化學
계산궤여응용화학
COMPUTERS AND APPLIED CHEMISTRY
2012年
7期
817-821
,共5页
颜克胜%李太福%魏正元%苏盈盈%姚立忠
顏剋勝%李太福%魏正元%囌盈盈%姚立忠
안극성%리태복%위정원%소영영%요립충
偏最小二乘%虚假最近邻点%相似性测度%特征选择
偏最小二乘%虛假最近鄰點%相似性測度%特徵選擇
편최소이승%허가최근린점%상사성측도%특정선택
在高维数据分类中,针对多重共线性、冗余特征及噪声易导致分类器识别精度低和时空开销大的问题,提出融合偏最小二乘(Partial Least Squares,PLS)有监督特征提取和虚假最近邻点(False Nearest Neighbors,FNN)的特征选择方法:首先利用偏最小二乘对高维数据提取主元,消除特征之间的多重共线性,得到携带监督信息的独立主元空间;然后通过计算各特征选择前后在此空间的相关性,建立基于虚假最近邻点的特征相似性测度,得到原始特征对类别变量解释能力强弱排序;最后,依次剔除解释能力弱的特征,构造出各种分类模型,并以支持向量机(Support Vector Machine,SVM)分类识别率为模型评估准则,搜索出识别率最高但含特征数最少的分类模型,此模型所含的特征即为最佳特征子集.3个数据集模型仿真结果均表明,由此法选择出的最佳特征子集与各数据集的本质分类特征吻合,说明该方法有良好的特征选择能力,为数据分类特征选择提供了一条新途径.
在高維數據分類中,針對多重共線性、冗餘特徵及譟聲易導緻分類器識彆精度低和時空開銷大的問題,提齣融閤偏最小二乘(Partial Least Squares,PLS)有鑑督特徵提取和虛假最近鄰點(False Nearest Neighbors,FNN)的特徵選擇方法:首先利用偏最小二乘對高維數據提取主元,消除特徵之間的多重共線性,得到攜帶鑑督信息的獨立主元空間;然後通過計算各特徵選擇前後在此空間的相關性,建立基于虛假最近鄰點的特徵相似性測度,得到原始特徵對類彆變量解釋能力彊弱排序;最後,依次剔除解釋能力弱的特徵,構造齣各種分類模型,併以支持嚮量機(Support Vector Machine,SVM)分類識彆率為模型評估準則,搜索齣識彆率最高但含特徵數最少的分類模型,此模型所含的特徵即為最佳特徵子集.3箇數據集模型倣真結果均錶明,由此法選擇齣的最佳特徵子集與各數據集的本質分類特徵吻閤,說明該方法有良好的特徵選擇能力,為數據分類特徵選擇提供瞭一條新途徑.
재고유수거분류중,침대다중공선성、용여특정급조성역도치분류기식별정도저화시공개소대적문제,제출융합편최소이승(Partial Least Squares,PLS)유감독특정제취화허가최근린점(False Nearest Neighbors,FNN)적특정선택방법:수선이용편최소이승대고유수거제취주원,소제특정지간적다중공선성,득도휴대감독신식적독립주원공간;연후통과계산각특정선택전후재차공간적상관성,건립기우허가최근린점적특정상사성측도,득도원시특정대유별변량해석능력강약배서;최후,의차척제해석능력약적특정,구조출각충분류모형,병이지지향량궤(Support Vector Machine,SVM)분류식별솔위모형평고준칙,수색출식별솔최고단함특정수최소적분류모형,차모형소함적특정즉위최가특정자집.3개수거집모형방진결과균표명,유차법선택출적최가특정자집여각수거집적본질분류특정문합,설명해방법유량호적특정선택능력,위수거분류특정선택제공료일조신도경.