计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2007年
8期
1324-1330
,共7页
陈景年%黄厚宽%田凤占%付树军
陳景年%黃厚寬%田鳳佔%付樹軍
진경년%황후관%전봉점%부수군
贝叶斯方法%分类%特征选择%不完整数据%X2统计量
貝葉斯方法%分類%特徵選擇%不完整數據%X2統計量
패협사방법%분류%특정선택%불완정수거%X2통계량
选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多冗余属性或无关属性.如同完整数据的情形一样,不完整数据集中的冗余属性或无关属性也会使分类性能大幅下降.因此,对用于不完整数据的选择性分类器的研究是一项重要的研究课题.通过分析以往在分类过程中对不完整数据的处理方法,提出了两种用于不完整数据的选择性贝叶斯分类器:SRBC和CBSRBC.SRBC是基于一种鲁棒贝叶斯分类器构建的,而CBSRBC则是在SRBC基础上利用X2统计量构建的.在12个标准的不完整数据集上的实验结果表明,这两种方法在大幅度减少属性数目的同时,能显著提高分类准确率和稳定性.从总体上来讲,CBSRBC在分类精度、运行效率等方面都优于SRBC算法,而SRBC需要预先指定的阈值要少一些.
選擇性分類器通過刪除數據集中的無關屬性和冗餘屬性可以有效地提高分類精度和效率.因此,一些選擇性分類器應運而生.然而,由于處理不完整數據的複雜性,它們大都是針對完整數據的.由于各種原因,現實中的數據通常是不完整的併且包含許多冗餘屬性或無關屬性.如同完整數據的情形一樣,不完整數據集中的冗餘屬性或無關屬性也會使分類性能大幅下降.因此,對用于不完整數據的選擇性分類器的研究是一項重要的研究課題.通過分析以往在分類過程中對不完整數據的處理方法,提齣瞭兩種用于不完整數據的選擇性貝葉斯分類器:SRBC和CBSRBC.SRBC是基于一種魯棒貝葉斯分類器構建的,而CBSRBC則是在SRBC基礎上利用X2統計量構建的.在12箇標準的不完整數據集上的實驗結果錶明,這兩種方法在大幅度減少屬性數目的同時,能顯著提高分類準確率和穩定性.從總體上來講,CBSRBC在分類精度、運行效率等方麵都優于SRBC算法,而SRBC需要預先指定的閾值要少一些.
선택성분류기통과산제수거집중적무관속성화용여속성가이유효지제고분류정도화효솔.인차,일사선택성분류기응운이생.연이,유우처리불완정수거적복잡성,타문대도시침대완정수거적.유우각충원인,현실중적수거통상시불완정적병차포함허다용여속성혹무관속성.여동완정수거적정형일양,불완정수거집중적용여속성혹무관속성야회사분류성능대폭하강.인차,대용우불완정수거적선택성분류기적연구시일항중요적연구과제.통과분석이왕재분류과정중대불완정수거적처리방법,제출료량충용우불완정수거적선택성패협사분류기:SRBC화CBSRBC.SRBC시기우일충로봉패협사분류기구건적,이CBSRBC칙시재SRBC기출상이용X2통계량구건적.재12개표준적불완정수거집상적실험결과표명,저량충방법재대폭도감소속성수목적동시,능현저제고분류준학솔화은정성.종총체상래강,CBSRBC재분류정도、운행효솔등방면도우우SRBC산법,이SRBC수요예선지정적역치요소일사.