计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2009年
z2期
884-889
,共6页
属性选择%属性相关%属性交互作用%条件熵
屬性選擇%屬性相關%屬性交互作用%條件熵
속성선택%속성상관%속성교호작용%조건적
feature subset selection%feature relevance%feature interaction%conditional entropy
属性选择是提高分类器性能的一种有效的方法.然而已有的属性选择算法要么假设数据无噪声,要么没有考虑属性间的交互作用,不能用于数据集中既有噪声又存在属性交互作用的情况.提出一种基于信息熵的属性选择算法,该算法用条件熵来评价属性子集对目标概念的描述能力,利用后向删除搜索策略进行属性选择.同时,根据不一致实例和关联规则中提升度的概念,给出噪声数据的定义和识别方法.该算法和典型的属性选择算法在10个UCI标准数据集上的对比实验结果表明,提出的算法在减少属性数量的同时将C4.5和NaiveBayes的平均分类精度分别提高了2.77%和3.42%.
屬性選擇是提高分類器性能的一種有效的方法.然而已有的屬性選擇算法要麽假設數據無譟聲,要麽沒有攷慮屬性間的交互作用,不能用于數據集中既有譟聲又存在屬性交互作用的情況.提齣一種基于信息熵的屬性選擇算法,該算法用條件熵來評價屬性子集對目標概唸的描述能力,利用後嚮刪除搜索策略進行屬性選擇.同時,根據不一緻實例和關聯規則中提升度的概唸,給齣譟聲數據的定義和識彆方法.該算法和典型的屬性選擇算法在10箇UCI標準數據集上的對比實驗結果錶明,提齣的算法在減少屬性數量的同時將C4.5和NaiveBayes的平均分類精度分彆提高瞭2.77%和3.42%.
속성선택시제고분류기성능적일충유효적방법.연이이유적속성선택산법요요가설수거무조성,요요몰유고필속성간적교호작용,불능용우수거집중기유조성우존재속성교호작용적정황.제출일충기우신식적적속성선택산법,해산법용조건적래평개속성자집대목표개념적묘술능력,이용후향산제수색책략진행속성선택.동시,근거불일치실례화관련규칙중제승도적개념,급출조성수거적정의화식별방법.해산법화전형적속성선택산법재10개UCI표준수거집상적대비실험결과표명,제출적산법재감소속성수량적동시장C4.5화NaiveBayes적평균분류정도분별제고료2.77%화3.42%.
Feature subset selection is a quite hot topic in the classifier research,and a large number of algorithms have already been proposed.However,none of them can handle both the feature interaction and the noise.In this paper,a new entropy-based feature subset algorithm is presented.In the proposed algorithm,conditional entropy is adopted to measure feature subset's discriminating ability for differentiating class labels.Backward elimination search is used to find the best subset.Meanwhile,the proposed algorithm is able to handle noise data.Experimental results show that the algorithm can address the feature interaction and further improve the performance of C4.5 and NaiveBayes.