计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2012年
4期
735-745
,共11页
陈铁明%马继霞%Samuel H.Huang%蔡家楣
陳鐵明%馬繼霞%Samuel H.Huang%蔡傢楣
진철명%마계하%Samuel H.Huang%채가미
离散化%频数表%特征选择%规则提取%数据分类%隐私保护
離散化%頻數錶%特徵選擇%規則提取%數據分類%隱私保護
리산화%빈수표%특정선택%규칙제취%수거분류%은사보호
针对数据分类问题提出一种新型高效的特征选择和规则提取方法.首先通过减少初始区间数量改进Chi-Merge离散化方法,再采用改进的Chi-Merge离散化连续型特征变量;特征离散化后,统计样本数据在每个特征子集划分下的频数表,并根据频数表计算数据不一致率,再利用顺序前向最优搜索的方法,快速确定特征数量由小到大的每一个最优特征子集;根据特征子集对应的数据不一致率差异最小化原则,完成特征个数最小化的最优特征子集筛选;根据最优特征子集的数据频数表,可直接提取数据分类规则.实验表明,快速提取的规则可获得较好的分类效果.基于该特征选择方法,提出一种面向分布式同构数据的快速分类模型,不但具有良好的分类效果,还支持对样本数据内容的隐私保护.
針對數據分類問題提齣一種新型高效的特徵選擇和規則提取方法.首先通過減少初始區間數量改進Chi-Merge離散化方法,再採用改進的Chi-Merge離散化連續型特徵變量;特徵離散化後,統計樣本數據在每箇特徵子集劃分下的頻數錶,併根據頻數錶計算數據不一緻率,再利用順序前嚮最優搜索的方法,快速確定特徵數量由小到大的每一箇最優特徵子集;根據特徵子集對應的數據不一緻率差異最小化原則,完成特徵箇數最小化的最優特徵子集篩選;根據最優特徵子集的數據頻數錶,可直接提取數據分類規則.實驗錶明,快速提取的規則可穫得較好的分類效果.基于該特徵選擇方法,提齣一種麵嚮分佈式同構數據的快速分類模型,不但具有良好的分類效果,還支持對樣本數據內容的隱私保護.
침대수거분류문제제출일충신형고효적특정선택화규칙제취방법.수선통과감소초시구간수량개진Chi-Merge리산화방법,재채용개진적Chi-Merge리산화련속형특정변량;특정리산화후,통계양본수거재매개특정자집화분하적빈수표,병근거빈수표계산수거불일치솔,재이용순서전향최우수색적방법,쾌속학정특정수량유소도대적매일개최우특정자집;근거특정자집대응적수거불일치솔차이최소화원칙,완성특정개수최소화적최우특정자집사선;근거최우특정자집적수거빈수표,가직접제취수거분류규칙.실험표명,쾌속제취적규칙가획득교호적분류효과.기우해특정선택방법,제출일충면향분포식동구수거적쾌속분류모형,불단구유량호적분류효과,환지지대양본수거내용적은사보호.