计算机系统应用
計算機繫統應用
계산궤계통응용
APPLICATIONS OF THE COMPUTER SYSTEMS
2013年
8期
103-108,158
,共7页
陈雪云%郭躬德%陈黎飞%卢伟胜
陳雪雲%郭躬德%陳黎飛%盧偉勝
진설운%곽궁덕%진려비%로위성
类属性数据%k-近邻%互k-近邻%基尼系数
類屬性數據%k-近鄰%互k-近鄰%基尼繫數
류속성수거%k-근린%호k-근린%기니계수
nominal data%k-nearest neighbor%mutual k-nearest neighbor%Gini index
互k近邻MKnn算法是k-近邻算法的一种有效改进算法,但其对类属性数据通常采用属性值相同为0,不同为1的方法处理,从而在类属性数据较多的数据集上分类效率受到一定程度的抑制。针对MKnn对类属性数据处理方法的不足,对类属性数据的处理引进类别基尼系数的概念,对同类样本,用基尼系数统计某一类属性中不同值分布对这个类的贡献度作为此类属性的权重,并以此作为估算不同样本之间的相似性对MKnn进行优化,扩宽MKnn的使用面。实验结果验证了该方法的有效性。
互k近鄰MKnn算法是k-近鄰算法的一種有效改進算法,但其對類屬性數據通常採用屬性值相同為0,不同為1的方法處理,從而在類屬性數據較多的數據集上分類效率受到一定程度的抑製。針對MKnn對類屬性數據處理方法的不足,對類屬性數據的處理引進類彆基尼繫數的概唸,對同類樣本,用基尼繫數統計某一類屬性中不同值分佈對這箇類的貢獻度作為此類屬性的權重,併以此作為估算不同樣本之間的相似性對MKnn進行優化,擴寬MKnn的使用麵。實驗結果驗證瞭該方法的有效性。
호k근린MKnn산법시k-근린산법적일충유효개진산법,단기대류속성수거통상채용속성치상동위0,불동위1적방법처리,종이재류속성수거교다적수거집상분류효솔수도일정정도적억제。침대MKnn대류속성수거처리방법적불족,대류속성수거적처리인진유별기니계수적개념,대동류양본,용기니계수통계모일류속성중불동치분포대저개류적공헌도작위차류속성적권중,병이차작위고산불동양본지간적상사성대MKnn진행우화,확관MKnn적사용면。실험결과험증료해방법적유효성。
MKnn is an improved version of the k-nearest neighbor method, but it uses general approach to deal with nominal data, that is, if its value is the same then to 0, different to 1, thus the classification efficiency is suppressed a certain degree on the data sets with more nominal data. The concept of Category's Gini is introduced in this paper to deal with the shortage of the processing on nominal data, which statistics the contribution of samples in same class by its data distribution for its category and takes it as the attribute weight, used to estimate the similarity for different samples. It aims to optimize the MKnn method and promotes its applications. The experimental results demonstrate the effect-tiveness of the proposed method.