统计与信息论坛
統計與信息論罈
통계여신식론단
STATISTICS & INFORMATION TRIBUNE
2015年
1期
35-39,40
,共6页
于力超%金勇进%王俊
于力超%金勇進%王俊
우력초%금용진%왕준
关联规则%缺失数据%最近邻插补%加权距离
關聯規則%缺失數據%最近鄰插補%加權距離
관련규칙%결실수거%최근린삽보%가권거리
association rules%missing data%nearest neighbor imputation%weighted distance
提出基于最近邻插补和关联规则的缺失数据插补方法,将不含缺失数据的变量作为辅助变量,通过定义距离函数寻找与含缺失数据的样本单元距离较近的样本,然后利用挖掘得到的关联规则支持度和提升度乘积的倒数作为权重,对样本单元之间的距离进行加权处理,得到加权距离,再用加权距离最小的样本单元对应的属性值对缺失值进行插补。这种方法可以解决由不同最近距离样本单元得到不同插补值的问题,最后给出了该方法的实施步骤和应用范例。
提齣基于最近鄰插補和關聯規則的缺失數據插補方法,將不含缺失數據的變量作為輔助變量,通過定義距離函數尋找與含缺失數據的樣本單元距離較近的樣本,然後利用挖掘得到的關聯規則支持度和提升度乘積的倒數作為權重,對樣本單元之間的距離進行加權處理,得到加權距離,再用加權距離最小的樣本單元對應的屬性值對缺失值進行插補。這種方法可以解決由不同最近距離樣本單元得到不同插補值的問題,最後給齣瞭該方法的實施步驟和應用範例。
제출기우최근린삽보화관련규칙적결실수거삽보방법,장불함결실수거적변량작위보조변량,통과정의거리함수심조여함결실수거적양본단원거리교근적양본,연후이용알굴득도적관련규칙지지도화제승도승적적도수작위권중,대양본단원지간적거리진행가권처리,득도가권거리,재용가권거리최소적양본단원대응적속성치대결실치진행삽보。저충방법가이해결유불동최근거리양본단원득도불동삽보치적문제,최후급출료해방법적실시보취화응용범례。
This paper proposes a new missing data imputation method based on nearest neighbor imputation and the association rules . T he variables w hose sample data are complete can be used as auxiliary variables ,by defining the distance function we can obtain which sample (with complete data) is nearest to the sample with missing data . Then we calculate weight using the support and lift of the association rules related to the missing data ,so that we get the weighted distance ,the weighted distance reasonably reflects the dependency relationships among samples with complete data and samples with missing data .A new completing procedure and an example are developed and presented .