计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
10期
123-127,141
,共6页
不完整大数据%聚类分析%数据填充
不完整大數據%聚類分析%數據填充
불완정대수거%취류분석%수거전충
incomplete big data%clustering analysis%data imputation
不完整数据的分析与填充一直是大数据处理的热点研究课题,传统的分析方法无法对不完整数据直接聚类,大部分方法先填充缺失值,然后对数据聚类。这些方法一般利用整个数据集对缺失数据进行填充,使得填充值容易受到噪声的干扰,导致填充结果不精确,进而造成聚类精度很低。提出一种不完整数据聚类算法,对不完全信息系统的相似度公式进行重新定义,给出不完整数据对象间的相似度度量方式,进而直接对不完整数据聚类。根据聚类结果将同一类对象划分到相同的簇中,通过同一类对象的属性值对缺失值进行填充,避免噪声对填充值的干扰,提高填充结果的精确性。实验结果表明,提出的方法能够对不完整数据进行聚类,并有效提高缺失数据的填充精度。
不完整數據的分析與填充一直是大數據處理的熱點研究課題,傳統的分析方法無法對不完整數據直接聚類,大部分方法先填充缺失值,然後對數據聚類。這些方法一般利用整箇數據集對缺失數據進行填充,使得填充值容易受到譟聲的榦擾,導緻填充結果不精確,進而造成聚類精度很低。提齣一種不完整數據聚類算法,對不完全信息繫統的相似度公式進行重新定義,給齣不完整數據對象間的相似度度量方式,進而直接對不完整數據聚類。根據聚類結果將同一類對象劃分到相同的簇中,通過同一類對象的屬性值對缺失值進行填充,避免譟聲對填充值的榦擾,提高填充結果的精確性。實驗結果錶明,提齣的方法能夠對不完整數據進行聚類,併有效提高缺失數據的填充精度。
불완정수거적분석여전충일직시대수거처리적열점연구과제,전통적분석방법무법대불완정수거직접취류,대부분방법선전충결실치,연후대수거취류。저사방법일반이용정개수거집대결실수거진행전충,사득전충치용역수도조성적간우,도치전충결과불정학,진이조성취류정도흔저。제출일충불완정수거취류산법,대불완전신식계통적상사도공식진행중신정의,급출불완정수거대상간적상사도도량방식,진이직접대불완정수거취류。근거취류결과장동일류대상화분도상동적족중,통과동일류대상적속성치대결실치진행전충,피면조성대전충치적간우,제고전충결과적정학성。실험결과표명,제출적방법능구대불완정수거진행취류,병유효제고결실수거적전충정도。
Imputing missing values is a hot research topic in big data processing. Incomplete big data could not be clustered directly, which must be preprocessed, such as inputing missing values. Traditional algorithms, which fill missing values depending on the statistical theory of the data set, are corrupted by noise data, which decreases the imputation accuracy. The paper proposes a novel algorithm to fill missing values based on AP clustering, which clusters incomplete big data directly by proposing a new similarity metrics. The data in the same cluster is utilized to fill missing values which aims at avoiding noise corruption to improve the filling accuracy. Experiment demonstrates the proposed algorithm can cluster the incomplete big data directly and improve the accuracy for filling missing data effectively.