计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2009年
z2期
480-486
,共7页
于娟%韩建民%郭腾芳%夏赞珠
于娟%韓建民%郭騰芳%夏讚珠
우연%한건민%곽등방%하찬주
k-匿名%KACA算法%c-modes算法%信息损失
k-匿名%KACA算法%c-modes算法%信息損失
k-닉명%KACA산법%c-modes산법%신식손실
k-anonymity%KACA algorithm%c-modes algorithm%information loss
KACA算法是一种较好的基于局部重编码的k-匿名化算法,它产生的匿名化微数据的信息损失少,数据可用性高.但该算法的效率低,不适合匿名化规模很大的微数据.为解决该问题,将高效的聚类算法--c-modes算法--与KACA算法结合,提出了c-modes-KACA算法.该算法首先采用C-modes算法将整个数据集划分为较大的类,然后采用KACA算法来分别k-匿名化这些类中元组数大于2k-1的类.实验表明,c-modes-KACA算法产生的信息损失量与KACA算法相近,效率却比KACA算法高得多.
KACA算法是一種較好的基于跼部重編碼的k-匿名化算法,它產生的匿名化微數據的信息損失少,數據可用性高.但該算法的效率低,不適閤匿名化規模很大的微數據.為解決該問題,將高效的聚類算法--c-modes算法--與KACA算法結閤,提齣瞭c-modes-KACA算法.該算法首先採用C-modes算法將整箇數據集劃分為較大的類,然後採用KACA算法來分彆k-匿名化這些類中元組數大于2k-1的類.實驗錶明,c-modes-KACA算法產生的信息損失量與KACA算法相近,效率卻比KACA算法高得多.
KACA산법시일충교호적기우국부중편마적k-닉명화산법,타산생적닉명화미수거적신식손실소,수거가용성고.단해산법적효솔저,불괄합닉명화규모흔대적미수거.위해결해문제,장고효적취류산법--c-modes산법--여KACA산법결합,제출료c-modes-KACA산법.해산법수선채용C-modes산법장정개수거집화분위교대적류,연후채용KACA산법래분별k-닉명화저사류중원조수대우2k-1적류.실험표명,c-modes-KACA산법산생적신식손실량여KACA산법상근,효솔각비KACA산법고득다.
KACA is a fine k-anonymization algorithm based on local-recoding,which anonymizes microdata with low information loss,so the anonymized microdata has high data utility.However,the KACA algorithm is inefficient in k-anonymzing large datasets.To solve the problem,an efficient k-anonymization algorithm is proposed,which combines the efficient c-modes algorithm with the KACA algorithm.The proposed algorithm adopts the c-modes algorithm to partition the whole dataset into some large clusters at first.then uses the KACA algorithm to k-anonymize these clusters which have more than 2k-1 tuples respectively.Experimental results show that the proposed algorithm has higher efficiency than KACA with similar information loss.