通信学报
通信學報
통신학보
Journal on Communications
2015年
8期
1-7
,共7页
姚文斌%叶鹏迪%李小勇%常静坤
姚文斌%葉鵬迪%李小勇%常靜坤
요문빈%협붕적%리소용%상정곤
重复数据删除%查重元数据%近邻压缩规则
重複數據刪除%查重元數據%近鄰壓縮規則
중복수거산제%사중원수거%근린압축규칙
deduplication%deduplication metadata%condensed nearest neighbor rule
随着重复数据删除次数的增加,系统中用于存储指纹索引的清单文件等元数据信息会不断累积,导致不可忽视的存储资源开销.因此,如何在不影响重复数据删除率的基础上,对重复数据删除过程中产生的元数据信息进行压缩,从而减小查重索引,是进一步提高重复数据删除效率和存储资源利用率的重要因素.针对查重元数据中存在大量冗余数据,提出了一种基于压缩近邻的查重元数据去冗算法Dedup2.该算法先利用聚类算法将查重元数据分为若干类,然后利用压缩近邻算法消除查重元数据中相似度较高的数据以获得查重子集,并在该查重子集上利用文件相似性对数据对象进行重复数据删除操作.实验结果表明,Dedup2可以在保持近似的重复数据删除比的基础上,将查重索引大小压缩50%以上.
隨著重複數據刪除次數的增加,繫統中用于存儲指紋索引的清單文件等元數據信息會不斷纍積,導緻不可忽視的存儲資源開銷.因此,如何在不影響重複數據刪除率的基礎上,對重複數據刪除過程中產生的元數據信息進行壓縮,從而減小查重索引,是進一步提高重複數據刪除效率和存儲資源利用率的重要因素.針對查重元數據中存在大量冗餘數據,提齣瞭一種基于壓縮近鄰的查重元數據去冗算法Dedup2.該算法先利用聚類算法將查重元數據分為若榦類,然後利用壓縮近鄰算法消除查重元數據中相似度較高的數據以穫得查重子集,併在該查重子集上利用文件相似性對數據對象進行重複數據刪除操作.實驗結果錶明,Dedup2可以在保持近似的重複數據刪除比的基礎上,將查重索引大小壓縮50%以上.
수착중복수거산제차수적증가,계통중용우존저지문색인적청단문건등원수거신식회불단루적,도치불가홀시적존저자원개소.인차,여하재불영향중복수거산제솔적기출상,대중복수거산제과정중산생적원수거신식진행압축,종이감소사중색인,시진일보제고중복수거산제효솔화존저자원이용솔적중요인소.침대사중원수거중존재대량용여수거,제출료일충기우압축근린적사중원수거거용산법Dedup2.해산법선이용취류산법장사중원수거분위약간류,연후이용압축근린산법소제사중원수거중상사도교고적수거이획득사중자집,병재해사중자집상이용문건상사성대수거대상진행중복수거산제조작.실험결과표명,Dedup2가이재보지근사적중복수거산제비적기출상,장사중색인대소압축50%이상.