计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2014年
11期
47-50
,共4页
重复数据删除技术%相似性与局部性%布鲁过滤器%磁盘瓶颈
重複數據刪除技術%相似性與跼部性%佈魯過濾器%磁盤瓶頸
중복수거산제기술%상사성여국부성%포로과려기%자반병경
data deduplication technique%similarity-locality%Bloom filter%disk bottleneck
大数据时代到来,备份数据量增大给存储空间带来新的挑战。重复数据删除技术在备份存储系统中正逐渐流行,但大量数据访问,造成了磁盘的很大负担。针对重复数据删除技术存在的块索引查询磁盘瓶颈问题,文中提出了文件相似性与数据流局部性结合方法改善磁盘I/O性能。该方法充分发挥了各自的优势,相似性优化了索引查找,可以检测到相同数据检测技术不能识别的重复数据;而数据局部性保留了数据流的序列,使得cache的命中率提高,减少磁盘访问次数。布鲁过滤器存储数据块索引可节省大量查询时间和空间开销。对于提出的解决方法所涉及的重要参数如块大小、段大小以及对误判率的影响做了深入分析。通过相关实验评估与性能分析,实验数据与结果为进一步系统性能优化问题提供了重要的数据依据。
大數據時代到來,備份數據量增大給存儲空間帶來新的挑戰。重複數據刪除技術在備份存儲繫統中正逐漸流行,但大量數據訪問,造成瞭磁盤的很大負擔。針對重複數據刪除技術存在的塊索引查詢磁盤瓶頸問題,文中提齣瞭文件相似性與數據流跼部性結閤方法改善磁盤I/O性能。該方法充分髮揮瞭各自的優勢,相似性優化瞭索引查找,可以檢測到相同數據檢測技術不能識彆的重複數據;而數據跼部性保留瞭數據流的序列,使得cache的命中率提高,減少磁盤訪問次數。佈魯過濾器存儲數據塊索引可節省大量查詢時間和空間開銷。對于提齣的解決方法所涉及的重要參數如塊大小、段大小以及對誤判率的影響做瞭深入分析。通過相關實驗評估與性能分析,實驗數據與結果為進一步繫統性能優化問題提供瞭重要的數據依據。
대수거시대도래,비빈수거량증대급존저공간대래신적도전。중복수거산제기술재비빈존저계통중정축점류행,단대량수거방문,조성료자반적흔대부담。침대중복수거산제기술존재적괴색인사순자반병경문제,문중제출료문건상사성여수거류국부성결합방법개선자반I/O성능。해방법충분발휘료각자적우세,상사성우화료색인사조,가이검측도상동수거검측기술불능식별적중복수거;이수거국부성보류료수거류적서렬,사득cache적명중솔제고,감소자반방문차수。포로과려기존저수거괴색인가절성대량사순시간화공간개소。대우제출적해결방법소섭급적중요삼수여괴대소、단대소이급대오판솔적영향주료심입분석。통과상관실험평고여성능분석,실험수거여결과위진일보계통성능우화문제제공료중요적수거의거。
Big data era comes,and the increase of the backup brings new challenges to deduplication. Data deduplication is becoming in-creasingly popular in storage systems to data backup,but a lot of accesses cause a great burden of disk. For the block index-lookup disk bottleneck,present that combining file similarity with data stream locality is to improve disk I/O performance,and the approach reaches their full advantages. Similarity optimizes index-lookup and detect the duplicate data cannot be recognized by duplicate data detection technology. Locality reserves the sequence of the data stream,and it improves the hit rate of cache and reduces disk access. Bloom filter stores block index to save a lot of time and space overhead. The related parameters of the solution are made deep analysis,such as the block size,the segment size,and their sizes influence to false positive. Through the relevant experiment assessment and performance anal-ysis,the experimental data and results provide an important basis for the further system performance optimization problem.