计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2015年
2期
362-376
,共15页
数据库系统%行列混合存储%编码%规则挖掘%GPU%CUDA
數據庫繫統%行列混閤存儲%編碼%規則挖掘%GPU%CUDA
수거고계통%행렬혼합존저%편마%규칙알굴%GPU%CUDA
database system%hybrid row-column storage%encoding%rule mining%GPU%CUDA
在数据爆发式增长的今天,特别是通信、金融、互联网等领域产生的大规模数据,在存储和查询方面给业界带来了前所未有的压力.在这种背景下,当前的数据库和数据仓库系统通过对数据进行压缩编码,在节约空间的同时减少了数据表查询时所需的I/O,获得性能上的提升,但大部分系统在面对实际大规模企业数据应用时依然无法在压缩比、导入时间或查询性能上完全满足企业需求.通过基于一定的规则对数据重新进行编码和精简,实现了一种新型超精简型编码的数据库系统HEGA-STORE.采用行列混合存储的架构;提出基于列内和列间规则挖掘和编码的数据导入存储计划;同时在规则挖掘和编码中使用GPU作为协处理器并行处理算法从而提高效率.通过开发编解码原型系统,对大规模网易易信通信记录数据和网易后台日志数据的导入和查询分别进行了测试,并与其他压缩编码算法和数据库、数据仓库产品进行比较.对比实验结果表明,相比同类数据库和数据仓库产品,原型系统拥有极高的压缩比,并且在导入速度和全表扫描查询速度也处于领先地位,同时使用GPU和CPU协作进行数据处理时也能进一步提高系统性能,验证了提出的超精简型编码数据库系统的实际应用价值.
在數據爆髮式增長的今天,特彆是通信、金融、互聯網等領域產生的大規模數據,在存儲和查詢方麵給業界帶來瞭前所未有的壓力.在這種揹景下,噹前的數據庫和數據倉庫繫統通過對數據進行壓縮編碼,在節約空間的同時減少瞭數據錶查詢時所需的I/O,穫得性能上的提升,但大部分繫統在麵對實際大規模企業數據應用時依然無法在壓縮比、導入時間或查詢性能上完全滿足企業需求.通過基于一定的規則對數據重新進行編碼和精簡,實現瞭一種新型超精簡型編碼的數據庫繫統HEGA-STORE.採用行列混閤存儲的架構;提齣基于列內和列間規則挖掘和編碼的數據導入存儲計劃;同時在規則挖掘和編碼中使用GPU作為協處理器併行處理算法從而提高效率.通過開髮編解碼原型繫統,對大規模網易易信通信記錄數據和網易後檯日誌數據的導入和查詢分彆進行瞭測試,併與其他壓縮編碼算法和數據庫、數據倉庫產品進行比較.對比實驗結果錶明,相比同類數據庫和數據倉庫產品,原型繫統擁有極高的壓縮比,併且在導入速度和全錶掃描查詢速度也處于領先地位,同時使用GPU和CPU協作進行數據處理時也能進一步提高繫統性能,驗證瞭提齣的超精簡型編碼數據庫繫統的實際應用價值.
재수거폭발식증장적금천,특별시통신、금융、호련망등영역산생적대규모수거,재존저화사순방면급업계대래료전소미유적압력.재저충배경하,당전적수거고화수거창고계통통과대수거진행압축편마,재절약공간적동시감소료수거표사순시소수적I/O,획득성능상적제승,단대부분계통재면대실제대규모기업수거응용시의연무법재압축비、도입시간혹사순성능상완전만족기업수구.통과기우일정적규칙대수거중신진행편마화정간,실현료일충신형초정간형편마적수거고계통HEGA-STORE.채용행렬혼합존저적가구;제출기우렬내화렬간규칙알굴화편마적수거도입존저계화;동시재규칙알굴화편마중사용GPU작위협처리기병행처리산법종이제고효솔.통과개발편해마원형계통,대대규모망역역신통신기록수거화망역후태일지수거적도입화사순분별진행료측시,병여기타압축편마산법화수거고、수거창고산품진행비교.대비실험결과표명,상비동류수거고화수거창고산품,원형계통옹유겁고적압축비,병차재도입속도화전표소묘사순속도야처우령선지위,동시사용GPU화CPU협작진행수거처리시야능진일보제고계통성능,험증료제출적초정간형편마수거고계통적실제응용개치.