计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2015年
2期
333-342
,共10页
数据更新%大数据分析%数据仓库%日志处理系统%数据组织与分布算法
數據更新%大數據分析%數據倉庫%日誌處理繫統%數據組織與分佈算法
수거경신%대수거분석%수거창고%일지처리계통%수거조직여분포산법
data updates%big data analysis%data warehouse%event log processing system%data organization and distribution
大数据对于数据管理系统平台的主要挑战可以归纳为volume(数据量大)、velocity(数据的产生、获取和更新速度快)和variety(数据种类繁多)3个方面.针对大数据分析系统,尝试解读velocity的重要性和探讨如何应对velocity的挑战.首先比较事物处理、数据流、与数据分析系统对velocity的不同要求.然后从数据更新与大数据分析系统相互关系的角度出发,讨论两项近期的研究工作:1)MaSM,在数据仓库系统中支持在线数据更新;2)LogKV,在日志处理系统中支持高速流入的日志数据和高效的基于时间窗口的连接操作.通过分析比较发现,存储数据更新只是最基本的要求,更重要的是应该把大数据的从更新到分析作为数据的整个生命周期,进行综合考虑和优化,根据大数据分析的特点,优化高速数据更新的数据组织和数据分布方式,从而保证甚至提高数据分析运算的效率.
大數據對于數據管理繫統平檯的主要挑戰可以歸納為volume(數據量大)、velocity(數據的產生、穫取和更新速度快)和variety(數據種類繁多)3箇方麵.針對大數據分析繫統,嘗試解讀velocity的重要性和探討如何應對velocity的挑戰.首先比較事物處理、數據流、與數據分析繫統對velocity的不同要求.然後從數據更新與大數據分析繫統相互關繫的角度齣髮,討論兩項近期的研究工作:1)MaSM,在數據倉庫繫統中支持在線數據更新;2)LogKV,在日誌處理繫統中支持高速流入的日誌數據和高效的基于時間窗口的連接操作.通過分析比較髮現,存儲數據更新隻是最基本的要求,更重要的是應該把大數據的從更新到分析作為數據的整箇生命週期,進行綜閤攷慮和優化,根據大數據分析的特點,優化高速數據更新的數據組織和數據分佈方式,從而保證甚至提高數據分析運算的效率.
대수거대우수거관리계통평태적주요도전가이귀납위volume(수거량대)、velocity(수거적산생、획취화경신속도쾌)화variety(수거충류번다)3개방면.침대대수거분석계통,상시해독velocity적중요성화탐토여하응대velocity적도전.수선비교사물처리、수거류、여수거분석계통대velocity적불동요구.연후종수거경신여대수거분석계통상호관계적각도출발,토론량항근기적연구공작:1)MaSM,재수거창고계통중지지재선수거경신;2)LogKV,재일지처리계통중지지고속류입적일지수거화고효적기우시간창구적련접조작.통과분석비교발현,존저수거경신지시최기본적요구,경중요적시응해파대수거적종경신도분석작위수거적정개생명주기,진행종합고필화우화,근거대수거분석적특점,우화고속수거경신적수거조직화수거분포방식,종이보증심지제고수거분석운산적효솔.