广西大学学报(自然科学版)
廣西大學學報(自然科學版)
엄서대학학보(자연과학판)
JOURNAL OF GUANGXI UNIVERSITY (NATURAL SCIENCE EDITION)
2011年
z1期
314-317
,共4页
web日志%云计算%Hadoop%Hive
web日誌%雲計算%Hadoop%Hive
web일지%운계산%Hadoop%Hive
互联网技术的迅速发展,使得web承载的信息量呈现出爆炸式增长的趋势,因此web日志的数据量也越来愈大.如何存储、处理大规模数据就成了新的挑战.云计算技术的出现,为这类问题的解决提供了一种思路.云计算将数据通过网络分布到集群的各个计算节点上,从而完成大规模数据的存储和运算.Hadoop是一个用于构建云计算平台的流行的开源框架,广泛应用于海量数据的处理.但利用Hadoop处理数据,用户必须自己开发Map/Reduce程序.这种程序处于比较低的层次,用户不容易掌握,而且难于维护.Hive是一个基于Hadoop的开源数据仓库工具,它能够将文件映射成数据表,并提供类SQL语句,简化了用户的开发.利用Hadoop、Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度.通过与单机实验的对比,证明系统是有效的和有价值的.
互聯網技術的迅速髮展,使得web承載的信息量呈現齣爆炸式增長的趨勢,因此web日誌的數據量也越來愈大.如何存儲、處理大規模數據就成瞭新的挑戰.雲計算技術的齣現,為這類問題的解決提供瞭一種思路.雲計算將數據通過網絡分佈到集群的各箇計算節點上,從而完成大規模數據的存儲和運算.Hadoop是一箇用于構建雲計算平檯的流行的開源框架,廣汎應用于海量數據的處理.但利用Hadoop處理數據,用戶必鬚自己開髮Map/Reduce程序.這種程序處于比較低的層次,用戶不容易掌握,而且難于維護.Hive是一箇基于Hadoop的開源數據倉庫工具,它能夠將文件映射成數據錶,併提供類SQL語句,簡化瞭用戶的開髮.利用Hadoop、Hive設計瞭一箇用于處理web日誌分析的繫統,既充分利用瞭Hadoop的海量數據處理的能力,又降低瞭開髮的難度.通過與單機實驗的對比,證明繫統是有效的和有價值的.
호련망기술적신속발전,사득web승재적신식량정현출폭작식증장적추세,인차web일지적수거량야월래유대.여하존저、처리대규모수거취성료신적도전.운계산기술적출현,위저류문제적해결제공료일충사로.운계산장수거통과망락분포도집군적각개계산절점상,종이완성대규모수거적존저화운산.Hadoop시일개용우구건운계산평태적류행적개원광가,엄범응용우해량수거적처리.단이용Hadoop처리수거,용호필수자기개발Map/Reduce정서.저충정서처우비교저적층차,용호불용역장악,이차난우유호.Hive시일개기우Hadoop적개원수거창고공구,타능구장문건영사성수거표,병제공류SQL어구,간화료용호적개발.이용Hadoop、Hive설계료일개용우처리web일지분석적계통,기충분이용료Hadoop적해량수거처리적능력,우강저료개발적난도.통과여단궤실험적대비,증명계통시유효적화유개치적.