网络新媒体技术
網絡新媒體技術
망락신매체기술
Journal of Network New Media
2015年
5期
33-38
,共6页
靳丹%张磊%王洪军%王宝会
靳丹%張磊%王洪軍%王寶會
근단%장뢰%왕홍군%왕보회
数据清洗%hadoop%mapreduce%大数据
數據清洗%hadoop%mapreduce%大數據
수거청세%hadoop%mapreduce%대수거
@@
构建和运行数据仓库的关键步骤是ETL,而ETL中的最关键步骤就是数据的清洗和转换.在当今数据爆炸式增长的背景下,数据清洗与转换的挑战主要来自于源数据的复杂性和数据量的庞大,针对数据庞大的问题,目前Hadoop体系的Mapreduce框架已经成为海量数据处理领域的事实标准.本文主要分析在大数据环境下数据清洗工作中数据来源的复杂性问题,并针对这些问题提出了基于Hadoop的简单的可扩展的数据清洗框架,可以让本框架的使用者只需要用少量代码完成基于Mapreduce的海量复杂数据的清洗工作,Mapreduce的复杂性对开发者透明.并以某互联网公司使用此框架收集的用户行为日志数据作为示例,在示例中,此框架相比之前的解决方案极大地提高了海量数据清洗的准确性和效率.另外,本框架还可以应用于海量的非结构化数据的清洗.
構建和運行數據倉庫的關鍵步驟是ETL,而ETL中的最關鍵步驟就是數據的清洗和轉換.在噹今數據爆炸式增長的揹景下,數據清洗與轉換的挑戰主要來自于源數據的複雜性和數據量的龐大,針對數據龐大的問題,目前Hadoop體繫的Mapreduce框架已經成為海量數據處理領域的事實標準.本文主要分析在大數據環境下數據清洗工作中數據來源的複雜性問題,併針對這些問題提齣瞭基于Hadoop的簡單的可擴展的數據清洗框架,可以讓本框架的使用者隻需要用少量代碼完成基于Mapreduce的海量複雜數據的清洗工作,Mapreduce的複雜性對開髮者透明.併以某互聯網公司使用此框架收集的用戶行為日誌數據作為示例,在示例中,此框架相比之前的解決方案極大地提高瞭海量數據清洗的準確性和效率.另外,本框架還可以應用于海量的非結構化數據的清洗.
구건화운행수거창고적관건보취시ETL,이ETL중적최관건보취취시수거적청세화전환.재당금수거폭작식증장적배경하,수거청세여전환적도전주요래자우원수거적복잡성화수거량적방대,침대수거방대적문제,목전Hadoop체계적Mapreduce광가이경성위해량수거처리영역적사실표준.본문주요분석재대수거배경하수거청세공작중수거래원적복잡성문제,병침대저사문제제출료기우Hadoop적간단적가확전적수거청세광가,가이양본광가적사용자지수요용소량대마완성기우Mapreduce적해량복잡수거적청세공작,Mapreduce적복잡성대개발자투명.병이모호련망공사사용차광가수집적용호행위일지수거작위시례,재시례중,차광가상비지전적해결방안겁대지제고료해량수거청세적준학성화효솔.령외,본광가환가이응용우해량적비결구화수거적청세.