计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2013年
16期
25-29
,共5页
尹芳%冯敏%诸云强%刘睿
尹芳%馮敏%諸雲彊%劉睿
윤방%풍민%제운강%류예
矢量空间数据%Key/Value%GeoJSON%Apache Hadoop%MapReduce%分布式处理
矢量空間數據%Key/Value%GeoJSON%Apache Hadoop%MapReduce%分佈式處理
시량공간수거%Key/Value%GeoJSON%Apache Hadoop%MapReduce%분포식처리
vector spatial data%Key/Value%GeoJSON%Apache Hadoop%MapReduce%distributed computing
为实现大规模矢量数据的高性能处理,在开源项目Hadoop基础上,设计与开发了一个基于MapReduce的矢量数据分布式计算系统。根据矢量空间数据的特点,通过分析Key/Value数据模型及GeoJSON地理数据编码格式,构建了可存储于Hadoop hdfs的矢量数据Key/Value文本文件格式;探讨矢量数据的MapReduce计算过程,对Map数据分片、并行处理过程及Reduce结果合并等关键步骤进行了详细阐述;基于上述技术,建立了矢量数据分布式计算原型系统,详细介绍系统组成,并将其应用于处理关中地区1∶10万土地利用矢量空间数据,取得较好效果。
為實現大規模矢量數據的高性能處理,在開源項目Hadoop基礎上,設計與開髮瞭一箇基于MapReduce的矢量數據分佈式計算繫統。根據矢量空間數據的特點,通過分析Key/Value數據模型及GeoJSON地理數據編碼格式,構建瞭可存儲于Hadoop hdfs的矢量數據Key/Value文本文件格式;探討矢量數據的MapReduce計算過程,對Map數據分片、併行處理過程及Reduce結果閤併等關鍵步驟進行瞭詳細闡述;基于上述技術,建立瞭矢量數據分佈式計算原型繫統,詳細介紹繫統組成,併將其應用于處理關中地區1∶10萬土地利用矢量空間數據,取得較好效果。
위실현대규모시량수거적고성능처리,재개원항목Hadoop기출상,설계여개발료일개기우MapReduce적시량수거분포식계산계통。근거시량공간수거적특점,통과분석Key/Value수거모형급GeoJSON지리수거편마격식,구건료가존저우Hadoop hdfs적시량수거Key/Value문본문건격식;탐토시량수거적MapReduce계산과정,대Map수거분편、병행처리과정급Reduce결과합병등관건보취진행료상세천술;기우상술기술,건립료시량수거분포식계산원형계통,상세개소계통조성,병장기응용우처리관중지구1∶10만토지이용시량공간수거,취득교호효과。
The paper designs a vector spatial data distributed computing system based on Open Source Hadoop Projects, in or-der to satisfy the needs of massive vector data. According to the characteristics of the vector spatial data, Key/Value data model and GeoJSON data format, the paper brings forward a distributed Key/Value storage method for vector spatial data based on HDFS. The key techniques on how to computing large-scale vector spatial data based on MapReduce are elaborated in detail, in-cluding data partitioning and parallel processing mechanism of Map step, results merging of Reduce step. A vector spatial data distributed computing prototype system is developed using Open Source Hadoop projects and applied to deal with the 1∶100, 000 land use data of Guanzhong area in China. The evaluation result indicates that the Hadoop MapReduce can significantly leverage the performance of vector spatial data analysis, especially when more computing nodes are used.