计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2014年
2期
382-394
,共13页
周江%王伟平%孟丹%马灿%古晓艳%蒋杰
週江%王偉平%孟丹%馬燦%古曉豔%蔣傑
주강%왕위평%맹단%마찬%고효염%장걸
大数据%海量数据存储%分布式文件系统%元数据可扩展性%高可用性
大數據%海量數據存儲%分佈式文件繫統%元數據可擴展性%高可用性
대수거%해량수거존저%분포식문건계통%원수거가확전성%고가용성
big data%mass data storage%distributed file system%metadata scalability%high availability
大数据时代的来临使数据分析和处理能力成为数据中心和互联网公司日益倚重的技术手段.信息规模的扩大和数据结构的多样化,使海量数据存储成为大数据分析研究的热点.传统的分布式文件系统在扩展性、可靠性和数据访问性能等方面难以满足新形势下的需求.设计并实现了一个面向大数据分析、专为大规模集群应用的分布式文件系统Clover.该系统采用基于目录划分和一致性Hash映射的名字空间管理方法,解决了元数据扩展性问题;通过改进的两阶段提交协议,保证了多元数据服务器下分布式元数据操作的一致性;提出了基于共享存储池的高可用机制,通过热备和全局状态恢复机制提高了元数据的可靠性.评测结果表明,Clover的元数据处理能力随服务器的数量线性增长,增加单个服务器的元数据操作性能平均提升了5.13%~159.32%.由于名字空间管理和分布式事务的开销,多元数据服务器会导致复杂操作的性能下降,但是这种下降的幅度很小(小于10%).与HDFS相比,Clover的文件读写带宽与之接近,并能够保证在元数据服务器失效后文件系统快速恢复,适合于构建高可扩展和高可用的存储系统.
大數據時代的來臨使數據分析和處理能力成為數據中心和互聯網公司日益倚重的技術手段.信息規模的擴大和數據結構的多樣化,使海量數據存儲成為大數據分析研究的熱點.傳統的分佈式文件繫統在擴展性、可靠性和數據訪問性能等方麵難以滿足新形勢下的需求.設計併實現瞭一箇麵嚮大數據分析、專為大規模集群應用的分佈式文件繫統Clover.該繫統採用基于目錄劃分和一緻性Hash映射的名字空間管理方法,解決瞭元數據擴展性問題;通過改進的兩階段提交協議,保證瞭多元數據服務器下分佈式元數據操作的一緻性;提齣瞭基于共享存儲池的高可用機製,通過熱備和全跼狀態恢複機製提高瞭元數據的可靠性.評測結果錶明,Clover的元數據處理能力隨服務器的數量線性增長,增加單箇服務器的元數據操作性能平均提升瞭5.13%~159.32%.由于名字空間管理和分佈式事務的開銷,多元數據服務器會導緻複雜操作的性能下降,但是這種下降的幅度很小(小于10%).與HDFS相比,Clover的文件讀寫帶寬與之接近,併能夠保證在元數據服務器失效後文件繫統快速恢複,適閤于構建高可擴展和高可用的存儲繫統.
대수거시대적래림사수거분석화처리능력성위수거중심화호련망공사일익의중적기술수단.신식규모적확대화수거결구적다양화,사해량수거존저성위대수거분석연구적열점.전통적분포식문건계통재확전성、가고성화수거방문성능등방면난이만족신형세하적수구.설계병실현료일개면향대수거분석、전위대규모집군응용적분포식문건계통Clover.해계통채용기우목록화분화일치성Hash영사적명자공간관리방법,해결료원수거확전성문제;통과개진적량계단제교협의,보증료다원수거복무기하분포식원수거조작적일치성;제출료기우공향존저지적고가용궤제,통과열비화전국상태회복궤제제고료원수거적가고성.평측결과표명,Clover적원수거처리능력수복무기적수량선성증장,증가단개복무기적원수거조작성능평균제승료5.13%~159.32%.유우명자공간관리화분포식사무적개소,다원수거복무기회도치복잡조작적성능하강,단시저충하강적폭도흔소(소우10%).여HDFS상비,Clover적문건독사대관여지접근,병능구보증재원수거복무기실효후문건계통쾌속회복,괄합우구건고가확전화고가용적존저계통.