科研信息化技术与应用
科研信息化技術與應用
과연신식화기술여응용
E-science Technology & Application
2013年
1期
30-40
,共11页
非结构化数据管理%自适应算法%分布式存储系统
非結構化數據管理%自適應算法%分佈式存儲繫統
비결구화수거관리%자괄응산법%분포식존저계통
Unstructured data management%Adaptive algorithm%Distributed storage system
非结构化数据通常指相对于关系数据而言没有固定的显式结构的数据,比如视频、音频、图像、文档等非结构化数据。根据权威数据咨询机构或研究机构的预测报告显示,近5~10年的数据量将呈指数级增长,而其中的非结构化数据占到当前数字信息总量的70%~85%。面对如此庞大的数据量和信息量,如何有效管理非结构化数据、获得有价值的信息或知识显得迫在眉睫。(非结构化)数据管理可以简单化为3个目标,即:实现数据的“存得下、管得了、用的上”。本文将主要围绕前两个基本目标介绍目前的非结构化数据存储管理的研究情况。同时介绍中国人民大学非结构数据管理( Unstructured Data Management,UDM)研究小组基于“自由表”数据模型和BUD (Bank of Unstructured Data)参考体系模型在这一个问题上所作的初步研究与探索工作,以及在原型平台myBUD中的若干存储管理技术。
非結構化數據通常指相對于關繫數據而言沒有固定的顯式結構的數據,比如視頻、音頻、圖像、文檔等非結構化數據。根據權威數據咨詢機構或研究機構的預測報告顯示,近5~10年的數據量將呈指數級增長,而其中的非結構化數據佔到噹前數字信息總量的70%~85%。麵對如此龐大的數據量和信息量,如何有效管理非結構化數據、穫得有價值的信息或知識顯得迫在眉睫。(非結構化)數據管理可以簡單化為3箇目標,即:實現數據的“存得下、管得瞭、用的上”。本文將主要圍繞前兩箇基本目標介紹目前的非結構化數據存儲管理的研究情況。同時介紹中國人民大學非結構數據管理( Unstructured Data Management,UDM)研究小組基于“自由錶”數據模型和BUD (Bank of Unstructured Data)參攷體繫模型在這一箇問題上所作的初步研究與探索工作,以及在原型平檯myBUD中的若榦存儲管理技術。
비결구화수거통상지상대우관계수거이언몰유고정적현식결구적수거,비여시빈、음빈、도상、문당등비결구화수거。근거권위수거자순궤구혹연구궤구적예측보고현시,근5~10년적수거량장정지수급증장,이기중적비결구화수거점도당전수자신식총량적70%~85%。면대여차방대적수거량화신식량,여하유효관리비결구화수거、획득유개치적신식혹지식현득박재미첩。(비결구화)수거관리가이간단화위3개목표,즉:실현수거적“존득하、관득료、용적상”。본문장주요위요전량개기본목표개소목전적비결구화수거존저관리적연구정황。동시개소중국인민대학비결구수거관리( Unstructured Data Management,UDM)연구소조기우“자유표”수거모형화BUD (Bank of Unstructured Data)삼고체계모형재저일개문제상소작적초보연구여탐색공작,이급재원형평태myBUD중적약간존저관리기술。
In general, unstructured data means the data, compared with relational data, has no pre-deifned, ifxed and explicit structure, for example, as video, audio, image, documents and so on. According to the prediction in the reports from, for example, IDC and EMC, the volume of data will keep increasing exponentially while the unstructured might be from 70% to 85%. Facing with the ever-growing voluminous data and information, it becomes more and more emergent to manage them effectively, gain the valuable information and/or knowledge. The goals of managing structured and unstructured data can be simpliifed into three capabilities, that is, storing, managing and using them. This paper will introduce the current work mainly focusing on the ifrst two goals. Then it will present the Free-table model, BUD reference architecture and an adaptive storage approach that are the preliminary research and experimental study done by the UDM group at Renmin University of China.