计算机科学与探索
計算機科學與探索
계산궤과학여탐색
JOURNAL OF FRONTIERS OF COMPUTER SCIENCE & TECHNOLOGY
2014年
2期
129-138
,共10页
兰超%张勇%邢春晓
蘭超%張勇%邢春曉
란초%장용%형춘효
数字图书馆%对象存储%数据管理架构%大数据
數字圖書館%對象存儲%數據管理架構%大數據
수자도서관%대상존저%수거관리가구%대수거
digital library%object store%digital infrastructure%big data
主要研究了数字图书馆应用中数字对象的有效存储和索引机制,提出并设计了针对数字图书馆的数据仓储系统PuntTable。PuntTable使用非关系模式存储和管理对象,并且通过在数据对象内部建立索引来支持查询。PuntTable包括两个主要模块:一个是PuntStore,一种有多存储引擎的数据存储系统;另一个是PuntIndex,一种支持多种索引方式的索引系统。PuntTable实现了高吞吐量和低延迟对象存储,数据对象的索引和内容都可以选择最为合适的存储层来进行存储。使用实际数字图书馆中的数据对PuntTable进行了测试和评估。在测试所用的数据集中,每个数据都采用不同长度,使测试更加接近实际应用。实验结果显示,对于不同的数据集使用不同的存储模型可以显著增大数据库系统的吞吐量,并且有效减少延迟。
主要研究瞭數字圖書館應用中數字對象的有效存儲和索引機製,提齣併設計瞭針對數字圖書館的數據倉儲繫統PuntTable。PuntTable使用非關繫模式存儲和管理對象,併且通過在數據對象內部建立索引來支持查詢。PuntTable包括兩箇主要模塊:一箇是PuntStore,一種有多存儲引擎的數據存儲繫統;另一箇是PuntIndex,一種支持多種索引方式的索引繫統。PuntTable實現瞭高吞吐量和低延遲對象存儲,數據對象的索引和內容都可以選擇最為閤適的存儲層來進行存儲。使用實際數字圖書館中的數據對PuntTable進行瞭測試和評估。在測試所用的數據集中,每箇數據都採用不同長度,使測試更加接近實際應用。實驗結果顯示,對于不同的數據集使用不同的存儲模型可以顯著增大數據庫繫統的吞吐量,併且有效減少延遲。
주요연구료수자도서관응용중수자대상적유효존저화색인궤제,제출병설계료침대수자도서관적수거창저계통PuntTable。PuntTable사용비관계모식존저화관리대상,병차통과재수거대상내부건립색인래지지사순。PuntTable포괄량개주요모괴:일개시PuntStore,일충유다존저인경적수거존저계통;령일개시PuntIndex,일충지지다충색인방식적색인계통。PuntTable실현료고탄토량화저연지대상존저,수거대상적색인화내용도가이선택최위합괄적존저층래진행존저。사용실제수자도서관중적수거대PuntTable진행료측시화평고。재측시소용적수거집중,매개수거도채용불동장도,사측시경가접근실제응용。실험결과현시,대우불동적수거집사용불동적존저모형가이현저증대수거고계통적탄토량,병차유효감소연지。
This paper studies the problem of efficient object store and index in digital library and proposes a data repository system called PuntTable. PuntTable uses a schema-free way to store and get the objects and builds indices to support querying the fields inside the objects. In order to achieve a high throughput and low latency, PuntTable is designed by using multiple content storage engine and index storage engine through two interfaces, PuntStore and PuntIndex. PuntStore and PuntIndex are designed as the storage layer of PuntTable. Both the objects content and their indices can choose the most suitable storage layer for a specific data set. PuntTable is tested and evaluated for the performance of processing object data and index store combination by using varies of data sets with different sin-gle record sizes. These data sets are picked from digital library to simulate the real application scenarios. The result reveals that the proper configuration of storage layer for a particular data set can significantly improve the through-put and drop the latency.