计算机科学与探索
計算機科學與探索
계산궤과학여탐색
JOURNAL OF FRONTIERS OF COMPUTER SCIENCE & TECHNOLOGY
2014年
1期
51-60
,共10页
聂章艳%李川%唐常杰%徐洪宇%张永辉%杨宁
聶章豔%李川%唐常傑%徐洪宇%張永輝%楊寧
섭장염%리천%당상걸%서홍우%장영휘%양저
信息网络%信息维%拓扑维%在线图处理%多维信息网络数据仓库模型
信息網絡%信息維%拓撲維%在線圖處理%多維信息網絡數據倉庫模型
신식망락%신식유%탁복유%재선도처리%다유신식망락수거창고모형
InfoNetwork%informational dimension%topological dimension%online graph processing%multi-dimensional information network datawarehouse model
信息网络的出现使信息由简单的数值型数据演化成较复杂的图网络结构。如何对基于图的信息网络数据进行良好的组织和存储成为一个亟待解决的问题。利用维建模的方法对基于图的信息网络数据进行模型设计,提出了多维信息网络仓库模型。该模型由边事实表、节点事实表、信息维连接属性表以及拓扑维节点属性表组成,能够为在线图处理提供底层的数据平台。实验表明该模型在消除冗余、查询时间、存储空间上均较泛关系表有明显优势。新模型在1.25万篇ACM论文上的查询时间稳定在几十毫秒,较泛关系表的查询时间约减少一个数量级。在空间性能上,随着论文数量的增加,该模型存储空间开销的增长速度远小于泛关系表的增长速度。
信息網絡的齣現使信息由簡單的數值型數據縯化成較複雜的圖網絡結構。如何對基于圖的信息網絡數據進行良好的組織和存儲成為一箇亟待解決的問題。利用維建模的方法對基于圖的信息網絡數據進行模型設計,提齣瞭多維信息網絡倉庫模型。該模型由邊事實錶、節點事實錶、信息維連接屬性錶以及拓撲維節點屬性錶組成,能夠為在線圖處理提供底層的數據平檯。實驗錶明該模型在消除冗餘、查詢時間、存儲空間上均較汎關繫錶有明顯優勢。新模型在1.25萬篇ACM論文上的查詢時間穩定在幾十毫秒,較汎關繫錶的查詢時間約減少一箇數量級。在空間性能上,隨著論文數量的增加,該模型存儲空間開銷的增長速度遠小于汎關繫錶的增長速度。
신식망락적출현사신식유간단적수치형수거연화성교복잡적도망락결구。여하대기우도적신식망락수거진행량호적조직화존저성위일개극대해결적문제。이용유건모적방법대기우도적신식망락수거진행모형설계,제출료다유신식망락창고모형。해모형유변사실표、절점사실표、신식유련접속성표이급탁복유절점속성표조성,능구위재선도처리제공저층적수거평태。실험표명해모형재소제용여、사순시간、존저공간상균교범관계표유명현우세。신모형재1.25만편ACM논문상적사순시간은정재궤십호초,교범관계표적사순시간약감소일개수량급。재공간성능상,수착논문수량적증가,해모형존저공간개소적증장속도원소우범관계표적증장속도。
With the emergence of information network,the information evolves from simple numerical data to complex graph network. How to organize and store the information network data becomes an urging problem. This paper proposes a multi-dimension information network datawarehouse model (MINDM), which aims to provide the data foundation to online graph processing. The MINDM includes edge fact table, node fact table, information link attribution table and topology node attribution table. The experimental results show that the MINDM can eliminate redundancy, reduce the cost of average query time, and save the space storage. The query time remains stable within a few milliseconds while performing queries on the 12.5 thousand ACM papers real dataset, keeping sharp comparison to van relation model with more than hundreds of milliseconds for the same processing stage. With the number of papers growing, the storage space of the proposed model increases much slower than the van relation model.