计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2014年
12期
2688-2701
,共14页
谷峪%杨佳学%鲍玉斌%于戈
穀峪%楊佳學%鮑玉斌%于戈
곡욕%양가학%포옥빈%우과
大图数据%顶点驱动%最小生成树%并行算法%维护算法
大圖數據%頂點驅動%最小生成樹%併行算法%維護算法
대도수거%정점구동%최소생성수%병행산법%유호산법
large graphs%vertex-driven%minimum spanning tree (MST)%parallel algorithm%maintenance algorithm
最小生成树(minimum spanning tree,MST)是图论中最为经典算法之一.基于MST结构的聚类、分类和最短路径查询等复杂图算法,在效率和结果质量方面均有显著提高.然而,随着互联网的迅猛发展,图数据规模也变得越来越大,包含千万甚至上亿个顶点的大图数据越发常见.因此,如何在大图数据上实现查询处理和数据挖掘算法已成为亟待解决的问题之一.除此之外,由于大图数据的动态性特征,如何动态地维护算法结果也势必成为最受关注的问题之一.针对目前集中式的最小生成树算法无法解决海量和动态图数据的问题,首先提出了分区Prim(partition Prim,PP)算法,基于此提出了顶点驱动的并行MST算法——PB(PP Bor(u)vka)算法,并论证了PB算法的正确性.另外,基于MapReduce和BSP框架实现了PB算法.针对只删除动态图特征,提出了MST维护算法,以实现高效的增量计算.对提出的计算和维护算法进行了代价分析和比较.最后,使用真实和模拟数据集,验证了PB算法和维护算法的有效性、高效性和可扩展性.
最小生成樹(minimum spanning tree,MST)是圖論中最為經典算法之一.基于MST結構的聚類、分類和最短路徑查詢等複雜圖算法,在效率和結果質量方麵均有顯著提高.然而,隨著互聯網的迅猛髮展,圖數據規模也變得越來越大,包含韆萬甚至上億箇頂點的大圖數據越髮常見.因此,如何在大圖數據上實現查詢處理和數據挖掘算法已成為亟待解決的問題之一.除此之外,由于大圖數據的動態性特徵,如何動態地維護算法結果也勢必成為最受關註的問題之一.針對目前集中式的最小生成樹算法無法解決海量和動態圖數據的問題,首先提齣瞭分區Prim(partition Prim,PP)算法,基于此提齣瞭頂點驅動的併行MST算法——PB(PP Bor(u)vka)算法,併論證瞭PB算法的正確性.另外,基于MapReduce和BSP框架實現瞭PB算法.針對隻刪除動態圖特徵,提齣瞭MST維護算法,以實現高效的增量計算.對提齣的計算和維護算法進行瞭代價分析和比較.最後,使用真實和模擬數據集,驗證瞭PB算法和維護算法的有效性、高效性和可擴展性.
최소생성수(minimum spanning tree,MST)시도론중최위경전산법지일.기우MST결구적취류、분류화최단로경사순등복잡도산법,재효솔화결과질량방면균유현저제고.연이,수착호련망적신맹발전,도수거규모야변득월래월대,포함천만심지상억개정점적대도수거월발상견.인차,여하재대도수거상실현사순처리화수거알굴산법이성위극대해결적문제지일.제차지외,유우대도수거적동태성특정,여하동태지유호산법결과야세필성위최수관주적문제지일.침대목전집중식적최소생성수산법무법해결해량화동태도수거적문제,수선제출료분구Prim(partition Prim,PP)산법,기우차제출료정점구동적병행MST산법——PB(PP Bor(u)vka)산법,병론증료PB산법적정학성.령외,기우MapReduce화BSP광가실현료PB산법.침대지산제동태도특정,제출료MST유호산법,이실현고효적증량계산.대제출적계산화유호산법진행료대개분석화비교.최후,사용진실화모의수거집,험증료PB산법화유호산법적유효성、고효성화가확전성.