计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2013年
12期
3313-3316,3330
,共5页
温腊%芮建武%何婷婷%郭亮
溫臘%芮建武%何婷婷%郭亮
온석%예건무%하정정%곽량
分层分布式狄利克雷分布%潜在狄利克雷分布%文本分类%分布式框架%并行图形处理器
分層分佈式狄利剋雷分佈%潛在狄利剋雷分佈%文本分類%分佈式框架%併行圖形處理器
분층분포식적리극뢰분포%잠재적리극뢰분포%문본분류%분포식광가%병행도형처리기
Hierarchical Distributed Latent Dirichlet Allocation (HD-LDA)%Latent Dirichlet Allocation (LDA)%text classification%distributed environment%parallel Graphic Processing Unit (GPU)
分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理.Mahout在Hadoop框架下实现了HD-LDA算法,但是因为单节点算法的计算量大,仍然存在对大数据分类运行时间太长的问题.而大规模文本集合分散到多个节点上迭代推导,单个节点上文档集合的推导仍是顺序进行的,所以处理大规模文本集合时仍然需要很长时间才能完成全部文本的分类.为此,提出将Hadoop与图形处理器(GPU)相结合,将单节点文本集合的推导过程转移到GPU上运行,实现单节点多个文档并行推导,利用多台并行的GPU对HD-LDA算法进行加速.应用结果表明,使用该方法能使分布式框架下的HD-LDA算法对大规模文本集合处理达到7倍的加速比.
分層分佈式狄利剋雷分佈(HD-LDA)算法是一箇對潛在狄利剋雷分佈(LDA)進行改進的基于概率增長模型的文本分類算法,與隻能在單機上運行的LDA算法相比,可以運行在分佈式框架下,進行分佈式併行處理.Mahout在Hadoop框架下實現瞭HD-LDA算法,但是因為單節點算法的計算量大,仍然存在對大數據分類運行時間太長的問題.而大規模文本集閤分散到多箇節點上迭代推導,單箇節點上文檔集閤的推導仍是順序進行的,所以處理大規模文本集閤時仍然需要很長時間纔能完成全部文本的分類.為此,提齣將Hadoop與圖形處理器(GPU)相結閤,將單節點文本集閤的推導過程轉移到GPU上運行,實現單節點多箇文檔併行推導,利用多檯併行的GPU對HD-LDA算法進行加速.應用結果錶明,使用該方法能使分佈式框架下的HD-LDA算法對大規模文本集閤處理達到7倍的加速比.
분층분포식적리극뢰분포(HD-LDA)산법시일개대잠재적리극뢰분포(LDA)진행개진적기우개솔증장모형적문본분류산법,여지능재단궤상운행적LDA산법상비,가이운행재분포식광가하,진행분포식병행처리.Mahout재Hadoop광가하실현료HD-LDA산법,단시인위단절점산법적계산량대,잉연존재대대수거분류운행시간태장적문제.이대규모문본집합분산도다개절점상질대추도,단개절점상문당집합적추도잉시순서진행적,소이처리대규모문본집합시잉연수요흔장시간재능완성전부문본적분류.위차,제출장Hadoop여도형처리기(GPU)상결합,장단절점문본집합적추도과정전이도GPU상운행,실현단절점다개문당병행추도,이용다태병행적GPU대HD-LDA산법진행가속.응용결과표명,사용해방법능사분포식광가하적HD-LDA산법대대규모문본집합처리체도7배적가속비.