计算机应用研究
計算機應用研究
계산궤응용연구
Application Research of Computers
2015年
11期
3312-3314
,共3页
余啸%马传香%李伟亮%金聪
餘嘯%馬傳香%李偉亮%金聰
여소%마전향%리위량%금총
数据挖掘%GSP 算法%序列模式%MapReduce%子序列数据库
數據挖掘%GSP 算法%序列模式%MapReduce%子序列數據庫
수거알굴%GSP 산법%서렬모식%MapReduce%자서렬수거고
data mining%GSP algorithm%sequential pattern%MapReduce%sub-sequence database
针对传统 GSP 算法需要多次扫描数据库、I /O 开销巨大的缺点,提出了一种基于 MapReduce 编程框架的序列模式挖掘算法 MR-GSP(GSP algorithm based on MapReduce)。MR-GSP 算法将原序列数据库划分为多个子序列数据库并分发到多个 Map 节点,Map 函数扫描存放在 Map 节点内存中的子序列数据库,产生局部序列模式,Reduce 函数对所有局部序列模式合并,扫描原序列数据库,计算局部序列模式的支持度,得到最终的序列模式。相比于传统 GSP 算法,MR-GSP 算法只需扫描两次原始数据库即可得到所有序列模式。实验结果表明,MR-GSP 算法在对大数据集进行序列模式挖掘时,可充分利用云计算技术的优势,提高挖掘效率。
針對傳統 GSP 算法需要多次掃描數據庫、I /O 開銷巨大的缺點,提齣瞭一種基于 MapReduce 編程框架的序列模式挖掘算法 MR-GSP(GSP algorithm based on MapReduce)。MR-GSP 算法將原序列數據庫劃分為多箇子序列數據庫併分髮到多箇 Map 節點,Map 函數掃描存放在 Map 節點內存中的子序列數據庫,產生跼部序列模式,Reduce 函數對所有跼部序列模式閤併,掃描原序列數據庫,計算跼部序列模式的支持度,得到最終的序列模式。相比于傳統 GSP 算法,MR-GSP 算法隻需掃描兩次原始數據庫即可得到所有序列模式。實驗結果錶明,MR-GSP 算法在對大數據集進行序列模式挖掘時,可充分利用雲計算技術的優勢,提高挖掘效率。
침대전통 GSP 산법수요다차소묘수거고、I /O 개소거대적결점,제출료일충기우 MapReduce 편정광가적서렬모식알굴산법 MR-GSP(GSP algorithm based on MapReduce)。MR-GSP 산법장원서렬수거고화분위다개자서렬수거고병분발도다개 Map 절점,Map 함수소묘존방재 Map 절점내존중적자서렬수거고,산생국부서렬모식,Reduce 함수대소유국부서렬모식합병,소묘원서렬수거고,계산국부서렬모식적지지도,득도최종적서렬모식。상비우전통 GSP 산법,MR-GSP 산법지수소묘량차원시수거고즉가득도소유서렬모식。실험결과표명,MR-GSP 산법재대대수거집진행서렬모식알굴시,가충분이용운계산기술적우세,제고알굴효솔。
For the disadvantages that traditional GSP algorithm need to scan the database repeatedly and the I /O overhead is huge,this paper proposed a sequential pattern mining algorithm MR-GSP(GSP algorithm based on MapReduce)based on Map-Reduce programming framework.The MR-GSP algorithm divided the original sequence database into some sub-sequence data-bases and distributed them to Map workers,Map function scanned sub-sequence databases stored in memory to generate partial sequence patterns.Reduce function merged all partial sequence patterns and scanned the original sequence database to calcu-late the support of partial sequence patterns and gained the final sequence patterns.Compared with traditional GSP algorithm, the MR-GSP algorithm gained all sequential patterns by scanning the original database just twice.Experimental results show that the MR-GSP algorithm can take advantages of cloud computing technology to improve the efficiency of sequential pattern mining in big data.