计算机时代
計算機時代
계산궤시대
COMPUTER ERA
2012年
10期
30-33,37
,共5页
云计算%Web结构挖掘%分布式计算%Mapreduce%Hadoop%Pagerank
雲計算%Web結構挖掘%分佈式計算%Mapreduce%Hadoop%Pagerank
운계산%Web결구알굴%분포식계산%Mapreduce%Hadoop%Pagerank
在研究Web结构挖掘经典算法Pagerank和云计算关键技术Mapreduce的基础上,将Pagerank算法与Mapreduce 编程模型结合,针对基于并行Pagerank算法运行大数据集时面临的每次迭代访问HDFS导致I/O消耗增加、每次迭代在混合阶段和排序阶段时耗过多的问题提出了两个改进算法.一个是利用矩阵分块思想的并行Pagerank改进算法;另一个是减少HDFS访问次数的并行Pagerank改进算法.最后利用Hadoop搭建云环境,在实验环境下分析了不同的BlockSize参数对于计算性能的影响.并在云环境下面向不同的Web数据集,测试了原算法和改进算法的性能.结果表明,改进后的算法分别在结果集的空间占用方面和总迭代时间方面具有一定的优越性.
在研究Web結構挖掘經典算法Pagerank和雲計算關鍵技術Mapreduce的基礎上,將Pagerank算法與Mapreduce 編程模型結閤,針對基于併行Pagerank算法運行大數據集時麵臨的每次迭代訪問HDFS導緻I/O消耗增加、每次迭代在混閤階段和排序階段時耗過多的問題提齣瞭兩箇改進算法.一箇是利用矩陣分塊思想的併行Pagerank改進算法;另一箇是減少HDFS訪問次數的併行Pagerank改進算法.最後利用Hadoop搭建雲環境,在實驗環境下分析瞭不同的BlockSize參數對于計算性能的影響.併在雲環境下麵嚮不同的Web數據集,測試瞭原算法和改進算法的性能.結果錶明,改進後的算法分彆在結果集的空間佔用方麵和總迭代時間方麵具有一定的優越性.
재연구Web결구알굴경전산법Pagerank화운계산관건기술Mapreduce적기출상,장Pagerank산법여Mapreduce 편정모형결합,침대기우병행Pagerank산법운행대수거집시면림적매차질대방문HDFS도치I/O소모증가、매차질대재혼합계단화배서계단시모과다적문제제출료량개개진산법.일개시이용구진분괴사상적병행Pagerank개진산법;령일개시감소HDFS방문차수적병행Pagerank개진산법.최후이용Hadoop탑건운배경,재실험배경하분석료불동적BlockSize삼수대우계산성능적영향.병재운배경하면향불동적Web수거집,측시료원산법화개진산법적성능.결과표명,개진후적산법분별재결과집적공간점용방면화총질대시간방면구유일정적우월성.