计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2011年
8期
6-9,13
,共5页
李远方%邓世昆%闻玉彪%韩月阳
李遠方%鄧世昆%聞玉彪%韓月暘
리원방%산세곤%문옥표%한월양
PageRank%MapReduce%Hadoop%矩阵分块
PageRank%MapReduce%Hadoop%矩陣分塊
PageRank%MapReduce%Hadoop%구진분괴
PageRank是Web结构挖掘的经典算法,已在Google搜索引擎中取得了巨大成功.但其迭代次数多,时空消耗大,执行速度和收敛速度都还较慢.文中详细讨论了Hadoop-MapReduce的执行流程及其内部实现机制后,提出了一种并行MapReduce实现矩阵分块的PageRank算法,其实质是减少MapReduce框架结构中Map阶段和Reduce阶段的迭代次数,从而减少时空开销.最后搭建Hadoop-MapReduce开源平台,模拟Web结构爬取,比较了传统算法和改进算法的性能.结果表明,改进后的算法迭代次数低,并行效率较高,在模拟环境中PgeRank标识网页等级显示其优越性.
PageRank是Web結構挖掘的經典算法,已在Google搜索引擎中取得瞭巨大成功.但其迭代次數多,時空消耗大,執行速度和收斂速度都還較慢.文中詳細討論瞭Hadoop-MapReduce的執行流程及其內部實現機製後,提齣瞭一種併行MapReduce實現矩陣分塊的PageRank算法,其實質是減少MapReduce框架結構中Map階段和Reduce階段的迭代次數,從而減少時空開銷.最後搭建Hadoop-MapReduce開源平檯,模擬Web結構爬取,比較瞭傳統算法和改進算法的性能.結果錶明,改進後的算法迭代次數低,併行效率較高,在模擬環境中PgeRank標識網頁等級顯示其優越性.
PageRank시Web결구알굴적경전산법,이재Google수색인경중취득료거대성공.단기질대차수다,시공소모대,집행속도화수렴속도도환교만.문중상세토론료Hadoop-MapReduce적집행류정급기내부실현궤제후,제출료일충병행MapReduce실현구진분괴적PageRank산법,기실질시감소MapReduce광가결구중Map계단화Reduce계단적질대차수,종이감소시공개소.최후탑건Hadoop-MapReduce개원평태,모의Web결구파취,비교료전통산법화개진산법적성능.결과표명,개진후적산법질대차수저,병행효솔교고,재모의배경중PgeRank표식망혈등급현시기우월성.