计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2014年
2期
226-230
,共5页
董本志%李文浩%景维鹏
董本誌%李文浩%景維鵬
동본지%리문호%경유붕
hadoop streaming%软件并行化%last比对软件
hadoop streaming%軟件併行化%last比對軟件
hadoop streaming%연건병행화%last비대연건
hadoop streaming%software parallelization%last alignment software
随着下一代测序技术的到来,单机版Last比对软件已经不能满足海量数据的处理需求。使用Hadoop Streaming技术将Last比对软件快速部署到云计算环境中,解决当前单机版Last比对软件处理大数据能力差的问题。通过自定义的基于NFS 文件系统的数据集切分方法和基于Partitioner的任务分配方式能够实现均衡高效的数据切分,并保证并行化粒度可控。实验结果表明,在保证与单机运行结果一致的情况下,这种方法能有效缩减软件运行时间,具有较高的加速比。
隨著下一代測序技術的到來,單機版Last比對軟件已經不能滿足海量數據的處理需求。使用Hadoop Streaming技術將Last比對軟件快速部署到雲計算環境中,解決噹前單機版Last比對軟件處理大數據能力差的問題。通過自定義的基于NFS 文件繫統的數據集切分方法和基于Partitioner的任務分配方式能夠實現均衡高效的數據切分,併保證併行化粒度可控。實驗結果錶明,在保證與單機運行結果一緻的情況下,這種方法能有效縮減軟件運行時間,具有較高的加速比。
수착하일대측서기술적도래,단궤판Last비대연건이경불능만족해량수거적처리수구。사용Hadoop Streaming기술장Last비대연건쾌속부서도운계산배경중,해결당전단궤판Last비대연건처리대수거능력차적문제。통과자정의적기우NFS 문건계통적수거집절분방법화기우Partitioner적임무분배방식능구실현균형고효적수거절분,병보증병행화립도가공。실험결과표명,재보증여단궤운행결과일치적정황하,저충방법능유효축감연건운행시간,구유교고적가속비。
With the arrival of the next generation sequencing technology, stand-alone version of the Last alignment soft-ware is not good enough for massive data processing while Hadoop Streaming technology can solve the problem by rapidly deploying Last software to the distributed cluster. It will be ensured to a balanced and effective data segmentation as well as control of the parallel granularity by the NFS-based customizing segmentation of data set and Partitioner based distribu-tion of tasks. Experimental results show that this method can guarantee the same results with the stand-alone operation, effectively reduce the running time with a relatively high speed.