计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2013年
12期
1-4,10
,共5页
双序列比对%DNA数据压缩%可编程门阵列%差分编码%可变长整形
雙序列比對%DNA數據壓縮%可編程門陣列%差分編碼%可變長整形
쌍서렬비대%DNA수거압축%가편정문진렬%차분편마%가변장정형
pair wise sequence alignment%DNA data compression%field programmable gate arrays ( FPGA)%delta encoding%variable inte-gers
DNA序列虽然只由四个碱基组成,但数据量却非常巨大。有效的压缩DNA数据能大量节省传输的时间开销。目前已经有一些DNA序列专用的压缩算法,如Biocompress,DNACompress和CTW+LZ。虽然这些算法可以获得较好的压缩比,但是由于采用了传统的CTW算法或LZ系列的字典替换,导致花费太多的时间。为了解决这一问题,提出使用改进的RLE,差分编码和可变长整形等一系列编码方式进行多重压缩的高效压缩算法Dzip。标准DNA Benchmark数据测试的实验数据表明,该算法与现行DNA专用压缩算法相比,加速比至少为28。
DNA序列雖然隻由四箇堿基組成,但數據量卻非常巨大。有效的壓縮DNA數據能大量節省傳輸的時間開銷。目前已經有一些DNA序列專用的壓縮算法,如Biocompress,DNACompress和CTW+LZ。雖然這些算法可以穫得較好的壓縮比,但是由于採用瞭傳統的CTW算法或LZ繫列的字典替換,導緻花費太多的時間。為瞭解決這一問題,提齣使用改進的RLE,差分編碼和可變長整形等一繫列編碼方式進行多重壓縮的高效壓縮算法Dzip。標準DNA Benchmark數據測試的實驗數據錶明,該算法與現行DNA專用壓縮算法相比,加速比至少為28。
DNA서렬수연지유사개감기조성,단수거량각비상거대。유효적압축DNA수거능대량절성전수적시간개소。목전이경유일사DNA서렬전용적압축산법,여Biocompress,DNACompress화CTW+LZ。수연저사산법가이획득교호적압축비,단시유우채용료전통적CTW산법혹LZ계렬적자전체환,도치화비태다적시간。위료해결저일문제,제출사용개진적RLE,차분편마화가변장정형등일계렬편마방식진행다중압축적고효압축산법Dzip。표준DNA Benchmark수거측시적실험수거표명,해산법여현행DNA전용압축산법상비,가속비지소위28。
The DNA sequence is composed of only four base,but has lots of data. The effective compression for DNA data can save much time. There are several DNA sequence oriented compression methods like Biocompress,DNACompress and CTW+LZ. These algorithms can achieve good compression ratio,but has sacrificed too much time searching for similar areas. In order to solve the problem,a new al-gorithm Dzip was presented,by means of multiple layers compression techniques like improved RLE,delta encoding,variable integers. In comparison with current DNA sequence oriented compression methods,the standard DNA benchmark results indicate that the new algo-rithm can achieve at least 28 times faster in running time.