中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2010年
5期
96-105
,共10页
常为领%方滨兴%云晓春%王树鹏%余翔湛
常為領%方濱興%雲曉春%王樹鵬%餘翔湛
상위령%방빈흥%운효춘%왕수붕%여상담
CRecode%数据压缩%Huffman%压缩算法
CRecode%數據壓縮%Huffman%壓縮算法
CRecode%수거압축%Huffman%압축산법
该文提出了一种高效的中文文本压缩算法CRecode,算法根据中文文本中字词的概率分布特点,对中文字词根据其使用频率,采用8bit、16bit和24bit三种长度的编码重新编码,克服了Huffman编码在压缩中文数据时打乱数据中蕴含的语义信息,致使其压缩数据再压缩性差的缺点.测试中,CRecode在与现有主流压缩软件联合使用时,可提高压缩率4%到30%,最大平均压缩比可达2.86.CRecode作为独立压缩算法,压缩中文文本时可获得优于Huffman编码、接近于LZ系列算法的性能.
該文提齣瞭一種高效的中文文本壓縮算法CRecode,算法根據中文文本中字詞的概率分佈特點,對中文字詞根據其使用頻率,採用8bit、16bit和24bit三種長度的編碼重新編碼,剋服瞭Huffman編碼在壓縮中文數據時打亂數據中蘊含的語義信息,緻使其壓縮數據再壓縮性差的缺點.測試中,CRecode在與現有主流壓縮軟件聯閤使用時,可提高壓縮率4%到30%,最大平均壓縮比可達2.86.CRecode作為獨立壓縮算法,壓縮中文文本時可穫得優于Huffman編碼、接近于LZ繫列算法的性能.
해문제출료일충고효적중문문본압축산법CRecode,산법근거중문문본중자사적개솔분포특점,대중문자사근거기사용빈솔,채용8bit、16bit화24bit삼충장도적편마중신편마,극복료Huffman편마재압축중문수거시타란수거중온함적어의신식,치사기압축수거재압축성차적결점.측시중,CRecode재여현유주류압축연건연합사용시,가제고압축솔4%도30%,최대평균압축비가체2.86.CRecode작위독립압축산법,압축중문문본시가획득우우Huffman편마、접근우LZ계렬산법적성능.