计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
17期
205-209,227
,共6页
中文文本%压缩算法%前缀%深度%编码%压缩率
中文文本%壓縮算法%前綴%深度%編碼%壓縮率
중문문본%압축산법%전철%심도%편마%압축솔
Chinese text%compression algorithm%prefix%depth%coding%compression ratio
针对中文文本结构的特点以及传统压缩算法对中文文本压缩的不足,提出并实现了一个基于PDC编码的中文文本压缩算法。该算法采用的是字典压缩方式。根据单个汉字在中文文本出现的概率,采用Huffman编码方式进行前缀变长编码;定义由某个汉字为前缀的词组和短语的深度;对具有相同前缀和相同深度的词组和短语进行局部的定长编码,构成一部压缩编码字典。通过对相同文本分别使用该算法和传统的LZW和LZSS编码算法压缩后得到的数据结果对比,压缩率有2.53%~40.48%的提高,表明该压缩算法有较好的压缩效果。
針對中文文本結構的特點以及傳統壓縮算法對中文文本壓縮的不足,提齣併實現瞭一箇基于PDC編碼的中文文本壓縮算法。該算法採用的是字典壓縮方式。根據單箇漢字在中文文本齣現的概率,採用Huffman編碼方式進行前綴變長編碼;定義由某箇漢字為前綴的詞組和短語的深度;對具有相同前綴和相同深度的詞組和短語進行跼部的定長編碼,構成一部壓縮編碼字典。通過對相同文本分彆使用該算法和傳統的LZW和LZSS編碼算法壓縮後得到的數據結果對比,壓縮率有2.53%~40.48%的提高,錶明該壓縮算法有較好的壓縮效果。
침대중문문본결구적특점이급전통압축산법대중문문본압축적불족,제출병실현료일개기우PDC편마적중문문본압축산법。해산법채용적시자전압축방식。근거단개한자재중문문본출현적개솔,채용Huffman편마방식진행전철변장편마;정의유모개한자위전철적사조화단어적심도;대구유상동전철화상동심도적사조화단어진행국부적정장편마,구성일부압축편마자전。통과대상동문본분별사용해산법화전통적LZW화LZSS편마산법압축후득도적수거결과대비,압축솔유2.53%~40.48%적제고,표명해압축산법유교호적압축효과。
According to the characteristics of Chinese text structures and the disadvantages of traditional compression algo-rithm for Chinese text compression, it proposes and implements a Chinese text compression algorithm based on PDC cod-ing. The algorithm uses dictionary compression. According to the words’probability that appears in the Chinese text, the prefix encoded variable-length coding uses Huffman coding, it defines the depth of the phrases and short sentences that prefixed by the word, the algorithm encodes partial fixed-length coding for the phrases and short sentences which have the same prefix and depth, it constructs a compression dictionary. By comparing with the tradition compression algorithm LZW and LZSS that in the same texts, the compression algorithm’s compression ratio increases 2.53%~40.48%, which means the compression algorithm has a better compression effect than the traditional compression algorithm.