计算机科学与探索
計算機科學與探索
계산궤과학여탐색
JOURNAL OF FRONTIERS OF COMPUTER SCIENCE & TECHNOLOGY
2010年
8期
700-711
,共12页
无损压缩%差异量表示%编辑距离%聚类%基础序列
無損壓縮%差異量錶示%編輯距離%聚類%基礎序列
무손압축%차이량표시%편집거리%취류%기출서렬
对存在于网络信息、观测数据以及生物信息中的大量相似数据,使用传统的压缩方法压缩不能达到更好的效果.对相似度很高的数据采用一种新的无损压缩方法,即基础序列加上一组基于编辑距离的差异量来表示整个数据集,可以只用很少的差异量来表示原本巨大的数据项.针对现实中数据不会整体相似的特点,提出一种先聚类再压缩的思想,在每个聚类中构造聚类中心作为虚拟基础序列,使压缩比最大化.通过大量实际数据集的实验测试与分析,表明提出的无损压缩技术对于相似序列数据具有很好的压缩比.
對存在于網絡信息、觀測數據以及生物信息中的大量相似數據,使用傳統的壓縮方法壓縮不能達到更好的效果.對相似度很高的數據採用一種新的無損壓縮方法,即基礎序列加上一組基于編輯距離的差異量來錶示整箇數據集,可以隻用很少的差異量來錶示原本巨大的數據項.針對現實中數據不會整體相似的特點,提齣一種先聚類再壓縮的思想,在每箇聚類中構造聚類中心作為虛擬基礎序列,使壓縮比最大化.通過大量實際數據集的實驗測試與分析,錶明提齣的無損壓縮技術對于相似序列數據具有很好的壓縮比.
대존재우망락신식、관측수거이급생물신식중적대량상사수거,사용전통적압축방법압축불능체도경호적효과.대상사도흔고적수거채용일충신적무손압축방법,즉기출서렬가상일조기우편집거리적차이량래표시정개수거집,가이지용흔소적차이량래표시원본거대적수거항.침대현실중수거불회정체상사적특점,제출일충선취류재압축적사상,재매개취류중구조취류중심작위허의기출서렬,사압축비최대화.통과대량실제수거집적실험측시여분석,표명제출적무손압축기술대우상사서렬수거구유흔호적압축비.