计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2014年
2期
71-76
,共6页
张旭东%孙志明%刘亚宁%单栋栋%闫宏飞
張旭東%孫誌明%劉亞寧%單棟棟%閆宏飛
장욱동%손지명%류아저%단동동%염굉비
倒排索引%索引压缩%64 位体系结构%搜索引擎%信息检索
倒排索引%索引壓縮%64 位體繫結構%搜索引擎%信息檢索
도배색인%색인압축%64 위체계결구%수색인경%신식검색
inverted index%index compression%64-bit architecture%search engine%information retrieval
在64位体系结构的 CPU 中,字长从32位扩展到64位,处理器每次可以处理的数据也增加到64位。这对搜索引擎使用的核心数据结构--倒排索引的压缩与解压缩带来一定的影响。针对当前32位整数字对齐压缩算法 Simple 不适用于64位系统的问题,对其进行改进,并提出3种基于64位的字对齐压缩算法,即 SimpleX64-16、SimpleX64-32和 SimpleX64-64。3种算法都采用多种压缩模式,并对每个模式进行压缩空间的优化。在64位机器上 GOV2和 ClueWeb09B 数据集的倒排索引实验结果表明,与传统的基于32位字对齐的压缩算法相比,3种基于64位字对齐的算法在解压速度方面最多提高14.5%,在压缩率方面最多提高2.5%。
在64位體繫結構的 CPU 中,字長從32位擴展到64位,處理器每次可以處理的數據也增加到64位。這對搜索引擎使用的覈心數據結構--倒排索引的壓縮與解壓縮帶來一定的影響。針對噹前32位整數字對齊壓縮算法 Simple 不適用于64位繫統的問題,對其進行改進,併提齣3種基于64位的字對齊壓縮算法,即 SimpleX64-16、SimpleX64-32和 SimpleX64-64。3種算法都採用多種壓縮模式,併對每箇模式進行壓縮空間的優化。在64位機器上 GOV2和 ClueWeb09B 數據集的倒排索引實驗結果錶明,與傳統的基于32位字對齊的壓縮算法相比,3種基于64位字對齊的算法在解壓速度方麵最多提高14.5%,在壓縮率方麵最多提高2.5%。
재64위체계결구적 CPU 중,자장종32위확전도64위,처리기매차가이처리적수거야증가도64위。저대수색인경사용적핵심수거결구--도배색인적압축여해압축대래일정적영향。침대당전32위정수자대제압축산법 Simple 불괄용우64위계통적문제,대기진행개진,병제출3충기우64위적자대제압축산법,즉 SimpleX64-16、SimpleX64-32화 SimpleX64-64。3충산법도채용다충압축모식,병대매개모식진행압축공간적우화。재64위궤기상 GOV2화 ClueWeb09B 수거집적도배색인실험결과표명,여전통적기우32위자대제적압축산법상비,3충기우64위자대제적산법재해압속도방면최다제고14.5%,재압축솔방면최다제고2.5%。
In the 64-bit architecture of the CPU, the word length extends from 32 bit to 64 bit, and the data which CPU can process each time also increases to 64 bit. Few studies are performed to date to answer what influences 64-bit systems have on the compression and decompression of inverted index, which is the primary data structure in search engines. Some compression algorithms of posting lists work well on 32-bit machines, but are inefficient on 64-bit machines. This paper proposes three word-aligned compression algorithms on 64-bit system, namely, SimpleX64-16, SimpleX64-32 and SimpleX64-64. It adopts more modes and optimizes each mode for each algorithm. Experiments based on inverted index of GOV2 and ClueWeb09B show that those algorithms can improve compression ratio by 2.5% and decompression rate by 14.5%, compared with the traditional 32-bit word-aligned compression algorithms, on 64-bit machines.