山东大学学报(理学版)
山東大學學報(理學版)
산동대학학보(이학판)
JOURNAL OF SHANDONG UNIVERSITY(NATURAL SCIENCE)
2014年
12期
30-35
,共6页
倒排索引%整数压缩%索引压缩
倒排索引%整數壓縮%索引壓縮
도배색인%정수압축%색인압축
inverted index%integer compression%index compression
全文检索的效率依赖于数据结构-倒排索引,存储倒排索引需要较大的硬盘存储空间。提出了一种新的压缩算法,主要用于倒排索引中文档标识符的压缩。对于给定的文档集合使用信息检索工具Terrier,使用不同的压缩算法压缩倒排索引中的文档标识符,从而生成倒排索引文件,然后比较倒排索引文件的大小。实验结果表明,使用新的压缩算法能够节省倒排索引文件的存储空间。
全文檢索的效率依賴于數據結構-倒排索引,存儲倒排索引需要較大的硬盤存儲空間。提齣瞭一種新的壓縮算法,主要用于倒排索引中文檔標識符的壓縮。對于給定的文檔集閤使用信息檢索工具Terrier,使用不同的壓縮算法壓縮倒排索引中的文檔標識符,從而生成倒排索引文件,然後比較倒排索引文件的大小。實驗結果錶明,使用新的壓縮算法能夠節省倒排索引文件的存儲空間。
전문검색적효솔의뢰우수거결구-도배색인,존저도배색인수요교대적경반존저공간。제출료일충신적압축산법,주요용우도배색인중문당표식부적압축。대우급정적문당집합사용신식검색공구Terrier,사용불동적압축산법압축도배색인중적문당표식부,종이생성도배색인문건,연후비교도배색인문건적대소。실험결과표명,사용신적압축산법능구절성도배색인문건적존저공간。
The efficiency of text search engines relies on data structure:inverted index.And the more large space is need to storage the inverted index.A new compression algorithm was proposed.For the given document collections.Terrier, the information retrival tool,was used to build inverted index,and the state-of-the-art compression techniques was used to compress inverted file.Then the compress ratio was confirmed by comparing the file size.Experiments show that the new compression techniques can get much better compress ratio.