计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2010年
10期
1785-1796
,共12页
戴东波%汤春蕾%邱伯仁%熊赟%朱扬勇
戴東波%湯春蕾%邱伯仁%熊赟%硃颺勇
대동파%탕춘뢰%구백인%웅빈%주양용
序列数据%相似性查询%过滤器%过滤顺序%度量空间
序列數據%相似性查詢%過濾器%過濾順序%度量空間
서렬수거%상사성사순%과려기%과려순서%도량공간
序列数据一类重要的数据类型,在文本、Web访问日志文件、生物数据库等应用中普遍存在,对其进行相似性查询是一种获取有用信息的重要手段.在大型序列数据库中进行高效相似性查询的关键因素之一就是查询算法的过滤能力,即设计能快速过滤与查询序列不相关序列集的过滤器十分重要.提出了结合序列距离的度量性质和序列自身特征的多重过滤算法SSQ_MF,SSQ_MF使用了长度过滤器、前缀过滤器和基于参考集的过滤器,使得算法过滤能力较基于单一过滤器算法进一步增强.此外,设计了有关数据结构对查询数据库的一些统计信息进行了预计算和保存,有效估计了各过滤器的过滤集大小,并构建了一个由过滤集大小确定的最优过滤顺序模型,使得算法的过滤代价最低.实验结果表明,算法SSQ_MF的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法.
序列數據一類重要的數據類型,在文本、Web訪問日誌文件、生物數據庫等應用中普遍存在,對其進行相似性查詢是一種穫取有用信息的重要手段.在大型序列數據庫中進行高效相似性查詢的關鍵因素之一就是查詢算法的過濾能力,即設計能快速過濾與查詢序列不相關序列集的過濾器十分重要.提齣瞭結閤序列距離的度量性質和序列自身特徵的多重過濾算法SSQ_MF,SSQ_MF使用瞭長度過濾器、前綴過濾器和基于參攷集的過濾器,使得算法過濾能力較基于單一過濾器算法進一步增彊.此外,設計瞭有關數據結構對查詢數據庫的一些統計信息進行瞭預計算和保存,有效估計瞭各過濾器的過濾集大小,併構建瞭一箇由過濾集大小確定的最優過濾順序模型,使得算法的過濾代價最低.實驗結果錶明,算法SSQ_MF的查詢性能優于單一過濾器算法和隨機過濾順序的多過濾器算法.
서렬수거일류중요적수거류형,재문본、Web방문일지문건、생물수거고등응용중보편존재,대기진행상사성사순시일충획취유용신식적중요수단.재대형서렬수거고중진행고효상사성사순적관건인소지일취시사순산법적과려능력,즉설계능쾌속과려여사순서렬불상관서렬집적과려기십분중요.제출료결합서렬거리적도량성질화서렬자신특정적다중과려산법SSQ_MF,SSQ_MF사용료장도과려기、전철과려기화기우삼고집적과려기,사득산법과려능력교기우단일과려기산법진일보증강.차외,설계료유관수거결구대사순수거고적일사통계신식진행료예계산화보존,유효고계료각과려기적과려집대소,병구건료일개유과려집대소학정적최우과려순서모형,사득산법적과려대개최저.실험결과표명,산법SSQ_MF적사순성능우우단일과려기산법화수궤과려순서적다과려기산법.