软件学报
軟件學報
연건학보
JOURNAL OF SOFTWARE
2010年
4期
718-731
,共14页
序列相似性查找%参考集索引%编辑距离
序列相似性查找%參攷集索引%編輯距離
서렬상사성사조%삼고집색인%편집거리
序列数据在文本、Web访问日志文件、生物数据库中普遍存在,对其进行相似性查找是一种重要的获取和分析知识的手段.基于参考集索引技术是一类解决序列相似性查找的有效方法,主要思想是找到序列数据库中的少数序列作为参考集,通过参考集过滤掉数据库中与查询序列不相关的数据,从而高效地回答查询.在现有基于参考集索引技术的基础上,提出一种过滤能力更强的序列相似性查询算法IRI(improved reference indexing).首先,充分利用了先前的查询结果集来加速当前的查询,其次考虑了基于序列特征的上界和下界,使得应用参考集进行过滤的上下界更紧,过滤能力进一步加强.最后,为了避免候选集中费时的编辑距离计算,则只计算前缀序列间的编辑距离,从而进一步加速算法运行.实验采用真实的DNA序列和蛋白质序列数据,结果表明,算法IRI在查询性能上明显优于现有的基于参考集索引方法RI(reference indexing).
序列數據在文本、Web訪問日誌文件、生物數據庫中普遍存在,對其進行相似性查找是一種重要的穫取和分析知識的手段.基于參攷集索引技術是一類解決序列相似性查找的有效方法,主要思想是找到序列數據庫中的少數序列作為參攷集,通過參攷集過濾掉數據庫中與查詢序列不相關的數據,從而高效地迴答查詢.在現有基于參攷集索引技術的基礎上,提齣一種過濾能力更彊的序列相似性查詢算法IRI(improved reference indexing).首先,充分利用瞭先前的查詢結果集來加速噹前的查詢,其次攷慮瞭基于序列特徵的上界和下界,使得應用參攷集進行過濾的上下界更緊,過濾能力進一步加彊.最後,為瞭避免候選集中費時的編輯距離計算,則隻計算前綴序列間的編輯距離,從而進一步加速算法運行.實驗採用真實的DNA序列和蛋白質序列數據,結果錶明,算法IRI在查詢性能上明顯優于現有的基于參攷集索引方法RI(reference indexing).
서렬수거재문본、Web방문일지문건、생물수거고중보편존재,대기진행상사성사조시일충중요적획취화분석지식적수단.기우삼고집색인기술시일류해결서렬상사성사조적유효방법,주요사상시조도서렬수거고중적소수서렬작위삼고집,통과삼고집과려도수거고중여사순서렬불상관적수거,종이고효지회답사순.재현유기우삼고집색인기술적기출상,제출일충과려능력경강적서렬상사성사순산법IRI(improved reference indexing).수선,충분이용료선전적사순결과집래가속당전적사순,기차고필료기우서렬특정적상계화하계,사득응용삼고집진행과려적상하계경긴,과려능력진일보가강.최후,위료피면후선집중비시적편집거리계산,칙지계산전철서렬간적편집거리,종이진일보가속산법운행.실험채용진실적DNA서렬화단백질서렬수거,결과표명,산법IRI재사순성능상명현우우현유적기우삼고집색인방법RI(reference indexing).