计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2014年
9期
279-284
,共6页
大数据%近似串匹配%种子%q-gram索引%多种子索引
大數據%近似串匹配%種子%q-gram索引%多種子索引
대수거%근사천필배%충자%q-gram색인%다충자색인
Big data%Approximate string matching%Seed%Q-gram index%Multi seeds index
如何在大型文本库中快速找出给定串的近似串是大数据时代要解决的关键问题.基于多种子的近似串匹配算法因匹配速度快而得到众多学者的青睐,但巨大的索引空间消耗也使其难以处理大型文本库.提出了一种支持多种子的q-gram索引结构,通过该索引能够快速地计算出给定任意长度连续种子的地址集合,解决了多种子近似串匹配算法中种子的数目和长度受存储空间限制的问题.实验数据显示,新索引方案成倍地减少了存储空间的消耗.实验结果表明,提出的索引方案在大数据环境下的多种子近似匹配中具有一定的优势.
如何在大型文本庫中快速找齣給定串的近似串是大數據時代要解決的關鍵問題.基于多種子的近似串匹配算法因匹配速度快而得到衆多學者的青睞,但巨大的索引空間消耗也使其難以處理大型文本庫.提齣瞭一種支持多種子的q-gram索引結構,通過該索引能夠快速地計算齣給定任意長度連續種子的地阯集閤,解決瞭多種子近似串匹配算法中種子的數目和長度受存儲空間限製的問題.實驗數據顯示,新索引方案成倍地減少瞭存儲空間的消耗.實驗結果錶明,提齣的索引方案在大數據環境下的多種子近似匹配中具有一定的優勢.
여하재대형문본고중쾌속조출급정천적근사천시대수거시대요해결적관건문제.기우다충자적근사천필배산법인필배속도쾌이득도음다학자적청래,단거대적색인공간소모야사기난이처리대형문본고.제출료일충지지다충자적q-gram색인결구,통과해색인능구쾌속지계산출급정임의장도련속충자적지지집합,해결료다충자근사천필배산법중충자적수목화장도수존저공간한제적문제.실험수거현시,신색인방안성배지감소료존저공간적소모.실험결과표명,제출적색인방안재대수거배경하적다충자근사필배중구유일정적우세.