计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2012年
3期
149-152,169
,共5页
丁溪源%黄河燕%张海军%王树梅
丁溪源%黃河燕%張海軍%王樹梅
정계원%황하연%장해군%왕수매
频繁模式%重复串%语料划分%子串归并
頻繁模式%重複串%語料劃分%子串歸併
빈번모식%중복천%어료화분%자천귀병
频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值.为处理规模远超出内存的语料,提出了一种实用的频繁模式查找算法.先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共前缀区间(MLCPI)来完成查找.另外在此基础上提出逐层归并算法,实现查找的同时归并子串.由于进行查找时无需将全部数据导入内存,因此资源消耗较少;各集合间频繁模式查找互不干扰,可采用并行处理加快运行速度.使用4.61G纯文本语料进行了试验,结果表明其内存消耗小于30M,查找速度最快达1.08M/s,能高效地进行子串归并.
頻繁模式查找對新詞識彆、網絡輿情鑑測、生物信息序列檢測等領域有很高的應用價值.為處理規模遠超齣內存的語料,提齣瞭一種實用的頻繁模式查找算法.先將語料按後綴首字符劃分為多箇集閤,通過逐條掃描集閤數據,搜索齣最大化最長公共前綴區間(MLCPI)來完成查找.另外在此基礎上提齣逐層歸併算法,實現查找的同時歸併子串.由于進行查找時無需將全部數據導入內存,因此資源消耗較少;各集閤間頻繁模式查找互不榦擾,可採用併行處理加快運行速度.使用4.61G純文本語料進行瞭試驗,結果錶明其內存消耗小于30M,查找速度最快達1.08M/s,能高效地進行子串歸併.
빈번모식사조대신사식별、망락여정감측、생물신식서렬검측등영역유흔고적응용개치.위처리규모원초출내존적어료,제출료일충실용적빈번모식사조산법.선장어료안후철수자부화분위다개집합,통과축조소묘집합수거,수색출최대화최장공공전철구간(MLCPI)래완성사조.령외재차기출상제출축층귀병산법,실현사조적동시귀병자천.유우진행사조시무수장전부수거도입내존,인차자원소모교소;각집합간빈번모식사조호불간우,가채용병행처리가쾌운행속도.사용4.61G순문본어료진행료시험,결과표명기내존소모소우30M,사조속도최쾌체1.08M/s,능고효지진행자천귀병.