计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2008年
10期
1776-1781
,共6页
龚才春%黄玉兰%许洪波%白硕
龔纔春%黃玉蘭%許洪波%白碩
공재춘%황옥란%허홍파%백석
模式匹配%近似匹配%多重索引模型%大规模词典%拼写检查
模式匹配%近似匹配%多重索引模型%大規模詞典%拼寫檢查
모식필배%근사필배%다중색인모형%대규모사전%병사검사
编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法.传统单索引模式很难在高性能的前提下保证高召回率.词典越大问题越严重.提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词长度划分为若干子词典,对各子词典按照一定策略建立unigram,bigram,trigram,quadgram中的一种或若干种索引,当查找用户模式P的近似匹配时,根据模式P检索特定N-gram索引链,从而得到候选近似匹配集合C,对C中每一个单词W,计算P与W的编辑距离即可输出P的所有最终匹配结果R.实验表明,基于多重索引模型的词典近似匹配算法能够大幅度减少候选近似匹配结果的数量,从而提高词典近似匹配的速度.
編輯器的拼寫校正、搜索引擎的查詢糾正、光學字符識彆的結果檢查等領域都用到詞典近似匹配算法.傳統單索引模式很難在高性能的前提下保證高召迴率.詞典越大問題越嚴重.提齣瞭大規模詞典近似匹配的多重索引模型,首先將揹景詞典根據單詞長度劃分為若榦子詞典,對各子詞典按照一定策略建立unigram,bigram,trigram,quadgram中的一種或若榦種索引,噹查找用戶模式P的近似匹配時,根據模式P檢索特定N-gram索引鏈,從而得到候選近似匹配集閤C,對C中每一箇單詞W,計算P與W的編輯距離即可輸齣P的所有最終匹配結果R.實驗錶明,基于多重索引模型的詞典近似匹配算法能夠大幅度減少候選近似匹配結果的數量,從而提高詞典近似匹配的速度.
편집기적병사교정、수색인경적사순규정、광학자부식별적결과검사등영역도용도사전근사필배산법.전통단색인모식흔난재고성능적전제하보증고소회솔.사전월대문제월엄중.제출료대규모사전근사필배적다중색인모형,수선장배경사전근거단사장도화분위약간자사전,대각자사전안조일정책략건립unigram,bigram,trigram,quadgram중적일충혹약간충색인,당사조용호모식P적근사필배시,근거모식P검색특정N-gram색인련,종이득도후선근사필배집합C,대C중매일개단사W,계산P여W적편집거리즉가수출P적소유최종필배결과R.실험표명,기우다중색인모형적사전근사필배산법능구대폭도감소후선근사필배결과적수량,종이제고사전근사필배적속도.