计算机学报
計算機學報
계산궤학보
CHINESE JOURNAL OF COMPUTERS
2014年
6期
1261-1267
,共7页
OCR%校对%语料库%Google%纠错
OCR%校對%語料庫%Google%糾錯
OCR%교대%어료고%Google%규착
OCR%proofreading%corpus%Google%correct errors
为了提高OCR识别率,许多校对算法被提出用作后处理.这些方法利用自然语言规律统计大量的语料库进行语法判断.由于语料库规模有限且无法及时更新,导致一些网络新词、专用名词等常被错误处理.为此,文中将传统的语料库和Google知识库相结合,利用Google知识库获得网络新词等出现的频率,建立N Gram模型,利用词语间的接续关系进行查错,再借助Google的拼写校对功能和词语之间的可信度进行改错.相比传统的方法,该方法的语料库源于互联网,对一些新词有更好的校对效果,更适合图像中嵌入的文字信息识别结果的校正.
為瞭提高OCR識彆率,許多校對算法被提齣用作後處理.這些方法利用自然語言規律統計大量的語料庫進行語法判斷.由于語料庫規模有限且無法及時更新,導緻一些網絡新詞、專用名詞等常被錯誤處理.為此,文中將傳統的語料庫和Google知識庫相結閤,利用Google知識庫穫得網絡新詞等齣現的頻率,建立N Gram模型,利用詞語間的接續關繫進行查錯,再藉助Google的拼寫校對功能和詞語之間的可信度進行改錯.相比傳統的方法,該方法的語料庫源于互聯網,對一些新詞有更好的校對效果,更適閤圖像中嵌入的文字信息識彆結果的校正.
위료제고OCR식별솔,허다교대산법피제출용작후처리.저사방법이용자연어언규률통계대량적어료고진행어법판단.유우어료고규모유한차무법급시경신,도치일사망락신사、전용명사등상피착오처리.위차,문중장전통적어료고화Google지식고상결합,이용Google지식고획득망락신사등출현적빈솔,건립N Gram모형,이용사어간적접속관계진행사착,재차조Google적병사교대공능화사어지간적가신도진행개착.상비전통적방법,해방법적어료고원우호련망,대일사신사유경호적교대효과,경괄합도상중감입적문자신식식별결과적교정.