中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2009年
6期
67-71
,共5页
张宏涛%龙翀%朱小燕%孙俊
張宏濤%龍翀%硃小燕%孫俊
장굉도%룡충%주소연%손준
计算机应用%中文信息处理%汉字识别%OCR%语言模型%后处理
計算機應用%中文信息處理%漢字識彆%OCR%語言模型%後處理
계산궤응용%중문신식처리%한자식별%OCR%어언모형%후처리
computer application%Chinese information processing%Chinese character recognition%OCR%language model%post-processing
高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题.该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法.通过采用字节作为语言模型的基本表示单位,模型的复杂度大大降低,从而数据稀疏问题得到很大程度上缓解.实验证明,采用基于字节的语言模型的后处理系统能够以极少的时空开销获取很好的识别性能.在有部分分割错误的测试集上,正确率从88.67%提高到了98.32%,错误率下降了85.18%,运行速度较基于字以及基于词的系统有了大幅的提升,提高了后处理系统的综合性能;与目前常用的基于词的语言模型后处理系统相比,新系统能够节省95%的运行时间和98%的内存资源,但系统识别率仅降低了1.11%.
高階N-gram語言模型在OCR後處理方麵有著廣汎的應用,但也麵臨著因模型複雜度大導緻的數據稀疏,以及耗費較多的時空資源等問題.該文針對印刷體漢字識彆的後處理,提齣瞭一種基于字節的語言模型的後處理算法.通過採用字節作為語言模型的基本錶示單位,模型的複雜度大大降低,從而數據稀疏問題得到很大程度上緩解.實驗證明,採用基于字節的語言模型的後處理繫統能夠以極少的時空開銷穫取很好的識彆性能.在有部分分割錯誤的測試集上,正確率從88.67%提高到瞭98.32%,錯誤率下降瞭85.18%,運行速度較基于字以及基于詞的繫統有瞭大幅的提升,提高瞭後處理繫統的綜閤性能;與目前常用的基于詞的語言模型後處理繫統相比,新繫統能夠節省95%的運行時間和98%的內存資源,但繫統識彆率僅降低瞭1.11%.
고계N-gram어언모형재OCR후처리방면유착엄범적응용,단야면림착인모형복잡도대도치적수거희소,이급모비교다적시공자원등문제.해문침대인쇄체한자식별적후처리,제출료일충기우자절적어언모형적후처리산법.통과채용자절작위어언모형적기본표시단위,모형적복잡도대대강저,종이수거희소문제득도흔대정도상완해.실험증명,채용기우자절적어언모형적후처리계통능구이겁소적시공개소획취흔호적식별성능.재유부분분할착오적측시집상,정학솔종88.67%제고도료98.32%,착오솔하강료85.18%,운행속도교기우자이급기우사적계통유료대폭적제승,제고료후처리계통적종합성능;여목전상용적기우사적어언모형후처리계통상비,신계통능구절성95%적운행시간화98%적내존자원,단계통식별솔부강저료1.11%.
In Chinese OCR post-processing, the high-order Chinese n-gram language models, such as word based tri-gram and four-gram is still a challenging issue because of the data sparseness issue and large memory cost led by big model size. In this paper, we focus on the post-processing of printed Chinese character recognition and propose a byte-based language model. By choosing byte as the representing unit of language model, we achieve a remarkable reduction of model size which overcomes the sparseness problem to a great extent. The experimental results show that the new language model based on byte works very well with higher performance and lowest time and space costs. For the test set with segmentation errors, the recognition accuracy increases from 88. 67% to 98. 32% , which means 85. 18% error reduction. Compared with the system using traditional word based tri-gram, the new system saves 95% time cost and nearly 98% memory cost at almost no cost in the accuracy performance.