中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2006年
6期
69-74
,共6页
龙翀%庄丽%朱小燕%黄开竹%孙俊%堀田悦伸%直井聡
龍翀%莊麗%硃小燕%黃開竹%孫俊%堀田悅伸%直井聡
룡충%장려%주소연%황개죽%손준%굴전열신%직정총
人工智能%模式识别%OCR%语言模型%后处理
人工智能%模式識彆%OCR%語言模型%後處理
인공지능%모식식별%OCR%어언모형%후처리
OCR(光学字符识别技术)作为方便有效的字体识别技术,在办公自动化、信息恢复、数字图书馆等方面发挥着日益重要的作用.语言模型在OCR后处理,特别是在中文的文字识别后处理方面有着广泛的应用.本文针对手写中文地址的后处理,讨论了语言模型的粒度对识别正确率的影响,分析了基于字和基于词的语言模型各自的优点和缺点,并采用了基于词的语言模型,在此基础上提出了加权词图搜索算法.实验证明,在58269条中文手写地址的测试集上,手写地址的整体识别率由原来的28.56%上升到了75.66%,错误率下降了65.93%,大大提高了系统的性能.
OCR(光學字符識彆技術)作為方便有效的字體識彆技術,在辦公自動化、信息恢複、數字圖書館等方麵髮揮著日益重要的作用.語言模型在OCR後處理,特彆是在中文的文字識彆後處理方麵有著廣汎的應用.本文針對手寫中文地阯的後處理,討論瞭語言模型的粒度對識彆正確率的影響,分析瞭基于字和基于詞的語言模型各自的優點和缺點,併採用瞭基于詞的語言模型,在此基礎上提齣瞭加權詞圖搜索算法.實驗證明,在58269條中文手寫地阯的測試集上,手寫地阯的整體識彆率由原來的28.56%上升到瞭75.66%,錯誤率下降瞭65.93%,大大提高瞭繫統的性能.
OCR(광학자부식별기술)작위방편유효적자체식별기술,재판공자동화、신식회복、수자도서관등방면발휘착일익중요적작용.어언모형재OCR후처리,특별시재중문적문자식별후처리방면유착엄범적응용.본문침대수사중문지지적후처리,토론료어언모형적립도대식별정학솔적영향,분석료기우자화기우사적어언모형각자적우점화결점,병채용료기우사적어언모형,재차기출상제출료가권사도수색산법.실험증명,재58269조중문수사지지적측시집상,수사지지적정체식별솔유원래적28.56%상승도료75.66%,착오솔하강료65.93%,대대제고료계통적성능.