微计算机信息
微計算機信息
미계산궤신식
CONTROL & AUTOMATION
2006年
3期
244-246,271
,共4页
金春实%丁晓青%彭良瑞%刘长松
金春實%丁曉青%彭良瑞%劉長鬆
금춘실%정효청%팽량서%류장송
分词%词素%日文%词尾变化%OCR检错
分詞%詞素%日文%詞尾變化%OCR檢錯
분사%사소%일문%사미변화%OCR검착
在基于OCR技术的大规模文档录入系统中,自动检错可以大大降低人工校对成本.在日文OCR系统自动检错中,日文单词因其动词及形容词、形容动词的词尾变化现象使自动分词变得比较困难.本文提出了一种基于词素的日文分词新方法,通过建立以词素为基础单位的分词词库,以最大长度优先词条匹配方法分割出文章中有词尾变化的日文单词,避免了传统日文分词中收录单词各种词尾变化形式造成分词词库过于庞大的问题.实验表明,本文提出的分词方法可以达到99.0%的分词正确率;将该方法运用在OCR检错模块,当系统拒识率(即检错模块中认为可疑的字符在总字符中的比例)控制在1/5时,测试集上漏检率为0.05%,说明了该方法的有效性.
在基于OCR技術的大規模文檔錄入繫統中,自動檢錯可以大大降低人工校對成本.在日文OCR繫統自動檢錯中,日文單詞因其動詞及形容詞、形容動詞的詞尾變化現象使自動分詞變得比較睏難.本文提齣瞭一種基于詞素的日文分詞新方法,通過建立以詞素為基礎單位的分詞詞庫,以最大長度優先詞條匹配方法分割齣文章中有詞尾變化的日文單詞,避免瞭傳統日文分詞中收錄單詞各種詞尾變化形式造成分詞詞庫過于龐大的問題.實驗錶明,本文提齣的分詞方法可以達到99.0%的分詞正確率;將該方法運用在OCR檢錯模塊,噹繫統拒識率(即檢錯模塊中認為可疑的字符在總字符中的比例)控製在1/5時,測試集上漏檢率為0.05%,說明瞭該方法的有效性.
재기우OCR기술적대규모문당록입계통중,자동검착가이대대강저인공교대성본.재일문OCR계통자동검착중,일문단사인기동사급형용사、형용동사적사미변화현상사자동분사변득비교곤난.본문제출료일충기우사소적일문분사신방법,통과건립이사소위기출단위적분사사고,이최대장도우선사조필배방법분할출문장중유사미변화적일문단사,피면료전통일문분사중수록단사각충사미변화형식조성분사사고과우방대적문제.실험표명,본문제출적분사방법가이체도99.0%적분사정학솔;장해방법운용재OCR검착모괴,당계통거식솔(즉검착모괴중인위가의적자부재총자부중적비례)공제재1/5시,측시집상루검솔위0.05%,설명료해방법적유효성.