计算机系统应用
計算機繫統應用
계산궤계통응용
APPLICATIONS OF THE COMPUTER SYSTEMS
2011年
11期
55-58
,共4页
黄韵竹%韦玮%罗杨宇%李成荣
黃韻竹%韋瑋%囉楊宇%李成榮
황운죽%위위%라양우%리성영
语料扩展%互信息%语言模型%语音识别%词类
語料擴展%互信息%語言模型%語音識彆%詞類
어료확전%호신식%어언모형%어음식별%사류
限定领域的语言模型训练语料的搜集需要耗费大量的人力物力,如果语料搜集不充分,往往会造成数据稀疏的问题.解决该问题的方法有两种:1、采用数据平滑算法,降低模型的困惑度;2、对训练语料进行扩展.探索了对语言模型的训练语料进行半自动扩展的方法.该方法通过计算互信息将非限定领域的大规模语料分成若干词类,生成大词类表;再将该表中领域相关的词类提取出来,进行手动删减之后用于对限定领域的语言模型进行参数估计.实验表明,将该方法用于语音识别系统,能有效缩短语言模型训练语料的搜集时间,提高系统的识别率.
限定領域的語言模型訓練語料的搜集需要耗費大量的人力物力,如果語料搜集不充分,往往會造成數據稀疏的問題.解決該問題的方法有兩種:1、採用數據平滑算法,降低模型的睏惑度;2、對訓練語料進行擴展.探索瞭對語言模型的訓練語料進行半自動擴展的方法.該方法通過計算互信息將非限定領域的大規模語料分成若榦詞類,生成大詞類錶;再將該錶中領域相關的詞類提取齣來,進行手動刪減之後用于對限定領域的語言模型進行參數估計.實驗錶明,將該方法用于語音識彆繫統,能有效縮短語言模型訓練語料的搜集時間,提高繫統的識彆率.
한정영역적어언모형훈련어료적수집수요모비대량적인력물력,여과어료수집불충분,왕왕회조성수거희소적문제.해결해문제적방법유량충:1、채용수거평활산법,강저모형적곤혹도;2、대훈련어료진행확전.탐색료대어언모형적훈련어료진행반자동확전적방법.해방법통과계산호신식장비한정영역적대규모어료분성약간사류,생성대사류표;재장해표중영역상관적사류제취출래,진행수동산감지후용우대한정영역적어언모형진행삼수고계.실험표명,장해방법용우어음식별계통,능유효축단어언모형훈련어료적수집시간,제고계통적식별솔.