北京航空航天大学学报
北京航空航天大學學報
북경항공항천대학학보
2008年
11期
1276-1279
,共4页
N元语法分布%种子集%训练集%自适应
N元語法分佈%種子集%訓練集%自適應
N원어법분포%충자집%훈련집%자괄응
N元语法分布能恰当地描述语料库的特性,为了有效利用普通领域训练数据,提出一种基于N元语法分布的语言模型自适应方法.该方法定义一个小的领域内的高质量种子集和一个大的普通领域的质量不稳定的训练集,将训练集的N元语法分布自适应到和种子集的N元语法分布相似,以更好地进行特定领域单词识别.实验结果表明,基于N元语法分布的语言模型自适应方法可以使单词困惑度和词错误率分别比传统的简单插值法降低11.1%和6.9%.
N元語法分佈能恰噹地描述語料庫的特性,為瞭有效利用普通領域訓練數據,提齣一種基于N元語法分佈的語言模型自適應方法.該方法定義一箇小的領域內的高質量種子集和一箇大的普通領域的質量不穩定的訓練集,將訓練集的N元語法分佈自適應到和種子集的N元語法分佈相似,以更好地進行特定領域單詞識彆.實驗結果錶明,基于N元語法分佈的語言模型自適應方法可以使單詞睏惑度和詞錯誤率分彆比傳統的簡單插值法降低11.1%和6.9%.
N원어법분포능흡당지묘술어료고적특성,위료유효이용보통영역훈련수거,제출일충기우N원어법분포적어언모형자괄응방법.해방법정의일개소적영역내적고질량충자집화일개대적보통영역적질량불은정적훈련집,장훈련집적N원어법분포자괄응도화충자집적N원어법분포상사,이경호지진행특정영역단사식별.실험결과표명,기우N원어법분포적어언모형자괄응방법가이사단사곤혹도화사착오솔분별비전통적간단삽치법강저11.1%화6.9%.