中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2015年
2期
95-102
,共8页
统计机器翻译%EM算法%双语句法短语
統計機器翻譯%EM算法%雙語句法短語
통계궤기번역%EM산법%쌍어구법단어
statistical machine translation%Expectation-maximization algorithm%bilingual syntactic phrases
短语表是基于短语的统计机器翻译系统的一个核心组成部分,基于启发式方法抽取到的短语表受单词对齐错误和未对齐词的影响严重,同时抽取到的短语也并非句法意义上的短语.该文提出一种基于EM(Expecta-tion-maximization)算法的双语句法短语抽取方法来抽取双语句法短语,此方法可以通过不断迭代的方式使各参数值达到最优.通过加入双语句法短语、增加新特征、重新训练三种不同的方法,将获得的双语句法短语与基于短语的统计机器翻译方法结合以提高统计机器翻译系统的性能.结果表明:三种方法都不同程度提高了译文的BLEU(BiLingual Evaluation Understudy)值,其中增加新特征方法提高了0.64个点.
短語錶是基于短語的統計機器翻譯繫統的一箇覈心組成部分,基于啟髮式方法抽取到的短語錶受單詞對齊錯誤和未對齊詞的影響嚴重,同時抽取到的短語也併非句法意義上的短語.該文提齣一種基于EM(Expecta-tion-maximization)算法的雙語句法短語抽取方法來抽取雙語句法短語,此方法可以通過不斷迭代的方式使各參數值達到最優.通過加入雙語句法短語、增加新特徵、重新訓練三種不同的方法,將穫得的雙語句法短語與基于短語的統計機器翻譯方法結閤以提高統計機器翻譯繫統的性能.結果錶明:三種方法都不同程度提高瞭譯文的BLEU(BiLingual Evaluation Understudy)值,其中增加新特徵方法提高瞭0.64箇點.
단어표시기우단어적통계궤기번역계통적일개핵심조성부분,기우계발식방법추취도적단어표수단사대제착오화미대제사적영향엄중,동시추취도적단어야병비구법의의상적단어.해문제출일충기우EM(Expecta-tion-maximization)산법적쌍어구법단어추취방법래추취쌍어구법단어,차방법가이통과불단질대적방식사각삼수치체도최우.통과가입쌍어구법단어、증가신특정、중신훈련삼충불동적방법,장획득적쌍어구법단어여기우단어적통계궤기번역방법결합이제고통계궤기번역계통적성능.결과표명:삼충방법도불동정도제고료역문적BLEU(BiLingual Evaluation Understudy)치,기중증가신특정방법제고료0.64개점.