中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2013年
6期
144-150
,共7页
王星%涂兆鹏%谢军%吕雅娟%姚建民
王星%塗兆鵬%謝軍%呂雅娟%姚建民
왕성%도조붕%사군%려아연%요건민
统计机器翻译%平行语料选择
統計機器翻譯%平行語料選擇
통계궤기번역%평행어료선택
statistical machine translation%bilingual corpus selection
大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选.区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方法.通过少数句对特征构造差异较大的分类器训练句对,在该训练句对上使用更多的句对特征对分类器进行训练,然后对其他未分类句对进行分类.相比于基准系统,我们的方法不仅缩减40%训练语料规模,同时在NIST测试数据集合上将BLEU值提高了0.87个百分点.
大規模高質量雙語平行語料庫是構造高質量統計機器翻譯繫統的重要基礎,但語料庫中的譟聲影響著統計機器翻譯繫統的性能,因此有必要對大規模語料庫中語料進行篩選.區彆于傳統的語料選擇排序模型,本文提齣一種基于分類的平行語料選擇方法.通過少數句對特徵構造差異較大的分類器訓練句對,在該訓練句對上使用更多的句對特徵對分類器進行訓練,然後對其他未分類句對進行分類.相比于基準繫統,我們的方法不僅縮減40%訓練語料規模,同時在NIST測試數據集閤上將BLEU值提高瞭0.87箇百分點.
대규모고질량쌍어평행어료고시구조고질량통계궤기번역계통적중요기출,단어료고중적조성영향착통계궤기번역계통적성능,인차유필요대대규모어료고중어료진행사선.구별우전통적어료선택배서모형,본문제출일충기우분류적평행어료선택방법.통과소수구대특정구조차이교대적분류기훈련구대,재해훈련구대상사용경다적구대특정대분류기진행훈련,연후대기타미분류구대진행분류.상비우기준계통,아문적방법불부축감40%훈련어료규모,동시재NIST측시수거집합상장BLEU치제고료0.87개백분점.