中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2013年
5期
184-190
,共7页
苏晨%张玉洁%郭振%徐金安
囌晨%張玉潔%郭振%徐金安
소신%장옥길%곽진%서금안
汉语分词%领域适应%双语引导%Lattice%机器翻译
漢語分詞%領域適應%雙語引導%Lattice%機器翻譯
한어분사%영역괄응%쌍어인도%Lattice%궤기번역
Chinese word segmentation%domain adaptation%bilingual motivation%Lattice%machine translation
在特定领域的汉英机器翻译系统开发过程中,大量新词的出现导致汉语分词精度下降,而特定领域缺少标注语料使得有监督学习技术的性能难以提高.这直接导致抽取的翻译知识中出现很多错误,严重影响翻译质量.为解决这个问题,该文实现了基于生语料的领域自适应分词模型和双语引导的汉语分词,并提出融合多种分词结果的方法,通过构建格状结构(Lattice)并使用动态规划算法得到最佳汉语分词结果.为了验证所提方法,我们在NTCIR-10的汉英数据集上进行了评价实验.实验结果表明,该文提出的融合多种分词结果的汉语分词方法在分词精度F值和统计机器翻译的BLEU值上均得到了提高.
在特定領域的漢英機器翻譯繫統開髮過程中,大量新詞的齣現導緻漢語分詞精度下降,而特定領域缺少標註語料使得有鑑督學習技術的性能難以提高.這直接導緻抽取的翻譯知識中齣現很多錯誤,嚴重影響翻譯質量.為解決這箇問題,該文實現瞭基于生語料的領域自適應分詞模型和雙語引導的漢語分詞,併提齣融閤多種分詞結果的方法,通過構建格狀結構(Lattice)併使用動態規劃算法得到最佳漢語分詞結果.為瞭驗證所提方法,我們在NTCIR-10的漢英數據集上進行瞭評價實驗.實驗結果錶明,該文提齣的融閤多種分詞結果的漢語分詞方法在分詞精度F值和統計機器翻譯的BLEU值上均得到瞭提高.
재특정영역적한영궤기번역계통개발과정중,대량신사적출현도치한어분사정도하강,이특정영역결소표주어료사득유감독학습기술적성능난이제고.저직접도치추취적번역지식중출현흔다착오,엄중영향번역질량.위해결저개문제,해문실현료기우생어료적영역자괄응분사모형화쌍어인도적한어분사,병제출융합다충분사결과적방법,통과구건격상결구(Lattice)병사용동태규화산법득도최가한어분사결과.위료험증소제방법,아문재NTCIR-10적한영수거집상진행료평개실험.실험결과표명,해문제출적융합다충분사결과적한어분사방법재분사정도F치화통계궤기번역적BLEU치상균득도료제고.