计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
5期
116-120,141
,共6页
吴培昊%徐金安%张玉洁
吳培昊%徐金安%張玉潔
오배호%서금안%장옥길
分词粒度%汉字对照表%汉日机器翻译
分詞粒度%漢字對照錶%漢日機器翻譯
분사립도%한자대조표%한일궤기번역
segmentation granularity%Kanji-Hanzi comparison table%Chinese-Japanese Machine Translation(MT)
未登录词与分词粒度是汉日日汉机器翻译研究的两个主要问题。与英语等西方语言不同,汉语与日语词语间不存在空格,分词为汉日双语处理的重要工作。由于词性标注体系、文法及语义表现上的差异,分词结果的粒度需要进一步调整,以改善统计机器翻译系统的性能。提出了面向统计机器翻译的基于汉日汉字对照表及日汉词典信息的汉语与日语的分词粒度调整方法。实验结果表明,该方法能有效地调节源语言和目标语言端的分词粒度,提高统计机器翻译系统的性能。通过对比实验结果,分析探讨分词粒度对汉日双语统计系统性能的影响。
未登錄詞與分詞粒度是漢日日漢機器翻譯研究的兩箇主要問題。與英語等西方語言不同,漢語與日語詞語間不存在空格,分詞為漢日雙語處理的重要工作。由于詞性標註體繫、文法及語義錶現上的差異,分詞結果的粒度需要進一步調整,以改善統計機器翻譯繫統的性能。提齣瞭麵嚮統計機器翻譯的基于漢日漢字對照錶及日漢詞典信息的漢語與日語的分詞粒度調整方法。實驗結果錶明,該方法能有效地調節源語言和目標語言耑的分詞粒度,提高統計機器翻譯繫統的性能。通過對比實驗結果,分析探討分詞粒度對漢日雙語統計繫統性能的影響。
미등록사여분사립도시한일일한궤기번역연구적량개주요문제。여영어등서방어언불동,한어여일어사어간불존재공격,분사위한일쌍어처리적중요공작。유우사성표주체계、문법급어의표현상적차이,분사결과적립도수요진일보조정,이개선통계궤기번역계통적성능。제출료면향통계궤기번역적기우한일한자대조표급일한사전신식적한어여일어적분사립도조정방법。실험결과표명,해방법능유효지조절원어언화목표어언단적분사립도,제고통계궤기번역계통적성능。통과대비실험결과,분석탐토분사립도대한일쌍어통계계통성능적영향。
Unknown words and word segmentation granularity are two main problems for Chinese-Japanese machine translation. Word segmentation is the first important step for Chinese and Japanese natural language processing. As Chi-nese and Japanese word segmentation is processed with different tagging system and semantic performance, the granularity of word segmentation results should be readjusted to improve the performance of Statistical Machine Translation(SMT). This paper proposes an approach to adjust the word segmentation granularity for improving the performance of SMT, which combines Hanzi-Kanji comparison table and Japanese-Chinese dictionary. Experimental results express that the pro-posed method could adjust the granularity between Chinese and Japanese effectively and improve the performance of SMT. This paper analyses the experimental results and discusses the effect of joint Chinese-Japanese word segmentation granularity for phrase-based SMT.