中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2012年
3期
54-58,78
,共6页
奚宁%李博渊%黄书剑%陈家骏
奚寧%李博淵%黃書劍%陳傢駿
해저%리박연%황서검%진가준
中文分词%统计机器翻译%对齐可信度
中文分詞%統計機器翻譯%對齊可信度
중문분사%통계궤기번역%대제가신도
汉语分词是搭建汉语到其他语言的统计机器翻译系统的一项重要工作.从单语语料中训练得到的传统分词模型并不一定完全适合机器翻译[1].该文提出了一种基于单语和双语知识的适应于统计机器翻译系统的分词方法.首先利用对齐可信度的概念从双语字对齐语料中抽取可信对齐集合,然后根据可信对齐集合对双语语料中的中文部分重新分词;接着将重新分词的结果和单语分词工具的分词结果相融合,得到新的分词结果,并将其作为训练语料,利用条件随机场模型训练出一个融合了单双语知识的分词工具.该文用该工具对机器翻译所需的训练集、开发集和测试集进行分词,并在基于短语的统计机器翻译系统上进行实验.实验结果表明,该文所提的方法提高了系统性能.
漢語分詞是搭建漢語到其他語言的統計機器翻譯繫統的一項重要工作.從單語語料中訓練得到的傳統分詞模型併不一定完全適閤機器翻譯[1].該文提齣瞭一種基于單語和雙語知識的適應于統計機器翻譯繫統的分詞方法.首先利用對齊可信度的概唸從雙語字對齊語料中抽取可信對齊集閤,然後根據可信對齊集閤對雙語語料中的中文部分重新分詞;接著將重新分詞的結果和單語分詞工具的分詞結果相融閤,得到新的分詞結果,併將其作為訓練語料,利用條件隨機場模型訓練齣一箇融閤瞭單雙語知識的分詞工具.該文用該工具對機器翻譯所需的訓練集、開髮集和測試集進行分詞,併在基于短語的統計機器翻譯繫統上進行實驗.實驗結果錶明,該文所提的方法提高瞭繫統性能.
한어분사시탑건한어도기타어언적통계궤기번역계통적일항중요공작.종단어어료중훈련득도적전통분사모형병불일정완전괄합궤기번역[1].해문제출료일충기우단어화쌍어지식적괄응우통계궤기번역계통적분사방법.수선이용대제가신도적개념종쌍어자대제어료중추취가신대제집합,연후근거가신대제집합대쌍어어료중적중문부분중신분사;접착장중신분사적결과화단어분사공구적분사결과상융합,득도신적분사결과,병장기작위훈련어료,이용조건수궤장모형훈련출일개융합료단쌍어지식적분사공구.해문용해공구대궤기번역소수적훈련집、개발집화측시집진행분사,병재기우단어적통계궤기번역계통상진행실험.실험결과표명,해문소제적방법제고료계통성능.