计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2014年
13期
153-157,186
,共6页
胡小鹏%袁琦%耿鑫辉%朱姝
鬍小鵬%袁琦%耿鑫輝%硃姝
호소붕%원기%경흠휘%주주
三元组可比语料库%语言迁移%自动语言剖析%n-元词串
三元組可比語料庫%語言遷移%自動語言剖析%n-元詞串
삼원조가비어료고%어언천이%자동어언부석%n-원사천
3-tuple comparable corpora%language transfer%automatic language profiling%n-grams
由于受到翻译腔的影响,中英平行语料库存在固有的扭斜的语言模型。显然,用这样的语料库训练的机器翻译、跨语言检索等自然语言处理系统也承袭了扭斜的语言模型,严重影响到应用系统的性能。为了克服平行语料库固有的缺陷,提出构建和剖析中英三元组可比语料库的技术研究。这项研究采用可比语料库和语言自动剖析技术,使用统计和规则相结合的方法,对由本族英语、中式英语和标准中文三元素所组成的三元组可比语料库中的本族英语和中式英语进行统计分析。在此基础上,利用n-元词串、关键词簇等自动抽取技术挖掘基于本族语言模型的双语资源,实现改进和发展机器翻译等自然语言的处理应用。
由于受到翻譯腔的影響,中英平行語料庫存在固有的扭斜的語言模型。顯然,用這樣的語料庫訓練的機器翻譯、跨語言檢索等自然語言處理繫統也承襲瞭扭斜的語言模型,嚴重影響到應用繫統的性能。為瞭剋服平行語料庫固有的缺陷,提齣構建和剖析中英三元組可比語料庫的技術研究。這項研究採用可比語料庫和語言自動剖析技術,使用統計和規則相結閤的方法,對由本族英語、中式英語和標準中文三元素所組成的三元組可比語料庫中的本族英語和中式英語進行統計分析。在此基礎上,利用n-元詞串、關鍵詞簇等自動抽取技術挖掘基于本族語言模型的雙語資源,實現改進和髮展機器翻譯等自然語言的處理應用。
유우수도번역강적영향,중영평행어료고존재고유적뉴사적어언모형。현연,용저양적어료고훈련적궤기번역、과어언검색등자연어언처리계통야승습료뉴사적어언모형,엄중영향도응용계통적성능。위료극복평행어료고고유적결함,제출구건화부석중영삼원조가비어료고적기술연구。저항연구채용가비어료고화어언자동부석기술,사용통계화규칙상결합적방법,대유본족영어、중식영어화표준중문삼원소소조성적삼원조가비어료고중적본족영어화중식영어진행통계분석。재차기출상,이용n-원사천、관건사족등자동추취기술알굴기우본족어언모형적쌍어자원,실현개진화발전궤기번역등자연어언적처리응용。
There exists inherent skewed language model in Chinese-English parallel corpus due to the influence of transla-tionese. Obviously, natural language processing systems trained with these corpora, including machine translation and cross-language information retrieval, will inherit the skewed language model, thus seriously degrading the performance of applications. To fix the inherent defaults in parallel corpus, this paper proposes a technical research on building and profiling Chinese-English 3-tuple comparable corpora. The study adopts comparable corpora and automatic language profiling technologies and applies a combined method of statistics and rules for statistical analysis on native English and Chinglish in 3-tuple comparable corpora that consists of native English, Chinglish and standard Chinese. Based on this, automatic extraction technologies, such as n-grams and key clusters, are used in the mining of native-language-based bilingual resources to improve and develop natural language processing applications such as machine translation.