计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2014年
12期
2724-2732
,共9页
赵博%黄书剑%戴新宇%袁春风%黄宜华
趙博%黃書劍%戴新宇%袁春風%黃宜華
조박%황서검%대신우%원춘풍%황의화
统计机器翻译%层次短语%语言模型%翻译模型%并行化解码%分布内存
統計機器翻譯%層次短語%語言模型%翻譯模型%併行化解碼%分佈內存
통계궤기번역%층차단어%어언모형%번역모형%병행화해마%분포내존
statistical machine translation%hierarchical phrase%language model%translation model%parallel decoding%distributed memory
近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单机串行化翻译处理难以在较快的时间内完成计算,该问题在处理联机翻译时更为突出.为了克服单机机器翻译算法在这方面的局限性,提高大规模统计机器翻译处理的计算性能,面向一个实际的联机翻译系统,提出了一个分布式和并行化翻译解码算法框架,对整个大规模语言模型和翻译模型同时采用分布式存储和并行化查询机制,在此基础上进一步研究实现完整的翻译解码并行化算法.研究实现了一个基于分布式内存数据库的层次短语并行化机器翻译解码器,该解码器使用分布式内存数据库存储和查询大数据量的翻译模型表和语言模型表,克服了传统的机器翻译系统所面临的内存容量和并发度方面的限制.为了进一步提高并行解码速度,还研究实现了另外3项优化技术:1)将翻译模型表的同步规则和Trie树结构的语言模型表转化为基于内存数据库的“键-值”结构的Hash索引表的方法;2)对Cube-Pruning算法进行了修改使其适用于批量查询;3)采用并优化了批量查询方式减少语言和翻译模型查询时的网络传输开销.所提出的解码算法实现了基于大规模语料统计机器翻译时的快速解码,并具备优异的系统可扩展性.实验结果表明:与单机解码器相比,单句翻译速度可提高2.7倍,批量翻译作业的总体解码性能可提高至少11.7倍,实现了显著的计算性能提升.
近年來,為瞭提高統計機器翻譯繫統的準確性,普遍應用海量語料訓練齣大規模語言模型和翻譯模型.而模型規模的不斷增大,給統計機器翻譯帶來瞭突齣的計算性能問題,使得現有的單機串行化翻譯處理難以在較快的時間內完成計算,該問題在處理聯機翻譯時更為突齣.為瞭剋服單機機器翻譯算法在這方麵的跼限性,提高大規模統計機器翻譯處理的計算性能,麵嚮一箇實際的聯機翻譯繫統,提齣瞭一箇分佈式和併行化翻譯解碼算法框架,對整箇大規模語言模型和翻譯模型同時採用分佈式存儲和併行化查詢機製,在此基礎上進一步研究實現完整的翻譯解碼併行化算法.研究實現瞭一箇基于分佈式內存數據庫的層次短語併行化機器翻譯解碼器,該解碼器使用分佈式內存數據庫存儲和查詢大數據量的翻譯模型錶和語言模型錶,剋服瞭傳統的機器翻譯繫統所麵臨的內存容量和併髮度方麵的限製.為瞭進一步提高併行解碼速度,還研究實現瞭另外3項優化技術:1)將翻譯模型錶的同步規則和Trie樹結構的語言模型錶轉化為基于內存數據庫的“鍵-值”結構的Hash索引錶的方法;2)對Cube-Pruning算法進行瞭脩改使其適用于批量查詢;3)採用併優化瞭批量查詢方式減少語言和翻譯模型查詢時的網絡傳輸開銷.所提齣的解碼算法實現瞭基于大規模語料統計機器翻譯時的快速解碼,併具備優異的繫統可擴展性.實驗結果錶明:與單機解碼器相比,單句翻譯速度可提高2.7倍,批量翻譯作業的總體解碼性能可提高至少11.7倍,實現瞭顯著的計算性能提升.
근년래,위료제고통계궤기번역계통적준학성,보편응용해량어료훈련출대규모어언모형화번역모형.이모형규모적불단증대,급통계궤기번역대래료돌출적계산성능문제,사득현유적단궤천행화번역처리난이재교쾌적시간내완성계산,해문제재처리련궤번역시경위돌출.위료극복단궤궤기번역산법재저방면적국한성,제고대규모통계궤기번역처리적계산성능,면향일개실제적련궤번역계통,제출료일개분포식화병행화번역해마산법광가,대정개대규모어언모형화번역모형동시채용분포식존저화병행화사순궤제,재차기출상진일보연구실현완정적번역해마병행화산법.연구실현료일개기우분포식내존수거고적층차단어병행화궤기번역해마기,해해마기사용분포식내존수거고존저화사순대수거량적번역모형표화어언모형표,극복료전통적궤기번역계통소면림적내존용량화병발도방면적한제.위료진일보제고병행해마속도,환연구실현료령외3항우화기술:1)장번역모형표적동보규칙화Trie수결구적어언모형표전화위기우내존수거고적“건-치”결구적Hash색인표적방법;2)대Cube-Pruning산법진행료수개사기괄용우비량사순;3)채용병우화료비량사순방식감소어언화번역모형사순시적망락전수개소.소제출적해마산법실현료기우대규모어료통계궤기번역시적쾌속해마,병구비우이적계통가확전성.실험결과표명:여단궤해마기상비,단구번역속도가제고2.7배,비량번역작업적총체해마성능가제고지소11.7배,실현료현저적계산성능제승.