科技信息
科技信息
과기신식
SCIENTIFIC & TECHNICAL INFORMATION
2011年
26期
1-2
,共2页
英汉翻译对%抽取%正则表达式%语料库
英漢翻譯對%抽取%正則錶達式%語料庫
영한번역대%추취%정칙표체식%어료고
本文介绍了一个SQL数据库支持下的、基于C#正则表达式的英汉翻译对抽取方法,待抽取的资料均来自网络,包括机读电子词典和多种含英汉翻译对的网页,它们具有固定的正则表达式模式.抽取工作用到两个用C#开发的Windows应用程序:网页爬虫和翻译对抽取应用程序.下载的网页和抽取的翻译对都存在SQL数据库中,可供进一步研究使用.结果显示,这种方法抽取的翻译对准确率非常高,能很快收集大量翻译对建成生英语平行语料库.
本文介紹瞭一箇SQL數據庫支持下的、基于C#正則錶達式的英漢翻譯對抽取方法,待抽取的資料均來自網絡,包括機讀電子詞典和多種含英漢翻譯對的網頁,它們具有固定的正則錶達式模式.抽取工作用到兩箇用C#開髮的Windows應用程序:網頁爬蟲和翻譯對抽取應用程序.下載的網頁和抽取的翻譯對都存在SQL數據庫中,可供進一步研究使用.結果顯示,這種方法抽取的翻譯對準確率非常高,能很快收集大量翻譯對建成生英語平行語料庫.
본문개소료일개SQL수거고지지하적、기우C#정칙표체식적영한번역대추취방법,대추취적자료균래자망락,포괄궤독전자사전화다충함영한번역대적망혈,타문구유고정적정칙표체식모식.추취공작용도량개용C#개발적Windows응용정서:망혈파충화번역대추취응용정서.하재적망혈화추취적번역대도존재SQL수거고중,가공진일보연구사용.결과현시,저충방법추취적번역대준학솔비상고,능흔쾌수집대량번역대건성생영어평행어료고.