中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2013年
5期
173-178,190
,共7页
米成刚%杨雅婷%周喜%李晓%杨明忠
米成剛%楊雅婷%週喜%李曉%楊明忠
미성강%양아정%주희%리효%양명충
借词%未登录词%发音相似度%字符串相似度
藉詞%未登錄詞%髮音相似度%字符串相似度
차사%미등록사%발음상사도%자부천상사도
loan words%Out-Of-Vocabulary words%pronunciation similarity%string similarity
维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等).该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法.该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型.实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果.
維漢機器翻譯過程中會齣現較多的未登錄詞,這些未登錄詞一部分屬于藉詞(人名、地名等).該文提齣一種新穎的根據藉詞與原語言詞髮音相似這一特性進行維吾爾語中漢語藉詞識彆的方法.該方法對已有語料進行訓練,得到麵嚮維吾爾語中漢語藉詞識彆的維吾爾語拉丁化規則;根據以上規則對維吾爾語拉丁化,併對漢語詞進行拼音化,將藉詞髮音相似轉換為字符串相似這一易量化標準;提齣瞭位置相關的最小編輯距離模型、加權公共子序列模型以及二者的帶參數融閤模型.實驗結果錶明,綜閤攷慮字符串全跼相似性和跼部相似性的帶參數融閤模型取得瞭最佳的識彆效果.
유한궤기번역과정중회출현교다적미등록사,저사미등록사일부분속우차사(인명、지명등).해문제출일충신영적근거차사여원어언사발음상사저일특성진행유오이어중한어차사식별적방법.해방법대이유어료진행훈련,득도면향유오이어중한어차사식별적유오이어랍정화규칙;근거이상규칙대유오이어랍정화,병대한어사진행병음화,장차사발음상사전환위자부천상사저일역양화표준;제출료위치상관적최소편집거리모형、가권공공자서렬모형이급이자적대삼수융합모형.실험결과표명,종합고필자부천전국상사성화국부상사성적대삼수융합모형취득료최가적식별효과.