中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2008年
5期
45-50,55
,共7页
贾玉祥%黄德智%刘武%俞士汶
賈玉祥%黃德智%劉武%俞士汶
가옥상%황덕지%류무%유사문
计算机应用%中文信息处理%文本正则化%语音合成%最大熵模型
計算機應用%中文信息處理%文本正則化%語音閤成%最大熵模型
계산궤응용%중문신식처리%문본정칙화%어음합성%최대적모형
中文文本正则化是把非汉字字符串转化为汉字串以确定其读音的过程.该工作的难点:一是正则化对象--非汉字串形式复杂多样,难于归纳;二是非汉字串有歧义,需要消歧处理.文章引入非标准词的概念对非汉字串进行有效归类,提出非标准词的识别、消歧及标准词生成的三层正则化模型.在非标准词的消歧中引入机器学习的方法,避免了复杂规则的书写.实验表明,此方法取得了很好的效果,并具有良好的推广性,开放测试的正确率达到98.64%.
中文文本正則化是把非漢字字符串轉化為漢字串以確定其讀音的過程.該工作的難點:一是正則化對象--非漢字串形式複雜多樣,難于歸納;二是非漢字串有歧義,需要消歧處理.文章引入非標準詞的概唸對非漢字串進行有效歸類,提齣非標準詞的識彆、消歧及標準詞生成的三層正則化模型.在非標準詞的消歧中引入機器學習的方法,避免瞭複雜規則的書寫.實驗錶明,此方法取得瞭很好的效果,併具有良好的推廣性,開放測試的正確率達到98.64%.
중문문본정칙화시파비한자자부천전화위한자천이학정기독음적과정.해공작적난점:일시정칙화대상--비한자천형식복잡다양,난우귀납;이시비한자천유기의,수요소기처리.문장인입비표준사적개념대비한자천진행유효귀류,제출비표준사적식별、소기급표준사생성적삼층정칙화모형.재비표준사적소기중인입궤기학습적방법,피면료복잡규칙적서사.실험표명,차방법취득료흔호적효과,병구유량호적추엄성,개방측시적정학솔체도98.64%.