西北工业大学学报
西北工業大學學報
서북공업대학학보
JOURNAL OF NORTHWESTERN POLYTECHNICAL UNIVERSITY
2008年
2期
173-178
,共6页
吕国云%蒋冬梅%张艳宁%赵荣椿%Hichem Sahli
呂國雲%蔣鼕梅%張豔寧%趙榮椿%Hichem Sahli
려국운%장동매%장염저%조영춘%Hichem Sahli
动态贝叶斯网络音视频语音识别音素切分
動態貝葉斯網絡音視頻語音識彆音素切分
동태패협사망락음시빈어음식별음소절분
提出一个新颖的单流多状态动态贝叶斯网络(Single stream Multi-states Dynamic Bayesian Network, SM-DBN)模型,以实现大词汇量连续语音识别和音素切分.该模型在Bil m es等人提出的单流动态贝叶斯网络(Single stream Dynamic Bayesian Network, Phone-sh ared,SS-DBN-P)模型(识别基元为词)基础上,增加了一个隐含的状态节点层,每个词由它的对 应音素组成,而音素采用固定个数的状态描述,状态和观测向量直接连接.它的识别基元为音 素,描述了音素的动态发音变化过程.大词汇量语音识别的实验结果表明:在纯净语音环境下 ,SM-DBN模型的识别率比HMM和SS-DBN-P模型的识别率分别提高了13.01%和35.2%,而 音频流的音素切分正确率则分别提高了10%和44%.
提齣一箇新穎的單流多狀態動態貝葉斯網絡(Single stream Multi-states Dynamic Bayesian Network, SM-DBN)模型,以實現大詞彙量連續語音識彆和音素切分.該模型在Bil m es等人提齣的單流動態貝葉斯網絡(Single stream Dynamic Bayesian Network, Phone-sh ared,SS-DBN-P)模型(識彆基元為詞)基礎上,增加瞭一箇隱含的狀態節點層,每箇詞由它的對 應音素組成,而音素採用固定箇數的狀態描述,狀態和觀測嚮量直接連接.它的識彆基元為音 素,描述瞭音素的動態髮音變化過程.大詞彙量語音識彆的實驗結果錶明:在純淨語音環境下 ,SM-DBN模型的識彆率比HMM和SS-DBN-P模型的識彆率分彆提高瞭13.01%和35.2%,而 音頻流的音素切分正確率則分彆提高瞭10%和44%.
제출일개신영적단류다상태동태패협사망락(Single stream Multi-states Dynamic Bayesian Network, SM-DBN)모형,이실현대사회량련속어음식별화음소절분.해모형재Bil m es등인제출적단류동태패협사망락(Single stream Dynamic Bayesian Network, Phone-sh ared,SS-DBN-P)모형(식별기원위사)기출상,증가료일개은함적상태절점층,매개사유타적대 응음소조성,이음소채용고정개수적상태묘술,상태화관측향량직접련접.타적식별기원위음 소,묘술료음소적동태발음변화과정.대사회량어음식별적실험결과표명:재순정어음배경하 ,SM-DBN모형적식별솔비HMM화SS-DBN-P모형적식별솔분별제고료13.01%화35.2%,이 음빈류적음소절분정학솔칙분별제고료10%화44%.