中国科学技术大学学报
中國科學技術大學學報
중국과학기술대학학보
JOURNAL OF UNIVERSITY OF SCIENCE AND TECHNOLOGY OF CHINA
2015年
4期
286-293
,共8页
说话人分离%贝叶斯信息准则%高斯概率线性判别分析%分类错误率
說話人分離%貝葉斯信息準則%高斯概率線性判彆分析%分類錯誤率
설화인분리%패협사신식준칙%고사개솔선성판별분석%분류착오솔
speaker diariazation%BIC%G_PLDA%DER
传统的以贝叶斯信息准则(Bayesian information criterion ,BIC)作为相似性度量的说话人分离技术,在短时对话的分离任务中能取得较好的效果,但是随着对话时长的增加,BIC 的单高斯模型不足以描述不同说话人数据的分布,且层次聚类(Hierarchical agglomerative clustering ,HAC)时,区分相同说话人和不同说话人的门限值难以划定.针对此问题,提出基于短时 BIC 和长时 G_PLDA 的融合方法,充分利用 BIC 在短时聚类的可靠性和 G_PLDA 在长时段上的优异区分性,在美国国家标准技术局(NIST )08 Summed 测试集上的实验表明,该方法将分类错误率(DER)从 BIC基线系统的2.34%降到1.54%,性能相对提升34.2%.
傳統的以貝葉斯信息準則(Bayesian information criterion ,BIC)作為相似性度量的說話人分離技術,在短時對話的分離任務中能取得較好的效果,但是隨著對話時長的增加,BIC 的單高斯模型不足以描述不同說話人數據的分佈,且層次聚類(Hierarchical agglomerative clustering ,HAC)時,區分相同說話人和不同說話人的門限值難以劃定.針對此問題,提齣基于短時 BIC 和長時 G_PLDA 的融閤方法,充分利用 BIC 在短時聚類的可靠性和 G_PLDA 在長時段上的優異區分性,在美國國傢標準技術跼(NIST )08 Summed 測試集上的實驗錶明,該方法將分類錯誤率(DER)從 BIC基線繫統的2.34%降到1.54%,性能相對提升34.2%.
전통적이패협사신식준칙(Bayesian information criterion ,BIC)작위상사성도량적설화인분리기술,재단시대화적분리임무중능취득교호적효과,단시수착대화시장적증가,BIC 적단고사모형불족이묘술불동설화인수거적분포,차층차취류(Hierarchical agglomerative clustering ,HAC)시,구분상동설화인화불동설화인적문한치난이화정.침대차문제,제출기우단시 BIC 화장시 G_PLDA 적융합방법,충분이용 BIC 재단시취류적가고성화 G_PLDA 재장시단상적우이구분성,재미국국가표준기술국(NIST )08 Summed 측시집상적실험표명,해방법장분류착오솔(DER)종 BIC기선계통적2.34%강도1.54%,성능상대제승34.2%.
The traditional technology for speaker diarization(SD) ,which exploits the Bayesian information criterion(BIC) as the similarity metric ,can obtain good results in the short dialogue task ,but with the length of the dialogue increasing ,single Gaussian model of BIC is insufficient to describe the information distribution of different speakers .Moveover ,it is difficult to delineate the threshold between the same speakers and different speakers when using hierarchical clustering (HAC) .To solve this problem ,a fusion method between BIC and G_PLDA was proposed ,so as to make full use of the reliability of BIC in short‐term clustering and the excellent discriminating power of G_PLDA in long utterancs .A set of experiments based on NIST 08 Summed shows that this new fusion method reduces the diariazation error rate (DER) from 2 .34% of BIC baseline system to 1 .54% ,improving performance of speaker diarization by 34 .2% .