计算机学报
計算機學報
계산궤학보
CHINESE JOURNAL OF COMPUTERS
2010年
4期
687-696
,共10页
语音语料库%集合运算%文语转换%最小包容%信息检索
語音語料庫%集閤運算%文語轉換%最小包容%信息檢索
어음어료고%집합운산%문어전환%최소포용%신식검색
speech corpus%set operation%text to speech%minimum cover%information retrieval
首先介绍了大规模语音语料库以及基于大规模语音语料库的文语转换技术的研究现状,接着介绍了一个大规模连续汉语语音语料库的实例Slib的结构和内容;在此基础上,讨论了面向大规模语音语料库的索引技术,提出了语料库检索中的集合运算和最小包容问题,证明了最小包容问题是NP完全的,给出了求解该问题的贪婪算法以及算法的近似比;最后,讨论了基于集合运算的大规模语音语料库的检索技术在文语转换系统中的应用,特别是在基本语言单位实例的选取问题上实现了一种基于最小包容的优化方法,对提高文语转换系统的自然度有实用价值.
首先介紹瞭大規模語音語料庫以及基于大規模語音語料庫的文語轉換技術的研究現狀,接著介紹瞭一箇大規模連續漢語語音語料庫的實例Slib的結構和內容;在此基礎上,討論瞭麵嚮大規模語音語料庫的索引技術,提齣瞭語料庫檢索中的集閤運算和最小包容問題,證明瞭最小包容問題是NP完全的,給齣瞭求解該問題的貪婪算法以及算法的近似比;最後,討論瞭基于集閤運算的大規模語音語料庫的檢索技術在文語轉換繫統中的應用,特彆是在基本語言單位實例的選取問題上實現瞭一種基于最小包容的優化方法,對提高文語轉換繫統的自然度有實用價值.
수선개소료대규모어음어료고이급기우대규모어음어료고적문어전환기술적연구현상,접착개소료일개대규모련속한어어음어료고적실례Slib적결구화내용;재차기출상,토론료면향대규모어음어료고적색인기술,제출료어료고검색중적집합운산화최소포용문제,증명료최소포용문제시NP완전적,급출료구해해문제적탐람산법이급산법적근사비;최후,토론료기우집합운산적대규모어음어료고적검색기술재문어전환계통중적응용,특별시재기본어언단위실례적선취문제상실현료일충기우최소포용적우화방법,대제고문어전환계통적자연도유실용개치.
The recent advances of large-scale speech corpus(LSSC) and text-to-speech(TTS) technologies are briefly reviewed, then the architecture and annotation information of a largescale speech corpus Slib are introduced. Based on Slib, the LSSC-oriented indexing methods is discussed, the set operations and the minimum cover problem related to information retrieval in LSSC are presented. The minimum cover problem is a NP-complete problem, and a greedy algorithm is proposed to obtain an approximation solution. The approximation ratio of the proposed algorithm is analyzed. The application and realization of set operations in TTS are presented, and an approach for choosing proper speech instances of linguistic units based on minimum cover is developed, which can improve the naturalness of the synthesized speech of TTS system.