合工大研究生

发布时间：2023-06-04 作者：admin 来源：文学

合工大研究生

2023年2月12日发(作者：)

第1页共26页

合肥工业大学研究生联合培养实践报告

合肥工业大学研究生联合培养实践报告随着科学技术和信息

化的快速发展，计算机在人类的生活中扮演着越来越重要的角

色。

人机交互能力也越来越受到研究者的青睐，语音合成技术作

为人机交互的核心技术之一，在自然语言处理、数字信号处

理、随机过程处理等方法的推动下，突破了传统的单纯语音计

算算法的研究。

近些年来，语音合成技术发展迅速，与其相关的语音学、

语言学、自然语音处理、心理学也有了相应快速的发展，再加

上人工智能、数字信号处理、嵌入式开发以及情感计算等也取得

了迅猛发展，都为人机语音交互的研究提供了更好的理论基础以

及发展方向。

国内外语音合成研究意义语音是人们获取信息的一种最直

接、最便捷的交流方式，语音中不仅包含了许多文字符号信

息，还包含了不同说话人在不同情况下传达的多种情感的变化。

语音合成是对输入的文字信息按照语言学规律进行分析，分

段标记后，按照声学处理规则将文字转换成语音信号输出，即

让机器读出文字信息，使人们通过“听”就可以明白信息的内

容。

第2页共26页

国内外语音合成技术的研究背景语音合成的研究历史可以追

溯到18世纪末，法国人W.

VonKempelen在1791年展示了一个机械式会说话的装置，

机器内部采用了与声道结构类似的共振器，通过簧片改变音色，

该装置可以产生元音、整个词语和语句。

自20世纪出现了电子合成器以来，语音合成的研究达到了

飞速发展。

1930年，贝尔实验室开发了声音编码器，它是一种用键盘

操作的电子语音分析器和合成器。1939年，贝尔实验室

H．Dudley在其基础上进行改进，制作了电子式语音合成器

VODER，利用共振峰原理制作得到的一个语音合成器，通过电子线

路来实现基于语音产生的源/滤波器理论。

1960年，瑞典语言学家系统阐述了语音产生的理

论，推动了语音合成的进步1982年，MIT教授D.

Klatt设计的串/并联混合型共振峰合成器，可模拟发声过

程中的声道共振，元音和浊辅音的产生用串联通道来实现，清

浊音的产生用并联通道来实现，还可以选择和调整声源，模拟

不同的嗓音，它可以发出供用户选择的七中不同音色的语音，

在发音速度上增加到每分钟350词时也可以达到清晰、自然的

效果。在这些创新研究的带动下，其他语种的语音合成系统也相

继实现，如日本的Matsushita电子公司利用DECTalk系统开

第3页共26页

发了将日语和汉语转换成口语的系统，德国Fraunhofer学会功

效研究所成功开发了DECTalk的德语版本。

20世纪80年代末，语音合成技术有了新的突破，基于时域

波形修改的语音合成

算法PSOLA(PitchSynchronousOverlapAdd)的提出[3]，

较好地解决了语音拼接的问题，大大提高了合成语音的自然度。

20世纪90年代中期，随着语音识别技术中统计模型的出

现，研究者提出了可训练的语音合成技术，该方法是基于统计

建模和机器学习的，根据一定的语音数据进行训练并快速构建语

音合成系统。其中，以基于HMM的建模与参数生成合成方法为

代表。

对于国内的中文语音合成的研究起步较晚，从20世纪80

年代开始，中科院声学所、中科院自动化所、中国科技大学以

及社科院语言所都相继开展了这方面的研究，大致也经历了共振

峰合成、线性预测合成和基于PSOLA技术的过程。

如1993年中国科学院声学所的K_-PSOLA、1994年中科院

声学所开发的“联想佳音”语音合成系统，弓I入了基音同步

叠加技术(PSOLA)，在当年国家863评比中获得第一名。1998

年，中国科技大学KD-863汉语文语转换系统采用了对数幅度逼

近算法(LMA)语音合成器，该方法有效提高了合成语音的音质和

自然度。

第4页共26页

随着统计模型方法的提出，很多单位和研究机构也开展了基

于HMM参数的语音合成方法的研究，如中科大、清华大学、

IBM中国研究中心以及微软亚洲研究院等。其中，最具代表性的

是中科大及科大讯飞公司，20__0年以来，中科大讯飞通过采

用LMA声道模型的技术，能够合成出高自然度的语音[5][6]。

语音合成技术3.1波形拼接合成方法波形拼接合成方法是

一种相对简单的语音合成技术。

波形拼接合成方法的基本原理就是根据输入文本分析得到的

信息，从预先录制和标注好的语音库中挑选合适的单元，进行

少量的调整(也可以不进行调整)，然后拼接得到最终的合成语

音，其中用来进行单元挑选的信息可以是前端分析得到的韵律文

本，也可以是生成的声学参数(比如基频、时长和谱参数)，

或者两者兼有。简单点说，就是根据待合成的信息，在语音库

中取出相应单元的波形数据，拼接或者编辑到一起，经过解码

恢复语音。

在这个过程中，语音合成器的主要功能是实现语音的存储和

回放。

一方面，基于波形拼接的语音合成的效果好坏直接取决于语

料库的规模大小以及所选取的合成单元，它需要足够大的存储空

间来存放这些大规模的语料库，需要较高的计算和存储能力，

相应的时间和空间的投入较多；并且占用大规模的内存空间，

第5页共26页

也不适合应用于嵌入式系统和移动设备终端；并且，如果待合成

语句中含有超出训练语料库覆盖范围的音段，当训练库覆盖不

够并且合成过程中挑选不到合适的单元时，或者某些拼接单元

的连接处出现不连续的现象时，语音合成效果明显下降；另一

方面，波形拼接

合成单元一旦确定就无法做任何调整和改变，也无法根据上

下文来调节其韵律特征，这样就使得发音风格比较单一，当需

要改变合成语音的速度、发声风格、性别等特征时，需要大规

模重新调试优化整个训练流程，可扩展性不够。

基音同步叠加技术（PSOLA）是基于波形拼接的语音合成中应

用最广泛的一种方法。

PSOLA算法在语音波形片段拼接之前，先根据语义对拼接单

元的韵律特征进行调整，这样既可以保留原始语音基元的主要

音段特征，又可以使拼接单元的韵律特征符合语义，从而使合

成语音获得较高的自然度和可懂度。

在对拼接单元的韵律特征进行调整时，它以基因周期为单

位进行波形的调整，保证了语音波形及频谱的平滑连续。

目前，用这种方法至少实现了七八种语言的语音合成系统。

如日本的NTT公司基于波形文件实现了日语规则合成系统，法国

C以双音素作为语音单元，用基于HMM的语音匹配法进行特性

标注，实现了法语的文语转换系统。在国内，中科院声学所、

第6页共26页

清华大学和中国科技大学等也采用PSOLA技术的波形拼接来实现

语音合成系统。

3.2参数合成方法参数合成方法是一种比较复杂的语音合成

技术。

基于参数的语音合成系统是通过数字信号来模拟发声，首

先将我们发出的声音转化为数字信号，这些信号可能是周期脉

冲信号或者是随机的噪音序列，在合成过程中，将这些信号输

入到一个特定的滤波器（如带通滤波器）中，最后通过输出设

备输出合成语音。在这种模式下，通过调整滤波器的参数可以控

制滤波器来发出不同的声音，也可以通过调整数字信号的周期

或者强度来改变语音的韵律等。

所以，只要能够正确的调整数字信号或者滤波器的参数，就

可以合成出不同的语音。

3.3规则合成方法规则合成方法是一种高级的语音合成方

法，在合成前，可以不确定合成的词表，基于规则的语音合成

系统中存储的是最小语音单位的声学参数。

可以按照多种规则，例如由音素组成音节、由音节组成词、

再通过词组成词组、由词组组成语句，以及控制音高、音强等韵

律特征，最后得到待合成的字、词或者句子。该方法的研究核心

是挖掘出说话人在说话过程中，是按照哪种规则来生成语音单元

的，将这些相关的规则给予机器，在机器中合成语音。汉语是一

种特殊的语种，因此在处理语音单元的规则时，有许多需要注

第7页共26页

意的问题，单独存在的元音和辅音与发声中连续的元音和辅音

不同，不同语境下的同一词语表达的意思不同，根据上下文相

同读音的多音字的描述不同，声调在何种情况下需要调整，声

韵母是如何产生相互影响。

汉语属于音调语音学，声学单元是拼接的基本单元，它可以

是音素、双因素、三因

素、音节、词语、句子等。汉语具有较复杂的韵律结构，语

句中的语音层次为从音素到音节，从音节到词语，最后从词语到

语句。所选取的基元越小，语料库所占的存储空间就越小，拼接

使越灵活，变化就越复杂。

4bull;语音合成基本原理语音合成是对输入的文字信息按照

语言学规律进行分析，分段标记后，按照声学处理规则将文字

转换成语音信号输出，即让机器读出文字信息，使人们通过

“听”就可以明白信息的内容。其系统框图为：

图1语音合成系统框图4.1文本分析与处理文本分析与处

理是使计算机能够识别文字，并根据上下关系在一定程度上对文

本进行理解，从而知道要发什么音、怎么发音，并将发音的方式

告诉计算机，另外还要让计算机知道文本中哪些是词，哪些是

短语、句子，发音时应该停顿的位置和时长等。

文本分析与处理的工作过程包括：

图2文本分析与处理过程(1)将输入的文本规范化，在这

个过程中处理用户可能的拼写错误，并将文本中出现的一些不规

第8页共26页

范或无法发音的字符过滤掉；(2)分析文本中的词或短语的边

界，确定文字的读音，同时在这个过程中分析文本中出现的数

字、姓氏、特殊字符以及多种多音字的读音方式；(3)根据文本

的结构、组成和不同位置出现的标点符号，来确定发音时语气的

变换以及不同语音的轻重方式。最终，文本分析模块将输入的文

本转换成计算机能够处理的内部参数，便于后续模块进一步处理

并生成相应的信息。

4.2韵律规则库任何人说话都有韵律特征，有不同的声调、

语气、停顿方式，发音长短也各不相同，这些都属于韵律特征。

韵律研究是一个复杂的系统工程，涉及到语言学、语音学、

心理学、语用学

等学科的综合知识。一个语音单元除了由元音和辅音按时间

顺序排列的音段成分之外，还必须包括一定的超音段成分，否

则这个音节就不可能成为有区别意义的有声语言。目前对韵律研

究的重点是音高、音长、音强三个超音段参数在连续语流中的

分布规律及其相互的作用，而研究的基本方法仍是基于对生理特

征的分析及大语料库的统计分析，韵律特征的特点如表1.

韵律特征波形特征分布规律相互作用及影响、口曰高

音高的大小对应于波形的基音周期音咼的调整则是按照目标

值确疋曰咼调整系数，对拼接单兀的音咼进行压缩和拉伸连

续语音的音咼曲线融入了发音人的生理特征、感情、语义、语

境以及很多的个人特征信息音长音长的调整对于稳定的波形

第9页共26页

段比较简单的只需要以基音周期为单位加减波形即可连续语

流中的音节时长取值受很多因素的影响，如声韵结构、声

调、音节所在词的结构、重音模式、音节在语流中的位置影响等

音强音强对应于语音波形的幅度音强的改变只需要加权波形

数据即可，但是对于一些有重音变化的音节，幅度包络也需要

改变音强对于抑扬顿挫的语调的产生也是很重要的，为重音并

不是通过提高语音的强度来表达，表1韵律特征的特点目

前，韵律是合成系统的薄弱环节，所用韵律模型都是对韵律普遍

规律的单一应用。把韵律的共性与个性有机的结合起来，是提

高语音合成系统自然度的关键。

4.3语音合成器的设计线性预测合成方法是目前比较简单和

实用的一种语音合成方法，它以其低数据率、低复杂度、低成

本，受到特别的重视。

LPC语音合成器利用LPC语音分析方法，通过分析自然语音

样本，计算出LPC系数，就可以建立信号产生模型，从而合成出

语音。线性预测合成模型是一种“源滤波器”模型，由白噪声序

列和周期脉冲序列构成的激励信号，经过选通、放大并通过时

变数字滤波器，就可以再获得原语音信号。这种参数编码的语音

合成器的框图如图3所示。

图3LPC与语音合成器原理由于语音样点之间存在相关

性，所以可以用过去的样点值来预测现在或未来的样点值，即一

个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼

第10页共26页

近。通过使实际语音抽样和线性预测抽样之间的误差在某个准则

下达到最小值来决定唯一的一组预测系数。而这组预测系数就反

映了语音信号的特性，可以作为语音信号特征参数用于语音合

成等方面。

5.语音合成的应用随着计算机技术进入了网络和多媒体时代

语音合成技术也有了飞速的发展TTS已应用到信息咨询电话银

行、办公自动化等各个方面它把声音和文字图像集成在一起，

增强了人们的理解。

1电子文档的有声输出目前，计算机中存有大量文本，语音

合成技术可提供声音输出，弥补只有屏幕显示的不足，无论以任

何方式得到的文字，都可将其转换成声音。

2声信有声服务网络技术的飞速发展Inter服务项目日益

增多时效性提高，电话已成为人与网络交互信息的终端，如通过

电话查询股票行情，这里不但用到语音合成技术，还必须与电话

技术紧密配合，即CTIputerTelephoneIntegration或ITIn

terTelephony这促进了电话网和数据网的结合，为人们提供了

全新的服务，TTS技术已应用到银行、邮局、劳保、证券、专

利、借助TTS技术把数据库中的文字变成声音，用户利用电话

收听即时变化的信息。

3卫星定位系统采用全球卫星定位系统（GPS）来提供道

路状况和定位信息是运输交通行业的一大趋势，在车载GPS上

加入语音技术，可使得驾驶员在眼与手忙的情况下，通过语音实

第11页共26页

时接受动态路况信息及通知、公告，及时获取感兴趣的车主个性

化定制的信息，将平面显示导航上升到立体语音导航。计算机通

过语音将卫星的实时状态汇报给监视人员，极大的降低了监视人

员的观察强度，提高了人机系统的工作效率。

HMM基本概念及原理6.1马尔可夫链马尔可夫链是马尔可

夫链随机过程的特殊情况，它是状态和时间参数都离散的马尔可

夫链过程。

设随机序列_t，在任一时刻t，它可以处在状态$,S

2,,SN，且在t+1时刻所处状态的概率为Pt!，只与时刻

t状态下的Pt有关，而与t时刻以前所处的任何状态无关，

则称_t为马尔可夫链。其数学表达式如下：

P(_tiPti|_tPt,_tiPti,_iPi);八

(1-1)P(_tiPti|_tPt)式中Pi,P2,Pt,Pt

i(Si,S2,SN)

(i-2)

式i又被称为马尔可夫假设。

0.4

图4表示一个离散的马尔可夫过程，其中四个权表示四个状

态，每条边表示图4马尔可夫链一个可能的状态转移，权值表

示其转移概率。例如，状态mi到口2之间只有一条边，权值

第12页共26页

为i.O。这表示从状态mi只可能转换到状态m2，转移概率为

i.O。从m3出发的有两条边：到m3和到m4。

其中权值0.7表示：如果某个时刻t的状态St是m3，

贝U下一个时刻的状态stim3的概率是70%。如果用数学符号

表示为[42]:P(Stim3IStm2)0.7(1-3)类似的，

有：

P(stim4|stm2)0.3(i-4)6.2隐马尔可夫模型

(HMM)HMM是在马尔可夫链的基础上发展起来的。由于实际问题

要比马尔可夫链描述的更为复杂，观察值的个数与状态的个数可

能不一样，需要通过一个随机过程去感知状态的存在及其特性，

这样的模型就称之为HMM。对于任一时刻t的状态St是不可

见的。观察者是无法预测一个状态序列si,S2,St的转移

概率等参数。但是，隐马尔可夫模型在每个时刻t都会输出一

个符号ot，而且ot仅和St相关。这个假设又被称为独立

输出假设[20]

下面我们再通过一个简单的例子来说明隐马尔可夫模型的基

本概念

图5表示在每个状态St下相应的输出Ot。这里0

1,02,03,04可以理解为我们实际说出的语音，状态S

1,S2,S3,S4可以理解输入的其他存储方式，所以我们只需

从所有可能的识别结果中找到最有可能产生01,02,03,0

第13页共26页

4那个的Si,S2,S3,S4。用概率论的语言来描述，就是

在已知01,02,03,04的条件下，求条件概率[25]:S

i,S2,S3ArgMa_P(s,S2,S3,101,02,03,)(1-

5)allS1,S2,S3其中Arg是参数Argument的缩写，表

示能获得最大的那个信息串。可以看出直接还是比较麻烦的，不

过可以间接地计算它的值。利用贝叶斯公式可以将式1-5变换

为：

P(sss|ooo)

P(OnO2,O3,|S1,S2,S3,)P(S1,S2,S

3,)

(16)

P(S1,S2,S3,101,02,03,)(1-6)P(O1,O

2,O3,)经过上面等价变换以后，语音信号。仆。

2,03\"产生后，此时P(O1,O2,O3,)就是一个常

数，可以忽略不计，所以只需要求取公式2-6分子上的值。根据

马尔可夫假设和独立输出假设，可以将得到：

P(S1,S2,S3,01,02,03,)P(O1,O2,O3,

|S1,S2,S3,)P(S1,S2,S3,)t

P(Ot|St)P(St|St1)(1

7)如何找出公式1-5的最大值，进而找到识别的句子环

6,岂，，可以利用维特比算法，后面会详细的介绍。在公式

第14页共26页

2-6中我们把P(S1,S2,S3,|01,02,03,)叫做“声学模型”

(AcOUSticMOdel)，而P(Sl,S2,Ss,)叫做“语言模型”。

HMM可以定义为五元组：

(N,M,,A,B)或者(S,V,,A,B)N表示模型中马尔可夫链

的状态数目。通常使用有限状态集合S

久邑丄，SN来表示独立的状态，使用qt表示时刻t的状

态。

M每个状态表示的不同观察符号的数目，表示每个状态下所

对应的可能观察值数目。

M个观察值可以表示为W,V2,VM，记t时刻观察到的

观察值为Ot，那么deg;t(01,02,0M)。

表示为初始状态概率,(1,2N),表示每个状态的概率起

始大小。

其中iP(s)1iN(1-8)A状态转移概率矩阵，(aj)N

,aij表示在状态mi条件下，下一个状态是mj的概率。其

中，aijP(Stmij|StimJ1i,jN(1-9)B观察值概

率矩阵，(bjk)NN，bjk表示在状态mj下，观察值输

出的是Vk的概率。

其中，

根据以上的分析可知，HMM实际可分成两部分，一部分为

Markov链，由A描述，产生状态序列；另一部分是一个随机过

第15页共26页

程，由B描述，产生观察序列如图6所示，其中T为观察值时

间长度。

马尔可夫链S1,

S2,

S3,

随机过程。

1,。

2,。

3,(，A)状态序列(B)观察值序列

图6HMM模型组成根据B的不同，HMM可分为离散、连

续、半连续等不同类型。

HMM是基于马尔可夫链的，马尔可夫过程是一个随机过程S

t:tT，它具备这样的性质，即已知t时刻过程所处的状

态StSt，在t时刻以后的过程将要到达的状态与t时刻以

前过程所处的状态无关，这个性质也称为过程的无后效性或马尔

可夫性。马尔可夫过程St:tT可能取值的全体构成状态空间，

可以是连续的或离散的；马尔可夫过程的指标集T也可以是连

续的或离散的。

6.3HMM的基本问题和解决方法基于HMM的语音合成系统

中主要有三大问题:1评估问题。隐马尔可夫中的评估问题就是

已知模型参数，即给定观察序bjP(OtVk|Stmj)所以

一个HMM模型可以写成：

第16页共26页

(N,M,，代B)或简写成(,A,B)1jN,1kM(1-10)

(1-11)(1-12)

列deg;OIO2L

OT和模型AB,，计算某一特定输出序列的概率p

o：

，然后找到最有可能的模型。通常采用前向算法来实现。

前向算法中，定义前向变量为[36]:

t(j)P(deg;1,deg;2,deg;t,sti|)(1-13)(1)

初始化：对1iN，有

4(01)

(1-14)

假设存在两个状态S,S2那么就有两种可能产生观察序列

deg;1。若状态1发出观察值deg;i的概率是bi(deg;

i)，其初始概率为i，若状态2发出观察值deg;i的概率

是

b2(01)，其初始概率为2，则可以计算出：

P(0i|)「biQ)2_b2(oJ(1-15)(2)递推：当1tT

1,1jN,有

Nt1(j)bj(0t1)t(i)aj(1-16)i1

其中Sj(ot1)表示在时刻t+1的隐藏状态Sj下观察状态的

概率，后面一部分表示所有t时刻的隐藏状态到t+1时候的隐

藏状态Sj个概率求和。

第17页共26页

(3)终止：

NP(o|)T(i)(1-17)i1最后，对到达当前时刻t的

所有状态求和，就可以得到最后观察序列的概率。

这种算法计算量较小，只需要N2T次运算。

图7计算前项变量t1(j)的递推过程

2参数生成问题。已知三项特征参数，即某个状态序列Q

q1q2LqT，需要估计该系统在此状态序列Q时最可能产生的

观察序列。

，即给定状态序列Qq1q2LqT和模型参数A,B,，求在某

种有意义的情况下最优的相关观

察序列deg;OlO2L5。实验中常用维特比(Viterbi)算法

来实现。

这个算法解决对给定一个的HMM模型(,A,B)和一个可观

察值序列OO1,O2,OT

，如何去确定一个最佳状态序列S_

s1_

,s_

2,,sT_

的问题。

Viterbi算法可以描述如下[27]：

(4)路径回溯，确定最佳状态序列：

第18页共26页

Viterb算法也是一种格型结构，类似于前向算法，在前面

算法中对每个状态值求和，而在Viterbi算法中先求取每个状

态下概率最大的值，并记录下状态，最后回溯求出整个隐藏状态

值。

3训练问题。即HMM参数估计问题。可以描述为对于给定一

个输出序列Odeg;1,deg;2,deg;T，如何调整参数模型

(A,B,)的参数，使得P(O|)最大。这就是模型的训练问题，

确定HMM特征参数的准则是最大似然准则。通常用Baum-Welch

算法来解决。

定义Oj)为给点训练序列0和模型时，HMM模型在t时

刻处于i状态,t1时刻处于j状态的概率，即[28]

t(i,j)P(sti,st1j|0,)可以推导出定义t(i)为

时刻t时沿一条路径大概率，即有s1,s2,St，且q

i，观察到deg;i,deg;2,deg;t的最t(i)ma_P(s

1,s2,s1,s2,,st1st,sti,O1,O2,Ot|)

(1-18)那么，求取状态序列初始化：对(1)S_

的过程为N,有1i1(i)ibi(O1)

(1-19)1(i)(1-20)(2)递推：对2tT,1jN,有t(j)

m1iaN_[t1(i)aij]bj(Ot)(1-21)t(j)argm

1iaN_[t1(i)aij](1-22)(3)终止：

Pm1iaN_[T(i)](1-23)sTargm1iaN_[T

(i)](1-24)stt1(st1)

第19页共26页

tT1,T2,,1(1-25)(1-26)

t(i,j)[t(i)ajbj(0ti)ti(j)]/P(O|)

(1-27)

那么，HMM在时刻t处于i状态的概率为Nt(i)P(s

ti,O|)t(i,j)jiT1因此，t

(i)表示从i状态转移出去次数的期望值,t1移到状态j

次数的期望值。由此，导出Baum-Welch算法中的著名的重估公

式1(i)T1t(i,j)jT1t(i)t1Tt(j)t1t(j)

t1那么，HMM参数(，代B)的求取过程为，根据初始化模型

(，代B)和观察值序列0，由重估公式(1-29)、(1-30)、(1-

31)得到一组新的参数-「,金，0)。重复这个过程，逐步改

进模型参数，直到P(O|)收敛，即不再明显增大，此时的「即

为所求值模型。

7bull;基于HMM的语音合成系统框架图8是一个基于HMM

的可训练语音合成系统框图。它是由训练部分和合成部分组成

的。在训练阶段，对用于训练的预料进行参数提取，包括反应激

励特性的基频参数和反应声道特性的频谱参数等。

在HMM建模过程中，基频参数采用多空间概率分布

MSD(Multi-spaceProbabilityDistribution)，谱参数部分采用

连续概率分布的HMM进行建模。利用了EM(E_pectation

Ma_imization)算法实现最大似然估计。在合成部分，给定词和

模型，寻找最有可能的符号序列。首先，把一个给定的词序列转

第20页共26页

化为上下文相关标记序列，依据标记序列上下文相关HMM的拼

接以生成语句的HMM;接着，语音参数产生算法依据语句HMM产

生频谱参数序列和激励参数序列；最后，由合成器根据频谱参数

序列和激励参数序列合成出语音。t(i)t(i)/P(O|)(1-28)

T1，而t(i,j)表示从i状态转t1(1-29)(1-30)(1-

31)bjk

7.1基于HMM语音合成系统的训练阶段在HMM模型训练

前，首先要对一些建模参数配置，包括建模单元的尺度、模型拓

扑结构、状态数目等。模型参数配置如下：

1）

声学参数：采用24阶LSP参数和LSP相邻阶差分参数

DAL结合来替代24阶的MCEP参数进行建模；（本文采用的分

析合成器为STARIGHT，在参数提取中，首先通过STRAIGHT分

析得到频谱包络，然后拟合误差最小准则求取全极点模型中LPC

参数，然后再转换为LSP参数。在合成过程中，则是首先将LSP

转换为LPC参数，然后得到对应全极点模型的谱包络，并结合输

入的基频参数合成出最终的语音）

2）

建模参数：对声韵母单元进行HMM建模，其中声母（21

个）采用3状态模型，韵母（38个）采用5状态模型，此

外对静音段也采用3状态模型；3）

拓扑结构：采用无跳转从左至右各态历经的拓扑结构；4）

第21页共26页

混和高斯数目：模型训练可以对HMM进行上下文扩展，因此

采用单高斯模型。

在参数配置完成后，还需要进行数据准备。一般训练数据包

括两部分：声学数据以及标注数据。其中声学数据包括谱和基

频，它们可以通过一定的方法从语音波形中分析得到。标注数据

主要包括音段切分和韵律标注，其中切分信息可以通过自动或

人工的方法进行。除此之外，模型训练之前，还有一个重要的工

作就是对上下文属性集和用于决策树聚类的问题集进行设计，

即根据先验知识来选择一些对声学参数（谱、基频和时长）

有一定影响的上下文属性并设计相应的问题集，比如前后声

韵母、前后调等。这将影响合成语音的语种或发音风格。基于

HMM的语音合成系统的训练过程如下图9所示。

输入文本图8基于HMM的语音合成系统流程图

图9基于HMM语音合成系统的训练过程框图1．方差下限

估计在上下文模型训练中，上下文属性可能的组合数远远大于训

练数据的数目，每个上下文相关模型对应的训练数据可能只有一

到两个，从而模型均值直接拟合到这一两个数据上，方差接近

于零。

方差接近零会导致合成语音平淡，没有起伏的问题。为了

避免这种情况发生，我们预先设定一个方差下限。

由于采用基频参数和谱参数的静态以及动态特征来进行HMM

建模，因此对不同的参数需要设置不同的方差下限。

第22页共26页

对此，所有数据的统计属性都来自自动计算各阶参数对应的

方差下线。本文中，我们采用HpV这个工具（HTS工具包中

的一种工具，以同）,对基频、频谱的各阶参数根据训练数据自

动计算对应的方差下限。

2．单音素模型训练在进行方差下限估计的准备后，要对对

应的单音素HMM模型进行初始化和训练，得到的模型用于进行

上下文相关模型的扩展和初始化。

一般先进行Viterbi训练，然后进行Embedded嵌入式）

训练。这一步运用HInit和HRest训练工具。

3．上下文相关模型训练在得到训练好的单音素模型后。

先根据上下文属性集合进行模型扩展，该过程采用工具

HHEd。然后对扩展后的模型进行Embedded训练，这一步采用的

工具为HERest。。由于每个因素在不同的上下文环境中发音会发

生相应的变化，因此，建模过程中需要考虑到不同上下文环境

对合成语音的影响。

一般上下文环境选择包括前后因素、重音和韵律边界。

其中前后音素记录当前因素的前一个因素和后一个因素的具

体内容。

由于不同因素组合时，会发生连续等现象的音变，这样会

改变原有因素的声学特征，所以在考虑上下文影响时，将模型

表示为“|I-c+r”的形式，针对不同前后因素组合来建模。

第23页共26页

语法重音对因素的声学特征有很强的影响，语法重音分为韵

律词重音、韵律短语重音和语调短语重音。

当因素位于不同的重音位置时，其发音会发生相应的变

化，重读的程度也不同。

因此对重音的影响，也

应该在建立声学模型时考虑进去。

最后是韵律边界的影响。

韵律边界是从声学的角度，将语句划分为一定的层次结

构。

韵律词是从声学角度来判断，就是在语句发音中组合比较

紧密的音节、语法词的组合。

从声学角度看，韵律词就是语音发声的基本单元，而韵律

短语边界是由韵律词组成，在韵律短语的边界能明显感到有停

顿的存在。语调短语边界就是指在连续语音中存在比较长时间的

停顿。由于采用的上下文属性的集合数远大于训练数据的数目，

因此对每一个上下文相关模型，其对应的训练数据非常有限。

4．基于决策树的模型聚类由于对于每一个上下文相关模

型，其对应的训练数据可能只有一到两个，导致模型的参数在

训练后基本上都“过拟和”到那一两个数据上，即完全由那几

个数据决定模型的均值与方差参数。

第24页共26页

对此，我们采用基于决策树的聚类方法对上下文相关模型进

行聚类，以提高模型的鲁棒性以及模型复杂度和训练数据量之间

的均衡性。被问到的属性问题构成对应参数的决策树。

工具HHEd被用来进行聚类。

在决策树聚类的具体过程中，挑选合适的问题对结点进行分

裂需要关注两个关键的问题：一是如何计算分裂问题的得分以及

确定相应的得分门限。

在本文中，使用的是最短描述长度准则，分裂问题的得分

计算和最大似然估计准则相同，但门限可以根据训练数据量，

以及使用的特征维度自动估算得到。

二是确定结点中所包含的训练数据的最小数目门限。

5．聚类后模型训练在进行模型聚类后，需要对聚类后的模

型进行进一步的训练，以优化其模型参数，其训练算法与上下

文相关模型训练相同，同时输出各个状态模型的状态停留时间

的统计数据。该过程采用工具HERest。

6．时长建模首先根据5中得到的各个状态模型的停留时间

的统计信息，来对上下文相关的时长模型进行初始化，作为时

长模型的训练初值，然后采用以上相同的决策树的方法对时长

模型进行聚类和训练。这一过程中运用到工具HHEd和HERest。

通过以上的训练过程，最后训练得到的模型包括谱、基频

和时长参数的聚类HMM以及各自的决策树。此外，可以看出上面

整个训练流程都是自动进行的，人工干预很少。

第25页共26页

7.2基于HMM语音合成系统的合成阶段在合成过程中，我

们先要对测试文本进行前端分析，得到所需要的上下文属性及

标注信息，然后根据这些属性在时长、基频和谱参数的聚类决

策树基础上进行分析，得到相应的模型序列，由状态时长HMM

得到基元各状态的持续时长；根据状态时长、基音周期HMM和

谱参数HMM，进行参数生成，最后传入STRAIGHT

这样的参数生成器合成出最终的语音。

具体的实现过程如图10所示图10基于HMM语音合成系

统的合成阶段流程在前端分析过程中，测试句的文本分析同训

练数据的前端分析；在参数生成的过程中，我们先是由时长模

型进行状态时长分配，即解析得到基频和频谱参数的状态序列

后，再由最大似然准则分别生成基频和频谱参数，最后将基频

和频谱参数传入参数合成器，得到最终的语音波形。

在合成过程中，采用STRAIGHT方法。它是一种针对语音信

号的分析合成算法，它利用提取的语音参数恢复出高质量的语

音，并能对时长、基频以及谱参数进行灵活的调整。

STRAIGHT方法的核心思想是源;滤波器的思想。以往采用的

一些算法合成音质不够好，而且调整也不灵活。现在采用的

STRAIGHT算法是在原有的基础上进行了改进。

一方面通过采用一些基于听觉感知的方法对语音合成端进行

改进，提高语音合成质量；另一方面通过消除谱参数中的周期

第26页共26页

性来提高谱估计的准确性，从而实现源于滤波器的完全脱离，

提高了参数调整时的灵活度。它主要由三个部分组成：

1．去除周期影响的谱估计文中是通过对窗函数的调整来达

到平滑的目的。

它包括两个方面的平滑，一是去除时间轴上的周期性，另

一个是去除频率轴上的周期性。

（1）去除时间轴上的周期性：

采用基音同步叠加补偿窗的方法来计算频谱，并在时域上平

滑；这时需要重新构建一个窗函数，可以对基音周期自适应；

通过该窗函数，使最后的频谱对基音周期的误差敏感度降低。

（2）去除频率轴上的周期性：通过对频谱卷积三角窗，并进

行频率轴上的平滑，得到最终的谱包络。

2．平滑可靠的基频轨道提取通过在频谱上进行谐波分析，

可以得到更为精确和稳定的基频轨迹。

3．合成器的实现。

在使用STRAIGHT合成语音时，需要的输入数据为语音的基

频曲线数值和经过时间轴和频率轴平滑后的二维的谱包络。

在合成时使用基于基音同步叠加和最小相位冲激相应的方

法，并在合成过程中实现时长、基频和谱参数的调整。

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章