未完待续 ICASSP2020中语音合成部分论文阅读 _模型

在5月份已经结束，拿到论文集后，慢慢花时间看一看同行的成果和进展，也算是汲取一点新鲜养分吧。
简短介绍的同时也会附上自己粗浅鄙陋的想法。谬误良多，不吝指教。
文章目录三. 声学模型-个性化
【未完待续ICASSP2020中语音合成部分论文阅读】一. 综述
首先附上中科大凌震华老师关于这部分内容的综述。
可以看到，大部分论文是集中在声学模型方面的，声码器也有几篇。

文章插图
论文针对的声学模型方面的问题主要表现在稳定性/韵律与表现力/个性化/多语种几个方面，这也是我们工业界应用语音合成，实际面临的主要问题。
下面来看看具体的论文内容。
二. 声学模型-稳定性 1. 《 on ：andfor Multi- End-to-End》
论文的主要内容就体现在上面这幅架构图中。包括两个方面，一是带反馈机制的时长控制器用于鲁棒的注意力机制，二是针对不匹配训练样本的自适应优化策略。
论文认为TTS任务可能出现一些数据不完全匹配的情况，单调注意力机制会有对齐问题，所以使用神经网络作为时长控制器，输出注意力机制当前关注音素向前/向后/不动的概率，结合利用--算出的原始权重，算出新的注意力权重。时长控制器的输入包括韵律嵌入，其和说话人嵌入相同的方法得到。时长控制器的输入还包括时长反馈变量。
自适应优化策略则是针对样本对齐概率，计算样本匹配度，匹配度较低则认为样本标注有问题，所以给定更低的学习率。
个人感受是，训练样本不匹配的情况实在不多，单调注意力机制在日常应用中效果很不错。韵律嵌入的加入和相关使用情况也是不太明确，个人觉得单纯看韵律迁移还是谷歌和百度的几篇论文讲的更好。学习率的自适应调整实际效果存疑，毕竟我们平时训练模型一开始都是会给定较高的学习率，而按论文做法，训练开始阶段，对齐效果很差，学习率会给的较低。
三. 声学模型-个性化 1. 《Semi-for End-to-Endwith》
这篇论文没有一点新意，就是将少量的语音数据通过ASR识别出文本，再将在预训练TTS模型上进行微调。（大家不都是这样做的嘛）。结论就是只有语音数据，通过该方式得到的模型，与成对数据直接微调得到的TTS模型效果接近，比只有一半数量成对数据的效果要好，比多人预训练模型上使用成对数据微调效果也要好。（比多人模型效果好，这点也和平时的经验不一致吧）。
2. 《Zero-Shot Multi- Text-To- with State-of-the-art》
这篇论文的方法结构基本沿用了谷歌《fromtoText-To- 》等论文的思想，通过模块预测出的提供给TTS使用，以此实现zero-shot 。论文主要的贡献在于对于某些模块的不同实现方法的效果进行了对比。系统结构如下图。
论文用了一半的篇幅介绍了说话人验证，也就是模块，比较了两种方法，x- 和 LDE。整体LDE 方法在说话人识别结果和语音合成效果两个方面都更好。对于插入TTS模型的位置，+位置组合在合成语音相似度方面取得了最好结果。此外，基于性别相关基础模型做自适应相比性别无关基础模型要略好，而训练集内说话人做自适应相比集外说话人效果要好很多，即TTS模型对于集内说话人仍然是过拟合的。
3. 《Of AModel For Cross- 》
这篇论文也没有提出新的思路去做跨语言的个性化。在传统语音合成系统上，使用个性化数据微调基础多说话人多语言声学模型。网络的输入除了语言特征，还有说话人嵌入和语言编码。该方法在仅有目标说话人一种语言数据的情况下，能够合成该说话人的不同语言的语音。并且实验发现，在加入另一说话人的目标语言数据，和目标说话人的当前语言数据一起做自适应训练，合成的目标说话人目标语言的语音效果要更好。