一种基于神经网络的语音风格转移方法

IPC分类号 : G10L25/30I,G10L21/007I,G10L21/013I,G06N3/04I

申请号

CN201910513258.4

可选规格: 数量

库存1件

确认取消

￥30000; 库存1件

首页

立即咨询

看了又看

专利摘要

本发明公开了一种基于神经网络的语音风格转移方法，类比已有的图像风格转移模型，对语音信号数据进行2维声谱图提取，并将图像的神经风格转移原理应用到内容语音、风格语音、初始生成语音的2维声谱图上，最终，得到了简洁、实用的基于卷积神经网络的语音风格转移模型，并通过该模型提取对应的特征生成了具有内容语音内容和风格语音风格的目标生成语音，实现过程简单且风格转移效果好。

权利要求

1.一种基于神经网络的语音风格转移方法，其特征在于，包括以下步骤：

S1、构建语音风格转移神经网络模型；

S2、分别获取内容语音信号和风格语音信号，并随机生成初始生成语音信号；

S3、分别生成内容语音信号、风格语音信号和初始生成语音信号的声谱图，并分别输入到训练好的语音风格转移神经网络模型中；

S4、根据内容语音信号的声谱图对初始生成语音信号的声谱图进行内容特征调整，并确定内容损失函数；

根据风格语音信号的声谱图对初始生成语音信号的声谱图进行风格特征调整，并确定风格损失函数；

S5、根据内容损失函数和风格损失函数确定总损失函数；

S6、最小化总损失函数，并通过梯度下降法迭代得到目标生成语音的声谱图；

S7、根据目标生成语音的声谱图生成风格化的语音信号，实现语音风格转移；

所述步骤S1中的语音风格转移神经网络模型包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层、第二全连接层和第三全连接层；

所述第一卷积层包括96个大小为11×11×3的滤波器，步长为4，padding为0，通过第一卷积层的卷积运算后得到大小为55×55×96的特征映射；

所述第一池化层为Max pooling，下采样区域大小为3×3，步长为2，padding为0，通过第一池化层运算后得到大小为27×27×96的特征映射；

所述第二卷积层包括256个大小为5×5×96的滤波器，步长为1，通过第二卷积层的卷积运算后得到大小为27×27×256的特征映射；

所述第二池化层为Max pooling，下采样区域大小为3×3，步长为2，padding为0，通过第二池化层运算后得到大小为13×13×256的特征映射；

所述第三卷积层包括384个大小为3×3×256的滤波器，步长为1，通过第三卷积层的卷积运算后得到大小为13×13×384的特征映射；

所述第四卷积层包括384个大小为3×3×384的滤波器，步长为1，通过第四卷积层的卷积运算后得到大小为13×13×384的特征映射；

所述第五卷积层包括256个大小为3×3×384的滤波器，步长为1，通过第五卷积层的卷积运算后得到大小为13×13×256的特征映射；

所述第三池化层为Max pooling，下采样区域大小为3×3，步长为2，padding为0，通过第三池化层运算后得到大小为6×6×256的特征映射；

所述第一全连接层将9216个神经元与4096个神经元相连；

所述第二全连接层将4096个神经元与4096个神经元相连；

所述第三全连接层将4096个神经元与损失函数softmax相连；

所述步骤S4中，确定内容损失函数的方法具体为：

B1、通过语音风格转移神经网络模型提取内容语音信号声谱图在高层特征映射的特征，并将其作为初始生成语音信号声谱图的内容特征，对初始生成语音信号的声谱图的内容特征进行调整；

B2、将内容语音信号声谱图和初始生成语音信号声谱图在高层l层对应激活值的平方误差和作为内容损失函数

其中，内容损失函数为：

式中，为内容语音信号声谱图在高层l层特征映射中的激活值；

为生成语音信号声谱图在高层l层特征映射中的激活值；

||·||为求解向量范数的运算符；

nH为声谱图特征映射的高度；

nW为声谱图特征映射的宽度；

nC为声谱图特征映射的通道数；

为内容语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值；

为生成语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值；

其中，i＝1,2,...,nH,j＝1,2,...,nW,k＝1,2,...,nC。

2.根据权利要求1所述的基于神经网络的语音风格转移方法，其特征在于，所述步骤S3中，对语音信号生成对应的声谱图的方法具体为：

A1、对语音信号进行分帧操作；

A2、对每帧语音信号进行短时快速傅里叶变换，得到每帧语音信号对应的频谱曲线；

A3、将频谱曲线旋转90度后，并将曲线中的振幅幅度映射到范围为0～255的灰度级上，得到对应的声谱图。

3.根据权利要求1所述的基于神经网络的语音风格转移方法，其特征在于，所述步骤S4中确定风格损失函数的方法具体为：

C1、通过语音风格转移神经网络模型提取风格语音信号声谱图在多层低层特征映射的特征，并将其作为初始生成语音信号声谱图的风格特征，对初始生成语音信号的声谱图的风格特征进行调整；

C2、分别确定风格语音信号声谱图的风格矩阵和目标生成语音信号声谱图的风格矩阵

其中，风格语音信号声谱图的风格矩阵在位置(k,k')处的元素值具体为：

式中，为声谱图中l层特征映射的高度；

为声谱图中l层特征映射的宽度；

和分别为风格语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值；

目标生成语音信号声谱图的风格矩阵在位置(k,k')处的元素值具体为：

式中，和分别为生成语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值；

C3、根据两个风格矩阵确定初始生成语音信号声谱图中在第l层的风格损失函数El为：

式中，为l层特征映射的通道数；

C4、根据第l层特征映射的风格损失函数El，确定所有低层特征映射风格损失函数的加权和，即为风格损失函数；

其中，风格损失函数为

式中，l为低层特征映射的层数。

4.根据权利要求3所述的基于神经网络的语音风格转移方法，其特征在于，所述步骤S5中的总损失函数为：

式中，α为内容损失函数的权重；

β为风格损失函数的权重。

5.根据权利要求4所述基于神经网络的语音风格转移方法，其特征在于，所述步骤S3中，所述内容语音信号包括至少三个不同说话人的相同内容的语音信号，且均生成对应的声谱图输入到语音风格转移神经网络模型中；

风格语音信号包括至少一个说话人的不同内容的语音信号，且均生成对应的声谱图输入到语音风格转移神经网络模型中。

说明书

技术领域

本发明属于语音信号处理技术领域，具体涉及一种基于神经网络的语音风格转移方法。

背景技术

语音转换是语音信号处理领域的重要分支之一，语音转换(Voice Conversion，VC)是指改变源说话人(Source Speaker)的语音风格特征，使其转换为带有目标说话人(Target Speaker)风格特征的语音，而保持源说话人的语义信息不变。语音风格转移可以实际应用到通信、医疗、娱乐等领域中。

在现有的相关语音风格转移方法中，Abe等人提出基于矢量量化(VectorQuantization，VQ)和码本映射的语音风格转移方法。将原始、风格语音的谱包络特性参数通过矢量量化划分为一系列码本，通过建立其两者的映射关系，从而实现语音的风格转移。该方法简单易行，但转换后的语音音质较差，存在不连续、停断等现象。Savic等人基于Abe的研究方法提出将码本映射改进成神经网络，使得转换后的语音质量有了较大提高。这是首次把人工神经网络模型应用在语音风格转移研究上并且取得了一定突破。随后，基于神经网络的语音风格转移研究成为主流研究方向。Kim等人基于隐马尔可夫模型(HiddenMarkov Model，HMM)实现了对说话人语音信号的动态特性转换。但是该隐马尔可夫模型中的混合激励模型中的参数利用了经验值估测的方法，会使生成的参数不够精确，最终导致语音信号的相似度以及自然度降低。Stylianou首次提出基于高斯混合模型(GMM，GaussianMixture Model)实现语音信号频谱包络特性参数的转换模型，该方法虽然可以有效避免传统矢量量化法带来的语音信号不连续、停断等现象，但是由于其凭借平均统计原理，从而会使转换后语音信号的共振峰产生过度平滑的疑难。

由以上参考文献可知，基于神经网络的语音风格转移研究在性能和稳定性方面都有较大提高，但是在神经网络的训练阶段，训练数据制作与获取的较大难度给语音风格转移研究带来了一定的阻碍。因此，本发明将借鉴图像相对完善的风格转移研究，从而对语音的风格转移研究进行相应的探索与研究。

发明内容

针对现有技术中的上述不足，本发明提供的基于神经网络的语音风格转移方法解决了现有的语音风格转移方法中涉及的语音风格转移模型需要大量的训练数据，训练数据不容易获取，且语音风格转移效果不理想的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于神经网络的语音风格转移方法，包括以下步骤：