ICASSP 2023论文模型开源|语音分离Mossformer( 二 )


模型架构
语音分离模型由一个卷积编码器-解码器结构和一个掩蔽网络组成(见图2) 。编码器-解码器结构负责特征提取和波形重建,其中,编码器负责特征提取,由一维 (1D) 卷积层 () 和整流线性单元 (ReLU) 组成,后者将编码输出限制为非负值 。解码器是一维转置卷积层,它使用与编码器相同的内核大小和步幅 。
图2. 模型整体结构示意图
掩码网络执行从编码器输出到组掩码的非线性映射,掩码网络的主组成部分是模块,该模块是基于带卷积增强联合自注意力(- joint self-)的门控单头自注意力架构(gated -head)开发出来的 。具体的,一个 模块由四个卷积模块、缩放和偏移操作、联合局部和全局单头自注意力(SHSA)以及三个门控操作组成,负责进行长序列的处理 。详细模块结构见图3 。在模块中,序列由卷积模块和注意力门控机制进行处理 。卷积模块使用线性投影和深度卷积来处理序列 。注意力门控机制执行联合局部和全局自注意力和门控操作 。模块仅学习残差部分并应用跳跃连接从输入连接到输出以提升训练效率 。当前块的输出被输入到下一个块中 。该过程被重复R次 。
图3. 模块架构示意图
模型性能
我们在公开数据集WSJ0-2/3mix 和 WHAM!/WHAMR!上对模型进行了性能对比验证 。WSJ0-2/3mix数据集是基于WSJ0数据语料库生成的 。包括30小时的训练数据集、10小时的验证数据集、和5小时的测试集,混合语音是由随机选择的不同说话者的语音混合而成,混合语音按照-5 dB和5 dB随机信噪比(SNR)进行混合 。该数据集包含2个和3个说话人,为纯净数据集,不含噪声和混响 。
WHAM!数据集是在WSJ0-2mix数据集的基础上,通过进一步添加独特的环境噪声生成的,环境噪声主要包括从餐厅、咖啡馆、酒吧和公园录制的噪声 。WHAMR! 数据集进一步扩展了WHAM!数据集,除了环境噪声之外,还为语音信号添加了人工混响效果 。
模型与其它SOTA模型在公开数据集WSJ0-2mix/3mix和WHAM!/WHAMR!上的对比结果如下表 (模型算法引用标注沿用发表的论文引用顺序):
SI-SNR (Scale-to-Noise Ratio) 尺度不变信噪比,是在普通信噪比基础上通过正则化消减信号变化导致的影响,是针对宽带噪声失真的语音增强算法的常规衡量方法 。SI-SNRi (SI-SNR ) 是衡量对比原始混合语音,SI-SNR在分离后语音上的提升量 。
DM ( )是一种动态混合数据增强算法,用来补充训练数据的不足和提升模型训练的泛化能力 。
结果对比
我们分别给出了小模型(S)、中等模型(M)、和大模型(L)的结果 。在WSJ0-2/3mix数据集上,除了具有10M参数的(S)在WSJ0-2mix上表现稍差于具有29M参数的以外,我们的模型结果优于之前所有模型的表现 。使用数据增强后,(L)在WSJ0-2mix/3mix上分别达到了22.8 dB和21.2 dB 。不仅达到了-Rao分离上限,而且在WSJ0-2mix/3mix上取得了最新的SOTA结果 。
在带噪和混响WHAM!到WHAMR!数据集上,(M)和(L)比以前的模型表现出更大的优势,(L)分别在WHAM!和WHAMR!上取得了最新的SOTA结果 。例如,(L)相比于,分别提升了0.9 dB和2.3 dB 。由于WHAM!/WHAMR!数据集是在WSJ0-2mix的基础上引入额外的噪声和混响来构建的,因此,在WHAM!/WHAMR!上的分离任务变得更加困难,因为模型不仅需要处理语音分离,还需要进行降噪和去混响处理 。我们观察到,混响对和的影响比对的影响更大,显示得益于独特的联合自注意力架构和深度卷积处理,可以更好的学习局部特征模式和全局长距离依赖性,从而获得更佳的分离性能 。
理论上,模型框架可以支持任意多说话人和任意环境下的语音分离任务,我们在上首先开放的是基于两个说话人的纯语音分离模型,其目的是让用户可以在较简单的分离任务上,更快速的搭建和测试我们的模型平台 。