ICASSP 2014 Small( 四 )


4.2.
我们首先评估为基线HMM和Deep KWS系统训练的较小神经网络的性能 。两种系统都使用2.1中描述的前端 。他们都使用了一个网络,该网络具有3个隐藏层,每层具有128个隐藏节点,并且具有ReLU非线性 。但是,两个网络的参数数量并不相同 。用于基线HMM系统的DNN声学模型使用10个左框架和5个右框架的输入窗口大小,并输出2,002个HMM状态,从而产生大约373K参数 。Deep KWS使用30个左框架和10个右框架,但仅生成单词标签,从而根据评估的关键短语将输出标签清单减少到3或4 。Deep KWS的参数总数不超过244K 。
图3显示了两个系统的性能 。基线3×128(VS)是指具有在语音搜索语料库上训练的DNN声学模型的HMM系统 。基准3×128(VS + KW)是使用关键字特定数据适应DNN声学模型后的同一系统 。Deep 3×128(KW)是指针对关键字特定数据训练的拟议Deep KWS系统 。最后,如我们在2.2节中介绍的,使用经过VS数据训练的网络初始化Deep 3×128KW网络时,Deep 3×128(VS + KW)表现出性能 。
从结果可以清楚地看出,即使使用更少的数据和更少的参数来训练,建议的Deep KWS仍胜过基线HMM KWS系统 。例如,请参见图3中的Deep 3×128(KW)与 3×128(VS + KW) 。在非常低的虚警率下,增益较大,这对于我们的应用而言是理想的工作点 。在0.5%的FA率下,深3×128(VS + KW)系统相对于基准3×128(VS + KW)可获得45%的相对改进 。使用第2.2节中所述的框架,对KW数据上的网络进行培训仅需几个小时,而对VS + KW上的网络进行培训则需要大约一周的时间 。
4.3. Model Size
图4给出了评估两个使用6×512网络的系统时的性能 。在这种情况下,基线的参数数量增加到2.6M,而Deep模型达到2.1M 。Deep 6×512(KW)系统实际上比较小的3×128模型性能差,我们推测这是由于KW数据不足以训练大量参数 。但是,当两个系统都以VS + KW数据进行训练时,相对于其相应的3×128系统,我们观察到了一致的改进 。同样,Deep KWS系统具有优于基准的性能 。
4.4. 噪声鲁棒性
我们还在带噪声的测试集上测试了相同的模型,该测试集是通过向原始测试集添加10db SNR的噪声而生成的 。比较图3和图5中的基线3×128(VS + KW),FA率为0.5%时,HMM的FR率从5%FR翻倍到10%FR 。Deep KWS系统遭受类似的降级 。但是,相对于基准而言,它可实现39%的相对改进 。
我们提出了一种新的基于深度神经网络的关键字发现框架 。实验结果表明,在干净和嘈杂的条件下,该框架均优于基于HMM的标准系统 。我们进一步证明,仅用KW数据训练的Deep KWS模型比使用KW和VS数据训练的基线HMM KWS系统产生更好的搜索性能 。Deep KWS系统还导致实现更简单,从而消除了对解码器的需求,减少了运行时计算,并且模型更小,因此受到我们嵌入式应用程序的青睐 。
由于我们正在处理的检测应用程序仅需要实时的是/否决策,因此本文中提出的框架不会明确建模关键字结束时间 。在将来的工作中,我们将扩展该方法以对关键字边界进行建模 。