ICASSP2023论文分享 | DST:基于Transformer的可变形语音( 三 )


:为了进一步理解模型,我们考虑一段来自的语音样本,并通过可视化直观地比较各种注意力机制中的权重 。如图4所示,有声片段仅占整个语音样本中的一小部分 。由于大量的噪声很容易使模型感到困惑,因此使用全局注意机制的模型很难突出语音中的关键部分 。虽然基于局部窗口的注意机制能够学习细粒度特征,但当关键部分的持续时间和位置与其预先设定好的窗口不匹配时,其性能将会不可避免地受到限制 。由于语音是连续信号,类DCN的注意机制无法通过离散的判断每个的重要性,导致其分配的权重之间的差异很小 。DST成功地将注意力集中在关键片段(“ ”),并通过学习而来的窗口大小和偏移量来突出它们 。
3.3.2tostate-of-the-art
Table 2在和MELD数据集上将所提的DST与一些已知方法进行比较 。所有方法都采用声学特征作为输入以便进行公平的比较 。在上,DST要优于之前的方法 。在MELD上,DST也超越了其他竞争对手 。
本文为语音情感识别提出了一种名为DST的可变形方法 。DST通过变形的注意力窗口有效地捕捉多粒度的情感信息 。注意力窗口的大小和位置由模型自动确定 。这种可变性显着提高了模型的灵活性和适应性 。在和MELD数据集的实验结果证明了DST的有效性 。我们希望我们的工作能够在语音领域启发设计更灵活且高效的变体 。在未来,我们计划将DST扩展到其他的语音任务并验证其通用性 。
【ICASSP2023论文分享 | DST:基于Transformer的可变形语音】(论文翻译:华南理工大学 陈炜东)