ICASSP2023论文分享 | DST：基于Transformer的可变形语音( 三 ) _网络模型

：为了进一步理解模型，我们考虑一段来自的语音样本，并通过可视化直观地比较各种注意力机制中的权重。如图4所示，有声片段仅占整个语音样本中的一小部分。由于大量的噪声很容易使模型感到困惑，因此使用全局注意机制的模型很难突出语音中的关键部分。虽然基于局部窗口的注意机制能够学习细粒度特征，但当关键部分的持续时间和位置与其预先设定好的窗口不匹配时，其性能将会不可避免地受到限制。由于语音是连续信号，类DCN的注意机制无法通过离散的判断每个的重要性，导致其分配的权重之间的差异很小。DST成功地将注意力集中在关键片段（“ ”），并通过学习而来的窗口大小和偏移量来突出它们。
3.3.2tostate-of-the-art
Table 2在和MELD数据集上将所提的DST与一些已知方法进行比较。所有方法都采用声学特征作为输入以便进行公平的比较。在上，DST要优于之前的方法。在MELD上，DST也超越了其他竞争对手。
本文为语音情感识别提出了一种名为DST的可变形方法。DST通过变形的注意力窗口有效地捕捉多粒度的情感信息。注意力窗口的大小和位置由模型自动确定。这种可变性显着提高了模型的灵活性和适应性。在和MELD数据集的实验结果证明了DST的有效性。我们希望我们的工作能够在语音领域启发设计更灵活且高效的变体。在未来，我们计划将DST扩展到其他的语音任务并验证其通用性。
【ICASSP2023论文分享 | DST：基于Transformer的可变形语音】（论文翻译：华南理工大学陈炜东）