多模态情感识别-MISA: baseline解读( 二 )


我们假设利用这两种模态表示有助于通过提供多模态数据的整体视图来帮助融合 。
图2 MISA 采用话语级表示并将每个模态投射到两个子空间:模态不变和特定模态 。之后,这些隐藏表示用于重建每个输入,也用于融合以进行任务预测 。
3. 模型细节 3.1 模态特征表示
图3 模态特征学习,通过提取三个模态的特征后,会使用 3.2 节中的模态不变和模态特定的特征表示模型
3.2 模态不变和模态特定特征表示
(1) h m c \{h}_m^c hmc? 表示模态不变特征,h m p \{h}_m^p hmp? 表示模态特定特征
h m c = E c ( u m ; θ c ) , h m p = E p ( u m ; θ m p ) \{h}_m^c=E_c\left(\{u}_m ; \theta^c\right), \quad \{h}_m^p=E_p\left(\{u}_m ; \^p\right) hmc?=Ec?(um?;θc),hmp?=Ep?(um?;θmp?)
图4-1 共享编码器** E c E_c Ec?** 和独立编码器** E p E_p Ep?** 的代码细节,串联一层 前向传播层- 即可
(2) E c E_c Ec? 表示跨模态的共享参数θ c \theta^{c} θc 操作,E p E_p Ep? 代表 独立模态的单独参数 $ \{m}^{p}$ 操作
图4-2 贡献参数和独立参数的代码细节,额外设置一些单独的可学习变量即可
3.3 模态融合
在将模式投影到各自的表示形式后,我们将它们融合成一个联合向量,用于下游预测 。我们设计了一个简单的融合机制,首先执行基于变压器[54]的自我关注,然后是所有六个转换后的模态向量的串联 。
然后,我们对这些表示进行多头自我关注,使每个向量都知道其他交叉模态(和交叉子空间)表示 。这样做可以让每个表征从其他表征中诱导潜在信息,这些信息对整体情感方向具有协同作用 。这种跨模态匹配在最近的跨模态学习方法中非常突出 。
图5 模态融合代码细节,将3.2节中学习到的6种特征表示先送入再送入一个简单的融合层即可 。模型最后的输出 o 将与对应的多个label进行loss计算(使用了四个loss进行联合方向传播)
4. 结果
图6 实验结果
5. 自己的思考
首先,这篇paper属于20年的,针对负样本的学习还没有探究,这会限制模型性能 。
此外,模型针对模态的不变特征表示考虑的并不深刻,其实还可以考虑不同模态之间的交互注意力 。
【多模态情感识别-MISA: baseline解读】最后,如文章最后所说,最后的损失函数还有改进空间 。