我们假设利用这两种模态表示有助于通过提供多模态数据的整体视图来帮助融合 。
图2 MISA 采用话语级表示并将每个模态投射到两个子空间:模态不变和特定模态 。之后,这些隐藏表示用于重建每个输入,也用于融合以进行任务预测 。
3. 模型细节 3.1 模态特征表示
图3 模态特征学习,通过提取三个模态的特征后,会使用 3.2 节中的模态不变和模态特定的特征表示模型
3.2 模态不变和模态特定特征表示
(1) h m c \{h}_m^c hmc? 表示模态不变特征,h m p \{h}_m^p hmp? 表示模态特定特征
h m c = E c ( u m ; θ c ) , h m p = E p ( u m ; θ m p ) \{h}_m^c=E_c\left(\{u}_m ; \theta^c\right), \quad \{h}_m^p=E_p\left(\{u}_m ; \^p\right) hmc?=Ec?(um?;θc),hmp?=Ep?(um?;θmp?)
图4-1 共享编码器** E c E_c Ec?** 和独立编码器** E p E_p Ep?** 的代码细节,串联一层 前向传播层- 即可
(2) E c E_c Ec? 表示跨模态的共享参数θ c \theta^{c} θc 操作,E p E_p Ep? 代表 独立模态的单独参数 $ \{m}^{p}$ 操作
图4-2 贡献参数和独立参数的代码细节,额外设置一些单独的可学习变量即可
3.3 模态融合
在将模式投影到各自的表示形式后,我们将它们融合成一个联合向量,用于下游预测 。我们设计了一个简单的融合机制,首先执行基于变压器[54]的自我关注,然后是所有六个转换后的模态向量的串联 。
然后,我们对这些表示进行多头自我关注,使每个向量都知道其他交叉模态(和交叉子空间)表示 。这样做可以让每个表征从其他表征中诱导潜在信息,这些信息对整体情感方向具有协同作用 。这种跨模态匹配在最近的跨模态学习方法中非常突出 。
图5 模态融合代码细节,将3.2节中学习到的6种特征表示先送入再送入一个简单的融合层即可 。模型最后的输出 o 将与对应的多个label进行loss计算(使用了四个loss进行联合方向传播)
4. 结果
图6 实验结果
5. 自己的思考
首先,这篇paper属于20年的,针对负样本的学习还没有探究,这会限制模型性能 。
此外,模型针对模态的不变特征表示考虑的并不深刻,其实还可以考虑不同模态之间的交互注意力 。
【多模态情感识别-MISA: baseline解读】最后,如文章最后所说,最后的损失函数还有改进空间 。
- 瞰奥·解读|一枚金牌里,你猜有多少黄金? 中国金牌平历史之最小
- 即墨是一座有两千多年历史的文化古城,这里的年俗与众不同 即墨是不是历史名城之最
- 绩溪古镇,呈坎古镇离绩溪多远
- 结婚的金器,你结婚金器买了多少钱
- 美人鱼也有男性?古籍记载其中多有丑陋不堪者
- 包拯包青天究竟有多清廉?包公身上有哪些故事
- 河北发现600多年前古墓群出土十余件元代器物
- 杨侗和杨广有什么关系?杨侗在位多久
- 大幕落下,经典永存!卡塔尔世界杯创下多项历史之“最” 世界杯中国之最
- 绘本作家排行榜,中国优秀的绘本漫画家有多少个?