语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术

语音情感识别领域-论文阅读笔记1for -Leveland融合语音和文字的句段级别情感识别技术
本文是对会议论文“for -Leveland ”的阅读笔记,该文章是多模态情感识别领域的好文章,使用了语音和文本两种模态数据,深度学习网络为LSTM和CNN 。
下载地址
1.摘要()
? 在人类认知和理解过程中,大量种类不同、彼此互不的不同模态线索被接受 。人类交流中的各种情绪状态反映出不同模态线索的多样性 。多模态情绪识别最近的进展是利用基于不同种类特征如文本、音频、视频图像的深度学习技术来实现卓越的表现 。这篇论文着眼于将跨模态融合技术运用于情感识别的深度学习网络,使用的模态数据为说话人话音和相应的文本记录 。
? 作者研究了长短时记忆循环神经网络(LSTM)使用预训练的词向量(pre- word )来进行基于文本的情感识别以及卷积神经网络(CNN)使用话语(段)级别(-Level)特征描述符来进行基于话音的情感识别 。各种融合策略实施在这两种模型上来为每一种情绪类别给出一个综合评分 。每一种情绪的模态内部(intra-)动态信息被捕获在为特定模态设计的神经网络中 。融合技术被设计用于获取跨模态(inter-)动态信息 。对于这类模态内部联系和跨模态联系的理解可参考论文“with Intra- and Inter-Flow for“并参考下图 。注:下图并非本论文的图,只是用来帮助理解inter-和intra- 。
? 作者在多模态情感识别数据库上进行说话人与独立会话实验(and - )来论证(show)本文提出方法的有效性
关键词:,multi-model,,deep
一些名词:
frame-level:帧级别
-Level:话语级别(段级别),也可以理解成句子级别或者段级别,是一个人说的一段话,比frame级别高 。
-level:对话级别,是两个人的对话,情感识别利用自身和两个说话人之间的关系来识别情感 。
? 本文方法的流程图见下图1:
2.文本特征提取(from Text)
这一部分主要将特征提取和提出的基于文本的情感识别神经网络框架 。特征提取模块为每个语句()提供了一种表示,其上下文依赖关系在LSTM的神经网络中建模 。
2.1特征提取( )
采用CNN卷积神经网络从话语的转录文本( )中提取特征 。基于特征提取的神经网络如CNN会学习出输入句子的抽象表达,这些语句中包含有基于单词和单词概率的语义 。使用一个带有卷积层和最大池化层的简单CNN网络作为特征提取器 。
CNN的输入形式是300维的词向量 。这些300维的词向量是基于Fast-Text词嵌入提取的 。(简单来说,每个英文单词都会用一个300维词向量表示) 。卷积层包含三个卷积核,尺寸分别为f1,f2,f3,同样的,有三个输出通道 。我们使用这些卷积核执行一维卷积,然后对其输出执行最大池化() 。池化后的特征最终被投影到维度为DT的稠密层上,其经过激活函数后的向量被用作文本表示T∈ R D T R^{D_T} RDT? 。
2.2LSTM循环神经网络(LSTM RNN )
架构包含一个LSTM层和三个全连接层 。循环网络中的连接获取了上下文信息来对话语给出的文本进行分类 。这有利于情感标签分类,因为连续的单词为情感分类提供了额外的线索 。每个话语()DT维的特征数据被喂到time step=N1的LSTM层 。全连通层的隐含层节点数N2、N3和N4的数量是递减的,最后一个(N4)的是情感标签类别的数量 。
3.话音特征提取(from )
在特征提取阶段对每个话语进行声学特征提取,这些声学特征将被用于构建CNN进行情感识别 。这个CNN模型叫做联合CNN模型,因为模型的输入是初步融合(early )后的数据,这些数据具有更好的性能 。