语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术( 二 )


3.1特征提取( )
话音信号的特征提取使用到了工具箱 。年的挑战赛上提供了包含6373维静态特征的特征集,称为特征集,可以通过开源包来获得 。数据集包括LLDs和HSDs 。特征集的详细描述可参见这篇描述“”
在这些特征中,我们进行min-max标准化 和基于L2范数的特征选择,将特征维数降低到Ds。这样低维度的基于话音的特征S∈ R D s R^{D_{s}} RDs?被用于后续输入 。
3.2CNN网络框架(CNN )
用于获取语音情感分类的神经网络由两个ReLU激活的卷积层组成,每个层之后是一个最大池化层 。然后是三个全连接层 。每个卷积层都有Nf数量的卷积核(),每个卷积核的宽度为Nw 。卷积层进行单位步长(unit )的卷积操作,用于学习情感类别 。将第二卷积层的输出扁平化()后,将其送入两个大小分别为Nc2和Nc3的全连接层 。最后输出层的尺寸为情感类别标签的数量 。
第2节中介绍的基于lstm的模型也可以用于语音 。我们观察到,它也提供类似的性能 。尽管如此,本工作还是坚持使用CNN进行语音,因为它的融合性能比基于LSTM的系统要好,可能是因为采用了完全不同的建模方法 。
4特征融合技术( )
该方法结合各模型输出特征用于后期融合(Late ),并将一开始的文本和声学特征连接用于早期融合(Earlt ) 。
4.1早期融合(Early )
早期融合是一种很常见的融合技术 。在特征级融合中,我们将通过文本和语音的特征提取阶段得到的特征信息结合起来 。话语(一段语句)的最终输入表示是
U D = t a n h ( ( W f [ T ; S ] + b f ) ) U_D=tanh((W^f[T;S]+b^f)) UD?=tanh((Wf[T;S]+bf))
第三部分提到的CNN网络的卷积层输入就是尺寸为 U D = ( T ; S ) U_D=(T;S) UD?=(T;S)的特征向量,这个特征向量就是从早期融合中获得的 。这有助于捕获在同一模式下文本和语音之间的模态间动态 。我们称这个CNN网络为joint-CNN 。
4.2后期融合(Late )
? 作者在文本单模态lstm情感识别网络和联合cnn情感识别网络的输出中考虑了三种类型的决策级融合(-level ) 。我们考虑了联合模型与特定模态模型的后期融合 。除了在联合cnn模型中捕获到的跨模态动态联系(inter- ),后期融合还能捕获到更多有用的跨模态动态信息 。
4.2.1后期融合I(Late -I)
这种决策级的融合是通过结合多个系统的得分来实现的 。如果在相似的特征空间上建立不同的模型,则使用求和组合规则,如集成方法 。这样给定一段语句的平均融合输出分数为:
S c o r e = S c o r e ( T ) + S c o r e ( S , T ) 2 Score=\frac{Score(T)+Score(S,T)}{2} Score=(T)+Score(S,T)?
后期融合①对来自基于lstm的文本情感识别网络的输出和联合cnn模型的输出具有相同的偏好 。(简单的决策级得分融合,也可调整权重)
4.2.2后期融合II(Late -II)
在该方法中,我们使用基于lstm的文本情感识别模型的输出类别概率与联合cnn模型的输出类别概率根据不同权重值进行后期融合 。对给定话语的输出得分加权平均融合后为:
S c o r e = ω 1 ? S c o r e ( T ) + ω 2 ? S c o r e ( S , T ) Score=\{1}* Score(T)+\{2}*Score(S,T) Score=ω1??Score(T)+ω2??Score(S,T)
其中,ω 1 , ω 2 ≤ 1 \,\\leq1 ω1?,ω2?≤1,且 ω 1 + ω 2 = 1 \+\=1 ω1?+ω2?=1 。根据验证数据的性能,采用试错法确定权重 。
4.2.2后期融合III(Late -III)

语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术

文章插图
输出概率也可以使用乘积规则进行组合:
S c o r e j = S c o r e j ( T ) ? S c o r e j ( S , T ) ∑ j ′ ( T ) ? S c o r e j ′ ( S , T ) =\frac{(T)*(S,T)}{\sum_{j'}^{}(T)*{j'}(S,T)} ?=∑j′?(T)?′?(S,T)?(T)??(S,T)?