手机版
您的当前位置: 老骥秘书网 > 范文大全 > 公文范文 > 基于注意力双向GRU网络的多模态脑电情感识别

基于注意力双向GRU网络的多模态脑电情感识别

来源:公文范文 时间:2024-04-07 10:48:01 推荐访问: 双向 双向目标是什么意思 双向目标细目表(20篇)

陈景霞, 刘 洋, 张鹏伟, 雪 雯

(陕西科技大学 电子信息与人工智能学院, 陕西 西安 710021)

情感在我们日常生活中的方方面面都起着重要的作用.随着人工智能的出现,1995年情感计算这一概念首次被Picard教授[1]提出,经过几十年的发展,如今情感人工智能已经变成21项新兴技术之一.就目前来看,情感计算还面临着情感相关信息获取困难,情感识别精度不高等诸多挑战.

人类的情感涉及主观经历、生理反应和行为反应,通过表情、言语和肢体动作等多种模态进行表达.因此,情感识别也包含了多种模态,即行为模式识别和生理模式识别[2].行为识别是通过摄像头等设备采集人的面部表情和声音等外部信息进行情感识别,而生理模式识别是通过传感器采集人的脑电、眼电和肌电等信息进行情感识别.生理信号相比于外部行为信号具有不易伪装,更真实可靠等特点,因而用生理信号进行情感识别更加客观有效.

近年来,脑电波(electroencephalogram,EEG)已经越来越多地用于情感识别并取得了很大的进展.陈景霞等[3]曾提出了一种基于深度卷积神经网络的EEG情感识别方法,在效价和唤醒度上的情感二分类的性能都比传统分类器有较大提升.Qiu等[4]提出了一种自监督的神经网络GCC捕获EEG脑网络拓扑特征,该方法的分类精度最高可达到81.1%.Xing等[5]提出了一种多通道脑电情感识别框架,利用脑电特征序列的上下文相关性提高分类精度,该方法在DEAP数据集进行情感二分类实验效价维度准确率可达81.1%,唤醒度维度可达74.38%.

上述基于脑电等单一模态的情感识别方法虽然取得了较大的进展,但单一模态的生理信息很容易受到各种噪声的影响,很难完整的反映情感状态,识别精度不高,所以使用多种模态信息来进行情感识别是很有必要的.早期的多模态情感识别大多是通过手工特征提取和传统机器学习分类器进行,近年来随着深度学习的不断发展,越来越多的研究人员将其应用在多模态情感识别领域.

例如,Lu等[6]使用一种多模态情感识别框架分别在特征级和决策级对EEG数据和眼动数据进行融合,并通过实验证明了多模态情感识别准确率相较于单一模态得到显著提高.Qiu等[7]提出了一种相关注意网络(CAN)的多模态情感识别模型,通过计算不同门控递归单元的相关性及引入注意力机制,将EEG和眼动两个模态数据进行特征融合和深度学习,实验结果表明,该方法在SEED数据集上情感三分类的平均准确率为94.03%.Tzirakis等[8]提出了一种端对端的多模态情感识别模型,在语音和视频两种模态进行训练,在效价和唤醒度两个维度上都取得了很好的效果.Tan等[9]提出了一种用于人机交互(HRI)系统的多模态情感识别方法,将EEG数据和面部表情数据进行融合,最终识别准确率达到了83.33%.Wu等[10]提出一种关键子网络选择算法来研究脑功能特征,通过深度典型相关分析将脑电和其他生理信号相结合来进行情感识别,最终识别平均准确率可达到95.08%.Zhao等[11]提出了基于双向LSTM和注意力机制的表情-脑电情感识别模型,采用双线性卷积网络融合表情和脑电两个模态的特征,然后通过带有注意力网络的双向LSTM进行情感识别,在DEAP数据集效价和唤醒度上的准确率分别为86.2%和86.8%.

尽管近年来研究者们提出了诸多多模态情感识别的研究方法,但依然存在两个方面的问题需要改善:一是不同模态数据之间差异较大,如何选择更有效的模态特征并将不同模态间的特征进行有效的融合.二是如何构建更加有效的深度模型来学习更具判别性的情感相关特征以提升情感分类精度.为解决这两大问题,本文从不同模态的特征选择、特征融合及深度模型构建这三个方面提出了新的方法.

多模态特征融合分为数据级融合、特征级融合、决策级融合和模型级融合四种方式[12].其中,特征级融合分别提取不同单一模态的特征,使用贝叶斯决策理论、注意力机制等方法在特征层面进行融合,能够更好的实现不同特征间的交互,从而得到更多不同模态间的互补信息.本文从特征层面对多模态信息使用注意力机制进行融合,并构建基于注意力机制的双向门控循环单元(Bi-directional Gated Recurrent Unit,BiGRU)模型,其具体结构如图1所示,对融合特征进行深度学习与情感分类.

图1 Mul-AT-BiGRU模型

1.1 多模态特征融合

1.1.1 多模态特征选择和提取

本文采用三种在单一模态中情感分类性能较好的EEG特征:微分熵(Differential Entropy,DE)特征、功率谱密度(Power Spectral Density,PSD)特征及眼动特征进行多模态融合研究,这三种特征的特点及提取方法如下:

脑电DE特征提取:微分熵定义了连续随机变量的熵,脑电DE特征重点分析脑电信号频率和能量等信息.Duan等[13]发现DE特征更适合于情感识别任务且能够很好的反映EEG信号的能量变化.通常,EEG信号可以分为五个不同的频带,即:θ(1-4 Hz)、θ(4-8 Hz)、α(8-13 Hz)、β(13-30 Hz)、γ(30-50 Hz).DE特征的提取将EEG信号特征由原始的时域转到频域,然后在以上各频带提取信号DE特征.

脑电PSD特征提取:功率谱密度定义了在时间序列上的信号数值随频率分布的规律,脑电PSD特征重点分析脑电活动随时间变化的特性,且PSD特征提取对信号稳定性没有太多要求,对脑电这一非平稳信号十分友好.本文作者在之前的研究中[14]已经验证了PSD特征在情感识别中具有较高的分类性能.本实验在上述5个频带提取PSD特征,获得结果作为多模态EEG信号的另一种特征.

眼动特征提取:除了EEG信号外,眼动数据可以反映吸引人注意力的因素,观察人的无意识行为.Bradley等[15]对眼动信号和情感之间的关系的研究表明,当处于不同的情感状态下,人的眼球运动和瞳孔直径等会发生不同的变化,具体提取的眼动特征细节如表1所示.

表1 眼动特征

1.1.2 基于注意力机制的多模态特征融合

并非所有模态特征在情感分类中都具有同等的相关性,为了优先考虑更重要的模态,本文使用在自然语言处理中应用广泛的AT融合注意力网络[16],将脑电数据的DE特征、PSD特征及眼动特征进行融合.该网络的具体结构如图1特征融合层所示.在将三种模态特征输入该注意力网络之前,使用了一个全连接层将其连接.使用X表示全连接层输出数据,输入层中Xd表示DE特征,Xp表示PSD特征,Xe表示眼动特征.然后将全连接层的输出作为注意力网络的输入,注意力网络中进行的计算如下:

PF=tanh(WF·X)

(1)

(2)

(3)

式(1)~(3)中:αfuse表示注意权重特征向量,WF、ωF是注意力模型在训练中的投影参数,F表示模型输出即融合后的多模态特征向量.

1.2 多模态深层特征提取

在脑电和眼动这两种生理数据的采集过程中,都是基于时间线对数据进行采集,因此数据在时序上存在密切的上下文联系,本文采用循环神经网络(Recurrent Neural Network,RNN)对脑电和眼电时序特征进行建模.GRU是一种特殊的RNN,它适合学习预测时间序列中间隔较长的事件以及数据间的依赖信息.具体来说,它解决了传统RNN梯度消失的问题,同时能够对长期依赖进行建模.为了更好的学习时间前后上下文之间的联系和简化计算,本文使用双向GRU模型对融合后的多模态特征进行深层特征提取与情感分类,其具体结构如图2所示,该模型同时受到先序信息所带来的正向反馈和后序信息所带来的逆向反馈,且更多的控制单元门的使用能够更好的避免过拟合,并且更多信息的结合也更有利于提升模型的分类精度.使用x=[x1,x2,…,xt,…,xN]来表示GRU单元的输入矩阵,其中N表示输入样本总数,t的取值介于0-N之间.每个GRU单元计算公式如下:

(4)

zt=σ(Wz[ht-1·xt])

(5)

rt=σ(Wr·[ht-1·xt])

(6)

(7)

(8)

图2 BiGRU模型结构

为了进一步提高分类精度,本文在双向GRU的基础上加入了注意力机制来强化输入序列的主要特征,具体结构如图1中的深层特征提取层所示.该注意力网络将上层双向GRU单元的输出作为该单元输入,具体计算过程如下:

Pt=tanh(Wh[t]·H)

(9)

αt=soft max(ω[t]T·Pt)

(10)

(11)

式(9)~(11)中:H表示双向GRU的输出,αt表示注意力权重向量,Wh[t]和ωh[t]是注意力模型在训练中的投影参数,rt为注意力层的输出向量.最终,带有注意力机制的双向GRU层输出如下:

(12)

1.3 情感分类

经过上述特征选择、特征融合和深层特征提取之后,使用SoftMax层进行最终的情感分类,具体计算如下:

(13)

(14)

为了防止过拟合,该模型还加入了Dropout层.模型采用的是AdaGrad优化器,该优化器能够根据参数来调整学习率,有较好的鲁棒性.该模型的损失函数采用交叉熵函数,计算方式如下:

(15)

2.1 数据集

本文基于EEG多模态情感数据集SEED-IV[17]展开实验以验证所提出的Mul-AT-BiGRU模型的有效性.该数据集是由上海交通大学BCMI实验室相关团队开发,包含EEG和眼动信号这两种生理信号,它记录了15个被试在不同时间观看72个能诱发快乐、悲伤、恐惧、中性这四种不同情感的电影片段的脑电信号和眼动信号.72个电影片段被分成3次实验,每次实验包含4种不同情感的电影片段各6个,共24个.

2.2 多模态信号的预处理和特征提取

本实验需要从SEED-IV数据集中提取脑电和眼动两种模态的三种不同特征:脑电DE特征、PSD特征和眼动特征.对于脑电特征来说,首先将数据集中62通道的EEG数据降采样到200 Hz,为避免噪声和消除伪迹,使用1~75 Hz的带通滤波器进行数据过滤,最后得到总时长为63 s的EEG信号.之后分别在五个频带使用窗长为4 s的短时傅里叶变换提取DE及PSD两种特征,最终,每个被试每次实验经过降采样和带通滤波处理后的脑电DE和PSD特征的数据格式都为62(channels)×851(samples)×5(frequency bands).为了更好的学习通道间的特征,数据格式最终处理为4 225(samples)×62(channels)的数据格式.

对于眼动特征的提取,就是根据不同的眼动参数提取眼动的各种特征,如表1所示.最终,对于每个被试每次实验提取到的眼动特征,其数据格式为31(channels)×851(samples),单模态实验将其作为所提模型的输入进行深层特征提取;在多模态实验中,为了将眼动特征和脑电特征五个频带分别进行对齐,将眼动特征扩充一个频带维度,其格式转换为31(channels)×851(samples)×5(frequency bands),其中每个频带都是复制同样的31×851的眼动特征.为了跟脑电特征格式保持一致,最终将眼动特征的格式转化为4 225(samples)×31(channels),其标签同样处理为由{0,1,2,3}组成的大小为4 225×1的数组,这样就将两种模态数据的样本数对齐.然后,将对齐的脑电和眼动数据在通道维度上进行Concat连接操作,得到最原始的多模态融合特征,其数据格式为4 225(samples)×93(channels).接下来基于上述三种特征进行情感四分类实验.

实验在GeForce GTX3090 GPU上基于tensorflow1.18框架实现.实验首先验证了Mul-AT-BiGRU模型在多模态任务上的有效性,然后验证该模型在分类精度上较单层GRU、两层同向堆叠GRU有较大提升.本文还通过交叉被试实验验证了所提模型的泛化能力.

3.1 被试内单模态和多模态对比实验

首先,为了验证多模态融合特征的优势,分别将脑电的DE特征和PSD特征、眼动特征和三者经过AT-fusion融合后的特征输入基于多注意力机制的双向GRU网络进行情感四分类实验.实验首先在15个被试内进行,每个被试进行一次实验,每次实验取每个被试三次实验的所有数据,其中30%作为测试集,其余70%数据作为训练集.经过参数调优后将模型的batch-size设置为32,epoch在单模态下设置为500,多模态下epoch设置为100,初始学习率设置为0.000 1,dropout系数设置为0.5.模型的结构如图1所示,单模态和多模态分类对比结果如图3所示,被试内分类具体结果如表2所示.

表2 被试内Mul-AT-BiGRU模型分类结果

由表2可知,Mul-AT-BiGRU模型在多模态特征测试集平均分类准确率为95.19%,最高的分类准确率达到了98.41%.此外,从图3可以看出,对于每一名被试,多特征融合后的分类精度明显高于其他三种单一模态特征.多模态融合特征的分类精度相比于眼动、脑电PSD、脑电DE三种单一模态特征分别提升20.22%、20.04%和17.5%.可见,多模态融合特征能够捕获不同模态的信息进行相互补充,从而获得更多的情感相关的信息.

图3 Mul-AT-BiGRU模型测试集分类结果统计图

图4为第15名被试在单一模态脑电DE特征上的训练曲线图.通过观察可以得知,在训练过程中,随着迭代轮数epoch的增加,训练准确率acc整体不断向1趋近,最终在0.93附近达到收敛.平均误差loss虽然出现过几次骤然上升又急速下降的情况,但整体呈现下降并不断向0趋近的走向.epoch从0增至300期间,训练准确率acc以螺旋梯度上升的方式,从0.26升至0.88,之后随着迭代轮数的增加,逐渐向1收敛;而在此期间,平均误差loss以螺旋梯度下降的方式,从1.55降低至0.28,随后随着迭代轮数的增加,逐渐向0收敛.在整个迭代过程中,loss在不断收敛的同时,也在不间断的发生震荡,在此期间出现了四次幅度较大的变化,同时也伴随着acc发生大幅度变化.产生这一现象的原因可能是由于在参数训练过程中,模型产生了局部最优解.在模型经历了大幅度的振荡,随着迭代次数的增加,AdaGrad优化器不断将参数进行矫正,训练数据不断更新,最终随着epoch的增加,两条曲线都趋于平稳,直至拟合完成.

图4 sub15 DE特征训练过程示意图

其他单模态特征的训练曲线类似于图4脑电DE特征训练曲线,随着迭代轮数的增加,loss逐渐向0趋近,acc逐渐向1趋近.

图5为第15名被试在多模态融合特征上的训练过程曲线.由图可知,此次训练共经过了100多个epoch的迭代,平均训练误差loss整体呈下降的趋势并无限向0趋近,训练准确率acc整体呈上升趋势并不断向1靠近.在训练期间,随着epoch的增大,loss首先以螺旋梯度下降的速度逐渐向0逼近,随着训练拟合到一定程度,loss下降速度变缓,最终收敛至0附近;而acc首先以螺旋梯度上升的速度逐渐向1逼近,随着训练拟合到一定程度,acc上升速度变缓,最终收敛至1附近.

相比于单模态特征数据,多模态特征数据收敛速度更快而且震荡幅度较小,出现该现象的原因是单模态特征进行训练时,网络输入是原始的特征数据,网络训练所需时间更长,拟合速度相对缓慢;而多模态特征进行训练时,特征已经经过注意力机制的调整和学习,故而网络训练时间更短,拟合速度也就更快.

图5 sub15 多模态特征训练过程示意图

为了验证所提Mul-AT-BiGRU模型结构的优势,本文做了两种所提模型的变种,分别叫做Mul-AT-GRU和Mul-AT-stackGRU.其中Mul-AT-GRU在循环网络层使用单层GRU,Mul-AT-stackGRU在循环网络层使用双层同向堆叠的GRU.两个模型中其余参数设置和Mul-AT-BiGRU相同,实验结果如表3所示.

表3 不同Mul-AT-BiGRU变种模型分类性能对比

由表3可知,与Mul-AT-GRU和Mul-AT- stackGRU相比,Mul-AT-BiGRU的分类精度分别提高了7.29%和4.71%.实验结果表明,所提模型的性能更优,这也证明了所提模型在结构上的优越性.从Mul-AT-GRU和Mul-AT-stackGRU的结果可以看出,两层堆叠的GRU比单层GRU分类效果更好,原因是随着网络层数的加深,网络能够学习到更多的特征参数用于优化网络.所提Mul-AT-BiGRU模型比使用堆叠GRU效果更好的原因是所提模型中双向GRU的使用能更好的学习时间前后的依赖关系,从而更好的优化模型参数.

3.2 交叉被试实验

为了验证模型的泛化能力,本文采用十折被试交叉验证来评估所提方法在被试间的情感识别准确率.具体来说,将15个被试数据分成十个大小相同的组,保证数据之间没有交叉,每次实验取其中一份数据作为训练集,其余数据作为测试集,以上过程重复十次,直到所有被试数据都经过测试.此次实验过程中,调优以后的参数设置如下:epoch设置为200,batch-size设置为32,学习率设置为0.000 1,dropout系数设置为0.5.图6显示了在此次十折交叉验证中单模态和多模态对比结果,表4为十折交叉验证每一折具体分类结果.

图6 Mul-AT-BiGRU模型十折交叉验证结果统计图

表4 Mul-AT-BiGRU模型十折交叉被试验证结果

由表4可知,本文提出的Mul-AT-BiGRU模型在被试间进行十折交叉验证的平均分类准确率达到了62.77%,且经过特征融合后的分类精度明显优于单一模态特征.可见本文所提模型不仅在被试内有着很高的分类准确率,在被试间也有着较高的分类精度,同时也验证了本文所提模型在被试间的泛化性.

为了证明模型在交叉被试实验中的有效性,将5种现有的方法和本文提出的方法针对多模态特征的情感分类结果进行对比,结果如表5所示.

表5 Mul-AT-BiGRU和其他模型分类性能对比

由表5可以看出,本文所提方法较传统的机器学习分类算法SVM提升24.51%,较其它四种深度学习方法平均分类精度分别提高了9.68%,7.47%,11.73%,8.43%,本文所提Mul-AT-BiGRU方法达到了更优的性能.出现此现象的原因可能是模型中两次注意力机制的加入,第一层注意力机制能够提取到更多不同模态间的互补信息,使得多模态融合特征含有更多的情感相关信息,第二层能够捕捉特征序列时间前后的更多相关性,从而模型性能得以提升.

本文提出了一种基于双向GRU的多模态脑电情感识别方法,将不同模态的多种特征使用注意力机制进行融合,得到情感信息更加丰富的多模态特征,同时还采用带有注意力机制的双向GRU网络来学习EEG等多模态数据深层上下文依赖关系,从而得到正负双向反馈信息.本文在多模态公开数据集SEED-IV进行情感四分类实验,使用15名被试在脑电和眼动两个模态的数据,来评估所提Mul-AT-BiGRU的性能,被试内平均分类准确率可达95.19%,表明本文所提方法能够充分利用脑电和眼动两个模态的互补信息,提高了情感识别的准确性.同时进行交叉被试实验,并与目前流行的深度模型进行横向对比,验证了该模型有着不错的准确率和泛化能力,该模型为多模态情感识别脑-机接口应用的开发提供了一种有效途径.由于不同被试间差异较大,这也就造成了交叉被试情感四分类实验特征学习较为困难,分类准确率也低于被试内实验.后续实验也会对融合特征及模型进行优化,缩小不同被试间的差异,进一步提高模型准确率和泛化能力.

猜你喜欢眼动脑电注意力基于眼动的驾驶员危险认知汽车实用技术(2022年7期)2022-04-20让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09基于ssVEP与眼动追踪的混合型并行脑机接口研究载人航天(2021年5期)2021-11-20“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21现代实用脑电地形图学(续)现代电生理学杂志(2016年3期)2016-07-10现代实用脑电地形图学(续)现代电生理学杂志(2016年4期)2016-07-10现代实用脑电地形图学(续) 第五章 脑电地形图的临床中的应用现代电生理学杂志(2016年1期)2016-07-10国外翻译过程实证研究中的眼动跟踪方法述评外语学刊(2016年4期)2016-01-23现代实用脑电地形图学(续) 第五章 脑电地形图在临床中的应用现代电生理学杂志(2015年1期)2015-07-18

老骥秘书网 https://www.round-online.com

Copyright © 2002-2018 . 老骥秘书网 版权所有

Top