基于注意力机制的多模态情感识别系统研究论文
2026-05-11 17:42:37 来源: 作者:xuling
摘要:为提升多模态情感识别的精准度与鲁棒性,针对模态异构、语义鸿沟与信息冗余问题,提出了融合注意力机制的多模态情感识别方法。
摘要:为提升多模态情感识别的精准度与鲁棒性,针对模态异构、语义鸿沟与信息冗余问题,提出了融合注意力机制的多模态情感识别方法。文本、图像、音频数据经预处理后,通过自注意力机制强化模态内关键特征;采用交叉注意力机制建立跨模态语义关联,实现特征对齐;结合早期融合与晚期融合的混合策略整合多模态信息,通过交叉熵损失函数训练模型。在CMU-MOSEI数据集上的实验表明,该方法准确率达82.3%,F1分数为81.3%,性能优于传统单模态与融合模型。该方法为多模态情感识别提供了实用化技术方案,可应用于人机交互等实际场景。
关键词:注意力机制;多模态情感识别;特征融合;语义对齐;情感计算
0引言
多模态情感识别融合文本、图像、音频等多源信息挖掘情感倾向,成为人机交互领域的研究热点。现有研究中,姚懿秦等指出传统多模态融合方法易忽视模态间语义关联与信息冗余,导致识别性能受限[1];陈忠源等认为单一注意力机制难以平衡多模态数据的异构性与互补性,跨模态语义鸿沟问题尚未得到有效解决[2]。为弥补上述不足,本文结合自注意力与交叉注意力机制,设计分层式多模态特征提取与融合框架,通过模态内特征增强与模态间语义对齐,提升情感识别的精准度与鲁棒性,研究成果可为智能客服、情感计算等实际场景提供技术支持。
1多模态情感数据预处理与特征提取
1.1多模态数据预处理技术
本文选取文本、图像、音频三类常见情感数据,预处理过程围绕数据清洗、标准化与对齐展开。针对文本数据,采用分词工具分割语句,过滤停用词与无意义符号后,通过词频—逆文档频率(Term Frequency-InverseDocument Frequency,TF-IDF)方法将其转换为向量形式;图像数据聚焦面部表情区域,针对此类数据,采用灰度化与直方图均衡化处理消除光照干扰,提取68个面部特征点的坐标与距离特征;针对音频数据,通过短时傅里叶变换将其转换至频域,提取梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)、基频与能量等13维声学特征。为解决多模态数据长度异构问题,采用动态时间规整(Dynamic Time Warping,DTW)算法实现模态内时序对齐,通过滑动窗口法将文本、图像、音频特征统一为固定维度的特征向量,确保后续处理的一致性[3]。
1.2基于基础注意力的模态内特征增强
针对单一模态特征中的冗余信息,引入自注意力机制实现模态内关键特征强化。自注意力机制通过计算特征向量间的相似度分配权重,突出情感相关特征的贡献。对于任意模态的特征矩阵X∈Rn×d(n为特征数量,d为特征维度),首先通过线性变换生成查询向量Q、键向量K与值向量V,如式(1)所示:
Q=XWQ,K=XWK,V=XWV(1)
式中,WQ、WK、WV∈Rd×dk为可学习权重矩阵;dk为查询向量与键向量的维度。注意力权重通过查询向量与键向量的点积计算,经Softmax函数归一化后得到,如式(2)所示:

2多模态特征融合与注意力导向识别模型
2.1跨模态语义对齐方法设计
跨模态语义对齐是解决多模态情感识别中语义鸿沟的核心环节,其本质是建立文本、图像、音频等异构模态间的语义关联,确保不同模态特征在同一语义空间内具备可比性与互补性,本文采用交叉注意力机制实现该目标[4]。交叉注意力机制有别于自注意力机制的单模态聚焦特性,其采用“查询—键—值”的跨模态映射逻辑,以一种模态的特征作为查询向量,另一种模态的特征同步作为键向量与值向量,通过计算查询与键的相似度分配注意力权重,进而实现模态间特征的精准匹配与语义关联。以文本与图像模态的对齐过程为例,文本模态经自注意力增强后的特征Xt′∈Rnt×d(nt为文本特征数量,d为特征维度)被设定为查询向量Qt,图像模态经自注意力增强后的特征Xi′∈Rni×d(ni为图像特征数量)同时作为键向量Ki与值向量Vi,通过查询与键的相似度计算,将图像特征的语义信息映射至文本特征空间,使两类特征在语义维度形成对应关系。交叉注意力权重计算如式(4)所示:

2.2混合式多模态特征融合策略
本文采用混合融合策略整合对齐后的多模态特征,首先,进行早期融合,将文本、对齐图像、对齐音频特征按维度拼接,得到初始融合特征F早期=[Xt',Xi对齐,Xa对齐]∈Rn×3d;其次,通过两层全连接网络对初始融合特征进行非线性转换,提取高阶融合特征F高阶[6]。晚期融合阶段,各单模态增强特征分别通过独立的全连接网络与Softmax函数得到单模态情感预测结果Pt、Pi、Pa;同时,高阶融合特征经分类器得到融合预测结果P融合[7]。最终情感识别结果通过加权求和得到,如式(6)所示:
P最终=αPt+βPi+γPa+δP(6)
式中,α、β、γ、δ为融合权重,满足α+β+γ+δ=1,通过训练过程自适应学习,用于平衡各模态预测结果的贡献度。
3实验验证与结果分析
3.1实验数据集与评价指标
实验采用公开多模态情感数据集CMU-MOSEI,该数据集包含10000余条视频样本,每条样本均标注积极、中性、消极三类情感标签,同时提供文本转录内容、面部表情图像序列与音频波形数据,符合多模态情感识别的实验需求。数据集按7∶2∶1的比例划分为训练集、验证集与测试集,确保数据分布的一致性。实验采用准确率(Accuracy,Acc)、精确率(Precision,Pre)、召回率(Recall,Rec)与F1分数(F1-Score,F1)作为评价指标,各指标计算如式(7)~式(10)所示:


3.2实验结果与对比分析
实验分为基线模型对比与消融实验两部分,基线模型包括单模态模型(文本TF-IDF+SVM、图像特征+CNN、音频MFCC+MLP)与传统融合模型(早期拼接融合、晚期投票融合)。本文模型与基线模型性能对比结果如表1所示,可以看出,本文提出的模型在各项评价指标上均优于基线模型,其中准确率达到82.3%,较最优基线模型(晚期投票融合)提升4.1%,表明注意力机制引导的特征增强与混合融合策略能够有效整合多模态信息,提升识别性能。消融实验用于验证自注意力特征增强、交叉注意力对齐与混合融合三个核心模块的作用,依次移除各模块后构建简化模型,结果如表2所示。移除自注意力特征增强模块后,模型准确率下降3.5%,说明模态内关键特征强化可减少冗余信息干扰;移除交叉注意力对齐模块后,准确率下降5.2%,证实跨模态语义对齐能够有效缓解语义鸿沟问题;移除混合融合策略后,准确率下降2.8%,表明该融合方式兼顾了特征互补性与决策可靠性。


4结语
本文针对多模态情感识别中的模态异构、语义鸿沟与信息冗余问题,提出了融合自注意力与交叉注意力机制的多模态情感识别方法。该方法通过自注意力机制强化模态内关键特征,利用交叉注意力机制实现跨模态语义对齐,结合混合融合策略整合多模态信息,构建完整的识别模型。实验结果表明,该模型在CMU-MOSEI数据集上的各项性能指标均优于传统方法,验证了所提技术路线的有效性与实用性。研究局限性在于模型对小样本数据的适应性有待提升,且未充分考虑模态缺失场景的鲁棒性。未来研究可引入迁移学习方法增强小样本学习能力,设计自适应注意力机制处理模态缺失问题,进一步拓展方法的应用场景,为多模态情感识别技术的工程化落地提供更全面的支持。
参考文献
[1]姚懿秦,郭薇.基于交互注意力机制的多模态情感识别算法[J].计算机应用研究,2021,38(6):1689-1693.
[2]陈忠源,路翀,王艺涵,等.基于自注意力机制与信息融合的多模态情感分析方法[J].伊犁师范大学学报(自然科学版),2025,19(3):55-68.
[3]王华华,张睿哲,黄永洪.基于生成式对抗网络和多模态注意力机制的扩频与常规调制信号识别方法[J].电子与信息学报,2024,46(4):1212-1221.
[4]陈田,蔡从虎,袁晓辉,等.基于多尺度卷积和自注意力特征融合的多模态情感识别方法[J].计算机应用,2024,44(2):369-376.
[5]孙强,王姝玉.结合时间注意力机制和单模态标签自动生成策略的自监督多模态情感识别[J].电子与信息学报,2024,46(2):588-601.
[6]史爱武,蔡润.结合多种注意力机制的多模态情感识别方法[J].软件导刊,2023,22(10):105-109.
[7]郭继伟,鲁慧哲,许杰.基于跨模态注意力机制的多模态情感分析方法探究[J].电脑知识与技术,2025,21(1):1-4.