面向智慧康养的 多模态数据融合情绪识别神经网络模型算法研究
2026-04-16 15:06:09 来源: 作者:liunanfang
摘要:本文提出了一种专为智慧康养场景设计的多模态上下文融合情绪感知网络(MCFE-Net), 构建场景适应性导向的分层融合架构,协同解析视觉(面部微表情)、听觉(语音韵律)与生理(心率变异性、皮电反应)三种模态数据,为智慧康养场景设计提供技术参考。
摘 要 :本文提出了一种专为智慧康养场景设计的多模态上下文融合情绪感知网络(MCFE-Net), 构建场景适应性导向的分层融合架构,协同解析视觉(面部微表情)、听觉(语音韵律)与生理(心率变异性、皮电反应)三种模态数据,为智慧康养场景设计提供技术参考。研究通过引入跨模态时序注意力机制解决情绪表达在生理与行为反应上的固有延迟问题,并创新性地设计基于上下文可信度评估的动态门控融合模块,使模型能依据具体环境(如光照、噪音)与个体状态(如活动类型)自适应地加权各模态信息。在模拟康养环境数据集上的实验表明,构建的模型在情绪效价与唤醒度识别任务上的准确率与稳健性均显著优于现有通用模型,不仅推进了多模态融合的理论发展,更为实现 " 情智共融 " 的下一代智慧康养系统提供了可落地的核心技术方案。
关键词 :智慧康养 ;情绪感知 ;多模态融合 ;神经网络
引言
随着人口老龄化的加速,利用智能技术提高老年人生活质量与健康水平成为一个重要的议题,智慧康养成为一大热点。智慧康养系统不仅需要监测用户生理指标与物理位置,更需具备理解用户心理与情绪状态的能力,从而实现从被动响应到主动关怀 [1]。因此,本文聚焦构建一个多模态融合神经网络模型,使其理论设计与优化目标紧密契合智慧康养场景的特殊约束与核心需求。提出了“场景—个体”双驱动的融合理论框架,明确将环境上下文与用户状态作为融合权重决策的输入,并设计了面向异步时序与缺失模态的稳健融合机制,使模型具备应对真实数据流固有缺陷的能力。整个模型的设计、训练与验证围绕“提升康养服务效能”展开,确保了技术路线的可行性和针对性。
1 智慧康养场景下的情绪识别理论
1.1 智慧康养对情绪识别的核心需求
不同于娱乐或车载系统,康养场景的需求具有其特殊性。(1)高稳健性与安全性。识别结果直接影响健康干预决策,必须避免因环境干扰导致的误判,可靠性优先于峰值性能。(2)非侵入与无感知。数据采集设备需易于佩戴或与环境融为一体, 避免给老年人带来负担或被监控感。(3)个体自适应能力。模型需能适应不同老年人的表达习惯、文化背景及生理基础差异,避免“一刀切”。(4)多维情绪解读。系统不仅要识别基本情绪, 更需关注与健康密切相关的效价(积极、消极)和唤醒度的连续变化,这对压力管理和心理调节更具指导意义 [2]。
1.2 多模态融合与智慧康养的内在技术关联
为满足上述需求, 多模态融合成为必然选择, 其关联性体现在以下几个方面。(1)互补性保障稳健性。当面部因遮挡或光照不可见时,语音和生理信号可提供备份 ;当环境嘈杂时,视觉与生理信号成为主导。这种跨模态的冗余与互补是系统稳健的基石。(2)生理信号直指内在状态。在康养场景中,生理信号不仅是另一种模态,更是穿透外在行为、直接反映自主神经系统活动的" 内在真实 ",对于识别压抑情绪或生理性应激(如疼痛引发的焦虑)至关重要,这与健康监测目标高度一致。(3)上下文信息作为融合指南。智慧康养系统天然拥有丰富的上下文数据(如时间、位置、活动类型)。
2 MCFE-Net 模型:面向智慧康养的理论框架与设计
MCFE-Net 模型的设计哲学是“为康养而融合”。其整体架构是一个信息逐层抽象、决策逐级依赖的分层处理流水线,如图 1 所示,核心在于模拟人类照护者综合多方信息进行情绪判断的认知过程。

2.1 解决生理与行为反应的延迟
情绪刺激引发的面部、语音反应与生理反应之间存在数秒的生理性延迟,直接融合未对齐的特征会产生混淆 [3]。因此, 本文设计了一种可学习的延迟补偿机制,其核心思想不是简单地对齐到同一时间戳,而是让模型学习从行为模态到生理模态的最优时移分布来解决生理与行为反应的延迟。其中,对于生理特征序列,将其与经过时移的行为特征(视觉与听觉的联合表征)进行互相关计算,并通过 Softmax 归一化得到一个注意力权重矩阵,该矩阵本质上描述了不同延迟下的关联强度,如式(1)所示 :

式中, F va 是 t 时刻的行为特征 ;Δ 表示考虑的延迟范围。模型通过学习参数 Wq、Wk 来找到最具相关性的生理响应窗口, 实现对生理信号的动态时间规整(DTW),从而更准确地关联因果。
2.2 上下文感知的动态门控融合
融合权重不应是固定的,而应取决于当前场景上下文(C)和各模态的瞬时质量评估(Q)。本文设计了一个双通路门控生成网络。第一通路是质量评估通路,通过小型子网络实时估计每个模态的瞬时信噪比或置信度qtm (m ∈ {v,a,p} ;第二通路是场景上下文通路,将来自智慧康养系统其他模块的上下文向量(如所处空间“卧室”、时间“夜晚”、近期活动“静止”)编码为 ct。最终的动态融合权重 gt 由两者共同决定,如式(2)、式(3)所示 :

式中, hm是经过时序对齐后的各模态特征。该设计使得模型在夜晚卧室的低光照条件下,自动降低视觉权重,提高生理和听觉权重 ;或在嘈杂的集体活动中,降低听觉权重。这实现了基于场景的融合策略自适应,是模型智慧性的关键体现。
3 面向康养场景的验证与分析
3.1 实验设置与康养模拟数据集
为全面验证 MCFE-Net 在智慧康养场景下的性能,在两个数据集上进行了严格的实验评估。一是公开的多模态情绪数据集 MAHNOB-HCI,用于验证模型的基线性能与通用性。二是自建的智慧康养模拟环境多模态情绪数据集(SCARE-Home),该数据集的构建严格遵循真实居家康养环境的要求,招募了 20 位年龄在 65 岁至80 岁之间的老年志愿者,在模拟的客厅、卧室等场景中,通过引导其观看情感影片、进行简单的认知游戏、与家人模拟通话等,同步采集其高清面部视频、高保真语音、腕带式心率与皮电信号,并详细记录环境上下文信息(如光照强度、环境噪音等级、活动类型) [4]。所有数据均由三位心理学专家根据视频记录与受试者事后访谈,在效价—唤醒度二维空间进行独立标注,最终取平均标签作为真实值。
3.2 实验结果分析
为了验证所提出的 MCFE-Net 模型在智慧康养场景下的有效性,在 SCARE-Home 数据集上进行了系统的性能评估与消融实验,结果如表 1 所示,

清晰地揭示了不同模态组合与融合策略对最终情绪识别性能的影响。
数据表明,单一模态识别性能有限,视觉、听觉和生理模态单独使用的准确率分别为 64.5%、59.2% 和68.8%, 证实了任何单一信息源均难以应对复杂康养环境。双模态融合带来了显著性能提升,其中“视觉 + 生理”组合以 74.0% 的准确率成为最优配置,比“视觉 +听觉”组合高出 2.2 个百分点,这直观验证了生理信号在捕捉老年人内敛情绪方面的独特优势。最关键的数据对比出现在最后两行 :采用静态融合策略的三模态模型准确率为 72.9%,而启用动态门控融合的完整 MCFE- Net 模型将性能提升至 76.2%,这 3.3 个百分点的显著差距直接量化了上下文感知动态融合机制的核心贡献,证明了模型能够根据实时场景自适应调整模态权重,从而实现最优性能。
4 结语
本文提出的 MCFE-Net 模型紧密围绕智慧康养的真实需求与约束展开。研究表明,将场景感知与动态融合深度结合,能够构建出更适应复杂真实环境、更稳健可靠的情绪感知能力。未来,该技术的研究将从独立的算法模型向融入智慧康养生态系统的方向深化。
参考文献
[1] 甘宏.一种融合多模态数据的情绪识别方法[J].现代计算机, 2024,30(23):77-80.
[2] 石业腾,田祥宏,谷瑞军,等.多模态智能情绪识别研究进展[J].金陵科技学院学报,2024,40(3):21-31.
[3] 武万浩,吴明飞,王慧康,等.基于卷积神经网络的智慧康养系统的设计与实现[J].信息记录材料,2022,23(5):113-115.
[4] 张麟宇,涂志莹,杭少石,等.面向智慧康养的数据集构建方法及其应用[J].计算机科学与探索,2022,16(7):1543-1551.