融合 CNN 和 Transformer 的多尺度特征提取网络设计

首页 > 学术论文库 > 理工论文融合 CNN 和 Transformer 的多尺度特征提取网络设计

2026-05-22 13:55:49 来源：作者：liunanfang

摘要：本文设计了一种融合 CNN 与 Transformer 优势的多尺度特征提取网络,针对 Transformer-UNet 架构进行改进。

摘要：本文设计了一种融合 CNN 与 Transformer 优势的多尺度特征提取网络,针对 Transformer-UNet 架构进行改进。网络采用编码器－解码器结构,编码端结合残差卷积模块提取局部纹理特征与 Transformer 模块捕获长程依赖关系,解码端构建特征金字塔结构逐层融合高低层级特征。设计的多尺度特征融合机制整合不同层级表征,引入通道注意力模块动态调节特征权重,形成兼具语义信息与空间细节的特征表示。在 carvana 汽车图像分割数据集上的实验表明,改进网络 Dice 系数达 0.8247, 较传统 UNet 提升 15.04%, 较基础 Transformer-UNet 提升 6.78% ；IoU 指标达 0.7013 ；精确率提升至 0.7125。模型在车身复杂结构部位表现尤为出色,分割边界清晰锐利。多尺度特征融合机制显著增强了网络边缘感知能力,提升了小目标检测效果,改善了复杂场景理解能力,为图像分割提供了新思路。

关键词：CNN ；Transformer ；多尺度特征；U-net

0 引言

图像分割作为计算机视觉基础任务,在医疗诊断、自动驾驶等领域具有广泛的应用价值。传统卷积神经网络 (CNN) 凭借其局部感受野特性,擅长提取纹理、边缘等低层次特征,但在捕获远距离像素间依赖关系方面存在先天局限。Transformer 凭借自注意力机制展现出建模全局依赖关系的卓越能力,近年来逐步渗透至视觉领域。Transformer-UNet 作为融合二者优势的代表架构,虽在多项任务上取得显著成果,但仍面临特征融合不充分、边界感知能力有限等问题。汽车图像分割任务中,车身结构复杂多变,不同部位尺度差异显著,单一尺度特征难以全面表达目标信息。当前,主流网络对复杂边界区域处理效果欠佳,小目标检测精度不足,尤其在侧视镜、车轮等细节部位分割质量亟待提高。多尺度特征提取能力对分割性能有决定性影响,合理设计特征融合机制成为解决上述问题的关键路径。

1 网络设计

1.1 整体结构设计

本研究基于 Transformer-UNet 网络, 引入多尺度特征提取机制,将卷积神经网络 (CNN) 局部感受野与 Transformer 全局建模能力有机结合。网络采用编码器－解码器架构,编码端使用残差卷积模块提取局部纹理特征, Transformer 模块捕获长程依赖关系。解码端设计特征金字塔结构,逐层融合高低层级特征,形成多尺度表征。两端间设计跳跃连接,保留空间细节信息。网络输出表示如式（1）所示：

式中, Fout 为网络最终输出特征图；τ (.) 与 c(·) 分别表示 Transformer 分支与 CNN 分支处理函数；Fi 与Fj 分别为输入至两分支的特征；wi 与 vj 为对应特征权重系数；σ 为非线性激活函数。该结构融合不同尺度特征表征,增强网络对复杂场景的理解能力,实现细粒度语义分割。特征聚合策略兼顾全局语义信息与局部细节,改善边界处理效果,提升分割精度。

1.2 多尺度特征融合机制

多尺度特征融合机制旨在优化 Transformer-UNet框架对复杂场景的理解能力。该机制整合编码器与解码器不同层级的特征表征,构建丰富的语义信息与空间细节相结合的特征图谱。本研究设计了特征金字塔结构,在网络各层间建立密集连接,实现特征的层级交互与增强。特征融合计算表达式如式（2）所示：

式中, Ffusion 代表融合后的特征图；FP(·) 为特征投影函数,对高层特征 Fhigh 进行降维处理；UP(·) 表示上采样操作,调整低层特征 Flow 的空间尺度；CA(. .,)为通道注意力模块,计算不同层级特征的权重映射； α、 β、γ 为学习权重系数,动态调节各特征分量的贡献比例。此融合机制在保留深层语义信息的同时,精细整合浅层纹理细节,形成了具有多尺度感知能力的特征表示。该方法显著提升了模型对边界区域的识别精度,增强了对小目标的检测能力。网络层间信息传递更加高效,缓解了梯度消失问题,促进模型更快收敛与性能提升 [1,2]。

1.3 通道注意力优化机制

通道注意力优化机制在本网络架构中扮演特征动态调节器角色,赋予模型对各通道重要性的感知能力。该机制根据输入特征图全局信息计算各通道权重系数,重点突出语义显著区域,抑制冗余信息传播。数学表达式如式（3）所示：

式中, M (F) 表示注意力权重映射；为可学习参数矩阵, r 为降维比例因子；σ 代表 Sigmoid 函数, 确保权重范围在 [0,1] 区间。权重映射后的特征表示为F' = F ⊗M (F),其中⊗ 表示通道维度广播乘法。该机制赋予网络自适应调节特征通道重要性的能力,在保持计算效率的同时增强模型表达能力。

实现过程中引入残差连接结构,缓解训练不稳定问题,保证梯度流畅传递。通道注意力机制与多尺度特征融合相辅相成,显著提升了特征表达丰富度,加强了模型对复杂场景的理解深度。该机制融入多尺度特征提取网络后,增强了模型对语义关键信息的选择能力,促进了深浅层特征间有效互补。在解码阶段,此注意力模块为不同层级特征分配适应性权重,使高层语义信息与低层空间细节形成协同互补关系。自适应权重分配策略减轻了特征尺度差异带来的融合障碍,提高模型对边界区域精细刻画的能力。注意力引导下的特征选择机制精确捕获目标区域显著特征,过滤背景干扰,显著提升了网络对复杂场景的理解能力与边界定位精度 [3]。

2 实验结果与分析

2.1 数据集与参数设置

本研究选用 carvana-image-masking-challenge 汽车图像分割数据集进行实验,该数据集包含 5088 张高分辨率汽车图像及对应掩码标注。数据按 8 ∶ 2 比例划分训练集与验证集。针对改进的 Transformer-UNet网络,采用 Adam 优化器 (β1=0.9,β2=0.999), 初始学习率设为 3e-4 并使用余弦退火策略动态调整。模型训练批次大小为 16,训练 50 轮至收敛。损失函数组合 Dice损失与交叉熵损失,权重比为 0.7 ∶ 0.3。图像预处理包括归一化、随机水平翻转、亮度对比度调整等增强手段,具体预处理参数如表 1 所示。模型训练硬件环境如表 2 所示,全程监测验证损失避免过拟合 [4,5]。

2.2 实验结果

改进后的多尺度特征提取网络在分割精度上取得明显提升,三种模型在 carvana 数据集上的性能对比如表3 所示。本文模型 Dice 系数达 0.8247, 较传统 UNet 提升 15.04%,较 Transformer-UNet 提升 6.78% ；IoU 指标达 0.7013, 高于 UNet 和 Transformer-UNet ；精确率达0.7125,比基线模型显著提高；召回率为 0.9480,略低于对比模型但仍保持良好水平。多尺度特征融合机制显著增强了边缘细节刻画能力,减少了分割边界模糊现象。模型在车身复杂结构部位（如侧视镜、车轮等区域）表现出色,分割边界清晰锐利。引入的注意力机制有效抑制了背景干扰,提高了前景识别准确性。量化指标与视觉效果均证实该模型在汽车图像分割任务上具有优越性。

2.3 实验结果分析

实验数据显示,改进后的多尺度特征提取网络在分割性能上有显著提升。本文模型 Dice 系数较传统UNet 提升 15.04%, 较基础 Transformer-UNet 提升6.78%,表明特征融合策略有效增强了模型表达能力。 IoU 指标达 0.7013, 精确率提升至 0.7125, 这两项指标的提高反映了边界定位精度的改善。模型召回率虽略低于对比网络,但仍维持在 0.9480 的高水平,说明网络对目标区域识别能力依然稳定。定性分析表明,多尺度特征融合机制赋予网络更精细的边缘感知能力,特别在车身侧视镜、车轮等复杂结构区域,分割边界更为锐利清晰。注意力模块有效抑制了背景干扰,增强了前景目标特征表达。金字塔特征结构促进了不同尺度语义信息交互,提升了小物体检测效果。实验结果证实,改进后的 Transformer-UNet 网络在汽车图像分割任务上具备明显优势,特征表征更加丰富立体。

3 结语

本研究针对 Transformer-UNet 架构提出改进方案,构建多尺度特征融合机制,整合 CNN 局部纹理提取与Transformer 全局依赖建模能力。改进网络在 carvana数据集上 Dice 系数达 0.8247, IoU 达 0.7013。该方法增强了复杂边界感知能力,优化小目标检测效果,在车身侧视镜、车轮等细节部位表现出色。研究成果为图像分割领域提供了新思路,在医疗诊断、自动驾驶等应用场景具有实用价值。

参考文献

[1] 张德银,张裕尧,李俊佟,等.结合CNN-Transformer特征交互的红外与可见光图像融合方法[J].红外技术,2025,47(7):813- 822.

[2] 李忠旭.基于Transformer-CNN的图像实时语义分割方法[J].智能计算机与应用,2025,15(7):155-161.

[3] 任宇,杨鹏,范小琴,等.基于轻量级多尺度CNN-Transformer网络的鼻咽癌诊断方法[J].中国生物医学工程学报,2025,44(3): 279-290.

[4] 李向阳,龙朝勋,李海燕,等.基于CNN和Transformer结合的野生菌分类[J].计算机仿真,2025,42(6):578-583+588.

[5] 陈紫欣,古幸怡,吴金燕,等.集成CNN与Transformer双分支的疼痛表情识别网络[J].软件导刊,2025,24(7):161-168.

上一篇：人工智能中台集成大模型的模型压缩策略优化

下一篇：机电一体化设备加工钛合金时机械故障诊断技术与研究

投稿经验

投稿问答

期刊动态

更多>

《中华少年》投稿须知

《职教论坛》投稿须知(官网...

《生态经济》投稿须知

《会计研究》编辑部声明

注册功能已开放，欢迎使用...

关于近期知网万方维普期刊...

关于印发《山东省经济专业...

转发：关于开展期刊滥发论...

转发：陕西2021会计系列高...

甘肃省高级工程师评审条件