基于 TUFusion 的无人机可见光与红外融合检测算法研究论文
2025-11-12 17:45:11 来源: 作者:xuling
摘要:针对无人机复杂环境下目标检测的鲁棒性问题,本文提出了一种基于TUFusion的多模态融合检测算法。
摘要:针对无人机复杂环境下目标检测的鲁棒性问题,本文提出了一种基于TUFusion的多模态融合检测算法。通过结合TUFusion网络的混合编码器与复合注意力机制,实现了可见光与红外图像的特征级深度融合;引入Dempster-Shafer(DS)证据理论,对多源检测结果进行决策级融合,有效降低了误检与漏检。在DroneVehicle数据集上的实验表明,算法在mAP 0.5、精确率与召回率上分别达到0.905、92.1%和89.7%,显著优于传统像素级融合与单一模态检测。该方法通过多层次信息融合,为无人机全天候目标检测提供了高精度、高鲁棒性的解决方案。
关键词:多模态融合;无人机目标检测;TUFusion网络;红外与可见光图像;决策级融合
0引言
无人机搭载的可见光摄像头和红外传感器能够从不同光谱获取目标信息,在全天时目标检测中具有重要应用。然而,仅依靠单一传感器往往难以在复杂环境下取得可靠的检测效果。可见光图像在良好光照条件下可以提供丰富的颜色和细节信息,但在夜间或弱光环境下性能急剧下降;红外图像可穿透黑暗和一定程度的烟雾,突出目标的热辐射特征,即使在夜晚也能发现目标[1]。
但红外图像的背景细节模糊,目标边缘不清晰[2]。将可见光与红外信息融合,有望取长补短,提高目标检测的鲁棒性和准确性[3]。
传统的红外与可见光图像融合检测方法存在诸多局限。一方面,早期的像素级融合方法(如加权平均、IHS、小波/NSST变换等)由于缺乏对高层语义的提取,往往难以在复杂背景下保留全部有用信息[4]。例如,采用非下采样剪切波变换(NSST)结合引导滤波和深度网络的融合方法虽然在图像视觉效果上有所改善[5],但其生成的融合图像未必最利于检测算法提取目标特征。
另一方面,特征级和决策级的融合方法成为研究热点。例如,有研究者提出将局部对比度(Local Contrast)等算法用于红外弱小目标检测;随后又发展出非对称上下文调制(Asymmetric Contextual Modulation,ACM)网络和注意力局部对比(Attentional Local Contrast,ALC)方法来增强目标特征表达。此外,还有研究者将Transformer引入检测网络,以建模前景像素间的关联信息。这些方法在各自场景下取得了一定进展,但仍存在对多模态信息融合不充分的问题,尤其是简单累加或拼接多模态特征,可能引入模态差异带来的语义冲突,影响检测性能。
针对以上挑战,证据理论(Dempster-Shafer理论,简称DS证据理论)为多源信息融合提供了一种有效的决策级融合框架。与传统概率方法相比,DS证据理论能够更好地处理不确定性信息,在多传感器决策融合中表现出更强的鲁棒性。已有研究将DS证据理论应用于目标识别和分类任务,显著提高了精度。周策等人将DS融合引入无人机双传感器目标检测,通过YOLO检测、匈牙利算法数据关联和Dempster合成规则融合,实现了多目标决策级融合检测,使YOLO的检测精确率提高到了90%以上。
同时,深度学习领域提出了融合网络的新架构。Zhao等人提出的TUFusion(Transformer-based Universal Fusion)算法设计了一种Transformer与卷积混合编码器结构,以及新的复合注意力融合策略,能够同时集成全局和局部信息,在医学成像、安防监控等多种多模态图像融合任务中取得显著成效。TUFusion在红外—可见光、多曝光等不同领域的数据集上均表现出了优异的融合性能,展示了一定的通用性。
鉴于证据理论在决策级融合的优势以及TUFusion在特征级融合的强大表达能力,本文提出了一种基于TUFusion的无人机可见光与红外融合检测算法。本算法采用DS证据理论融合框架,将深度学习融合网络与决策级不确定性处理相结合。主要贡献如下:(1)设计了基于TUFusion混合编码器的特征提取与融合模块,高效提取并融合可见光与红外图像特征;(2)利用证据理论对多源检测结果进行决策级融合,有效降低误检漏检,提高检测精度和鲁棒性;(3)在公开DroneVehicle无人机车辆数据集上进行实验,结果表明本方法相比单一传感器检测和传统融合方法在准确率和召回率上均有显著提升。

1方法论
本文算法整体融合框架如图1所示。首先,对无人机可见光图像和红外图像分别使用检测网络获取候选目标及其置信度;其次,通过数据关联算法将两模态中属于同一真实目标的检测框匹配起来;最后,针对关联的目标和未关联的目标分别利用DS证据理论进行决策级融合,输出最终的检测结果。该框架能够综合多源信息:对于可见光和红外探测到的目标,通过融合提高置信度;对于仅单模态探测到的目标,引入“不确定”因素以降低错误判断的风险。
在决策级融合阶段,采用Dempster-Shafer证据理论融合来自不同传感器的“证据”。首先,需要将每一传感器的检测结果转换为基本概率分配(Basic Probability Assignment,BPA)。具体而言,可定义命题集合Θ=Target,NotTarget(或包含“不确定”状态的集合)。对于每个检测框,根据检测置信度及图像特征,构造对应的证据体。例如,对于可见光传感器的某检测框,可赋予命题“目标”的质量m1(Target)=p,命题“非目标”的质量m1(NotTarget)=1−p(若考虑不确定则相应分配剩余部分);红外传感器则给出m2(.)。其次,应用Dempster合成规则对这两条证据进行融合,如式(1)所示:

从而在后续筛选中需要更高阈值才会被接受。
最后,根据融合后的概率评估对候选框进行决策。对于每个候选目标,得到目标概率、非目标(背景)概率和不确定概率组成的融合概率向量。根据目标概率阈值筛选出高置信度的目标框作为最终检测结果,并剔除不确定性高或被判定为背景的框。在本算法中,证据理论融合有效地降低了误检和漏检。例如,当可见光图像因光照不好未能检测到某目标而红外检测到了,该目标仍可通过红外的证据获得一定支持,从而避免被漏检,反之亦然。当两种传感器均检测到目标时,证据融合会大幅提高该目标的置信水平,使其更可靠地被确认。实验证明,该决策级融合策略能够明显提升检测精度和鲁棒性。
2 TUFusion网络结构
本节详细介绍TUFusion网络用于特征提取与融合的结构设计。TUFusion采用混合编码器—解码器架构,其编码器由卷积神经网络(CNN)分支和Transformer分支并行组成,能够同时提取局部细节和全局依赖信息。TUFusion模型的总体结构如图2所示。其中,两路输入分别为可见光图像I1和红外图像I2,输出融合图像记为IF。融合过程主要包括多模态特征提取、复合注意力融合以及解码重建三个阶段。
2.1特征提取(混合编码器)
在编码器阶段,可见光和红外图像各通过一套相同结构的混合编码器提取特征表示r1和r2。混合编码器由CNN分支和Transformer分支构成。CNN分支采用多个卷积块(ConvBlock)和稠密残差块(DenseRes NetBlock),并通过并行分支和逐元素相加融合策略融合不同卷积层特征,从而获得鲁棒的局部特征表达。该设计融合了多层次特征,可更好地保留边缘、纹理等细节信息。Transformer分支首先将输入图像分割为不重叠的patch并线性展开为序列,然后输入多头自注意力模块(MSA)进行全局特征提取。具体来说,设patch映射得到的键、查询、值表示为矩阵Attention(Q,K,V),则自注意力输出如式(2)所示:

式中,d为键向量维度的缩放因子。多头注意力机制对自注意力输出做多个独立注意力头的计算并拼接,有助于模型关注到不同的全局模式。Transformer分支擅长提取图像的全局语义和相关性信息。混合编码器将CNN分支提取的局部特征和Transformer分支提取的全局特征结合,使输出的多模态表示ri同时包含场景的细节和上下文语义。与单纯卷积或单纯Transformer编码器相比,混合编码器能够提供更加丰富、鲁棒的特征表示。
2.2融合机制(复合注意力模块)
为了融合来自I1和和I2的多模态特征,TUFusion设计了复合注意力融合模块。该模块综合利用空间注意力和通道注意力,在融合过程中既考虑对应像素位置的相关性,又自适应调节特征通道的重要性,从而实现全局与局部信息的有效集成。复合注意力模块包括两个子模块:轴向自注意力(Axial Attention)和通道注意力(Channel Attention)。
首先,轴向自注意力用于增强每种模态特征的空间表示。其思想是将特征图按行或列划分,进行自注意力计算,从而降低计算量的同时捕获长距离依赖关系。通过轴向注意力,来自r1和r2的特征获得空间增强,得到中间表示f1和f2。其次,通道注意力模块自适应地融合f1和f2的通道信息。具体计算过程如下:对每个模态的特征施加全局池化(取最大池化),得到每一通道的全局表示,再通过归一化操作o[.]获得通道权重系数a1和a2,如式(3)所示:

式中,pool(f)表示对特征f的全局池化;o(.)表示对池化结果进行归一化处理(例如通过Sigmoid函数将值缩放到0~1)。再次,将得到的通道权重进行维度恢复操作ξ(.)(将每通道权重扩展至原特征图尺寸)并作用于对应特征图,实现对不同模态特征通道的重加权融合,~如式(4)所示:

式中,α为调节因子(经验设定α=1);f1+f2表示简单相加融合(强调共同信息);ff表示通道注意力加权融合(强调互补信息),二者加权求平均作为复合融合结果。通过式(3)和式(4)的融合策略,模型既利用了显式相加保留两模态共有的显著目标信息,又通过自适应权重突出各模态的独特贡献,使融合特征既包含全局一致的结构,又保留局部重要细节。这种复合注意力融合机制有效提升了融合结果的信息量和判别力。

2.3解码与检测
融合特征rf经过解码器重建出融合图像IF。TUFusion解码器由若干卷积和ReLU层组成,用于逐步将高维特征映射回图像空间。在原始TUFusion方法中,模型通过无监督训练,使IF在像素、结构和梯度上尽可能重现输入的关键信息。训练完成后,融合模型能够对任意给定的可见光/红外图像对生成高质量的融合图像。
在本研究中,将TUFusion生成的融合图像IF作为多模态信息融合的结果供后续目标检测使用。同时,为与证据理论融合框架结合,在检测阶段采取多源检测+融合的策略:一方面,将IF输入检测器获得融合图像上的检测结果;另一方面,保留可见光图像I1和红外图像I2各自的检测结果。这样,IF的检测结果可以看作结合了两种模态特征的“第三条证据”。最终,对“三源”检测结果应用2.1节所述的DS决策级融合,综合判定最终目标。需要强调的是,由于TUFusion的高质量特征融合,IF上的检测本身精度较高,它不仅提供了额外的候选目标,还能通过证据组合提升整体检测的置信度。与传统直接像素融合相比,TUFusion融合得到的图像在视觉上具有更清晰的细节和更丰富的语义信息,这为后续检测奠定了良好基础。
3实验与结果分析
在公开的DroneVehicle无人机多光谱车辆数据集上验证本文方法。DroneVehicle是一个大规模RGB-红外双模态数据集,包含28439对对齐的可见光和红外图像(总计56878张),覆盖城市道路、住宅区、停车场等多种场景,拍摄时间从白天到夜晚不等。每对图像都提供了五类车辆(轿车、卡车、公交车、面包车、货车)的带方向边界框注释。本实验选取其中典型的10000对图像用于训练,2000对用于验证,2000对用于测试。评价指标采用平均精度均值(mAP)以及精确率(Precision)和召回率(Recall)。其中mAP是各类别平均精度的均值,主要关注IoU阈值0.5下的mAP(记作mAP 0.5);精确率和召回率则综合评估整体检测的准确性和完备性。
在实现上,采用YOLOv4作为基础目标检测器。对于I1、I2和IF,分别使用YOLOv4网络进行车辆检测。将YOLOv4的主干网络进行改进,引入TUFusion的混合编码器结构以提升多模态特征提取能力。具体来说,在训练融合模型生成IF之后,冻结TUFusion编码器的卷积和Transformer分支权重,将其作为YOLOv4主干,用于提取I1和I2的特征,并在检测头前引入适当的特征融合层。这种做法使单模态检测器也受益于另一模态的信息,提高了各自检测的召回率。模型在PyTorch框架下训练,采用Adam优化器,初始学习率0.001,在训练阶段对输入图像进行了数据增广(随机裁剪、缩放和光照变换等)以提高模型鲁棒性。对于DS证据融合部分,对YOLO输出的每个检测框计算基本概率分配:将YOLO的置信度作为“目标”命题的支持度,同时根据历史统计设定一个固定的小值β作为“不确定”命题的初始值(例如未关联目标赋予0.2的不确定度),再归一化得到“非目标”的支持度。融合过程中,冲突因子K若超过0.8,则判定两条证据高度不一致,此时选择置信度较高者作为结果并降低输出置信度,以免错误融合。
设置多种对照实验以验证本方法的有效性。(1)单一模态检测(可见光YOLO或红外YOLO);(2)传统像素级融合检测:将I1和I2通过简单加权平均融合或NSST融合[6]得到融合图像,然后用YOLO检测;(3)本文方法的变体:仅使用TUFusion融合图像IF进行检测(不使用证据融合);(4)本文完整方法:TUFusion融合+三源检测+证据理论决策级融合。对于对照(2),加权平均系数取0.5:0.5,NSST融合采用文献[7]中的最佳参数配置;对于(3),即省略证据融合,仅以IF的检测结果作为输出。
不同方法在DroneVehicle测试集上的检测性能比较如表1所示。从中可以看出,基于多模态融合的方法明显优于单一模态检测。YOLO在可见光或红外单独输入时,mAP 0.5分别只有0.78和0.74;而简单像素级融合提高到了约0.82。采用TUFusion生成高质量融合图像后,检测精度有了显著提升,mAP达到0.887,精确率和召回率也均有提高。这说明TUFusion融合有效结合了两种传感器的信息,使得检测器能够发现更多车辆且误报更少。此外,加入证据理论进行决策级融合后,性能进一步提升:本方法最终取得了0.905的mAP、92.1%的精确率和89.7%的召回率,均为最高。相比仅用IF检测,证据融合主要提升了召回率(由86.5%提高到89.7%),这是因为一些漏检的目标通过证据组合被找回;同时精确率略有提升,表明误检也有所减少。

同时,融合方法有效降低了误检,如左下角基线将路面亮点误识别为车辆(蓝色框),而融合结果中没有出现这种错误。这些可视化结果直观证明了多模态融合在复杂环境下提升目标检测可靠性的优势。特别地,采用TUFusion融合的图像相比直接红外图像,保留了场景的结构细节(如车位线和周边环境),使检测模型能够更准确地定位目标;配合证据理论融合策略,当多源结果出现冲突时能够做出更稳健的判断。因此,本方法在各种光照条件下均表现出色,对无人机实景监控具有实际意义。
4结语
本文研究了无人机可见光与红外图像融合检测算法,提出将TUFusion深度融合网络与DS证据理论融合框架相结合,以提升多模态目标检测性能。在DroneVehicle数据集上的实验结果表明,本方法在车辆检测的精度和召回率方面均优于单一模态和传统融合方法,验证了所提算法的有效性。结论如下:(1)TUFusion混合编码器能够提取并融合多源图像的互补特征,其生成的融合图像为目标检测提供了更全面的信息支撑;(2)基于证据理论的决策级融合可以有效处理多传感器信息的不确定性,提高检测结果的可信度,减少误检漏检;(3)将像素级的深度融合与决策级的证据融合相结合,可以进一步发挥两者优势,在复杂场景下取得更稳健的检测表现。
参考文献
[1]FONTANI M,BIANCHI T,DE ROSA A,et al.A Framework for Decision Fusion in Image Forensics Based on Dempster–Shafer Theory of Evidence[J].IEEE Transactions on Information Forensics and Security,2013,8(4):593-607.
[2]TONG Z,XU P,DENOEUX T.An Evidential Classifier Based on Dempster-Shafer Theory and Deep Learning[J].Neurocomputing,2021,450:275-293.
[3]周策,赵秋博,王明杰,等.基于证据理论的可见光和红外融合检测算法[J].无线电工程,2025,55(3):484-492.
[4]ZHAO Y,ZHENG Q,ZHU P,et al.TUFusion:A Transformer-Based Universal Fusion Algorithm for Multimodal Images[J].IEEE Trans.on Circuits and Systems for Video Technology,2024,34(3):1712-1725.
[5]郝昱权.基于NSST与深度学习的红外图像与可见光图像融合算法[J].河北软件职业技术学院学报,2024,26(4):12-17.
[6]SUN Y,CAO B,ZHU P,et al.Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning[J].arXiv Preprint arXiv:2003.02437,2020.
[7]HEX,ZHOU Y,REN J,et al.Multispectral Object Detection via Cross-Modal Conflict-Aware Learning[J].In Proc.of ACM MM,2023:4051-4060.