学术论文投稿/征稿

欢迎您!请

登录 注册

手机学刊吧

学刊吧移动端二维码

微信关注

学刊吧微信公众号二维码
关于我们
首页 > 学术论文库 > 理工论文 基于情境自适应的无人机图像小目标检测论文

基于情境自适应的无人机图像小目标检测论文

5

2025-11-13 09:51:12    来源:    作者:xuling

摘要:本文提出了一种全局自适应特征提取模块(Holistic Adaptive Feature Extraction Module,HAFEM),旨在针对小目标和复杂背景问题实现高效特征提取。

  摘要:在无人机航拍图像中,小目标检测常面临目标尺寸微小、特征表达薄弱及复杂背景干扰等严峻挑战。为此,本文提出了一种全局自适应特征提取模块(Holistic Adaptive Feature Extraction Module,HAFEM),旨在针对小目标和复杂背景问题实现高效特征提取。在VisDrone-DET数据集上的实验结果表明,所提模块可实现46.2%的mAP,相较于基础网络YOLOv5s提高了0.8%,并在复杂场景下依然保持了卓越的检测性能,为无人机图像小目标检测提供了坚实的技术支持。


  关键词:无人机图像;目标检测;特征提取


  0引言


  近年来,凭借低成本、便捷操作和高分辨率成像技术,无人机已在遥感监测、农业、灾害救援、视频拍摄、灾情监控及工业检测等领域广泛应用,但同时,无人机航拍图像中小目标检测面临严峻挑战。由于飞行高度与拍摄角度频繁变化,目标尺度波动明显,而小目标像素信息稀缺且易与复杂背景交织,致使检测难度大幅增加。目前,深度学习目标检测方法主要分为Anchor-Based和Anchor-Free两大类[1]。其中,Anchor-Based方法又细分为双阶段检测(如R-CNN系列[2]、Mask R-CNN[3])与单阶段检测(如YOLO[4]、SSD[5]);而Anchor-Free方法虽突破了预设锚框的限制,但在处理密集且尺度多变的小目标时,仍面临定位精度不足、漏检及误检等问题[6]。


  1 CAU-YOLO模型及关键模块设计


  在确保网络具备实时检测性能的前提下,为有效解决无人机航拍图像中大量小目标漏检的问题,本文提出了一种基于情境自适应机制的无人机航拍图像目标检测方法(CAU-YOLO)。该方法在YOLOv5s框架的基础上进行改进,引入情境自适应模块,实现对不同尺度目标和复杂背景下特征信息的动态调节与融合,从而提升小目标检测的精度与鲁棒性。


  1.1全局自适应特征提取模块(HAFEM)


  在无人机航拍任务中,为了高效捕捉目标物体的特征,首先需将图像输入卷积神经网络,通过多层卷积运算提取浅层和深层特征。然而,由于无人机在飞行过程中拍摄角度和高度不断变化,图像中的小目标通常仅占极少的像素比例,并且可能伴随形变,导致特征信息不够明显。同时,无人机影像中的背景区域较为复杂,往往会对目标特征提取产生干扰,进一步增加了网络的计算负担。


  针对这一系列问题,本文提出了一种全局自适应特征提取模块(HAFEM),其基本结构如图1所示,旨在优化小目标和复杂背景下的特征提取过程。该模块采用多分支结构,同时捕捉全局上下文和局部细节,通过自适应融合不同尺度的特征,有效抑制背景噪声对目标识别的影响,并弥补小目标在像素层面的不足。实验结果表明,HAFEM在提高检测准确率的同时,还能降低计算复杂度,为无人机航拍图像的小目标检测提供了坚实的技术支撑。

  1.2空-深保真卷积(SPD-Conv)


  SPD-Conv通过两级结构创新地实现了特征压缩与重组。首先,空—深转换层(S2D)在适度降低空间分辨率的同时,将散布在空间域的细节信息重排列至通道维度,实现信息的无损传递;其次,非步幅卷积层在保持空间分辨率不变的前提下,高效提取并融合增厚的通道特征,显著提升了模型对小目标的识别能力,并有效缓解了因信息丢失带来的检测精度下降。


  1.3空间感知激活函数(SReLU)


  为克服传统激活函数在空间上下文建模上的局限,SReLU在激活层内嵌入局部空间依赖的自适应建模机制,使常规卷积近似捕获复杂图像布局[7]。该激活函数借助深度可分离卷积提取局部二维信息,并结合批归一化构建出类似二维漏斗的自适应判断机制,从而将简单的“x<0”条件扩展为更具表达力的二维决策规则,实现对特征的选择性激活或抑制。


  1.4交线注意力(CLA)


  CLA提出通过仅在水平与垂直方向构建稀疏连接来捕捉局部及全局上下文信息,从而大幅降低计算复杂度与内存占用。模块先提取每个像素在同行与同列上的特征,构建稀疏注意力图,再通过加权聚合实现局部信息融合,并采用迭代更新机制逐步实现全图信息传递。


  1.5全局双模态注意力(GDM)


  GDM针对传统注意力在通道与空间维度上信息保留不足的问题,设计了一种顺序化“通道—空间”注意力结构。其通道注意力模块通过三维排列及两层MLP编码解码,有效增强了跨维度依赖,突出关键通道并维持全局上下文;空间注意力模块则摒弃传统池化,采用卷积融合与去池化,并结合分组卷积与通道混洗技术,确保在资源受限条件下实现精准空间特征捕捉。两者的有机整合显著减缓了特征信息弥散,实现了全局信息的高效融合,为复杂视觉任务提供了坚实支撑。


  2实验与讨论


  2.1实验数据集


  本研究选取了无人机目标检测领域备受关注的VisDrone2019-DET[6]数据集。该数据集采自不同高度的无人机视频,共计10209张图像(分辨率1360×765或960×540),经随机划分后形成6471张训练图、3190张测试图及548张验证图。经过严格预处理和精细标注,数据集涵盖行人、人员、轿车、货车、大巴、卡车、摩托车、自行车、有篷三轮车及三轮车共10个类别,总目标实例约260万。

  2.2实验平台与参数设置


  实验在Linux系统上进行,硬件配置为NVIDIA GeForce RTX 3090,深度学习框架采用PyTorch。训练时,初始学习率设为0.01,输入尺寸为960×960,动量因子为0.937,权重衰减参数为0.0005,IoU匹配阈值设为0.5。考虑显存限制,每批样本数为10,总训练300个epoch。


  2.3不同模型对比


  为全面验证CAU-YOLO的有效性,本文将其与多种先进目标检测算法进行对比,并采用各类别平均精度(AP)及整体平均精度(mAP)作为评估指标。各方法在VisDrone-DET测试集上的检测性能结果如表1所示,结果表明CAU-YOLO在多尺度、小目标及复杂背景场景下均具有显著优势,为无人机航拍图像目标检测提供了一种兼具高精度、鲁棒性与实时性的高效解决方案。

  3结语


  针对无人机图像中小目标细节丢失和背景干扰严重的问题,本文提出了一种基于情境自适应机制的无人机目标检测方法—CAU-YOLO,并创新性地构建了全局自适应特征提取模块(HAFEM)。实验结果显示,CAU-YOLO在多尺度检测、复杂背景及高密度小目标场景中均表现出了卓越性能,同时兼顾了模型的轻量化与实时性。尽管该方法在无人机目标检测上已取得了显著进展,但在极端光照和严重遮挡等挑战性场景下,检测精度仍有提升空间。

 参考文献


  [1]李利霞,王鑫,王军,等.基于特征融合与注意力机制的无人机图像小目标检测算法[J].图学学报,2023,44(4):658-666.


  [2]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J].IEEE Computer Society,2014.


  [3]HE K,GKIOXARI G,DOLLÁR P,et al.Mask R-CNN[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2017.


  [4]REDMON J,DIVVALA S,GIRSHICK R,et al.You Only Look Once:Unified,Real-Time Object Detection[C]//Computer Vision&Pattern Recognition.IEEE,2016.


  [5]WEI L,DRAGOMIR A,DUMITRU E,et al.SSD:Single Shot MultiBox Detector[J].Springer,Cham,2016.


  [6]冒国韬,邓天民,于楠晶.基于多尺度分割注意力的无人机航拍图像目标检测算法[J].航空学报,2023,44(5):273-283.


  [7]DU D,ZHU P,WEN L,et al.VisDrone-DET2019:The Vision Meets Drone Object Detection in Image Challenge Results[C]//ICCV Visdrone Workshop,2019.