学术论文投稿/征稿

欢迎您!请

登录 注册

手机学刊吧

学刊吧移动端二维码

微信关注

学刊吧微信公众号二维码
关于我们
首页 > 学术论文库 > 理工论文 基于改进YOLOv8的铁路异物侵限检测方法论文

基于改进YOLOv8的铁路异物侵限检测方法论文

18

2025-02-07 10:58:27    来源:    作者:dingchenxi

摘要:快速、准确地从监控影像中检测侵入铁路的异物对保障列车运行安全具有重要意义。针对列车运行过程中出现的小型目标和与背景相似度较高的物体难以被准确识别的问题,提出一种改进的YOLOv8算法,可快速、准确地检测铁路图像中的侵限。

  摘要:快速、准确地从监控影像中检测侵入铁路的异物对保障列车运行安全具有重要意义。针对列车运行过程中出现的小型目标和与背景相似度较高的物体难以被准确识别的问题,提出一种改进的YOLOv8算法,可快速、准确地检测铁路图像中的侵限。首先,在Backbone网络主干层引入CBAM注意力机制,提高轨道异物特征提取速度,令模型更加关注于图像中的关键特征,同时抑制不相关的铁路背景信息。其次,针对模型中CIoU损失函数在宽高比上的模糊定义问题,将EIOU损失函数替代原有的损失函数,最小化目标框与锚盒的宽度和高度之差,提高边界框回归的精度的同时加快模型的收敛。最后利用分组卷积对传统目标检测头进行优化,在不损耗模型精度的情况下提高模型的效率,令模型在实际应用中具有更好的性能。实验结果表明,改进的YOLOv8算法在数据集上的mAP值达到96.2%,在检测精度上达到较高的水准,证明该模型在现实生活中具有应用价值。

  关键词:异物侵限检测;深度学习;目标检测;YOLOv8算法;CBAM注意力机制;EIoU;RepConv

  0引言

  随着高铁规模不断扩大和时速不断提高,高铁运行环境的安全问题已成当务之急。高铁运行速度快、发车频次高、运行场景复杂,虽然采用全封闭管理,但是高铁周界入侵的情况时有发生。高铁周界入侵会对高铁运行安全构成潜在威胁,严重扰乱运输秩序,形成大面积晚点,甚至造成人员伤亡和经济损失[1]。若不能及时检测并清除危险点,会产生巨大安全隐患。轨道异物种类多,包括非法入侵的人或动物以及因自然因素导致的落石等,这些都给列车的运行带来安全隐患。因此,检测轨道是否出现异物侵限,对于提高列车行驶的安全性有着重要意义。

  近几十年来,机器视觉因其非接触、速度快、精度高、现场抗干扰能力强等突出优点,在各个领域中被广泛应用,该技术已经被引入到铁路侵限异物检测领域,李沛奇等[2]把单目视觉技术应用到异物侵限监测系统当中,通过改进蚁群算法检测更加完整的轨道线,通过图像处理技术对入侵异物进行监测。史红梅等[3]提出用支持向量机和一组特征向量识别背景差分得到的异物,之后采用卡尔曼滤波对识别的异物进行跟踪并分析其运动趋势。郭保青等[4]提出了将改进的深度卷积网络提取的高层Alex特征和HOG特征相结合并用于深度卷积网络模型训练的分类算法。于晓英等[5]提出改进原有YOLO算法的模型结构,通过分组预训练提升异物检测的速度。刘力[6]提出一种基于YOLOv4[7]检测网络的侵限异物检测模型,通过优化K-means算法的聚类策略,并在网络间引入压缩与激励模块,有效提升了检测效能且不影响检测速度。

  综上所述,相比于传统方法,基于深度学习的视频分析在检测目标的准确度与实时性上确实有了很大提升[8]。但是单阶段算法在轨道复杂环境下的目标识别任务中,对较小目标有较大的定位误差。因此本文针对铁路异物侵限检测问题,提出以YOLOv8为基础框架的改进算法,首先,在Backbone层引入CBAM[9]注意力机制,以增强模型对侵限物特征的提取能力。其次,采用EIoU[10]损失函数替代原有的损失函数,解决原有损失函数在宽高比上的模糊定义问题,提高边界框回归的精度并加快模型的收敛。最后引入分组卷积[11]对目标检测头进行优化,实现不降低检测性能的前提下提高模型的运行效率,并降低了存储要求。

  1 YOLOv8算法

  YOLO系列算法将对象检测重新定义为一个回归问题,通过卷积操作,直接在输出层回归位置信息和类别信息。YOLOv8算法有5种模型结构,其之间的主要区别是网络的深度和宽度不同,网络深度和宽度越大,识别精度越高,但计算量也更大。考虑到识别的准确率和识别效率,选取YOLOv8n网络进行优化设计,并在数据集上进行训练。YOLOv8网络由主干网络Backbone、网络颈部Neck和网络头部Head组成,主干网络负责对图像的特征提取,颈部对提取的特征图进行特征融合处理,头部对生成的特征图进行预测[12]。

image.png

  如图1所示,其中Input选用了Mosaic数据增强方法,Mosaic增强操作随机将训练集中的4张图片缩放,再随机分布拼接成一张图片作为训练样本,使模型不断学习新的位置和不同像素,有效提高预测精度的同时,提高模型性能。Backbone部分使用C2F模块,并行更多的梯度流分支,在保证轻量化的同时,获得更丰富的梯度流信息,从而精度更高,延迟更合理。Neck部分使用C2F模块,将Backbone不同阶段输出的特征进行上采样操作。Head部分使用解耦头,检测和分类的卷积是解耦的,输入的特征图通过2个1×1的卷积模块降维,其中一个分支进行类别的预测,另一个进行Bbox位置和交并比预测[13]。

  2 YOLOv8算法改进

  2.1引入CBAM注意力机制

  为了抑制复杂铁路场景下不必要的背景信息,提升对小目标的检测能力,本文在算法的主干网络卷积层间引入CBAM注意力机制,有效提升目标检测的精确度和准确率。注意力机制[14]是一种模仿人类注意力的深度学习优化策略,通过调节权重大小来区分特征信息的重要程度,鉴于次要特征融合后对检测结果贡献不大,而且还增加了计算量,所以要降低次要特征的权重,而将重要特征赋予更高的权重。CBAM作为一种轻量级且高效的模块,可以无缝集成到卷积神经网络中,与基础模型一起进行端到端训练,而且计算开销可忽略不计[15]。同时CBAM注意力机制通过在通道和空间2个维度上进行独立的运算,提高对图片注意力信息的提取效果。选择在网络结构中添加CBAM注意力机制,相比于SENet[16]仅侧重于通道注意力机制,CBAM可以取得更好的结果,同时也不会明显地增加网络模型的大小。

  通道注意力模块(CAM)负责在通道维度上对特征图进行注意力加权,而空间注意力模块(SAM)与通道注意力模块的关注点不同,它更关注特征图中的“在哪里”信息部分,与通道注意互为补充。通过这两个子模块对输入的特征进行自适应调整,从而提升中间特征映射的质量,使网络能够更加关注重要的特征并抑制不必要的特征,同时捕获更多的特征信息。如图2所示。

image.png

  由图2可知:CBAM模块从输入特征图F∈RC×H×W中依次推导出一维通道注意图MC∈RC×1×1和二维空间注意图MS∈R1×H×W,整个过程如式(1)~(2)所示。

image.png

  式中:⊗为逐元素乘法;F'为最终提取的输出。

  2.2损失函数优化改进

  YOLOv8在边界框回归任务中采用CIoU Loss作为损失函数,虽然它综合了边界框回归中的重叠面积、中心点距离和纵横比3个关键因素。CIoU Loss可准确地反映出物体的长宽比,但精确性取决于物体的位置和置信度,在纵横比方面的计算存在一定的局限性。针对这一问题,本文针对CIoU Loss存在的不足,提出使用EIoU Loss替换CIoU Loss,将CIoU Loss中的宽高比惩罚项拆分成宽的惩罚项和高的惩罚项[17],定义如式(3)所示。

image.png

  式中:γ为用于控制曲线弧度的超参数,默认为0.5。

  传统的Focal Loss设计初衷是针对那些难以分类的样本赋予更大的损失值,以此挖掘并关注这些困难样本。而根据上述公式:IOU越高的损失越大,通过加大对已经表现良好样本的损失权重,促进模型对这些样本的学习,以达到更高的定位准确性。

image.png

  EIoU将式(4)所示的损失函数分为3个部分,分别为IoU损失、距离损失和边长损失。其中,LIoU是IoU损失,用于评估两个框的空间重叠程度。Ldis是距离损失,关注预测框和真实框的中心点之间的欧氏距离。Lasp是边长损失。其中,Cw和Ch分别是覆盖预测框和目标框的最小外部矩形框的宽度和高度。损失函数的前两部分延续CIoU中的方案,但是边长损失最小化目标框与预测框的宽度和高度之差,加快模型对目标尺寸的收敛速度。

  2.3轻量化检测头

  为了解决原始YOLOv8模型检测头消耗大量计算资源的问题,本文采用分组卷积的概念,分组卷积是对输入特征图分组后进行卷积运算[18]。运用分组卷积将YO⁃LOv8的检测头进行了重构,令模型参数量大幅减少。

image.png

  式中:h和w分别为特征图的高度和宽度;C1为输入特征图的通道数;C2为输出特征图的通道数;g为分组卷积中的分组数,分组卷积允许在不改变特征图的空间尺寸的前提下,通过分组来减少每个卷积操作的参数数量和计算量。

  在保持模型性能的同时,提高计算效率和减少模型的存储需求,使得YOLOv8可以更好地适应不同的目标检测场景。

  3实验测试及分析

  3.1实验数据集

  在实验数据的构建方面,鉴于目前尚无公开的铁路异物侵限数据集,因此本文通过四旋翼飞行器在铁路现场进行采集的方式构建实验数据集,同时参考实际事件中常见的侵限物体,选择了石头、人、自行车和衣服作为主要的研究对象。由于采集的样本情景单一,数量和种类较少,又通过数据增强的方式对铁路场景训练样本进行了扩充,以此来提升样本多样性和复杂性。为避免类别不平衡对模型性能造成不利影响,利用人工筛选确保了每个类别的样本数量基本一致。最终构建了一个包含9 700张图像的铁路异物侵限场景数据集,其中随机选取7 760张用于训练,970张用于验证,970张用于测试,各类别样本数量如图3所示。

image.png

  3.2配置环境及评价标准

  本文的实验环境基于Windows 11操作系统,并配置了NVIDIA GeForce RTX 4070显卡。在软件方面,采用了PyCharm作为编译环境,Python的版本为3.8,并基于Pytorch 2.1.0版本及CUDA 11.8版本来搭建整个实验环境。

  本文实验采用平均精度均值(mAP)、平均精度(AP)、精确率(Precision)P和召回率(Recall)R作为模型检测性能的评价指标,其表达式如下:

image.png

  式(6)~(7)中:nTP为网络预测所识别到的正样本数量;nFP为正样本,但是实际的网络预测结果把其当成负样本的数量;nFN为负样本,但实际网络预测为正样本结果的数量;精确率和召回率从两个不同的角度衡量模型性能,单独看任何一个指标都不足以评价模型的好坏[19]。

  因此,引入平均精度的概念,用于描述在不同召回率下的平均精确率。本文数据集中包含多种类别,为了综合评估所有类别的性能,引入评估指标mAP。

image.png

  式中:vAP为通过计算在不同置信度阈值下,模型预测出的正样本的Precision和Recall值,并绘制PR曲线,然后对PR曲线下面的面积进行平均得到的;vmAP为所有单个类别AP值的平均数。

  3.3对比实验及结果分析

  为了直观地展示改进后的YOLOv8模型在铁路异物侵限检测任务中的精确程度,分别将改进前后的YO⁃LOv8模型进行训练,epoch设置为50轮,模型初始学习率为0.01,权重衰减系数为0.000 5,动量为0.937,batch size为16,epoch为50。改进前后训练结果如图4~5所示。由图可知,在高铁异物侵限场景及小型侵限异物的检测中改进的YOLOv8与原YOLOv8模型进行对比。从图中可以看出改进后的YOLOv8模型在检测遮挡及小型侵限异物检测上都有很好的表现效果,并且检测精确度相对原模型有所提高。

image.png

  本文分别使用SSD[20]、Faster-RCNN[21]、YOLOv5和YOLOv8作为对比方法,与本文提出的基于改进YOLOv8的铁路异物侵限检测方法进行性能比较,分别使用4种模型对数据进行训练和测试,其精确率、召回率、平均精度以及平均精度均值如表1所示。由表可知:本文基于YOLOv8改进的检测算法在数据集上的mAP 50的值达到了96.2%,高于SSD、Faster-RCNN、YOLOv5、YO⁃LOv8,分别提升26.85、17.26、8.00、4.44个百分点。特别是对于目标小、信息量大的图像,有着显著的效果。

image.png

  4结束语

  针对列车运行过程中出现的小型目标和与背景相似度过高的物体难以被准确识别的问题,本文提出一种以YOLOv8为基础框架的改进算法,主要改进包括在Back⁃bone层中加入CBAM注意力机制以增强特征提取,采用EIoU损失函数替代原损失函数来改善宽高比,从而提升边界框回归精度和加速模型收敛。通过分组卷积优化目标检测头,实现在不损耗精度的情况下提高计算效率并降低模型存储需求。将主流检测模型及改进模型在测试集上进行测试,观察不同模型在异物侵限数据集上的性能。实验结果表明,改进的YOLOv8算法mAP值达到96.2%,在检测精度上达到较高的水准,证明该模型在现实生活中具有应用价值。

  参考文献:

  [1]傅荟瑾,史天运,王瑞,等.基于深度学习的京张高速铁路周界图像智能识别系统构建研究[J].铁道运输与经济,2022,44(5):64-72.

  [2]李沛奇.基于单目视觉技术的铁路异物侵限监测系统研究[D].兰州:兰州交通大学,2013.

  [3]史红梅,柴华,王尧,等.基于目标识别与跟踪的嵌入式铁路异物侵限检测算法研究[J].铁道学报,2015,37(7):58-65.

  [4]郭保青,王宁.基于改进深度卷积网络的铁路入侵行人分类算法[J].光学精密工程,2018,26(12):3040-3050.

  [5]于晓英,苏宏升,姜泽,等.基于YOLO的铁路侵限异物检测方法[J].兰州交通大学学报,2020,39(2):37-42.

  [6]刘力,苟军年.基于YOLOv4的铁道侵限障碍物检测方法研究[J].铁道科学与工程学报,2022,19(2):528-536.

  [7]BOCHKOVSKIY A,WANG C,LIAO H M.YOLOv4:Optimal Speed and Accuracy of Object Detection[EB/OL].arXive-prints,2020:arXiv:2004.10934.

  [8]钱思娜.基于深度学习的铁路异物侵限视频检测方法研究与设计[D].北京:北京交通大学,2023.

  [9]WOO S,PARK J,LEE J Y,et al.CBAM:Convolutional Block At⁃tention Module[J].Computer Vision-ECCV 2018,Lecture Notes in Computer Science,2018:11211.

  [10]ZHANG Y F,REN W Q,ZHANG Z,et al.Focal and efficient iou loss for accurate bounding box regression[J].Neurocomput⁃ing,2022,506:146-157.

  [11]IOANNOU Y,ROBERTSON D P,CIPOLLA R,et al.Deep roots:improving CNN efficiency with hierarchical filter groups[J].arXive-prints,2016:arXiv:1605.06489.

  [12]罗磊,谢竹逵.基于改进YOLOv8的交通标志检测算法[J].机电工程技术,2024,53(3):205-210.

  [13]王钧,麻方达,符朝兴.基于改进YOLOv8的小目标零件识别方法[J/OL].青岛大学学报(工程技术版),1-9[2024-06-24].

  [14]문환복,윤상민.초고해상도복원에서성능향상을위한다양한Attention연구[J].방송공학회논문지,2020,25(6):898-910.

  [15]李扬清,陈章烜,洪江涛,等.联合相位谱与幅度谱的时频图干扰检测和样式识别[J].移动通信,2023,47(10):93-98.

  [16]HU J,SHEN L,SUN G,et al.Squeeze-and-excitation net⁃works[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,99:1-7.

  [17]杨睿宁,惠飞,金鑫,等.改进YOLOv5s的复杂交通场景路侧目标检测算法[J].计算机工程与应用,2023,59(16):159-169.

  [18]朱雪晨,陈三林,蔡刚,等.降低参数规模的卷积神经网络模型压缩方法[J].计算机与现代化,2021(9):83-89.

  [19]徐鑫,潘杰,曹利安,等.基于深度学习的铁路异物侵限检测模型[J].铁路计算机应用,2023,32(10):7-12.

  [20]LIU W,ANGUELOV D,ERHAN D,et al.SSD:single shot multi⁃box detector[C/OL].Computer Vision-ECCV 2016.

  [21]REN S,HE K,GIRSHICK R,et al.Faster R-CNN:towards re⁃al-time object detection with region proposal networks[C/OL].NIPS 2016.