基于半监督的植物病害智能检测研究论文

2024-04-24 11:52:13 来源: 作者:hemenglin
摘要:粮食安全一直是一个关系民生的问题,为了提高粮食产量,大量的农药被过度使用,从而对环境造成了威胁。因茶叶的病害 特征相对明显和易于标注
摘要:粮食安全一直是一个关系民生的问题,为了提高粮食产量,大量的农药被过度使用,从而对环境造成了威胁。因茶叶的病害 特征相对明显和易于标注,以茶叶作为研究目标,希望通过使用半监督深度学习方法,来帮助茶园管理人员快速找到茶园中病害程 度相对严重的区域,以促进农药的高效使用,进而降低农药对环境的污染。虽然,全监督方法已经可以较好地实现这一功能,但该 方法对数据量要求巨大,这无疑增加了成本,因此,采用一种半监督方法来实现这一功能,达到在降低成本的同时还可以保持较好 性能的目的。首先通过无人机对指定茶园进行低空航拍;然后提取指定帧,对相关帧进行人工标注;最后,对标注的数据集进一步 处理得到标准的COCO 格式数据集。分别对数据集进行全监督和端到端半监督实验,验证了所使用半监督框架的有效性。
关键词:深度学习;半监督;茶叶
Research on Intelligent Detection of Plant Diseases Based on Semi-superised Learning
jang Houtao Ma Shannong
( School of Mechanical and Electronic Engineering ,East China University of Technology ,Nanchang 330013 ,China )
Abstract :Food security has always been a matter related to the people's livelihood. In order to increase food production , a large amount of pesticides are overused , posing a threat to the environment. Because the characteristics of tea diseases are relatively obvious and easy to annotate ,so the tea is taken as the research target ,hoping to use semi- supervised deep learning methods to help tea garden managers quickly find areas with relatively severe tea diseases in the tea garden , so as to promote the efficient use of pesticides and reduce the pollution of pesticides on the environment. Although the fully supervised method can achieve this function well , it requires a huge amount of data , which undoubtedly increases the cost. Therefore ,a semi- supervised method is adopted to achieve this function , achieving the goal of reducing costs while maintaining good performance. The study first used drones to conduct low- altitude aerial photography of designated tea gardens. Then , specific frames are extracted ,and relevant frames are manually annotated. Finally ,the annotated dataset is further processed to obtain a standard COCO format dataset. Fully supervised and end to end semi- supervised experiments are conducted on the dataset to verify the effectiveness of the semi- supervised framework used.
Key words :deep learning ;semi- supervised learning ;tea
引言
我国作为一个农业大国,粮食产量与粮食安全关系 到民生问题。为了降低病虫害对农作物产量的影响,农 药的使用量不断升高,这无疑对环境造成了污染,而且,农药残留对人体健康也具有威胁。传统的人工检测方法 成本高,并且存在主观误判的风险。随着计算机技术的快速发展,计算机视觉、机器学习和深度学习被广泛应用于农作物病害检测[1-3 ] , 但主要用于检测苹果、辣椒和西红柿等分布较稀疏作物的具体病害和产量多少。本 文以分布较密集的茶叶作为研究对象,只对茶叶是否感 染病害进行检测,通过查看检测出目标的相对多少,来 了解茶园各个区域相对受病害程度。传统的机器视觉方 法通过颜色、纹理或形状特征对作物病害的RGB 图像进行分割。然而,不同病害的特征相似,因此很难判断病害类型,在复杂的自然环境中病害识别的准确性较低。
卷积神经网络(CNN ) [4 -5 ] 是一种高效的深度学习模型,它摒弃了复杂的图像预处理和特征提取步骤,而是采用 了一种端到端的结构,能够直接从原始图像中提取有用的特征。
过去的深度学习方法大多采用有监督方式[6-7] 来训练神经网络,这种方法耗时耗力,极大提高了人力成本,且当新病害出现时,很难立即获得足够多的标注数据来训练新模型。与监督学习相比,半监督学习方式[8-9 ] 具有显著的优势。在仅拥有有限标注数据的情况下,半监 督学习能够最大限度地利用未标注数据进行模型训练。这种学习方式不仅提高了数据利用效率,还有效降低了研究和应用的成本,为深度学习领域带来了更为经济高 效的解决方案。此外,半监督学习模型可以自适应地学 习不同的特征和表现,更好地适应多样性的病害场景,即使出现新的病害也能快速适应新病害的检测需求,缩 短模型更新周期;在植物病害检测中,不同病害的样本 数量往往不平衡,导致模型偏向于测试数量较多的病害,半监督通过引入未标注数据来平衡样本分布,从而提升 对少数类别病害的检测能力。
茶叶的叶片面积小,在茶园中分布较为集中,人工 鉴别病害,成本高效率低,本文以自制的茶叶数据集作 为研究对象,希望可以通过一种端到端的半监督方法,在相对少量数据集的情况下,来较好地检测茶园中哪个 部分的茶叶病害程度相对严重。越严重则检测结果中的 目标数越多,茶农可根据检测目标数的多少来定位在茶 园的哪个区域进行农药的使用。
1 方法概述
目标检测按照学习方式可分为3种类型,分别是全 监督、半监督和无监督,发展到目前,使用最多的还是 全监督方式,该方式在多数计算机视觉任务中都达到了 很好的效果,但全监督需要大量的已标注数据,这极大 提高了生产成本。相对而言,半监督方式可以在没有大 量已标注数据的情况下,达到与全监督相似的效果。
目前目标检测有两种主流的结构,分别是单阶段目 标检测结构和两阶段目标检测结构。这两种结构主要区 别在于是否使用级联来过滤大量的候选对象。两阶段算 法将检测问题划分成两个阶段,在第一个阶段产生候选 区域,然后对位置坐标进行优化后进行区域分类,两阶 段检测算法的识别错误率低,漏识别率也比较低,但速 度较慢,不适用于实时检测场景。一阶段算法与两阶段 算法相比,具有更快的检测速度,因为它跳过了产生候 选区域阶段,直接预测物体的类别概率和位置坐标。这 种单次检测过程简化了流程,提高了检测速度。然而,通常情况下,一阶段算法的识别精度和准确度相较于两 阶段算法可能会稍逊一筹。尽管如此,一阶段算法仍然 在实时应用和快速检测场景中具有广泛的应用价值。
半监督目标检测主要有两种方法,分别是一致性正则化[10]和伪标签[11]。一致性正则化往往需要一些精心设计,才能达到较好的效果,而伪标签方法的形式比较简 单,更容易拓展到下游任务,已发展成当前的主流方法。
STAC[ 12 ] 分别利用弱数据增强和强数据增强来处理未标 注数据。Unbiased Teacher[ 13 ] 采用教师和学生相互学习的 方法来生成更准确的伪标签。伪标签方法通过初始化训 练的分类模型用伪标签标注未标记的图像,检测器由这 些伪标签进行进一步的优化。文献[14 ] 将不同数据增强的预测集合起来,形成未标记图像的伪标签。文献[ 15 ] 训练SelectiveNet 来选择伪标签。STAC[ 12 ] 提出使用弱数据增强来进行模型训练,使用强数据增强来训练伪 标签。
2 模型结构
2. 1 全监督Fater R-CNN
由于本文对实时性要求较低,因此选用Faster R-CNN[ 16 ] 作为基本检测器。在Fast R - CNN[ 17 ] 的基础上, Faster R- CNN 引入了Region Proposal Network ( RPN ), 该网络与检测网络共享卷积特征。RPN 作为一种全卷积网络,能够同时预测每个对象的边界位置和性能指标。Faster R-CNN 由两个模块组成:第一个模块是用于提取区域的深度全卷积网络,第二个模块则利用Fast R- CNN 对第一阶段提取的区域特征进行进一步处理。整体流程如图1所示。
RPN 能够接受任意大小的图像作为输入,并输出一 系列预测目标区域的矩形框。每个框都伴随着一个置信 度分数。为了生成这些区域建议,RPN 采用了一个小网 络,该网络在最后一个共享卷积层输出的卷积特征图上 滑动。这个小网络以输入卷积特征映射的一个N × N 空 间窗口作为输入。每个滑动窗口都被映射到一个较低维 的特征,这个特征进一步被传递到一个回归分支和一个 分类分支进行处理。
2. 2 半监督Fater R-CNN
本文采用了一种端到端的伪标签框架[18], 并且将Fater R- CNN 作为基本检测器,在避免了复杂训练过程 的同时也取得了较好的效果。该端到端的伪标签框架在 每一次训练迭代中,根据一个数据采样比s随机采样已 标注数据和未标注数据形成一个训练批次。
教师模块在未标注的图像数据上生成伪框,学生模 块通过已标注的图像数据和带有伪框的未标注数据共同 进行训练,如图2所示。该框架的损失函数为有监督损 失和无监督损失的加权和。
无监督损失来自于伪框与真实框的匹配度:
L = L s + ℼLu ( 1 )
式中:L s 和Lu 分别为有标签数据的有监督损失和无标签 数据的无监督损失;“ 为超参数用来调节无监督损失的贡献度。
L s 和Lu 都进行了归一化处理:
式中:“为第i个有标签图像数据;"为第i个无标签图像数据;L.为分类损失;L为回归损失;N 和N, 分别为有标签数据的数据量和无标签数据的数据量。
在训练开始阶段,教师模块和学生模块都进行了初始化。随着训练迭代次数的增加,教师模块采用了EMA策略[9.通过学生模块不断的进行更新。此外,伪标签质量是一个影响半监督训练效果的关键因素,为了生成高质量的伪标签,该框架将未标注数据进行强增强和已标注数据一起来训练学生模块,将未标注数据进行弱增强对教师模块进行训练。为了评估学生模块生成的候选如文献[18] 中所述,与前景分数相比,框回归方差可以更好地衡量定位精度,所以,选择了框回归方差 小于阈值的候选框作为伪标签,在未标注的图像上训练 框回归分支,则回归损失函数表达式为:
如文献[18] 中所述,与前景分数相比,框回归方差可以更好地衡量定位精度,所以,选择了框回归方差 小于阈值的候选框作为伪标签,在未标注的图像上训练 框回归分支,则回归损失函数表达式为:
3 实验结果与分析
3. 1 数据集
在实验中,茶叶图像数据集是在真实环境中从某农业科学院的茶园中采集的,一共有4286 张图像,如图3所示。并将其按照7:1:2的比例随机划分出了训练集(3 002)、验证集(428)和测试集(856),希望可以通过深度学习技术,使得茶园相关管理人员可以快速了解到茶园受病害程度相对严重的分布区域,所以,本次实验只将图像中的茶叶分为感染病毒和未感染病毒两种类型,当检测结果中检测到目标物较多时,说明该区域的受病害程度相对严重,从而可以帮助茶园相关管理人员快速定位目标区域。为了准确标注采集的数据集,本次 实验中使用了由麻省理工大学的计算机科学和人工智能 实验室开发的Labelme 开源工具,它允许用户手动标注 图像,构建图像数据集。
为了比较在相同条件下不同比例已标注数据的半监 督和全监督的性能,使用Python 将训练集中的数据随机 按照1% 、5% 、10% 和50% 已标注数据的占比进行了进 一步处理,如表1所示。在本次半监督实验中将训练集 中有标签数据集占比分为4个等级,随着训练集中有标 签数据占比的提升,模型性能也在不断提升,越来越趋 近于全监督的指标得分。半监督和全监督的有标签数据 占比为1∶ 2 时,两者的检测效果已经相近,这足以说明 半监督方法的有效性。
3. 2 评价指标
在目标检测领域里,最常用的评价指标是mAP, 它是各个类别AP 得分的平均值,本次实验将数据转化成 了COCO 格式,也沿用了COCO 评价标准。该标准下 IOU 步长为0. 05. 在0. 5 和0. 95 之间取值,分别计算 mAP 、mAP50 、mAP75 的值,其中,mAP 表示等步长取 的所有mAP 的平均值,mAP50 表示IOU 阈值为0. 5 时的 mAP 值,mAP75 表示IOU 阈值为0. 75 时的mAP 值。此外,COCO 标准还针对目标不同尺寸大小分别进行了统计,其中mAPs , mAPm , mAPl 分别表示像素面积小于322 、介于322 和962 之间以及大于962 的目标,在等步 长取的所有IOU 阈值上的mAP 的平均值。AP 值广义上 是PR 曲线(Precision - Recall ) 的面积,Precision 与Recall 的计算如下:
3. 3 模型训练
本次实验的设备信息如下:12th Gen Intel ( R ) Core ( TM ) i7-12700K 3. 60 GHz 处理器、NVIDIA GeForce RTX3090 和32 GB 内存。
使用了MMDetection[20 ] 工具箱来进行此次实验,首 先,将传统的网络进行了全监督比较,实验结果如表2所 示,结果表明在mAP 指标中Faster R-CNN 具有相对优势。
从实验结果可知,IOU 阈值为0.5 时每个模型的mAP 指标 最高,且数据集在像素面积大于962 时取得最大值。
此次实验中,将Faster R- CNN 作为基本检测器,比 较了Faster R- CNN 在全监督条件下和使用了端到端半监 督框架后的效果,实验结果如表3 所示,结果表明,随 着有标签比例的不断上升,半监督方法的测试结果与有 监督方法的结果越来越接近,且当训练集中有标签数据 占比为50% 时,在mAP50 上端到端半监督方法达到了 68. 7% , 全监督方法达到了73. 9% , 两者相差5. 2% 。
可见,该端到端半监督方法还有提升的空间。结合全监 督和半监督的实验结果,发现基于Faster R- CNN 的端到 端半监督检测方法的性能比YOLOv5 全监督方法的性能 要差,这是因为在本实验中全监督方法训练模型的时候 数据量是半监督方法数据量的2倍,但是在mAP50 指标 上得分并没有相差太多,这足以说明半监督检测方法在 植物病害智能检测方面的意义。
端到端半监督方法在测试集上的输出效果如图4 所 示,左侧为真实图像,右侧为模型输出图像。由输出结 果可以发现,模型的输出结果与真实图像基本吻合。
4 结束语
茶叶病害对茶叶的产量和品质产生显著影响,本文 旨在利用计算机视觉技术,结合端到端的半监督学习方 法,实现茶叶病害的智能检测,使得茶园相关管理人员 可以快速了解到茶园受病害程度相对严重的分布区域。
本次实验将图像中的茶叶分为感染病毒和未感染病毒两种类型,当检测结果中检测到目标物较多时,说明该区 域的受病害程度相对严重,从而可以帮助茶园相关管理 人员,快速定位目标区域。在植物病害检测任务中,半 监督学习方法能够利用大量未标记数据提升模型的泛化 能力,从而降低对大量标注数据的依赖。为验证所使用 方法的实际效果,进行了实验,结果表明基于端到端半 监督学习的茶叶病害智能检测方法在提高模型泛化能力 方面表现优异。与传统的全监督学习方法相比,该方法 在保证高检测性能的同时,显著降低了标注数据的成本 和需求量。这对于大规模植物病害检测具有实际应用价 值。不过,目前实验数据主要是在下午光线良好的条件 下采集的,尚未涵盖清晨和夜间恶劣光照条件下的数据。
未来的研究将聚焦于优化模型结构、改进半监督算法,以适应更多植物种类以及不同时间段的数据集,从而提 升模型的泛化能力。
参考文献:
[ 1 ] Zhang W , Sun X , Zhou L , et al. Dual - branch collaborative learning network for crop disease identification [ J ] . Frontiers in Plant Science ,2023 ,14 :1117478.
[2 ] Whetton R L , Hassall K L , Waine T W , et al. Hyperspectral measurements of yellow rust and fusarium head blight in cereal crops : Part 1 : Laboratory study [ J ] . Biosystems Engineering , 2018 ,166 :101-115 .
[3 ] Fang J ,Jiang H ,Zhang S ,et al. BAF- Net :Bidirectional attention fusion network via CNN and transformers for the pepper leaf segmentation [J ] . Frontiers in Plant Science ,2023 ,14 :1123410.
[4 ] Xie L , Yuille A. Genetic CNN [ C ]//Proceedings of the IEEE International Conference on Computer Vision. 2017 :1379-1388 .
[5 ] He K ,Gkioxari G ,Dollár P ,et al. Mask R-CNN [ C ]//Proceedings of the IEEE International Conference on Computer Vision. 2017 : 2961-2969 .
