深度学习的实例分割技术研究进展*论文

2024-10-30 13:46:23 来源: 作者:liziwei
摘要:近年来,深度学习在计算机视觉领域中的应用成效显著,新的深度学习方法和深度神经网络模型不断涌现,算法性能被不断刷新,基于深度学习的图像实例分割方法取得了跨越性进展,已成为处理图像的有力工具。为更好地促进深度学习实例分割算法的研究发展,对该领域的研究进展做了系统的梳理总结。首先,根据图像实例分割方法的过程和特征,分别从两阶段和单阶段的角度介绍对基于深度学习的图像实例分割研究进展;随之,介绍常用的评价指标;最后,结合实例分析分割技术当下存在的不足,提出可行的解决方案,并展望了实例分割技术的发展未来。
摘要:近年来,深度学习在计算机视觉领域中的应用成效显著,新的深度学习方法和深度神经网络模型不断涌现,算法性能被不断刷新,基于深度学习的图像实例分割方法取得了跨越性进展,已成为处理图像的有力工具。为更好地促进深度学习实例分割算法的研究发展,对该领域的研究进展做了系统的梳理总结。首先,根据图像实例分割方法的过程和特征,分别从两阶段和单阶段的角度介绍对基于深度学习的图像实例分割研究进展;随之,介绍常用的评价指标;最后,结合实例分析分割技术当下存在的不足,提出可行的解决方案,并展望了实例分割技术的发展未来。
关键词:计算机视觉;实例分割;深度学习;图像分割;评价指标
0引言
图像分割是图像处理的重要环节,也是计算机视觉领域的重要研究方向。在图像分割技术的早期,主要通过设计针对性的局部图像特征描述子,自动地建立起图像中点与点的关系,划分出不同的区域,完成图像的分割,代表算法如HOG。其中,局部图像特征描述子的设计需要极强的专业知识,使得早期图像分割技术应用受到限制。
早期实例分割常用的方法主要有条件随机场(CRF)、递归神经网络(RNN)和模板匹配等,在分割效果和效率上都还有待提升,且对图像语义信息的理解能力较差。
随着深度学习及卷积神经网络的发展,许多优秀的实例分割框架接连出现,如FCIS、MaskR-CNN、PANet等。
基于深度学习的实例分割技术革新越来越快,而当前,详细、全面地分析其研究进展的文献匮乏。本文首先对近几年的经典模型和前沿框架进行阐述,并对比分析各自的特点和性能;随之,介绍常用的评价指标;最后,提出几点有意义的研究方向,对发展趋势进行展望。
1技术发展进程
根据处理过程的区别,实例分割可分为两个阶段的实例分割和单阶段的实例分割。
两阶段实例分割根据图像分割过程和掩膜生成方式,又可以分为两类,即基于检测和基于分割的实例分割方法。前者是先对图像中的实例进行定位,确定出其位置区域,再对以上区域进行像素级的分割。而后者则是转换思路,将分割任务转化为聚类任务,先按照图像中的目标实例,将图像中的像素进行分组,再判断每组的组别,生成相应的实例掩码,不会被目标框束缚。
1.1两阶段的实例分割
实例分割的两阶段方法是长久以来研究的热点和重点,其中,基于检测的实例分割方法主要有基于滑窗法和基于边界编码法两种。
1.1.1基于滑窗法的实例分割
滑窗法通过操作不同尺寸的窗口寻找目标,在图像上按照一定的规律移动,并通过使用分类器,判别滑动的窗口中是否有目标存在。
Pinheiro等提出滑窗法的经典方法——DeepMask,该方法密集地将模型用于图像上的多位置和多尺度,不仅以固定的像素步进行窗口滑动,也保证图像中的每个目标至少被一个图像块完全覆盖。
DeepMask不是像素级别的准确分割,而是通过简单的前馈网络,得到相对粗糙的目标掩膜。Pinheiro等在DeepMask的基础上提出SharpMask算法,将低维的特征信息和高维的语义信息结合,提高了分割边缘的清晰度。
DAI提出了基于全卷积网络FCN的InstanceFCN。在FCN中每个像素的值即是其属于目标的概率大小,其中的每个得分图都对应一个不重复的图像,效果有明显提升。
传统的提取候选框的方法是选择性搜索,但是比较耗时。采用区域候选的方法,可以有效提高计算效率,先生成候选的子区域,再检测含有目标的区域。Faster‐RCNN算法提出RPN网络,先由RPN提取候选框,得到多个感兴趣区域(RoI)后,进行分类和归纳。
因为传统的全卷积网络有平移不变性,即相应不随位置而变化,像素对位置信息不敏感。Li等在In‐stanceFCN的基础上对FasterRCNN框架进行改进,提出FCIS,而实例分割要求像素具有位置敏感性,同一像素在不同候选区域应有不同的语义信息。FCIS网络是全卷积、端到端的框架,共享卷积特征和得分图,其参数少、结构小、运行快。
虽然,FCIS优化了像素对位置信息的敏感性,但分割精度没有明显改善。He等在FasterRCNN的基础上增加mask分支,提出生成目标掩膜的MaskRCNN,用RoIAlign替代感兴趣池化(RoIpooling),优化了掩膜和原图目标不对齐现象,对卷积特征和候选区域对齐信息,用双线性差值法优化了量化过程中的损失。MaskRCNN框架中的掩膜分支负责语义分割,类别分支负责类型预测。MaskRCNN首先对图像进行扫描生成候选区域,然后对候选区域进行分类,得到边界框和掩膜。在MaskRCNN算法的基础上,出现了更多优秀的两阶段分割算法,如PANet,MSRCNN,HTC等。
因为MaskRCNN采用特征金字塔网络(FPN),增加了每层特征的丰富性,可以获得图像多尺度的特征,但高层特征中的定位信息较少。针对此问题,Lin等在FPN和MaskRCNN模型的基础上提出PANet网络,在MaskRCNN中加入自下向上的短线路,缩短高层与低层间的特征融合路径,从而提高预测掩膜的生成质量。PANet具有自适应的特征池化,可以在各尺度特征中进行操作。
掩膜分割质量受MaskRCNN检测分支的分类置信度影响,为此,Huang等[11]提出了MSRCNN框架,将分类得分规则和模型针对掩膜的得分规则统一。实验表明,在不同主干网络上,MSRCNN的AP都得到稳定提升。
因为MaskLab算法的多路输出特征融合效果不佳,基于级联(Cascade)结构的算法被提出,可以有效解决多任务复杂问题。Chen等提出混合任务级联(HTC),该模型将检测和分割功能融合在一起。
1.1.2基于边界编码的实例分割
近年来,出现基于边界编码的实例分割方法,提高定位性能,使目标掩膜更清晰。Hayder等提出BAIS,通过基于边界的距离变换方法,对超出边界的掩模像素进行预测。
BAIS按顺序进行实例掩膜预测,速度受限,不适用于目标数量较多的图像。Xu等[22]提出ESE-Seg框架,由于采用边界编码方法,ESE-Seg可以通过一次遍历就能得到所有的形状信息,对图像中全部对象进行并行解码,实例掩膜预测的时间不受图像中目标数量的影响,极大地降低了分割计算消耗。
虽然,使用ESE-Seg有利于图像分割速度的提高,但分割精度没有明显改善。Cheng等[23]提出BMaskRCNN框架,可以得到更准确的形状信息和实例边界,高效地完成掩膜的定位。
基于边界编码的实例分割方法也有使用限制,如结果的精度主要依赖回归框的准确性、算法的计算量过于庞大等。因此,Peng等参考snake算法提出了Deep‐snake算法,首先初始化预测轮廓,再通过合理的变形和迭代式的轮廓调整,获得最终结果的形状。
1.1.3基于分割的实例分割方法
基于分割的实例分割方法与基于检测的实例分割方法在过程上是相逆的,早期的代表技术有:Kirillov等提出的InstanceCut,通过设计特定的边界实现实例分割,在语义分割的结果再进行分区;Liu等[27]提出SGN,结合神经网络技术,采用序列分组的思想,每个神经网络针对处理对应的某个子问题。
深度学习出现后应用广泛,在实例分割领域用于进行像素的分组和实例嵌入的学习。De等自定义判别损失函数,用此进行网络的训练,将同一实例中的像素映射到网络的高维,再用聚类方法输出实例。Fathi等引入种子模型,通过对像素计分,选择评分较高的像素作为扩展掩膜的候选,从而提升网络的分类精度。Kong等提出递归像素嵌入用于实例分组,该方法在超球面上嵌入像素,能对像素的接近性进行估算。Bai等[31]提出深分水岭变换,可以进行端到端的训练,将深度学习算法与分水岭算法结合,不仅能生成能量图,且能够快速估算每个像素与其距离最近的实例边界之间的距离,但是过分割的问题没有解决。Gao等[32]基于亲和金字塔算法,提出SSAP框架,可以与像素级语义类标签在同一个骨干网络中学习,通过对不同像素进行分层计算,得出属于同一实例的概率,从而逐层地生成目标实例。
综上,基于检测的实例分割方法严重依赖目标检测效果,基于分割的实例分割方法受限于聚类算法使得效果一般。两阶段实例分割方法属于串行处理模式,先进行定位,获取局部特征后再预测掩膜,整个流程效率较低[33],虽然结果精度好,但分割的实时性较差。
1.2单阶段的实例分割
单阶段的实例分割可以同时进行定位、分类和分割流程,属于并行处理的方式,工作速度快、效率高。根据有无锚框,单阶段实例分割方法可分为基于锚框的和无锚框两大类。
1.2.1有锚框的实例分割
有锚框的实例分割以像素为中心,生成与目标对象相适用的边界框,即用锚框来选择区域,回归对应的目标。因为预先设定了锚框用于预测边界框,该方法的准确度很高,但因为大量使用锚框,生成大量的候选区,且不同候选区还存在相似或重叠,导致该方法的计算复杂且计算量很大。
2019年,Bolya等提出第一个实时实例分割模型-YOLACT模型,该模型由ResNet和FPN构成,采用两个并行的子分支网络,分别用于产生原型掩膜和掩膜系数,并进行线性的组合,最后,经过裁剪、阈值化获得实例掩膜。
YOLACT模型虽然提升了运算速度,但mAP值较低。为此,Bolya等[36]改进了YOLACT,优化了锚框,在主干网络中引入可变形卷积DConv,且增加快速掩膜重评分网络,提出YOLACT++模型,实现了预测结果的按质量综合排序,也提高了模型的适用性。Liang等提出Poly-Transform模型,针对目标遮挡引起的目标分裂情况,将初始的图像多变扭曲,利用变形网络,转换为局部的几何边界,从而对局部特征进行有效的获取。
1.2.2无锚框的实例分割
有锚框的实例分割存在计算量大、效率低等问题,无锚框的实例分割方法不需要定义锚框,直接预测对回归框的位置和类别,运行速度快。
Wang等在FCN基础上提出SOLO,该模型由类别预测分支产生相应的语义类别,由掩膜生成分支得到实例掩膜,因为一般处理对象中的实例数量少,因此该模型存在计算量过大的缺点。对此问题,SOLOv2将掩膜分支又进行分解,得到掩膜内核和特定功能分支,通过多条并行的简单运算,解决多次迭代问题,提升了运算速度。
Ying等将候选框嵌入和像素嵌入的结合,在FCOS算法基础上提出EmbedMask模型,使得全局信息和局部信息编码有效融合,实现对目标的精确分割。Xie等在FCOS算法基础上提出PolarMask模型,通过增加通道数来实现反向传播和并行计算,提高训练速度,通过建立极坐标中心和极坐标IoU损失新概念,提高了定位精度。Chen等[42]将FCOS模型和掩膜分支结合,提出简洁的BlendMask模型,其推理时间不会因为预测目标数量的增加而增加,输出像素可以很大,可适用于全景分割。Lee等在FCOS模型上加入空间注意力引导掩膜(SAG-Mask),提出CenterMask模型既可以自然区分实例,也能预测整个图像的显著性图,保留精确的空间位置,实现精确分割。Tian等引入条件卷积,提出CondInst模型,在该模型中包括FCOS和MaskFCN分支,前者负责检测目标对象的类别,后者负责对不同对象生成实例掩膜。Yu等在单阶段检测器的基础上增加单像素重构分支,提出SPRNet模型,实现了对单个像素直接生产像素级的掩膜。以上方法都是基于FCOS算法,将实例分割和目标检测有效联系,得到更精准的实例掩膜。
Xie等提出的PolarMask模型,将距离、角度用极坐标方法进行转化,其中,极坐标原点表示实例中心,得到轮廓上确切的点位置,用原点到轮廓点的距离表示密集距离回归,实现对中心样本、密集距离回归的分别单独处理。Kirillov等提出PointRend模型得到高质量实例掩膜,通过设计轻量级的预测分支,先获得初步的掩膜,然后选取边界点,经过反复的逐层迭代,丰富边界的细节。
综上所述,两阶段检测算法经过两次目标检测,算法的准确性较好,图像分割的精度较高,但增加了模型的复杂度,模型的计算效率较低。单阶段检测算法种类多、方法多,结构简单,能够方便地进行端到端的训练,摆脱了检测框的限制,速度和精度都较好。
2算法优缺点对比
从总体来看,主流的双阶段网络分割结果的精度较好,因为框架结构灵活,对小目标的分割处理效果较好;但分类、分割任务串行执行,导致实时性较差。单阶段实例分割网络舍弃时序环节,结构更简洁和轻量化,训练更容易,运行速度更快,可应用于实时场景任务,但其分割结果的精度和对小目标的检测效果都稍差。
现从技术特点、优点、缺点等方面对主要的网络架构进行综合分析、评价。SDS是最早实例分割算法,技术路线是先生成掩码候选区域后再进行语义分割,结果比较粗糙;CFM首次将掩码的概念引入网络中,实现了从卷积特征中提取掩码,只能分割出目标大致外形;DeepMask可以生成高召回率的掩码候选区域,效率较高,但分割边界不够精准,SharpMask引入并细化底层的位置特征,可以得到更精确的分割框,但是实时性不高。maskR-CNN是通过物体检测技术产生候选区域,再同时进行交叉窗口的识别和最佳分割位置的定位,适用于实时性要求更高的场景,但对图像中的小目标、小面积区域进行分割时准确率有待提升。TensorMask用四维张量使分割掩码可以得到丰富的表征信息,适用于图像信息量较大的场景,但计算量较大、计算过程复杂,分割速度较慢。PANet通过采用特征金字塔、路径增强等技术,在底层与高层特征之间建立起信息路径,降低了计算量,适用于多种尺度的特征信息的场景,不适用于小目标的分割。DetNet将空洞卷积加入骨干网络,提高了分割表达能力。Instance FCN有较好的实例位置感知能力,可以生成位置敏感图,提高图像分割的性能。FCIS优化网络结构,实现了实例分割的端到端训练,提高了分割性能,适用于集成、多任务的图像处理场景,但网络结构复杂,不适用于小目标的分割。YOLACT和YOLACT++将原型图和检测框进行融合,实时性较好,但是分割精度有待提高,SOLO和SOLOV2通过提取目标的点特征划分图像的栅格,分割图像时速度快,精度高,但该网络的训练时间长。TensorMask采用密集滑动窗口进行图像分割,分割精度较高但计算复杂,效率较低;Polarmask采用极坐标建模mask,分割实时性好,但分割轮廓的边缘模糊。Deep Snake采用边缘建模mask,分割的实时性较好,分割边界清晰,但对目标中的空洞部分识别效果不佳;MEInst去除不必要的信息冗余,实时性有较大提升,但分割精度不高,CenterMask将分割过程分解为局部掩码和全局掩码两部分,兼顾分割处理的速度和精度。
3常用评价指标
实例分割网络的性能评价指标主要是从执行时间、算法精度、运行内存占用3方面进行考量。执行时间是针对网络的实时性进行评价,算法精度是针对分割的准确性进行评价[50]。
平均召回率(AR)表示该类别中被正确识别的物体个数占测试物体总数的百分数在全部类别上的平均数。因此,对同一网络架构,测试集中的总数越大,AR评价效果越好,一般试验选择物体总数为10、100、1 000的数量规模。
平均精确度(AP)用于计算平均的检测精度,衡量该网络架构在每个类别上的性能优劣,一般AP值越高表示该网络架构的性能越好。
均值平均精确度(mAP)是将得到该网络架构的每个类别AP值再取所有类别的平均,可以衡量该网络架构在所有类别上的性能优劣,通常用于评价多目标检测任务的网络架构的性能。mAP的取值范围为0~1,一般mAP数值越大表示该网络架构的性能越好。
交并比(IoU)表示分割结果与原始图像真值的匹配情况。即衡量该网络架构处理得到的检测框与目标图片中标记的检测框的重合程度,IoU的取值范围为0~1。
分割精度与每秒帧数(FPS)也是较常用的评价指标,是评估实例分割网络效率的指标,常用于衡量该网络架构的处理速度。FPS值越大表示该网络的处理速度越快。
4挑战与展望
基于深度学习的实例分割在计算机视觉领域展现出越来越高的研究和应用价值,需要提升分割的精度,实现快速的实例分割,适应多样的、苛刻的场景需求,可从以下方向展开研究。
小样本任务场景的应用。日常生活场景丰富多彩,特点是样本种类多,但样本数量少,而样本量的不足限制了网络训练的效果。实例分割领域的小样本问题可从以下方面研究。
(1)样本扩增:通过图像处理技术对已有样本进行处理,比如对比度、亮度调整,做平移、旋转、裁剪、扭曲等方法,也可将多个样本拼接成新图像。(2)自监督学习:自监督学习可以快速、自动生产样本图像,人工导入无标注的样本图像后,自监督学习会自动产生带标签的图像,该过程无需人工操作即可完成对网络的训练,改善样本数量少的情况,同时也提高了样本标记的效率。(3)迁移学习:图像特征有一定相关性的场景,可以采用迁移学习,对经过数据集训练后的分割模型进行迁移,改良过拟合等问题,降低对样本数量的依赖,提高分割网络的学习效率。
低质量图像的分割任务。由于现场环境条件和拍摄设备性能的限制,样本图像的质量有时不高,存在灰度值分布大、多实例之间遮掩、阴雨天色调低、烟雾模糊不清等问题,影响图像分割效果的准确性。可采用以下方法处理。(1)统一图像对比子网络:将分割网络经过合格的样本图像完成学习,再用像素级的对比子网络,将完成学习的分割网络转移到低质量图像的分割任务中,提高了合格图像和低质量图像的特征对比区分。(2)特征金字塔:使用特征金字塔放大或缩小图像中特征的尺寸,可以对尺寸小、被遮掩的图像特征提高识别的准确率,得到更好的分割效果。(3)各卷积层独立计算:对不同卷积层的图像特征,分别用不同针对性的分辨率卷积进行处理,提高整体样本图像的处理效果。
三维实例分割技术。当下三维图像传感器应用场景快速增多,三维图像数据量急剧增长,相关应用需求迫切。因为三维图像多是由新型深度相机、3D相机或激光雷达拍摄,图像的格式和传统图像不同,传统图像属于栅格型的数据,三维图像是点云类型的数据,其特点是数据信息量大、分布不规则、不均匀等,点云类型数据向栅格类型数据的转化需要大量计算,若直接采用二维图像处理的方法处理三维图形,对深度学习中的卷积网络的算力要求很高,可从以下方面研究:对三维图像数据的点云格式进行特征的提取,直接在点云上进行卷积操作,跳过三维图像和二维图像之间的转化过程,从而实现类似二维图像的处理过程,进而可以使用成熟的二维图像分割网络,提高处理的效率。
5结束语
本文首先对典型的基于深度学习的实例分割技术进行了分类和阐述,再分析比较了典型实例分割网络的性能,介绍了常用的评价指标,讨论当下实例分割面临的挑战和未来展望。虽然基于深度学习的图像实例分割技术已经有了显著的革新,当下仍存在一些技术瓶颈待研究解决,应更多地注重技术落地和应用推广。
参考文献:
[1]DALAL N,TRIGGS B.Histograms of oriented gradientsfor human detection[C]//2005 IEEE Computer Society Conference on Com‐puter Vision and Pattern Recognition(CVPR'05),2005:886-893.
[2]ZHANG Z,SCHWINGAG,FIDLERS,et al.Monocular object instance segmentation and depth ordering with cnns[C]//Pro-ceedings of the 2015 IEEE Internationa lConferenceon Compu-terVision.Los Alamitos:IEEE Computer Society Press,2015:2614-2622.
[3]REN M,ZEMEL R S.End-to-end instance segmentation with re‐current attention[C]//Proceeding sof the 2017 IEEE Confe-ren‐ceon Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society Press,2017:293-301
[4]UHRIGJ,CORDTSM,FRANKEU,et al.Pixel-level encoding and depth layering for instance-level semantic labeling[C]//Pro-ceedings of the German Conferenceon Pattern Recognition.Swit‐zerland:Springer,2016:14-25.
[5]胡伏原,万新军,沈鸣飞,等.深度卷积神经网络图像实例分割方法研究进展[J].计算机科学,2022,49(5):10-24.
[6]Li Y,Qi H,Dai J,et al.Fully convolutional instance-awarese-mantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society Press,2017:2359-2367.
[7]He K,Gkioxari G,Dollar P,et al.MaskR-CNN[C]//Proceedings of the IEEE International Conferenceon Computer Vision.Los Alamitos:IEEE Computer Society Press,2017:2980-2988.
[8]Liu S,Qi L,Qin H,et al.Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Com‐puter Vision and Pattern Recognition.Los Alamitos:IEEE Com‐puter Society Press,2018:8759-8768.
[9]DAI J,HE K,LI Y,et al.Instance-sensitive fully convolutional networks[C]//Proceedings of the European Conference on Com puter Vision.Heidelberg:Springer,2016:534-549.
[10]Li Y,Qi H,Dai J,et al.Fully convolutional instance-awarese-mantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society Press,2017:2359-2367.
[11]HE M,GKIOXARIG,DOLLáRP,etal.Mask R-CNN[C]//Pro‐ceedings of the IEEE International Conference on Computer Vi‐sion.Los Alamitos:IEEE Computer Society Press,2017:2980-2988.
[12]HUANG Z,HUANG L,GONG Y,et al.Mask scoringr-cnn[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.LosAlamitos:IEEE Computer Society Press,2019:6409-6418.
[13]Pinheiro P O,Collobert R,Dollar P.Learning to segment object and idates[J].Advances in Neural Information Processing Sys‐tems,2015,28:1990-1998.
[14]Pinheiro P O,Lin T Y,Collobert R,et al.Learning to refine object segments[C]//Europe an Conference on Computer Vision.Heidel‐berg:Springer,2016:75-91.
[15]VANDESANDEKEA,UIJLINGSJRR,GEVERST,et al.Segmenta‐tion asselective search for object recognition[C]//Proceedings of the 2011 International Conference on Computer Vision.Spain:IEEE,2011:1879-1886.
[16]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2017,39(6):1137-1149.
[17]Liu S,Qi L,Qin H,et al.Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Com‐puter Vision and Pattern Recognition.Los Alamitos:IEEE Com‐puter Society Press,2018:8759-8768.
[18]Shelhamer E,Long J,Darrell T.Fully Convolutional Networks for Semantic Segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):640-651.
[19]Chen K,Pang J,Wang J,et al.Hybrid task cascade for instance segmentation[C]//Proceedings of the IEEE Conference on Com‐puter Vision and Pattern Recognition.Los Alamitos:IEEE Com‐puter Society Press,2019:4974-4983.
[20]LIN T Y,DOLLáR P,GIRSHICK R,et al.Feature pyramid net‐works for object detection[C]//Proceedings of the IEEE Confer‐ence on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society Press,2017:936-944.
[21]Hayder Z,He X,Salzmann M.Bound aryaware instance segmenta‐tion[C]//Proceedings of the IEEE Conference on Computer Vi‐sion and Pattern Recognition.Los Alamitos:IEEE Computer So‐ciety Press,2017:5696-5704.
[22]Xu W,Wang H,Qi F,et al.Explicit shape encoding for real-time instance segmentation[C]//Proceedings of the IEEE Internation‐al Conference on Computer Vision.Los Alamitos:IEEE Comput‐er Society Press,2019:5168-5177.
[23]Cheng T,Wang X,Huang L,et al.Boundary-preserving mask R-CNN[C]//Proceedings of the Europe an Conference on ComputerVision.Heidelberg:Springer,2020:660-676.
[24]PENG S,JIANG W,PI H,et al.Deep snake for real Time instance segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Los Alami-tos:IEEE Computer Society Press,2020:8533-8542.
[25]KASS M,WITKIN A,TERZOPOULOS D.Snakes:Active contour models[J].International Journal of Computer Vision,1988,1(4):321-331.
[26]KIRILLOV A,LEVINKOV E,ANDRES B,et al.Instance Cut:from edges to instances with multi cut[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society Press,2017:5008-5017.
[27]LIU S,JIA J,FIDLER S,et al.Sgn:Sequential grouping networks for instance segmentation[C]//Proceedings of the IEEE Interna‐tional Conference on Computer Vision.Los Alamitos:IEEE Com‐puter Society Press,2017:3496-3504.
[28]De Brabandere B,Neven D,Van Gool L.Semantic instance seg‐mentation with a discriminative loss function[EB/OL].[2020-09-10].
[29]FATHI A,WOJNA Z,RATHOD V,et al.Semantic instance seg‐mentation via deep metric learning[EB/OL].[2020-09-10].
[30]KONG S,FOWLKES C.Recurrent pixel embedding for instance grouping[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society Press,2018:9018-9028.
[31]BAI M,URTASUN R.Deep water shed transform for instance segmentation[C]//Proceedings of the IEEE Conference on Com‐puter Vision and Pattern Recognition.Los Alamitos:IEEE Com‐puter Society Press,2017:5221-5229.
[32]GAO N,SHAN Y,WANG Y,et al.SSAP:Single-shot instance seg‐mentation with affinity pyramid[C]//Proceedings of the IEEE In‐ternational Conference on Computer Vision.Los Alamitos:IEEE Computer Society Press,2019:642-651.
[33]周涛,赵雅楠,陆惠玲,等.医学图像实例分割:从有候选区域向无候选区域[J].生物医学工程学杂志,2022,39(6):1218-1232
[34]Bolya D,Zhou C,Xiao F,et al.YOLACT:real-time instance segmentation[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).Seoul:IEEE,2019:9156-9165.
[35]周涛,刘赟璨,陆惠玲,等.ResNet及其在医学图像处理领域的应用:研究进展与挑战[J].电子与信息学报,2022,44(1):149-167.
[36]Bolya D,Zhou C,Xiao F,et al.YOLACT++:Better real-time in‐stance segmentation[J].IEEE T Pattern Anal,2020,44(2):1108-1121.
[37]Liang J,Homayounfar N,Ma W C,et al.Poly Transform:deep polygon transformer for instance segmentation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:9128-9137.
[38]Wang X,Kong T,Shen C,et al.SOLO:segmenting objects bylo‐cations[C]//Vedaldi A,Bischof H,Brox T,et al.European Con‐ference on Computer Vision(ECCV).ECCV 2020.Cham:Spring‐er,2020:649-665.
[39]Wang X,Zhang R,Kong T,et al.SOLOv2:Dynamic and Fast In‐stance Segmentation[J].2020.DOI:10.48550/arXiv.2003.10152.
[40]Ying H,Huang Z,Liu S,et al.Embed Mask:embedding coupling for one-stage instance segmentation[J/OL].(2019-12-04)[2022-10-16].
[41]Xie E,Sun P,Song X,et al.Polar Mask:single shot instance segmentation with polar representation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:12190-12199.
[42]Chen H,Sun K,Tian Z,et al.Blend Mask:top-down meets bot‐tom-up for instance segmentation[C]//2020 IEEE/CVF Confer‐ence on Computer Vision and Pattern Recognition(CVPR).Se‐attle:IEEE,2020:8570-8578.
[43]Lee Y,Park J.Center Mask:real-time anchor-free instance seg‐mentation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:13903-13912.
[44]Tian Z,Shen C,Chen H.Conditional convolutions for instance segmentation[C]//Vedaldi A,Bischof H,Brox T,et al.European Conference on Computer Vision(ECCV).ECCV 2020.Cham:Springer,2020:282-298.
[45]Yu J,Yao J,Zhang J,et al.SPR Net:single-pixel reconstruction for one-stage instance segmentation[J].IEEE Transactions on Cybernetics,2021,51(4):1731-1742.
[46]Xie E,Sun P,Song X,et al.Polar Mask:single shot instance segmentation with polar representation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:12190-12199.
[47]Kirillov A,Wu Y,He K,et al.Point Rend:image segmentation as rendering[C]//2020 IEEE/CVF Conference on Computer Vi‐sion and Pattern Recognition(CVPR).Seattle:IEEE,2020:9796-9805.
[48]GARCIA-GARCIA A,ORTS-ESCOLANO S,OPREA S,et al.A review on deep learning techniques applied to semantic segmen‐tation[J].arXiv:1704.06857,2017.
[49]QI L,WANG Y,CHEN Y,et al.Point INS:point-based in‐stance segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(10):6377-6392.
[50]李晓筱,胡晓光,王梓强,等.基于深度学习的实例分割研究进展[J].计算机工程与应用,2021,57(9):60-67.
[51]梁新宇,林洗坤,权冀川,等.基于深度学习的图像实例分割技术研究进展[J].电子学报,2020,(12):2476-2486.
[52]Shelhamer E,Long J,Darrell T.Fully Convolutional Networks for Semantic Segmentation[J].IEEE Transactions.on Pattern Analy‐sis&Machine Intelligence,2014,39(4):640−651.
[53]田萱,王亮,丁琪.基于深度学习的图像语义分割方法综述[J].软件学报,2019(2):440-468.
