首页> 中国专利> 基于神经网络的实例分割方法和装置以及存储介质

基于神经网络的实例分割方法和装置以及存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于神经网络的实例分割方法和装置以及存储介质。其中，该方法包括：通过获取视频流中的目标图片；将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割；根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例；确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片，进而解决了现有技术中，实例分割计算速度较低的技术问题。

著录项

公开/公告号CN112348828A

专利类型发明专利
公开/公告日2021-02-09

原文格式PDF
申请/专利权人浙江大华技术股份有限公司;
展开▼

申请/专利号CN202011166214.8
发明设计人苏浩;潘武;张小锋;黄鹏;胡彬;林封笑;
展开▼

申请日2020-10-27
分类号G06T7/11(20170101);G06T5/00(20060101);G06N3/04(20060101);G06N3/08(20060101);G06K9/62(20060101);
代理机构11240 北京康信知识产权代理有限责任公司;
代理人江舟
地址 310051 浙江省杭州市滨江区滨安路1187号
入库时间 2023-06-19 09:51:02

说明书

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种基于神经网络的实例分割方法和装置以及存储介质。

背景技术

在图像进行处理的时候，通常需要对图片中所包含的各个实例进行定位和区分。例如，采用目标检测方法框出不同的实例，再用语义分割方法对不同类别的实例所在区域进行逐像素标记，从而区分不同类别的实例。若需要对相同类别的实例进行进一步的区分，则对图片进行实例分割，实例分割不仅可以对图片进行类别的区分，还可以在相同类别的实例中区分出不同的实例。

现有的采用基于候选区域的实例分割架构对图片在N个层级的预测网络中实例分割，以直接得到实例分割结果。通过级联的方式提高了实例分割的准确率，但是推理速度却大大降低了，没有做到速度与精度的均衡。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于神经网络的实例分割方法和装置以及存储介质，以至少解决现有技术中，实例分割计算速度较低的技术问题。

根据本发明实施例的一个方面，提供了一种基于神经网络的实例分割方法，包括：获取视频流中的目标图片；将所述目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，所述实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，所述检测网络用于获取实例边界框的参数，所述特征图处理层将所述边界框的参数进行处理，得到目标参数，所述掩码处理层根据所述目标参数对所述目标图片进行实例分割；根据所述第一实例集合中的目标实例之间的重叠度确定第一实例集合中所述目标实例的相似实例；确定所述相似实例中大于第一预定阈值的实例，得到所述目标图片中所述目标实例的至少一个实例图片。

可选的，所述将所述目标图片输入至目标实例分割神经网络中，输出第一实例集合之前，所述方法包括：获取视频流中的样本图片集合；将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集；将所述标注数据集输入至预设实例分割神经网络中，其中，所述预设神经网络包括预设检测网络、预设特征图处理层、预设掩码处理层以及目标损失函数，所述检测网络用于获取预设样本图片中实例边界框的参数，所述特征图处理层将所述预设样本图片中实例的边界框的参数进行处理，得到预设目标参数，所述掩码处理层根据所述预设目标参数对所述样本目标图片进行实例分割，所述目标损失函数，所述目标损失函数包括二元交叉熵损失函数和交并比损失函数；在所述目标损失函数满足预定条件的情况下，确定为所述实例分割神经网络。

可选的，将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集包括：采用实例分割标准数据增强技术将样本图片集合中的每张图片和标注结果进行数据增强，得到所述目标数据集。

可选的，将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集之后，所述方法还包括：将所述目标数据集按照预设比例划分为训练集、验证集和测试集，其中，所述训练集用于所述预设实例分割神经网络的训练、所述验证集用于所述预设实例分割神经网络的验证和所述测试集用于所述预设神经网络分割模型测试。

可选的，将所述标注数据集输入至预设实例分割神经网络中之前，所述方法还包括：构建初始化检测网络，其中，所述检测网络包括特征提取骨干网络、特征增强网络和检测头，所述特征提取骨干网络用于对样本图片集合中的每张图片的实例进行特征提取得到特征图，所述特征增强网络将所述特征图进行特征图增强并对特征图的尺寸进行标记，将不同尺寸标记的特征图输入到所述检测头得到样本实例边界框的参数；根据所述初始化检测网络、预设特征图处理层以及预设掩码处理构建所述预设实例分割神经网络，其中，所述预设特征图处理层将所述样本实例边界框的参数进行处理，得到样本目标参数，所述预设掩码处理层根据所述样本目标参数对所述样本目标图片进行实例分割。

根据本发明实施例的另一方面，还提供了一种基于神经网络的实例分割装置，包括：

根据本发明实施例的一个方面，提供了一种基于神经网络的实例分割装置，包括：第一获取单元，用于获取视频流中的目标图片；输出单元，用于将所述目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，所述实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，所述检测网络用于获取实例边界框的参数，所述特征图处理层将所述边界框的参数进行处理，得到目标参数，所述掩码处理层根据所述目标参数对所述目标图片进行实例分割；第一确定单元，用于根据所述第一实例集合中的目标实例之间的重叠度确定第一实例集合中所述目标实例的相似实例；第二确定单元，用于确定所述相似实例中大于第一预定阈值的实例，得到所述目标图片中所述目标实例的至少一个实例图片。

可选的，上述装置包括：第二获取单元，用于所述将所述目标图片输入至目标实例分割神经网络中，输出第一实例集合之前，获取视频流中的样本图片集合；得到单元，用于将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集；输入单元，用于将所述标注数据集输入至预设实例分割神经网络中，其中，所述预设神经网络包括预设检测网络、预设特征图处理层、预设掩码处理层以及目标损失函数，所述检测网络用于获取预设样本图片中实例边界框的参数，所述特征图处理层将所述预设样本图片中实例的边界框的参数进行处理，得到预设目标参数，所述掩码处理层根据所述预设目标参数对所述样本目标图片进行实例分割，所述目标损失函数，所述目标损失函数包括二元交叉熵损失函数和交并比损失函数；第三确定单元，用于在所述目标损失函数满足预定条件的情况下，确定为所述实例分割神经网络。

可选的，上述得到单元包括：得到模块，用于采用实例分割标准数据增强技术样本图片集合中的每张图片和标注结果进行数据增强，得到所述目标数据集。

可选的，上述装置还包括：划分单元，用于将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集之后，将所述目标数据集按照预设比例划分为训练集、验证集和测试集，其中，所述训练集用于所述预设实例分割神经网络的训练、所述验证集用于所述预设实例分割神经网络的验证和所述测试集用于所述预设神经网络分割模型测试。

可选的，上述装置还包括：第一构建单元，用于将所述标注数据集输入至预设实例分割神经网络中之前，构建初始化检测网络，其中，所述检测网络包括特征提取骨干网络、特征增强网络和检测头，所述特征提取骨干网络用于对样本图片集合中的每张图片的实例进行特征提取得到特征图，所述特征增强网络将所述特征图进行特征图增强并对特征图的尺寸进行标记，将不同尺寸标记的特征图输入到所述检测头得到样本实例边界框的参数；第二构建单元，用于根据所述初始化检测网络、预设特征图处理层以及预设掩码处理构建所述预设实例分割神经网络，其中，所述预设特征图处理层将所述样本实例边界框的参数进行处理，得到样本目标参数，所述预设掩码处理层根据所述样本目标参数对所述样本目标图片进行实例分割。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述基于神经网络的实例分割方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的基于神经网络的实例分割方法。

在本发明实施例中，通过获取视频流中的目标图片；将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割；根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例；确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片，达到了通过具有检测网络、特征图处理层以及掩码处理层的实例分割神经网络对目标图片进行实例分割以及对实例分割结果通过阈值确定目标实例的目的，从而实现了快速且精准的技术效果，进而解决了现有技术中，实例分割计算速度较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的基于神经网络的实例分割方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的基于神经网络的实例分割方法的流程图；

图3是根据本发明实施例的一种可选的实例分割方法；

图4是根据本发明实施例的一种可选的实例分割网络的结构图；

图5是根据本发明实施例的一种可选的掩码处理层的结构图；

图6是根据本发明实施例的一种可选的基于神经网络的实例分割装置的结构示意图；

图7是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种基于神经网络的实例分割方法，可选地，作为一种可选的实施方式，上述基于神经网络的实例分割方法可以但不限于应用于如图1所示的环境中。其中包括终端设备102，网络104以及服务器106。

可选的，上述基于神经网络的实例分割方法可以由终端设备102执行，也可以由服务器106执行，还可以由终端设备102与服务器106共同执行完成。

以服务器106执行上述基于神经网络的实例分割方法为例说明如下。

服务器106获取视频流中的目标图片；将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割；根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例；确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片，达到了通过具有检测网络、特征图处理层以及掩码处理层的实例分割神经网络对目标图片进行实例分割以及对实例分割结果通过阈值确定目标实例的目的，从而实现了快速且精准的技术效果，进而解决了现有技术中，实例分割计算速度较低的技术问题。

可选地，在本实施例中，上述终端设备102可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图2所示，上述基于神经网络的实例分割方法包括：

步骤S2020，获取视频流中的目标图片。

步骤S204，将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割。

步骤S206，根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例。

步骤S208，确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片。

可选的，在本实施例中，上述的方案可以包括但不限于应用于人像拍照、视频特效、AR场景、自动驾驶、视频目标跟踪、无人机视频图像处理等场景，在进行目标对象跟踪是需要对视频流中的图片进行实例分割，在进行视频目标跟踪。快速且精确的实例分割是进行下一步的良好基础。

通过本申请提供的实施例，获取视频流中的目标图片；将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割；根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例；确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片，达到了通过具有检测网络、特征图处理层以及掩码处理层的实例分割神经网络对目标图片进行实例分割以及对实例分割结果通过阈值确定目标实例的目的，从而实现了快速且精准的技术效果，进而解决了现有技术中，实例分割计算速度较低的技术问题。

可选的，将目标图片输入至目标实例分割神经网络中，输出第一实例集合之前，方法可以包括：获取视频流中的样本图片集合；将样本图片集合中每张图片中的目标对象进行标注，得到目标数据集；将标注数据集输入至预设实例分割神经网络中，其中，预设神经网络包括预设检测网络、预设特征图处理层、预设掩码处理层以及目标损失函数，检测网络用于获取预设样本图片中实例边界框的参数，特征图处理层将预设样本图片中实例的边界框的参数进行处理，得到预设目标参数，掩码处理层根据预设目标参数对样本目标图片进行实例分割，目标损失函数，目标损失函数包括二元交叉熵损失函数和交并比损失函数；在目标损失函数满足预定条件的情况下，确定为实例分割神经网络。

可选的，将样本图片集合中每张图片中的目标对象进行标注，得到目标数据集包括：采用实例分割标准数据增强技术样本图片集合中的每张图片和标注结果进行数据增强，得到目标数据集。

可选的，将样本图片集合中每张图片中的目标对象进行标注，得到目标数据集之后，方法还包括：将目标数据集按照预设比例划分为训练集、验证集和测试集，其中，训练集用于预设实例分割神经网络的训练、验证集用于预设实例分割神经网络的验证和测试集用于预设神经网络分割模型测试。

可选的，将标注数据集输入至预设实例分割神经网络中之前，方法还包括：构建初始化检测网络，其中，检测网络包括特征提取骨干网络、特征增强网络和检测头，特征提取骨干网络用于对样本图片集合中的每张图片的实例进行特征提取得到特征图，特征增强网络将特征图进行特征图增强并对特征图的尺寸进行标记，将不同尺寸标记的特征图输入到检测头得到样本实例边界框的参数；根据初始化检测网络、预设特征图处理层以及预设掩码处理构建预设实例分割神经网络，其中，预设特征图处理层将样本实例边界框的参数进行处理，得到样本目标参数，预设掩码处理层根据样本目标参数对样本目标图片进行实例分割。

作为一种可选的实施例，本申请还提供了一种实例分割方法。如图3所示，实例分割方法的流程图。详细说明如下。

步骤31，待检测视频图像进行初始化和预处理。

视频图像预处理，包括：初始化待检测的视频图像，记为X

其中，标准的实例分割标注方法是指实例分割旨在预测图像中每个实例的位置和语义蒙版，采用开源软件labelme进行标注。

实例分割标准数据增强技术是指标准数据增强技术通过对数据集图像进行翻转、旋转、缩放、平移、增加高斯噪声、对比度变换、颜色变换等操作来扩充数据集。数据增强主要是为了减少网络的过拟合现象，通过对训练图片进行变换可以得到泛化能力更强的网络，更好的适应应用场景。

步骤32，构建和初始化卷积神经检测网络。

按照标准YOLOv4网络构造方法，构造和初始化标准的卷积神经检测网络模型，记为W

其中，W

在特征增强网络W

在W

其中，标准的CSPDarknet53是在Yolov3主干网络Darknet53的基础上，借鉴2019年CSPNet的经验，产生的Backbone结构，其中，包含了5个CSP模块(跨级局部连接模块)；YOLOv4相对于YOLOv3在准确率上提升了近10个点，然而速度几乎没有下降，YOLOv4是一种速度更快、精度更好的检测模型，仅需要单张1080Ti或2080Ti即可完成训练。

标准的特征金字塔和路径增强结构基于特征金字塔框架，增强了信息传播，其添加了自底向上的增强路径，从而改善了低层特征的传播。新增的第三路径的每个阶段都将前一阶段的特征图作为输入，并用3×3卷积层处理它们。使用横向连接将卷积的输出添加到自顶向下路径的相同阶段特征图中，然后把这些特征图送到下一阶段。

标准的CoordConv层是深度学习里的卷积运算是具有平移等变性的，这样可以在图像的不同位置共享统一的卷积核参数，但是这样卷积学习过程中是不能感知当前特征在图像中的坐标的。CoordConv就是通过在卷积的输入特征图中新增对应的通道来表征特征图像素点的坐标，让卷积学习过程中能够一定程度感知坐标来提升检测精度，从而在几乎不增加计算量的情况下优化特征提取。

其中，标准的YOLOv3检测头，YOLOv3网络由特征提取网络Darknet53和YOLOv3检测头组成，YOLOv3检测头通过3个不同尺度的特征图来进行目标检测，能够检测到更加细粒度的特征，有利于小目标的检测。

步骤33，构建和初始化实例分割网络。

在步骤32中得到的卷积神经检测网络模型

在特征图预处理层W

掩码分支根据上述的分配结果，在特征增强网络

步骤34，训练和调整实例分割网络。

初始化图像处理批量大小和迷你批量大小，分别记为BS和mini-BS；初始化学习率，记为LR；初始化权重衰减率和动量，分别记为WDR，MO；初始化训练周期，记为epoch；将从均值为0、方差为1的高斯分布中采样的值，作为实例分割模型W

其中，标准的实例分割网络训练技术中采用DropBlock算法减少过拟合，相比于Dropout算法，DropBlock算法在Drop特征的时候不是以特征点的形式来Drop的，而是会集中Drop某一块区域，从而更适合被应用到实例分割任务中来提高网络的泛化能力；标准的实例分割网络训练技术中采用Mosaic数据增强，它将4张图片利用随机缩放、随机裁剪、随机排布的方式进行拼接为一张图，以此来提升小、中目标的性能；另外，如果在一次迭代中，小物体的损失函数低于某一个阈值，则下一个迭代就利用拼接图，否则采用正常图像训练；标准的实例分割网络训练技术中也会对图片进行自适应缩放；标准的实例分割网络训练技术中还采用CmBN、SAT自对抗训练等技术来训练网络。

标准的CIoU损失函数，DIoU要比GIou更加符合目标框回归的机制，将目标与anchor之间的距离，重叠率以及尺度都考虑进去，使得目标框回归变得更加稳定，CIoU在DIoU的基础上考虑到了边界框回归三要素中的长宽比，使得结果更加精确。

标准的指数滑动平均技术指数滑动平均技术是指将参数过去一段时间的均值作为新的参数；相比直接对参数进行更新，采用指数滑动平均的方式能让参数学习过程中变得更加平缓，能有效避免异常值对参数更新的影响，提升模型训练的收敛效果。

步骤35、对待检测视频流进行实时实例分割。

将摄像头实时采集的视频流初始化为待检测视频流，记为V；采用多线程技术对于视频流V按照FFmpeg标准解码，解码的结果记为

其中，标准的Matrix NMS通过一个矩阵并行运算的方式计算出任意两个框之间的交并比IoU，例如，对某一个预测框B计算抑制系数时，Matrix NMS通过矩阵并行方式计算出所有得分高于B的预测框与预测框B的IoU，然后根据这些IOU和得分高于B的预测框的被抑制概率做近似估算，估算出B的抑制系数，从而实现并行化的计算Soft NMS，在提高检测精度的同时，避免了推理速度的降低。

通过本实施例，将摄像头实时采集的视频流初始化为待检测视频流，记为V；采用多线程技术对于视频流V按照FFmpeg标准解码，解码的结果记为

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述基于神经网络的实例分割方法的基于神经网络的实例分割装置。如图所示，6该基于神经网络的实例分割装置包括：第一获取单元61、输出单元63、第一确定单元65以及第二确定单元67。

第一获取单元61，用于获取视频流中的目标图片。

输出单元63，用于将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割。

第一确定单元65，用于根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例。

第二确定单元67，用于确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片。

通过本申请提供的实施例，第一获取单元61获取视频流中的目标图片；输出单元63将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割；第一确定单元65根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例；第二确定单元67确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片。达到了通过具有检测网络、特征图处理层以及掩码处理层的实例分割神经网络对目标图片进行实例分割以及对实例分割结果通过阈值确定目标实例的目的，从而实现了快速且精准的技术效果，进而解决了现有技术中，实例分割计算速度较低的技术问题。

作为一种可选的实施例，上述装置可以包括：

第二获取单元，用于将目标图片输入至目标实例分割神经网络中，输出第一实例集合之前，获取视频流中的样本图片集合；

得到单元，用于将样本图片集合中每张图片中的目标对象进行标注，得到目标数据集；

输入单元，用于将标注数据集输入至预设实例分割神经网络中，其中，预设神经网络包括预设检测网络、预设特征图处理层、预设掩码处理层以及目标损失函数，检测网络用于获取预设样本图片中实例边界框的参数，特征图处理层将预设样本图片中实例的边界框的参数进行处理，得到预设目标参数，掩码处理层根据预设目标参数对样本目标图片进行实例分割，目标损失函数，目标损失函数包括二元交叉熵损失函数和交并比损失函数；

第三确定单元，用于在目标损失函数满足预定条件的情况下，确定为实例分割神经网络。

作为一种可选的实施例，上述得到单元可以包括：

得到模块，用于采用实例分割标准数据增强技术样本图片集合中的每张图片和标注结果进行数据增强，得到目标数据集。

作为一种可选的实施例，上述装置可以包括：

划分单元，用于将样本图片集合中每张图片中的目标对象进行标注，得到目标数据集之后，将目标数据集按照预设比例分为划分训练集、验证集和测试集，其中，训练集用于预设实例分割神经网络的训练、验证集用于预设实例分割神经网络的验证和测试集用于预设神经网络分割模型测试。

作为一种可选的实施例，上述装置可以包括：

第一构建单元，用于将标注数据集输入至预设实例分割神经网络中之前，构建初始化检测网络，其中，检测网络包括特征提取骨干网络、特征增强网络和检测头，特征提取骨干网络用于对样本图片集合中的每张图片的实例进行特征提取得到特征图，特征增强网络将特征图进行特征图增强并对特征图的尺寸进行标记，将不同尺寸标记的特征图输入到检测头得到样本实例边界框的参数；

第二构建单元，用于根据初始化检测网络、预设特征图处理层以及预设掩码处理构建预设实例分割神经网络，其中，预设特征图处理层将样本实例边界框的参数进行处理，得到样本目标参数，预设掩码处理层根据样本目标参数对样本目标图片进行实例分割。

根据本发明实施例的又一个方面，还提供了一种用于实施上述基于神经网络的实例分割方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器例来说明。如图7所示，该电子设备包括存储器702和处理器704，该存储器702中存储有计算机程序，该处理器704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取视频流中的目标图片；

S2，将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割；

S3，根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例；

S4，确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片。

可选地，本领域普通技术人员可以理解，图7所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图7中所示更多或者更少的组件(如网络接口等)，或者具有与图7所示不同的配置。

其中，存储器702可用于存储软件程序以及模块，如本发明实施例中的基于神经网络的实例分割方法和装置对应的程序指令/模块，处理器704通过运行存储在存储器702内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的基于神经网络的实例分割方法。存储器702可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器702可进一步包括相对于处理器704远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器702具体可以但不限于用于存储目标图片、目标图片实例分割的结果等信息。作为一种示例，如图7所示，上述存储器702中可以但不限于包括上述基于神经网络的实例分割装置中的第一获取单元61、输出单元63、第一确定单元65以及第二确定单元67。此外，还可以包括但不限于上述基于神经网络的实例分割装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置706包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置706为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器708，用于显示上述待实例分割的图片以及实例分割的结果；和连接总线710，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述基于神经网络的实例分割的方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取视频流中的目标图片；

S3，根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例；

S4，确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于神经网络的实例分割方法和装置以及存储介质 [P] . 中国专利： CN112348828A . 2021-02-09
2. 基于图神经网络的光学遥感图像实例分割方法及装置 [P] . 中国专利： CN113554656B . 2022.02.11
3. NEURAL NETWORK MODEL SPLITTING METHOD, APPARATUS, COMPUTER DEVICE AND STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2020164644A3 . 2020-10-01

机译：神经网络模型分割方法，装置，计算机装置和存储介质
4. NEURAL NETWORK MODEL SPLITTING METHOD, APPARATUS, COMPUTER DEVICE AND STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2020164644A2 . 2020-08-20

机译：神经网络模型分割方法，装置，计算机设备和存储介质
5. Method and Apparatus for Multi-Model Primitive Fitting based on Deep Geometric Boundary and Instance Aware Segmentation [P] . 美国专利： US2019279368A1 . 2019-09-12

机译：基于深几何边界和实例感知分割的多模型原始拟合方法和装置