首页> 中国专利> 基于目标追踪加速的边云协同深度学习目标检测方法

基于目标追踪加速的边云协同深度学习目标检测方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供的一种基于目标追踪加速的边云协同深度学习目标检测方法，解决了目标检测问题实时性不能得到保障的问题。通过三阶段的处理，第一阶段，在边缘节点上，使用自适应关键帧算法提供关键帧的选择方法，并且做到在同一深度学习模型中选择关键帧只需极小的计算资源代价。第二阶段，在云端，利用边缘筛选的数据，使用高精度的分类模型，进行高精度的目标检测。第三阶段，在边缘端，利用孪生网络，通过关键帧的分类和标框结果进行快速追踪，该方法在利用自适应关键帧算法实现针对视频目标检测的数据筛选，同时实现模型精度和时延消耗的折中，给解决边云协同深度学习模型视频目标检测问题提供了可靠的方案。

著录项

公开/公告号CN112817755A

专利类型发明专利
公开/公告日2021-05-18

原文格式PDF
申请/专利权人西安交通大学;
展开▼

申请/专利号CN202110091011.5
发明设计人杨树森;赵鹏;郭思言;高远方;王归秦;赵聪;贾根龙;
展开▼

申请日2021-01-22
分类号G06F9/50(20060101);G06K9/00(20060101);G06K9/20(20060101);G06K9/32(20060101);G06K9/62(20060101);G06N3/063(20060101);G06N3/08(20060101);G06T7/246(20170101);
代理机构61200 西安通大专利代理有限责任公司;
代理人王艾华
地址 710049 陕西省西安市咸宁西路28号
入库时间 2023-06-19 11:02:01

说明书

技术领域

本发明属于人工智能领域，具体涉及一种快速的在线视频对象检测方法，它以协作的方式利用云上的精确对象检测器和系统边缘资源有限的设备上的轻量级对象跟踪器。

背景技术

视频对象检测在越来越多需要智能视频分析的智能城市应用中发挥着重要作用。然而，占主导地位的方法要么受到端到端视频对象检测响应时间长的影响，要么受到其离线特性的影响，使得它们不适用于对延迟敏感的视频流分析。传统集中式云计算常用于训练高精度深度学习模型，例如深层神经网络，然而，数据上云的时延造成云上检测速度慢。使用分布式边缘计算范式，边缘服务器从附近的终端节点获取图像、视频等原始数据，在没有大规模原始数据上传的情况下进行本地学习，选择数据上云，以减少边缘和云端之间的时延消耗，因此，基于边缘服务器上的本地学习和云上的协作是必要的，同时需要实现在时延消耗和模型精度之间进行权衡的方案。

发明内容

本发明的目的在于克服上述现有技术的缺点，为了解决这个问题本发明提出了ECC-Detect，一种快速的在线视频对象检测方法，它以协作的方式利用云上的精确对象检测器和系统边缘资源有限的设备上的轻量级对象跟踪器。本发明提出了一种新的分支深层网络架构，通过目标检测器和目标跟踪器共享同一个特征提取器，大大降低了协同目标检测的计算和通信成本。使用大规模视频数据集在真实原型上进行的大量实验结果表明，与仅云部署和仅边缘部署以及最先进的方法相比，ECC-Detect能够实现高达21倍的在线视频对象检测速度，134倍的较低边缘云带宽消耗，并且精度损失最多不超过15％。

为达到上述目的，本发明采用如下技术方案来实现的：

1.基于边云协同深度网络的视频实时目标检测，其特征在于，用于分类模型训练的数据先在边缘节点中进行特征图提取，通过对比相似度，确定特征图是进行目标检测或追踪，包括选择器，检测器，追踪器三个阶段：

阶段一：

1)利用边缘节点上的终端数据，使用深度学习中的卷积网络，提取特征图，通过使用自适应的关键帧选取算法实现选择器功能；

2)在稀疏处理视频时，有多种启发式方法来选择关键帧。由于更关心帧中的时间语义信息变化，所以只在当前帧和最后一个关键帧之间的内容有重大差异时才选择关键帧，即自适应的关键帧选取算法；

3)将选中的关键帧，经过边云间的通信网络，由边缘端上传到云端，在云端进行处理，为第二阶段进行准备；将非关键帧继续留在边缘设备，为第三阶段进行准备；

阶段二：

4)云端汇聚边缘端的数据，由检测网络的剩余部分对其进行处理，这里使用了高精度的检测算法进行目标检测；

5)检测算法作为目标检测的部分，主要关注特定的物体目标，要求同时获得这一目标的类别信息和位置信息，即需要从背景中分离出感兴趣的目标，并确定这一目标的描述(类别和位置)，因而，检测模型的输出是一个列表，列表的每一项使用一个数据组给出检出目标的类别和位置(常用矩形检测框的坐标表示)；

6)从云返回检测结果，包括当前帧边界框和类别预测。在第二阶段的最后，更新关键帧和目标的位置，经过边云间的通信网络，由云端上传到边缘端，这将是第三阶段所需要的；

阶段三：

7)对于第二阶段传输的结果，利用第二阶段获取的目标位置信息裁剪更新后的关键帧，得到只包含目标对象的图像，这就是新的结果。然后将这个结果和当前帧(也是一个非关键帧)传入到Siamese-RPN网络，获取当前帧中对象的坐标，并从检测器继承分类结果；

8)对于第一阶段判断出的非关键帧，采用孪生网络，一种重量轻和有效的方法，用于跟踪从第二阶段获得的更新后的结果。

步骤1)的具体操作为：利用边缘节点上汇聚的终端数据，在这里使用ImageNetvid数据集的视频数据，对于每个视频帧{I

a.将图像调整到较小的尺寸，虽然d-Hash通常将图像大小调整为9*8，但使用更大的尺寸是因为分辨率更高，这有利于细粒度的比较，在细粒度的比较中，连贯视频帧中的信息变化很小；

b.灰度化图像，为了简化信息需要将RGB转换为0到255之间的整数值；

c.生成相应的表示向量，对于当前帧，位置p处的d-Hash索引表示为D(p)＝(D

本发明的进一步改进在于，提出基于边云协同的架构的检测方法(ECC-Detect)，使用自适应关键帧选择算法选取关键帧，通过计算最后一个关键帧I

其中，

步骤3)的具体操作为：将选中的关键帧，经过边云间的通信网络，由边缘端上传到云端，在云端进行检测处理；将非关键帧继续留在边缘设备，进行追踪检测。

步骤4)的具体操作为：云端汇聚边缘端的数据，由检测网络的剩余部分对其进行处理，这里采用了高精度的检测算法SSD进行目标检测，SSD在主干卷积网络末尾添加了卷积特征层，这些特征层提取不同的特征图，检测得到多个尺度的目标信息。

步骤5)的具体操作为：检测算法为获得这一目标的类别信息和位置信息，使用9个锚点(3个比例和3个纵横比比率)以利用不同的形状和NMS减少每个图像的区域提议，检测算法利用SSD提取的中间特征图作为输入，最终输出对象的位置，类别和类别分数。

步骤6)的具体操作为：从云返回检测结果，包括当前帧的位置，类别和类别分数，将其作为模板，利用坐标信息的左上角和右下角的坐标裁剪关键帧，得到目标信息，同时需要将模板调整为固定大小作为更新后的模板。

步骤7)的具体操作为：对于步骤6传输的结果，利用其获取的目标位置信息和更新后的模板，将其与当前模板进行比较并找到当前模板对象的位置，利用对象位置信息更新的关键帧，然后得到仅包含目标对象的图像，即新模板。然后将这个结果和当前帧(也是一个非关键帧)传入到Siamese-RPN网络，获取当前帧中对象的坐标，并从检测器继承分类结果。

步骤8)的具体操作为：对于步骤2判断出的非关键帧采用孪生网络，将当前帧作为输入将其馈入特征网络以获取其特征图，在追踪网络中得到分类结果并进行回归以获得目标的位置和类别。

本发明的进一步改进在于，为了减少检测耗时，提出了边云架构下的边云协同检测算法，算法流程：

本发明具有如下有益的技术效果：

本发明提供的一种基于目标追踪加速的边云协同深度学习目标检测方法，给了边云协同模型进行目标检测问题提供了一种高可用性的解决方案。在边缘节点上，使用少量的计算资源完成数据针对分类任务的特征图提取，自适应关键帧算法提供关键帧的选择方法，并且做到在同一深度学习模型中选择关键帧只需极小的计算资源代价。在云端，利用边缘筛选的数据，使用高精度的分类模型，进行高精度的目标检测。在边缘端，利用孪生网络，通过关键帧的分类和标框结果进行快速追踪，该方法在利用自适应关键帧算法实现针对视频目标检测的数据筛选，同时实现模型精度和时延消耗的折中，给解决边云协同深度学习模型视频目标检测问题提供了可靠的方案。

附图说明

图1为边云协同目标检测过程整体框架及流程示意图；

图2为边缘-云端网络结构图(以Siamese RPN-SSD为例)；

图3为边缘-云端网络模型部署图(以Siamese RPN-SSD为例)；

图4为自适应关键帧提取视觉结果对照图

图5为不同传输速率下在不同模型分支的运行时间

具体实施方式

下面结合附图对本发明作进一步详细描述。

参考图1，考虑数据直接上云进行目标检测带来的时延对视频难以达到实时的效果。因此提出基于目标追踪加速的边云协同深度学习目标检测方法。包括三个阶段，阶段一，在边缘端训练简单的特征图提取，并将视频当前帧进行关键帧判别。阶段二，在云端上使用具有高分类精度的模型，进行高精度的目标检测，对边缘的特征图进行分类和标框，保持检测精度。阶段三，在边缘端，使用孪生网络以关键帧上云的检测结果作为模板进行追踪，保证检测速度的提升，具体包括以下步骤：

阶段一：

1)利用边缘节点上汇聚的终端数据，在这里使用ImageNet vid数据集的视频数据，对于每个视频帧{I

a.将图像调整到较小的尺寸。虽然d-Hash通常将图像大小调整为9*8，但使用更大的尺寸是因为分辨率更高，这有利于细粒度的比较，在细粒度的比较中，连贯视频帧中的信息变化很小。

b.灰度化图像。为了简化信息，将RGB转换为0到255之间的整数值。

c.生成相应的表示向量。对于当前帧，位置p处的d-Hash索引表示为D(p)＝(D

2)自适应关键帧选取算法，在稀疏处理视频时，有多种启发式方法来选择关键帧。由于更关心帧中的时间语义信息变化，所以只在当前帧和最后一个关键帧之间的内容有重大差异时才选择关键帧，即自适应的关键帧选取算法；

阶段二：

4)云端汇聚边缘端的数据，由检测网络的剩余部分对其进行处理，这里使用了高精度的检测算法进行目标检测；

阶段三：

8)对于第一阶段判断出的非关键帧，采用孪生网络，一种重量轻和有效的方法，用于跟踪从第二阶段获得的更新后的结果。

参考图2，本发明设计了边云协同架构下的深度学习目标检测模型结构，重点在于在检测精度损失可接受的前提下，为了加速检测，以达到实时的效果，提出了边云协同架构下的目标检测方案，视频的每一帧会被判为关键帧或非关键帧，关键帧和非关键帧共有block1和block2层，通过第一阶段的自适应关键帧筛选算法进行判别上云检测或进端检测。

参考图3，本发明部署了边云协同架构下的深度学习目标检测模型，重点在于选择模型检测和追踪的共用部分，选择基于mobilenet-v2的SSD的检测算法和基于mobilenet-v2的Siamese RPN算法进行部署，拆分前四个卷积层作为公共部分部署在端进行特征图提取，使用自适应关键帧筛选算法在端进行分支判断，在云上部署SSD算法剩下的卷积层进行高精度目标检测，在端上部署Siamese RPN算法剩余部分进行追踪。

参考图4，可以发现目标检测的对象通常不是均匀分布在视频中的。很容易观察到，固定速率选择的关键帧在开始时几乎是相同的，因为在视频的早期阶段没有内容变化，因此这些关键帧是多余的和没有意义的。此外，固定速率策略不能及时发现帧中的变化，例如新对象出现(从第274帧开始)和对象外观变化(在第381帧)。图4通过关键帧的数量绘制了两种方法的精度变化，表明该方法筛选到更合适的关键帧更可靠。

参考图5，在不同传输速度下，平衡了不同切割点部署模型在端上和云上运算时间，通过计算进行视频目标检测总的运行时间，选择最优的分支层。从结果中还可以注意到边缘云协作在速度上优于仅边缘和仅云协作。通过将检测网络分支划分为云，检测任务的运行时间在不损失准确性的情况下获得了惊人的减少。需要传输的中间特征图的量化将进一步减少运行时间，同时精度略有下降，这是根据应用需要在精度和速度之间进行的权衡。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于目标追踪加速的边云协同深度学习目标检测方法 [P] . 中国专利： CN112817755A . 2021-05-18
2. 基于深度学习目标检测的违规广告图片检测方法及系统 [P] . 中国专利： CN113822277B . 2022.02.18
3. ARTIFICIAL INTELLIGENCE DEEP LEARNING TARGET DETECTION AND VELOCITY POTENTIAL FIELD ALGORITHM BASED OBSTACLE AVOIDANCE AND AUTONOMOUS NAVIGATION TECHNIQUE [P] . KR102230144B1 . 2021-03-22

机译：基于障碍和自主导航技术的人工智能深度学习目标检测与速度潜在场算法
4. Real-time pet detection method based on deep-learning and multi-object tracking method [P] . KR20220000611A . 2022-01-04

机译：基于深度学习和多目标跟踪方法的实时PET检测方法
5. ULTRA-HIGH SENSITIVE TARGET SIGNAL DETECTION METHOD BASED ON NOISE ANALYSIS USING DEEP LEARNING BASED ANOMALY DETECTION AND SYSTEM USING THE SAME [P] . US2021216877A1 . 2021-07-15

机译：基于噪声分析的超高敏感目标信号检测方法使用相同的深度学习的异常检测和系统