首页> 中国专利> 一种基于深层神经网络的视频重点区域确定算法

一种基于深层神经网络的视频重点区域确定算法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于深层神经网络的视频重点区域确定算法，该基于深层神经网络的视频重点区域确定算法具体步骤如下：S1：使用一种端到端的网络模型，确定视频图像中的显著性区域，S2：利用深层神经网络提取的重点区域特征进行自适应特征提取，S3：利用基于多层金字塔的特征提取算法提取到的特征。本发明提供了一种基于深层神经网络的视频质量诊断算法及其在智能安防中的应用，该方法可以有效正确检测视频中重要的参考区域，对视频图像存在的问题进行分类，并能实现自动区分质量问题的严重程度，从而实现视频图像质量的分级告警。

著录项

公开/公告号CN106686377A

专利类型发明专利
公开/公告日2017-05-17

原文格式PDF
申请/专利权人佳都新太科技股份有限公司;
展开▼

申请/专利号CN201611251748.4
发明设计人曾旺环;冯琰一;徐天适;
展开▼

申请日2016-12-30
分类号H04N17/00(20060101);H04N17/02(20060101);
代理机构
代理人
地址 510000 广东省广州市番禺区东环街迎宾路832号番禺节能科技园内番山创业中心1号楼2区306房
入库时间 2023-06-19 02:09:24

法律信息

法律状态公告日

法律状态信息

法律状态
2018-09-04

授权

授权
2017-06-09

实质审查的生效 IPC(主分类):H04N17/00 申请日:20161230

实质审查的生效
2017-05-17

公开

公开

说明书

技术领域

本发明涉及计算机视觉技术领域，具体为一种基于深层神经网络的视频重点区域确定算法。

背景技术

随着科学技术与信息化社会的发展，目前我国的视频监控应用行业非常普遍，除了交通、治安、金融、银行、军队和口岸等特殊领域外，社区、写字楼、酒店、公共场所、工厂和商场都已应用了或正在建设视频监控系统。同时网络化、智能化等新技术使得这些监控点不再是简单的单机监控，监控的时间周期也逐渐从每天8小时延长至24小时。2008年北京奥运会的举行、平安城市的建设、国内城市化的发展、快速的城市扩展、部分应用领域安全事故频发等因素，都促进视频监控领域在最近几年更加快速度发展。监控摄像机数量的不断增加，监控的时间不断延长，推动了平安城市，但也给系统维护工作带来了新的挑战，因此针对以上原因就衍生出关于视频诊断方面的产品。

视频诊断系统是一种智能化视频故障分析与预警系统。系统采用国际先进的计算机视觉算法，对视频图像出现的雪花、滚屏、模糊、偏色、画面冻结、增益失衡和云台失控等常见摄像头故障做出准确判断并发出报警信息。该系统还可以检测视频信号有无和前端云台摄像机的运行情况，有效预防因硬件导致的图像质量问题及所带来的不必要的损失，并及时检测破坏监控设备的不法行为。

发明内容

本发明的目的在于提供一种基于深层神经网络的视频重点区域确定算法，该基于深层神经网络的视频重点区域确定算法具体步骤如下：

S1：使用一种端到端的网络模型，确定视频图像中的显著性区域，

(1)区域提取的网络结构包括十二层：五个卷积层、两个池化层、两个dropout层与三个全连接层，输入图片的大小为任意大小，最后两个卷积层后面均分别包含一个池化层与一个dropout层，本网络包括四个输出神经元，分别代表左上角点的坐标与右下角掉的坐标；

(2)特征提取的网络利用步骤(1)中输出的坐标位置与最后一个卷积层的参数作为输入，利用感受野与特征值之间的对应关系，提取出重点区域的卷积层参数，得到特征图；

S2：利用深层神经网络提取的重点区域特征进行自适应特征提取，最终得到数据与特征长度均归一化的特征，对于步骤S1中得到的显著区域的特征图，利用三层金字塔的网格结构，由粗到细分别计算出16*256d、4*256d、1*256d的三层特征，将三层特征进行组合，使得任意尺度的特征图都可以得到归一化大小的特征，组合后的特征经过两个结构相同的全连接层与dropout层的组合，得到最终的特征；

S3：利用基于多层金字塔的特征提取算法提取到的特征，通过联合训练网络结构，最终的到质量评判的效果，视频质量评分网络单元包含三个结构相同的全连接层、池化层与dropout层的组合，最后连接一个softmax层输出范围在[0，1]之间的分数，视频质量问题分类网络单元包括两个结构相同的全连接层、池化层与dropout层的组合，最后连接一个softmax层输出视频质量问题所属类别的标签与概率。

与现有技术相比，本发明的有益效果是：本发明提供了一种基于深层神经网络的视频质量诊断算法及其在智能安防中的应用，该方法可以有效正确检测视频中重要的参考区域，对视频图像存在的问题进行分类，并能实现自动区分质量问题的严重程度，从而实现视频图像质量的分级告警。该方法通过深层神经网络对视频图像进行特征提取，进行重点区域确定，其次对重点区域的视频质量进行打分；最后对视频质量问题所属的类别进行分类，从而得到视频质量问题类别。

附图说明

图1为本发明视频图像质量诊断算法系统流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

一种基于深层神经网络的视频重点区域确定算法，该基于深层神经网络的视频重点区域确定算法具体步骤如下：

S1：使用一种端到端的网络模型，确定视频图像中的显著性区域，

视频图像质量诊断算法系统流程图如图1所示。该算法的实现主要分为三大模块，分别为：显著性区域定位模块、区域特征的提取与归一化模块、视频图片评分与质量问题分类模块。下面分别详细介绍。

1、显著性区域定位模块：

该模块主要用于选择合适的区域用来评价图像的质量。随着经济的发展，监控摄像头数目呈指数级别的增长。巨大的基数带来的多种多样的场景，传统的基于全图的质量评价算法只能用来评估整体的图片质量，例如偏亮，有很多现实场景是主要关注的区域亮度处于正常的水平，但周围无关紧要的区域可能处于过暗，或者有些摄像头为了保证重点关注区域正常曝光，导致其他区域产生过曝。对于用户来说这些场景都属于正常，但传统算法都难以区分。监控摄像头又属于可变可调整的设备，提前手动配置显得不可行而且工作量巨大，因此找到一种自动确定显著性区域的方法显得迫在眉睫。本发明提出了一种定位显著性区域的方法用以解决这个问题。

假设一系列训练样本表示为I＝{I1，I2…，In}，将有效的前景表示为Y＝{Y1，…，Yn}，对于每一个Yi若为前景则表示为1，若为背景则表示为0.通过对样本的标记，我们将目标区域表示为L＝{L1，..，Ln}，L是一个思维的向量用来表示区域的坐标{x1，y1，x2，y2}。对于每一个样本，都有一个变量ΔL用来调整L的值。因此，区域定位问题可以转化为最大似然估计：

对于定位网络，我们通过最优化输出与标定的欧氏距离来实现。

2、区域特征的提取与归一化模块：

本发明中使用了显著性区域提取算法，提取的区域大小是不一致的。为了将不同大小的区域提取特征，并归一化到相同大小的特征向量，需要有一种特征提取与归一化模块。传统利用深度神经网络进行特征提取需要保证用于训练的样本尺寸一致，并且进行预测是输入样本尺寸也必须与训练样本一致。通常的算法中，进行不同的任务需要不同的特征，每个任务都必须有自己独立的网络层。由于卷积计算的计算量大，而且单独的网络往往带来参数的级数的提升，因此本发明提出了一种共享部分权重，并进行特征归一化的方法来解决以上存在的问题。

首先，通过第一步最后一个卷积层得到与样本尺寸相关个数的特征图，根据感受野的映射关系与上一步中得到的有效区域，得到有效区域的特征，而不需要进行新的卷积计算。

其次，构建三层金字塔，根据利用三个不同尺度并且自适应大小的网格进行提取三层特征，并进行组合，组合成为一个特征向量。这里的自适应大小的网格调整主要遵循以下原则，第一层网格得到16个特征，第二层得到4个特征，第三次得到1个特征，提取特征是对每个网格内的特征图使用Averagepooling运算。最终得到一个21*256维的特征向量。

最后，在训练时对样本使用多尺度策略进行输入，这样可以解决输入样本尺度多样化的问题。

3、视频图片评分与质量问题分类模块：

本发明的最终目的是为了减少场景的多样性与特殊场景对视频质量诊断结果的影响，并且通过图像质量评分机制来准确判断出视频质量问题的严重程度与种类，从而为用户提供处理的参考。本模块就是解决视频质量问题的严重程度判定与种类的。首先进行图像质量的打分，若得分小于0.5，则为正常的场景，若得分大于0.5小于0.8则为警告场景，若得分大于0.8则属于质量有严重问题。只要是大于0.5的场景经过视频质量种类的分类，最终得出不同的问题种类，雪花，条纹，偏暗，偏亮，偏色或者无视频信号。并按照得分的高低向用户进行推送。

本发明输入数据源：一路视频解码后的连续十帧BGR格式的图片。

输出的结果：此路视频状态与得分。

结束标志：无。

将输入样本的最短边归一化到大小为240像素。十二层：五个卷积层、两个池化层、连个dropout层与三个全连接层

将样本输入到显著性区域定位模块得到定位的区域与相应概率，若概率小于0.6则取整幅图片。第一层：3x3卷积，stride＝1，pad＝1，滤波器个数128，激活函数RELU，接2x2的池化，stride＝2，pad＝0；第二层：3x3卷积，stride＝1，pad＝1，滤波器个数256，激活函数RELU；第三层：3x3卷积核，stride＝1，pad＝1，滤波器个数512，激活函数RELU；第四层：3x3卷积核，stride＝1，pad＝1，滤波器个数1024，激活函数RELU；第五层：1x1卷积核，stride＝1，pad＝1，滤波器个数1024，激活函数RELU接2x2的池化，stride＝2，pad＝0；最后通过全连接层，dropout层，全连接层，dropout层，全连接层的结构取得区域的坐标值。若区域置信度大于0.8则选择显著性区域，反之则取全图。

将显著性区域定位模块中的到的特征图与输入区域的大小，输入到区域特征的提取与归一化模块，得到归一化后的特征。利用上述步骤的5层卷积神经网络的到的特征与显著性区域的坐标值，得到显著性区域的特征值，利用三层金字塔，分别将特征区域，分为16个、4个、1个区域，并利用averagePooling的方式提取，21*256维的特征向量，作为区域特征。

将特征输入到视频图片评分与质量问题分类模块得到最终的打分与视频图片质量问题的种类。将上一步骤提取的特征输入多任务模块：两个输出为1*2014大小向量的fc层，分别连接两个不同的softmax，一个用于处理图像评分问题，一个用来处理质量问题种类分类问题。

网络输出的逻辑处理。图像评分分为5个等级，很好、好、一般、较差、很差。首先对输出的图像评分进行判断，根据用户设定的告警级别，进行告警判断。若用户设置的值为一般，则对一般、较差、很差类的样本进行问题种类判断。问题种类分为偏色、偏暗、偏亮、信号缺失、条纹噪声、雪花噪声。结果中会分别输出每类问题的概率。

按照问题样本每类问题的概率由大到小排序并推送给用户

本发明提供了一种基于深层神经网络的视频质量诊断算法及其在智能安防中的应用，该方法可以有效正确检测视频中重要的参考区域，对视频图像存在的问题进行分类，并能实现自动区分质量问题的严重程度，从而实现视频图像质量的分级告警。该方法通过深层神经网络对视频图像进行特征提取，进行重点区域确定，其次对重点区域的视频质量进行打分；最后对视频质量问题所属的类别进行分类，从而得到视频质量问题类别。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于深层神经网络的视频重点区域确定算法 [P] . 中国专利： CN106686377A . 2017-05-17
2. 一种基于深层神经网络的视频重点区域确定方法 [P] . 中国专利： CN106686377B . 2018.09.04
3. EOIR SYSTEM AND METHOD FOR FUSION EO/IR IMAGE BASED ON DEEP NEURAL NETWORK ALGORITHM [P] . 韩国专利： KR102047977B1 . 2019-11-22

机译：基于深层神经网络算法的融合EO / IR图像的EOIR系统及方法
4. SIGNAL PROCESS ALGORITHM INTEGRATED DEEP NEURAL NETWORK BASED SPEECH RECOGNITION APPARATUS AND OPTIMIZATION LEARNING METHOD THEREOF [P] . 韩国专利： KR101844932B1 . 2018-04-03

机译：基于信号深层神经网络的语音识别算法及其优化学习方法
5. SIGNAL PROCESSING ALGORITHM-INTEGRATED DEEP NEURAL NETWORK-BASED SPEECH RECOGNITION APPARATUS AND LEARNING METHOD THEREOF [P] . 美国专利： US2016078863A1 . 2016-03-17

机译：基于信号处理算法的深层神经网络语音识别装置及其学习方法