公开/公告号CN112434730A
专利类型发明专利
公开/公告日2021-03-02
原文格式PDF
申请/专利权人 广东电力信息科技有限公司;
申请/专利号CN202011247921.X
申请日2020-11-10
分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构31355 上海思牛达专利代理事务所(特殊普通合伙);
代理人丁剑
地址 510060 广东省广州市越秀区东风东路808号509号房
入库时间 2023-06-19 10:05:17
技术领域
本发明涉及视频图像质量处理技术领域,具体来说,涉及一种基于GoogleNet的视频图像质量异常分类方法。
背景技术
在现有技术中,视频监控系统所获取的视频图像中存在大量的运动目标,而在所有的运动目标中,一般都是以人员和车辆两类目标为主要关注目标。对于这两类目标的管理要求有着明显的区别,因此在视频监控系统中存在对于这两类目标的分类需求。
目前,在研究和开发中的主要都是采用基于统计训练的方法来对目标进行分类。但是,使用此类方法需要收集大量的车辆和人员的图像样本,而且识别速度慢,对运算设备需求较高。由此可知,在现有技术,上述的问题已经严重地限制了该类方法在目标识别中的应用
检索中国发明专利CN101882217B公开了一种视频图像的目标分类方法及装置,包括:接收视频图像后,过滤从所述视频图像中获取的前景团块,将符合预设过滤条件的前景团块作为运动目标;通过均值迭代漂移算法对所述运动目标进行跟踪,并在所述跟踪的结果位置上提取运动目标;对所述提取的运动目标进行归一化处理后,扫描所述归一化处理后的运动目标的轮廓获得特征统计值;根据所述特征统计值确定所述运动目标的类型。通过利用目标的轮廓特征对目标进行分类,提高了分类的准确性;通过缩放因子对运动目标进行大小归一化处理,克服了现有归一化方法导致的宽高比例特征不准的缺陷,并通过联合概率分布计算彩色直方图,减少了彩色直方图的数据量,但其仍存在准确率低和效率低的问题。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于GoogleNet的视频图像质量异常分类方法,实现方法简单、分类准确率高、速度快,能够实时检测图像质量异常并将异常进行分类,操作方便,便于扩展,以克服现有相关技术所存在的上述技术问题。
本发明的技术方案是这样实现的:
一种基于GoogleNet的视频图像质量异常分类方法,包括以下步骤:
预先获取原始数据信息并进行数据预处理,其中包括标注数据信息、进行数据增广、拆分数据集和生成tfrecord文件;
搭建神经网络模型并进行训练,其中包括标定ImageNet图像数据集的预训练权重和标定模型的卷积基和密集连接分类器;
将训练好的神经网络模型作为视频图像质量异常分类模型并输出结果。
进一步的,所述标注数据信息,包括设定分类标签,包括正常、偏色异常、亮度异常和模糊异常。
进一步的,所述数据增广,包括镜像、旋转、缩放、裁剪、平移、高斯噪声、亮度调节、饱和度调节和对比度调节。
进一步的,所述拆分数据集,包括以下步骤:
模型拟合的样本数据集作为训练集;
监控模型是否发生过拟合的情形,在训练过程中单独留出的样本数据集,用于调整模型的超参数,以及对模型的能力进行初步评估作为验证集;
评估模型的泛化能力。
进一步的,所述标定模型的卷积基和密集连接分类器,包括以下步骤:
在数据集上运行卷积基,将输出保存成硬盘中的Numpy数组;
将保存的数据信息作为输入,并输入到独立的密集连接分类器中。
进一步的,还包括神经网络模型优化,包括使用较大的学习率来快速得到一个较优解,随着迭代的继续逐步减小学习率,使得模型在训练后期更加稳定,表示为:
decay_learning_rate=learning_rate×decay_rate^(global_step/decay_step)
其中,decay_learning_rate为每一轮优化时使用的学习率,learning_rate为设定的初始学习率,decay_rate为衰减系数,decay_step为衰减速度。
本发明的有益效果:
本发明基于GoogleNet的视频图像质量异常分类方法,通过预先获取原始数据信息并进行数据预处理,搭建神经网络模型并进行训练,将训练好的神经网络模型作为视频图像质量异常分类模型并输出结果,实现方法简单、分类准确率高、速度快,能够实时检测图像质量异常并将异常进行分类,操作方便,便于扩展。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于GoogleNet的视频图像质量异常分类方法的流程示意图;
图2是根据本发明实施例的一种基于GoogleNet的视频图像质量异常分类方法的密集连接分类器示意图;
图3是根据本发明实施例的一种基于GoogleNet的视频图像质量异常分类方法的卷积基示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种基于GoogleNet的视频图像质量异常分类方法。
如图1-图3所示,根据本发明实施例的基于GoogleNet的视频图像质量异常分类方法,包括以下步骤:
步骤S1,预先获取原始数据信息并进行数据预处理,其中包括标注数据信息、进行数据增广、拆分数据集和生成tfrecord文件;
步骤S2,搭建神经网络模型并进行训练,其中包括标定ImageNet图像数据集的预训练权重和标定模型的卷积基和密集连接分类器;
步骤S3,将训练好的神经网络模型作为视频图像质量异常分类模型并输出结果。
其中,所述标注数据信息,包括设定分类标签,包括正常、偏色异常、亮度异常和模糊异常。
其中,所述数据增广,包括镜像、旋转、缩放、裁剪、平移、高斯噪声、亮度调节、饱和度调节和对比度调节。
其中,所述拆分数据集,包括以下步骤:
模型拟合的样本数据集作为训练集;
监控模型是否发生过拟合的情形,在训练过程中单独留出的样本数据集,用于调整模型的超参数,以及对模型的能力进行初步评估作为验证集;
评估模型的泛化能力。
其中,所述标定模型的卷积基和密集连接分类器,包括以下步骤:
在数据集上运行卷积基,将输出保存成硬盘中的Numpy数组;
将保存的数据信息作为输入,并输入到独立的密集连接分类器中。
其中,还包括神经网络模型优化,包括使用较大的学习率来快速得到一个较优解,随着迭代的继续逐步减小学习率,使得模型在训练后期更加稳定,表示为:
decay_learning_rate=learning_rate×decay_rate^(global_step/decay_step)
其中,decay_learning_rate为每一轮优化时使用的学习率,learning_rate为设定的初始学习率,decay_rate为衰减系数,decay_step为衰减速度。
借助于上述方案,通过预先获取原始数据信息并进行数据预处理,搭建神经网络模型并进行训练,将训练好的神经网络模型作为视频图像质量异常分类模型并输出结果,实现方法简单、分类准确率高、速度快,能够实时检测图像质量异常并将异常进行分类,操作方便,便于扩展。
具体的,对于上述生成tfrecord文件来说,其
Tfrecord是TF内置的一种二进制文件格式,但非必须生成tfrecord文件。它具有以下优点:将数据和标签存储在同一个文件;充分利用内存,便于复制和移动;统一各种输入文件的操作。
另外,用于图像分类的卷积神经网络包含两部分:首先是一系列卷积层和池化层,最后是一个密集连接分类器。第一部分叫做模型的卷积基。对于卷积神经网络而言,特征提取就是取出之前训练好的网络的卷积基,运行新数据,然后在输出层训练一个新的分类器。
另外,如图3所示,其InputLayer代表卷积基,卷积神经网络的特征图表示通用概念在图像中是否存在,无论面对什么样的计算机视觉问题,这种特征图都可能很有用。密集连接层的表示不包含物体在输入图像中的位置信息。密集连接层舍弃了空间的概念,若物体位置对于问题很重要,那么密集连接层的特征在很大程度上是无用的。
在卷积基后添加一个密集连接分类器,有两种方法可供选择:在数据集上运行卷积基,将输出保存成硬盘中的Numpy数组,然后用这个数据作为输入,输入到独立的密集连接分类器中。这种方法速度快,计算代价低,但是用不了数据增强。在顶部添加Dense层来扩展已有模型(即卷积基),并在输入数据上端到端地运行整个模型。因为每个输入图像进入模型时都会经过卷积基,所以可使用数据增强,但计算代价比较高。即首先冻结卷积基,增加新的分类器,然后训练。
另外,在采用随机梯度下降算法训练神经网络时,使用滑动平均模型可在一定程度上提高最终模型在测试数据上的表现。TF提供了tf.train.ExponentialMovingAverage方法来实现滑动平均模型。初始化时,需要提供一个衰减率,用于控制模型更新的速度。ExponentialMovingAverage对每一个变量会维护一个影子变量,其初始值就是相应变量的初始值。而每次运行变量更新时,影子变量的值会更新为:
shadow_variable=decay×shadow_variable+(1-decay)×variable
其中,shadow_variable为应自变量,variable为待更新的变量,decay为衰减率,decay决定了模型更新的速度,decay越大模型越趋于稳定。在实际应用中,decay一般会设成非常接近1的数,如0.999。
综上所述,借助于本发明的上述技术方案,通过预先获取原始数据信息并进行数据预处理,搭建神经网络模型并进行训练,将训练好的神经网络模型作为视频图像质量异常分类模型并输出结果,实现方法简单、分类准确率高、速度快,能够实时检测图像质量异常并将异常进行分类,操作方便,便于扩展。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 一种用于发送基于面积的360度视频的方法,一种用于接收基于面积的360度视频的方法,一种用于发送基于区域的360度视频的设备,一种用于基于区域接收360度视频的设备
机译: 在视频编码器中编码速率控制器,以通过实时可变比特率的控制来提高图像质量,具有相同功能的视频数据传输系统以及一种提高显示图像质量的方法
机译: 在存在噪声的情况下,用于基于图像质量估计的视频解码以提高图像质量的方法和设备