首页> 中国专利> 视频审核模型训练方法、视频审核方法及相关装置

视频审核模型训练方法、视频审核方法及相关装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明实施例公开了一种视频审核模型训练方法、视频审核方法及相关装置，视频审核模型训练方法包括：获取第一样本图像以及第一样本图像的分类标签；初始化视频审核模型，视频审核模型包括一级子模型和二级子模型；采用第一样本图像训练一级子模型并根据分类标签计算一级子模型对第一样本图像进行分类的分类损失率；在分类损失率大于预设值时，采用第一样本图像训练二级子模型。由于分类损失率大于预设值的第一样本图像是难以区分正负样本的难样本图像，从而能够采用难样本图像来训练二级子模型，使得二级子模型学习到区分难样本的能力，最终整个视频审核模型可以准确区分正负样本，能够准确确定视频中存在违规图像，提高视频送审的准确度。

著录项

公开/公告号CN112818888A

专利类型发明专利
公开/公告日2021-05-18

原文格式PDF
申请/专利权人广州市百果园信息技术有限公司;
展开▼

申请/专利号CN202110181850.6
发明设计人丘林;眭哲豪;
展开▼

申请日2021-02-09
分类号G06K9/00(20060101);G06K9/62(20060101);
代理机构11332 北京品源专利代理有限公司;
代理人孟金喆
地址 511402 广东省广州市番禺区市桥街兴泰路274号C栋西塔5-13层
入库时间 2023-06-19 11:02:01

说明书

技术领域

本发明实施例涉及视频审核技术领域，尤其涉及一种视频审核模型训练方法、视频审核方法及相关装置。

背景技术

随着移动互联网的爆发式增长以及网络安全法的实施，内容平台运营者面临更加严峻的考验，一方面是恶意用户增加，一方面是对视频中违规内容监管力度加强，视频内容审核可以帮助企业筛查平台中存在的违规图像、视频以及文字等内容，通过视频内容审核可以过滤删除掉违规内容，从而为用户构建一个绿色安全的网络环境。

随着机器学习技术的应用，现有技术中通常通过训练好的视频审核模型来审核视频，然而，直播场景存在复杂性和特殊性，一方面，直播中直播场景复杂多变，存在多个对象；另一方面，直播截图受光线、摄像设备等影响，存在图像质量差，模糊等问题；再者，直播场景中存在诸如手机，对讲机，话筒等视觉特征与违规物的视角特征相似，导致送人工审核的视频的精度不高；最后，线上真实数据场景下，正样本和负样本比例差距过大，上述几方面最终造成采用视频审核模型审核视频时出现FP(false positive，误报)问题，视频审核模型无法精确区分负样例和正样例，视频审核的准确度低。

发明内容

本发明实施例提供一种视频审核模型训练方法、视频审核方法、装置、电子设备和存储介质，以解决现有技术中视频审核模型难以区分正样例和负样例，造成审核准确度低的问题。

第一方面，本发明实施例提供了一种视频审核模型训练方法，包括：

获取第一样本图像以及所述第一样本图像的分类标签；

初始化视频审核模型，所述视频审核模型包括一级子模型和二级子模型；

采用所述第一样本图像训练所述一级子模型并根据所述分类标签计算所述一级子模型对所述第一样本图像进行分类的分类损失率；

在所述分类损失率大于预设值时，采用所述第一样本图像训练所述二级子模型。

第二方面，本发明实施例提供了一种视频审核方法，包括：

从待审核视频中获取视频图像；

将所述视频图像输入预先训练好的视频审核模型中得到所述视频图像属于违规图像的得分，其中，所述视频审核模型包括一级子模型和二级子模型，所述一级子模型用于预测所述视频图像属于违规图像的第一得分，并在所述第一得分小于预设值时输出所述第一得分，所述二级子模型用于在所述第一得分大于预设值时预测所述视频图像属于违规图像的第二得分，并输出所述第二得分；

在所述得分大于预设阈值时，对所述待审核视频进行审核；

其中，所述视频审核模型通过第一方面所述的视频审核模型训练方法所训练。

第三方面，本发明实施例提供了一种视频审核模型训练装置，包括：

样本获取模块，用于获取第一样本图像以及所述第一样本图像的分类标签；

模型初始化模块，用于初始化视频审核模型，所述视频审核模型包括一级子模型和二级子模型；

一级子模型训练模块，用于采用所述第一样本图像训练所述一级子模型并根据所述分类标签计算所述一级子模型对所述第一样本图像进行分类的分类损失率；

二级子模型训练模块，用于在所述分类损失率大于预设值时，采用所述第一样本图像训练所述二级子模型。

第四方面，本发明实施例提供了一种视频审核装置，包括：

视频图像获取模块，用于从待审核视频中获取视频图像；

模型预测模块，用于将所述视频图像输入预先训练好的视频审核模型中得到所述视频图像属于违规图像的得分，其中，所述视频审核模型包括一级子模型和二级子模型，所述一级子模型用于预测所述视频图像属于违规图像的第一得分，并在所述第一得分小于预设值时输出所述第一得分，所述二级子模型用于在所述第一得分大于预设值时预测所述视频图像属于违规图像的第二得分，并输出所述第二得分；

审核模块，用于在所述得分大于预设阈值时，对所述待审核视频进行审核；

其中，所述视频审核模型通过第一方面所述的视频审核模型训练方法所训练。

第五方面，本发明实施例提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明第一方面所述的视频审核模型训练方法，和/或，第二方面所述的视频审核方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明第一方面所述的视频审核模型训练方法，和/或，第二方面所述的视频审核方法。

本发明实施例的视频审核模型包括一级子模型和二级子模型，初始化视频审核模型后，采用第一样本图像训练一级子模型并根据分类标签计算一级子模型对第一样本图像进行分类的分类损失率，在分类损失率大于预设值时采用第一样本图像训练二级子模型，本发明实施例采用级联的两级子模型，由一级子模型预测计算得到第一样本图像的分类损失率，由于分类损失率大于预设值的第一样本图像是难以区分正负样本的难样本图像，从而能够采用难样本图像来训练二级子模型，使得二级子模型学习到区分难样本的能力，最终整个视频审核模型可以准确区分正负样本，能够准确确定视频中存在违规图像，提高视频送审的准确度。

附图说明

图1是本发明实施例一提供的一种视频审核模型训练方法的步骤流程图；

图2A是本发明实施例二提供的一种视频审核模型训练方法的步骤流程图；

图2B是本发明实施例的视频审核模型的结构示意图；

图2C是本发明实施例中Densenet的示意图；

图2D是本发明实施例中残差模块的示意图；

图2E是本发明实施例中一级子模型和二级子模型的示意图；

图2F是本发明实施例中注意力机制模块的示意图；

图3是本发明实施例三提供的一种视频审核方法的步骤流程图；

图4是本发明实施例四提供的一种视频审核模型训练装置的结构框图；

图5是本发明实施例五提供的一种视频审核装置的结构框图；

图6是本发明实施例六提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

实施例一

图1为本发明实施例一提供的一种视频审核模型训练方法的步骤流程图，本发明实施例可适用于训练视频审核模型来对视频进行审核的情况，该方法可以由本发明实施例的视频审核模型训练装置来执行，该视频审核模型训练装置可以由硬件或软件来实现，并集成在本发明实施例所提供的电子设备中，具体地，如图1所示，本发明实施例的视频审核模型训练方法可以包括如下步骤：

S101、获取第一样本图像以及所述第一样本图像的分类标签。

本发明实施例中，样本图像可以是指用于训练视频审核模型的图像，该样本图像中可以包括违规对象，如包括枪支、刀具、暴恐等违规对象的图像，则样本图像的分类标签可以是表达样本图像是正常图像或者违规图像的标签，在一个示例中，样本图像为正常图像时分类标签可以为0，样本图像为违规图像时分类标签为1。

在本发明的可选实施例中，可以先获取多个原始图像，对每个原始图像进行图像增强处理和归一化处理得到多个样本图像，基于标注操作确定样本图像的分类标签，示例性地，可以从多个直播视频中截取多个视频图像作为原始图像，然后对每个原始图像进行亮度、对比度、清晰度调整以增强原始图像，并将原始图像的尺寸调整为统一的尺寸，例如调整为长和宽均为224像素的图像，最后对图像的像素值进行归一化处理得到样本图像，并基于人工判断样本图像是否包含违规对象来标注样本图像的分类标签，如果样本图像包含违规对象，则样本图像的分类标签为1，否则样本图像的分类标签为0。

S102、初始化视频审核模型，所述视频审核模型包括一级子模型和二级子模型。

在本发明实施例中，视频审核模型包括级联的一级子模型和二级子模型，一级子模型用于预测样本图像属于违规图像的第一得分，二级子模型用于在第一得分大于预设值时预测样本图像属于违规图像的第二得分。具体地，一级子模型和二级子模型可以是分类神经网络，示例性地，一级子模型和二级子模型可以是VGG，ResNet以及DenseNet等分类神经网络。在训练视频审核模型之前，可以构建一级子模型和二级子模型，并初始化一级子模型和二级子模型的模型参数。

S103、采用所述第一样本图像训练所述一级子模型并根据所述分类标签计算所述一级子模型对所述第一样本图像进行分类的分类损失率。

具体地，可以从多个第一样本图像中随机提取第一样本图像输入初始化之后的一级子模型中得到第一样本图像属于违规图像的得分，并根据该得分和第一样本图像的分类标签计算一级子模型对第一样本图像进行分类的分类损失率，示例性地，可以直接计算得分与分类标签的差值的绝对值作为分类损失率，还可以根据得分与分类标签的均方差等作为分类损失率，或者还可以通过其他方式计算分类损失率，本发明实施例对计算分类损失率的方式不加以限制。

在输入一个第一样本图像训练一级子模型并且计算分类损失率之后，可以根据该分类损失率来调整一级子模型的模型参数，示例性地，可以根据分类损失率来计算梯度，对一级子模型的模型参数进行梯度下降之后继续迭代训练该一级子模型，直到达到预设的迭代次数或者分类损失率小于预设阈值之后得到训练好的一级子模型。

S104、在所述分类损失率大于预设值时，采用所述第一样本图像训练所述二级子模型。

在每次迭代训练一级子模型后，如果一级子模型对第一样本图像进行分类的分类损失率大于预设值，说明该第一样本图像为难以区分是正样本还是负样本的难样本图像，可以采用该第一样本图像来训练二级子模型，从而使得二级子模型学习到区分难样本图像属于正样本或者负样本的能力，具体地，将分类损失率大于预设值的第一样本图像输入二级子模型中得到二级子模型的分类损失率，并根据二级子模型的分类损失率来调整二级子模型的模型参数，直到达到预设的迭代次数或者二次子模型的分类损失率小于预设阈值之后得到训练好的二级子模型。

实施例二

图2A为本发明实施例二提供的一种视频审核模型训练方法的步骤流程图，本发明实施例在前述实施例一的基础上进行优化，具体地，如图2A所示，本发明实施例的视频审核模型训练方法可以包括如下步骤：

S201、获取第一样本图像以及所述第一样本图像的分类标签。

在本发明实施例的可选实施例中，可以从视频中截取多个视频图像，对多个视频图像进行图像增强和归一化处理后得到多个第一样本图像，并基于人工标注得到第一样本图像的分类标签，在一个示例中，第一样本图像中没有包括违规对象时分类标签为0，第一样本图像中包括违规对象时分类标签为1。当然，还可以从网络图像库中随机抽取一定数量的图像作为样本图像而不仅仅限于从视频中截取视频图像来获得样本图像，本发明实施例对获取第一样本图像的方式不加以限制。

S202、初始化视频审核模型，所述视频审核模型包括一级子模型和二级子模型。

如图2B所示，本发明实施例的视频审核模型包括级联的一级子模型和二级子模型，一级子模型用于预测样本图像属于违规图像的第一得分，二级子模型用于在第一得分大于预设值时预测样本图像属于违规图像的第二得分。在训练视频审核模型前，可以初始化一级子模型和二级子模型的模型参数。

可选地，一级子模型可以是DenseNet，如图2C所示为DenseNet的示意图，在DenseNet中，所有的网络层相互连接，即每个网络层均接受其前面所有网络层作为额外的输入，从而使得每个网络层均可以复用该网络层之前的所有网络层的输出特征，以实现特征复用，提升效率。二级子模型可以是ResNet，ResNet通过残差学习方法来减轻训练深层网络的困难，ResNet在全卷积网络的基础上，引入了残差模块，如图2D所示为残差模块的示意图，每个残差模块包含两条路径，其中一条路径是输入特征的直连通路，另一条路径对输入特征做两到三次卷积操作得到输入特征的残差，最后将两条路径上的特征相加，通过残差模块可以降低训练深层网络的难度，更容易提取到特征。当然，在实施本发明实施例时，本领域技术人员还可以根据实际需要设置一级子模型和二级子模型的网络类型，本发明实施例对此不加以限制。

S203、采用指定数量的所述第一样本图像对所述一级子模型进行粗糙训练得到粗糙一级子模型以及每个所述第一样本图像属于违规图像的第一得分。

在本发明实施例中，在训练视频审核模型时，可以先对一级子模型和二级子模型进行粗糙训练，即先通过指定数量的第一样本图像训练一级子模型和二级子模型得到训练一定次数后的粗糙一级子模型和粗糙二级子模型。

如图2E所示为一级子模型和二级子模型的网络结构，一级子模型和二级子模型包括五组卷积层，每两组卷积层之间采用池化层来进行空间降维，同一组卷积层内采用多次连续的3×3卷积操作，卷积核的数目由第一组卷积层的64增多到最后一组卷积层的512，同一组卷积层内卷积核的数目相同，最后一组卷积层之后接两层全连接层，全连接层之后是分类层，当然，在实际应用中本领域技术人员可以任意设置任意数量组的卷积层，以及任意设置每组卷积层中卷积层的数量以及卷积核的大小，本发明实施例对此不加以限制。

在本发明的可选实施例中，一级子模型和二级子模型可以是增加了注意力机制模块的卷积神经网络，即在一级子模型和二级子模型的部分卷积层后插入注意力机制模块来替代池化层，如图2E所示为注意力机制模块的示意图，该注意力机制模块包括通道注意力子模块和空间注意力子模块。

在采用指定数量的第一样本图像对一级子模型进行粗糙训练时，将第一样本图像输入一级子模型，对于连接注意力机制模块的卷积层，将卷积层输出特征输入注意力机制模块得到注意力机制模块的最终输出特征以输入下一卷积层；将最后一个卷积层的输出特征依次经过全连接层和分类层后得到第一样本图像属于违规图像的第一得分，返回将第一样本图像输入一级子模型的步骤直到将指定数量的第一样本图像输入一级子模型，从而实现对一级子模型训练一定的次数得到粗糙一级子模型。

如图2F所示，在注意力机制模块中，将卷积层输出特征输入注意力机制模块的通道注意力子模块得到通道特征，对通道特征和卷积层输出特征相乘得到中间特征，将中间特征输入注意力机制模块的空间注意力子模块得到空间特征，对空间特征和中间特征相乘得到注意力机制模块的最终输出特征以输入下一卷积层。

其中，如图2F所示，卷积层输出特征在通道注意力子模块中经过最大池化层和平均池化层之后，再经过感知器输出通道特征1和通道特征2，通道特征1和通道特征2经过加和操作后，通过sigmoid激活操作得到通道注意力子模块最终的通道特征，通道注意力子模块输出的通道特征与卷积层输出特征相乘得到中间特征，该中间特征作为空间注意力子模块的输入特征，在空间注意力子模块中，中间特征分别经过最大池化层和平均池化层之后进行卷积操作，最后通过sigmoid激活操作得到空间注意力子模块最终的空间特征，空间特征与中间特征做乘法操作得到整个注意力机制模块的最终输出特征，整个注意力机制模块的最终输出特征输入下一个卷积层中，最后在一级子模型的分类层输出第一样本图像属于违规图像的第一得分。

S204、采用所述第一样本图像的第一得分和所述分类标签计算所述样第一样本图像的分类损失率。

在本发明实施例中，一级子模型的分类层输出第一样本图像属于违规图像的第一得分，该第一得分可以是一个概率值，则可以通过第一得分和第一样本图像的分类标签来计算一级子模型对第一样本图像进行分类的分类损失率，在一个示例中，可以计算预测值与分类标签的差值的绝对值作为分类损失率，还可以均方差损失函数等损失函数来计算分类损失率。

需要说明的是，每迭代训练一次一级子模型之后根据分类损失率来对一级子模型的模型参数进行调整。

S205、在每采用一个所述第一样本图像对所述一级子模型进行粗糙训练之后，如果所述分类损失率大于预设值，采用所述第一样本图像对所述二级子模型进行粗糙训练得到粗糙二级子模型，直到采用所述指定数量的所述第一样本图像对所述一级子模型进行粗糙训练。

在本发明实施例中，每迭代训练一次一级子模型之后，如果一级子模型对第一样本图像进行分类的分类损失率L1大于预设值，则可以确定第一样本图像为难以区分是正样本还是负样本的难样本，可以采用该第一样本图像来对二级子模型进行粗糙训练得到二级子模型，并且在该次迭代训练二级子模型后返回采用指定数量的第一样本图像对一级子模型进行粗糙训练，直到采用所有指定数量的第一样本图像对一级子模型进行粗糙训练得到粗糙一级子模型和粗糙二级子模型。其中，对二级子模型进行粗糙训练可以参考S203-S204中对一级子模型进行粗糙训练的过程，在此不再详述。

S206、获取所述第一样本图像的热力图。

在本发明实施例中，热力图表达了一级子模型预测第一样本图像属于违规图像的第一得分与第一样本图像中敏感区域的映射关系，即一级子模型预测第一样本图像属于违规图像的第一得分与第一样本图像中哪些区域更为敏感相关。

在一个示例中，可以将所有第一样本图像输入训练好的粗糙一级子模型得到第一样本图像属于违规图像的第二得分，基于Grad-CAM和第二得分生成第一样本图像的热力图。

具体地，可以计算第一样本图像属于违规图像的第二得分对一级子模型的全连接层输出的特征图的所有像素Aij的偏导数，然后对偏导数取特征图的宽度和高度维度上的全局平均值，得到第一样本图像中违规对象相对于全连接层输出的特征图中第K个通道(RGB通道)的敏感程度，最后将每个像素点的多个通道的敏感程度加权线性组合即可以得到热力图，具体详情可参考现有技术中Grad-CAM生成热力图的方法，本发明实施例在此不再详述。

S207、将所述热力图和所述第一样本图像拼接得到第二样本图像。

在一个示例中，第一样本图像可以表示为H×W×3，H为第一样本图像在长度方向上的像素数量，W为第一样本图像在高度方向上的像素数量，3为第一样本图像的RGB通道数据。基于此，第一样本图像增加一个值为0的第四通道，即第一样本图像表示为H×W×3×0，在生成第一样本图像的热力图后，可以将热力图的像素值作为第一样本图像的第四通道的数值，从而将热力图和第一样本图像拼接得到第二样本图像H×W×3×1，其中1表示热力图的像素值。

S208、采用所述第二样本图像训练所述粗糙一级子模型得到最终训练好的一级子模型。

在一个可选实施例中，可以随机将指定数量的第二样本图像的第四通道值设置为0得到第三样本图像，采用第二样本图像和第三样本图像训练粗糙一子级模型得到最终训练好的一级子模型。具体地，可以将部分第二样本图像中高亮部分的像素值设置为0，即将第二样本图像的第四通道中通道值大于预设阈值的通道值设置为0得到第三样本图像，然后随机采用第二样本图像和第三样本图像来对粗糙一级子模型进行迭代训练，直到训练次数达到预设次数或者损失率小于预设阈值为止得到训练好的一级子模型。

S209、从所述第一样本图像中确定出分类损失率大于预设值的第四样本图像。

第一样本图像输入粗糙一级子模型后可以得到各个第一样本图像属于违规图像的得分，通过该得分可以计算第一样本图像的分类损失率，从而可以将分类损失率大于预设值的第一样本图像作为第四样本图像，第四样本图像为一级子模型难以区分为正样本或者负样本的难样本图像。

S210、获取所述第四样本图像的热力图。

具体地，可以将第四样本图像输入训练好的粗糙二级子模型得到第四样本图像的第三得分，基于Grad-CAM和第三得分生成第四样本图像的热力图，具体可参考S206中获取第一样本图像的热力图，在此不再详述。

S211、将所述热力图和所述第四样本图像拼接得到第五样本图像。

具体地，可以将热力图中像素点的像素值作为第四样本图像的第四通道的通道值以拼接热力图和第四样本图像，具体详情可参考S207，在此不再详述。

S212、采用所述第五样本图像训练所述粗糙二级子模型得到最终训练好的二级子模型。

采用第五样本图像训练粗糙二级子模型可参考S208中训练粗糙一级子模型，在此不再详述。

在本发明的可选实施例中，粗糙二级子模型的最后一层卷积层采用可变卷积核，二级子模型的感受野是可变化的，使得二级子模型可以学习到违规对象的特征，增强二级子模型对违规对象的鉴别能力。

进一步地，先采用第一样本图像对一级子模型和二级子模型进行粗糙训练，在采用拼接了热力图的样本图像对粗糙训练后的一级子模型和二级子模型进行训练，一方面粗训练可以加快模型收敛，另一方面，热力图加入到样本图像中，为模型训练提供弱监督数据，提升视频审核模型对图像的分类准确率。

更进一步地，一级子模型和二级子模型中增加注意力机制模块，使得模型关注图像中违规对象的局部区域，有利于提高视频审核模型检测违规对象的能力。

更进一步地，二级子模型的最后一层卷积层采用可变卷积核，使得二级子模型可以更好地学习到违规对象的特征，提高二级子模型鉴别违规对象的能力。

更进一步的，采用随机将热力图中高亮区域的像素值设置为0，既可以避免模型过拟合，又能提高模型鉴别出被遮挡的违规对象的能力，提升模型鉴别被遮挡的违规对象的鲁棒性。

实施例三

图3为本发明实施例三提供的一种视频审核方法的步骤流程图，本发明实施例可适用采用训练好的视频审核模型对视频进行审核的情况，该方法可以由本发明实施例的视频审核装置来执行，该视频审核装置可以由硬件或软件来实现，并集成在本发明实施例所提供的电子设备中，具体地，如图3所示，本发明实施例的视频审核方法可以包括如下步骤：

S301、从待审核视频中获取视频图像。

在本发明实施例中，待审核视频可以是短视频，示例性地，待审核视频可以是直播平台上的直播视频，还可以是短视频平台上的短视频，当然还可以是长视频等。在确定待审核视频后，可以从待审核视频中截取一定数量的视频图像，例如，可以按照一定的采样率从待审核视频中获取一定数量的视频图像，还可以按照一定的时间间隔从待审核视频中获取一定数量的视频图像，本发明实施例对从待审核视频中获取视频图像的方式不加以限制。

S302、将所述视频图像输入预先训练好的视频审核模型中得到所述视频图像属于违规图像的得分，其中，所述视频审核模型包括一级子模型和二级子模型，所述一级子模型用于预测所述视频图像属于违规图像的第一得分，并在所述第一得分小于预设值时输出所述第一得分，所述二级子模型用于在所述第一得分大于预设值时预测所述视频图像属于违规图像的第二得分，并输出所述第二得分。

本发明实施例的视频审核模型可通过实施例一或实施例二的视频审核模型训练方法所训练，该视频审核模型包括级联的一级子模型和二级子模型，视频图像先输入一级子模型中得到视频图像属于违规图像的第一得分，如果第一得分小于预设值，则视频审核模型输出第一得分，如果第一得分大于预设值，则将视频图像输入二级子模型中得到视频图像属于违规图像的第二得分并输出第二得分。

S303、在所述得分大于预设阈值时，对所述待审核视频进行审核。

如果视频图像的得分大于预设阈值，说明该视频图像大概率包含违规对象，可以将该待审核视频的用户ID、视频图像发送到后台，在后台通过人工对视频进行审核。

本发明实施例的视频审核模型包括一级子模型和二级子模型，待审核视频的视频图像先输入一级子模型中得到视频图像属于违规图像的第一得分，如果第一得分小于预设值，则视频审核模型输出第一得分，如果第一得分大于预设值，则将视频图像输入二级子模型中得到视频图像属于违规图像的第二得分并输出第二得分。视频审核模型采用级联的两级子模型，在训练时由一级子模型预测计算得到第一样本图像的分类损失率，由于分类损失率大于预设值的第一样本图像是难以区分正负样本的难样本图像，从而能够采用难样本图像来训练二级子模型，使得二级子模型学习到区分难样本的能力，最终整个视频审核模型可以准确区分正负样本，能够准确确定视频中存在违规图像，提高视频送审的准确度。

实施例四

图4是本发明实施例四提供的一种视频审核模型训练装置的结构框图，如图4所示，本发明实施例的视频审核模型训练装置包括：

样本获取模块401，用于获取第一样本图像以及所述第一样本图像的分类标签；

模型初始化模块402，用于初始化视频审核模型，所述视频审核模型包括一级子模型和二级子模型；

一级子模型训练模块403，用于采用所述第一样本图像训练所述一级子模型并根据所述分类标签计算所述一级子模型对所述第一样本图像进行分类的分类损失率；

二级子模型训练模块404，用于在所述分类损失率大于预设值时，采用所述第一样本图像训练所述二级子模型。

本发明实施例所提供的视频审核模型训练装置可执行本发明实施例一、实施例二所提供的视频审核模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5是本发明实施例五提供的一种视频审核装置的结构框图，如图5所示，本发明实施例的视频审核装置具体可以包括如下模块：

视频图像获取模块501，用于从待审核视频中获取视频图像；

模型预测模块502，用于将所述视频图像输入预先训练好的视频审核模型中得到所述视频图像属于违规图像的得分，其中，所述视频审核模型包括一级子模型和二级子模型，所述一级子模型用于预测所述视频图像属于违规图像的第一得分，并在所述第一得分小于预设值时输出所述第一得分，所述二级子模型用于在所述第一得分大于预设值时预测所述视频图像属于违规图像的第二得分，并输出所述第二得分；

审核模块503，用于在所述得分大于预设阈值时，对所述待审核视频进行审核；

其中，所述视频审核模型通过实施例一或实施例二所述的视频审核模型训练方法所训练。

本发明实施例所提供的视频审核装置可执行本发明实施例三所提供的视频审核方法，具备执行方法相应的功能模块和有益效果。

实施例六

参照图6，示出了本发明一个示例中的一种电子设备的结构示意图。如图6所示，该电子设备具体可以包括：处理器601、存储装置602、具有触摸功能的显示屏603、输入装置604、输出装置605以及通信装置606。该电子设备中处理器601的数量可以是一个或者多个，图6中以一个处理器601为例。该电子设备的处理器601、存储装置602、显示屏603、输入装置604、输出装置605以及通信装置606可以通过总线或者其他方式连接，图6中以通过总线连接为例。所述电子设备用于执行如本发明任一实施例提供的视频审核模型训练方法，和/或，视频审核方法。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例所述的视频审核模型训练方法，和/或，视频审核方法。

需要说明的是，对于装置、电子设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变换、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 视频审核模型训练方法、视频审核方法及相关装置 [P] . 中国专利： CN112818888A . 2021-05-18
2. 一种针对直播场景视频的内容审核模型训练方法及装置 [P] . 中国专利： CN109284784A . 2019-01-29
3. VIDEO SEGMENTATION METHOD, VIDEO SEGMENTATION MODEL TRAINING METHOD, SEGMENTATION DEVICE TO VIDEO STATE AND DATA STRUCTURE [P] . 日本专利： JPH11234670A . 1999-08-27

机译：视频分割方法，视频分割模型训练方法，针对视频状态和数据结构的分割装置
4. System and method for capturing, combining and displaying 360-degree "panoramic" or "spherical" digital pictures, images and/or videos, along with traditional directional digital images and videos of a site, including a site audit, or a location, building complex, room, object or event [P] . 美国专利： US2010231687A1 . 2010-09-16

机译：用于捕获，组合和显示360度“全景”或“球形”数字图片，图像和/或视频以及站点的传统定向数字图像和视频（包括站点审核或位置建筑物）的系统和方法复杂，房间，物体或事件
5. VIDEO ANALYSIS METHOD AND RELATED MODEL TRAINING METHOD, DEVICE AND APPARATUS THEREFOR [P] . WO2021142904A1 . 2021-07-22

机译：视频分析方法及相关模型训练方法，装置和装置