首页> 中国专利> 视频精彩片段检测方法、装置、设备与存储介质

视频精彩片段检测方法、装置、设备与存储介质

摘要

本发明公开了一种视频精彩片段检测方法、装置、设备与存储介质,属于视频处理技术领域。本发明通过获取待检测视频片段,并将待检测视频片段的帧数据提取出来,将其输入视频精彩片段检测模型,通过经常视频片段检测模型实现待检测视频片段精彩分数的预测,并根据精彩分数,以实现目标精彩片段的检测。视频精彩片段预测模型包含了两个相互约束的深度模型:成对噪声模型和三元组精彩程度模型,将这两个模型融入到视频精彩片段检测任务中,能够提高精彩片段检测的准确率。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-16

    实质审查的生效 IPC(主分类):G06V20/40 专利申请号:2022103674710 申请日:20220408

    实质审查的生效

说明书

技术领域

本发明涉及计算机技术领域,尤其涉及视频精彩片段检测方法、装置、设备与存储介质。

背景技术

近年来,伴随着互联网带宽的不断扩大与数字信息存储成本的下降,海量的视频被不断地生成、发布、传播与存储,规模如此巨大的视频数据对视频内容分析技术提出了更高的要求。作为一项基础的视频内容分析技术,视频精彩片段检测技术近年来获得了广泛的研究。视频精彩片段检测的目的是在未编辑的完整视频中找到用户最关注或最感兴趣的视频片段。

然而,大多数现有的视频精彩片段检测方法都严重依赖人工标注的数据,而这些数据的获取成本非常高,这就阻碍了现有检测方法在大规模数据集以及未标注视频类别数据上的可扩展性。

发明内容

本发明的主要目的在于提供一种视频精彩片段检测方法、装置、设备与计算机可读存储介质,旨在解决现有检测方法依赖大量人工标注的数据的问题。

为实现上述目的,本发明提供一种视频精彩片段检测方法,所述视频精彩片段检测方法包括以下步骤:

获取待检测视频片段;

提取所述待检测视频片段的帧数据;

将所述帧数据输入视频精彩片段检测模型预测所述待检测视频片段的精彩分数,所述视频精彩片段检测模型包括两个互相约束的深度模型;

根据所述精彩分数,确定目标精彩片段。

优选地,所述将所述帧数据输入视频精彩片段检测模型预测所述待检测视频片段的精彩分数的步骤之前还包括:

获取网络图片,所述网络图片为视频精彩片段检测模型的训练数据;

基于所述网络图片,训练得到所述视频精彩片段检测模型。

优选地,所述视频精彩片段检测模型包括成对噪声模型和三元组精彩程度模型,所述基于所述网络图片,训练得到所述视频精彩片段检测模型的步骤包括:

基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果噪声分数和结果精彩分数;

基于所述结果噪声分数,分离所述网络图片中的噪声图片;

基于所述分离噪声图片后的网络图片训练得到所述视频精彩片段检测模型。

优选地,所述训练成对噪声模型和三元组精彩程度模型,并基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果噪声分数的步骤包括:

将所述网络图片输入噪声分类器,得到每一张网络图片对应的初始隐形噪声标签,所述初始隐形噪声标签用于标注网络图片是噪声图片还是精彩图片;

根据所述初始隐形噪声标签,将所述网络图片分为相关网络图片和噪声网络图片,并获取所述初始隐性噪声标签对应的初始噪声分数;

将精彩视频帧、非精彩视频帧和所述网络图片输入所述三元组精彩程度模型,得到所述网络图片的初始精彩分数;

将所述初始精彩分数和所述初始噪声分数输入第一公式,得到修正噪声分数;

将所述修正噪声分数、相关网络图片和噪声网络图片输入成对噪声模型训练得到所述网络图片的结果噪声分数。

优选地,所述训练成对噪声模型和三元组精彩程度模型,并基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果精彩分数的步骤包括:

给定所述修正噪声分数,并获取初始精彩分数、精彩片段集合、非精彩片段集合和网络图片集合;

通过所述三元组精彩程度模型获得所述网络图片调整后的结果精彩分数。

优选地,所述通过所述三元组精彩程度模型获得所述网络图片调整后的结果精彩分数的步骤之后,所述方法还包括:

固定所述三元组精彩程度模型的第一模型参数不变,根据成对深度排序交叉熵铰链损失函数来训练成对噪声模型并更新所述第一模型参数;

固定所述成对噪声模型的第二模型参数不变,根据三元组排序交叉熵铰链损失函数来训练三元组精彩程度模型并更新所述第二模型参数,所述三元组排序交叉熵铰链损失函数包括差额项和排序约束项,所述差额项用于约束精彩片段或网络图片的精彩分数与非精彩片段的精彩分数的差值,所述排序约束项用于约束精彩片段、非精彩片段以及网络图片对应的精彩分数的大小关系;

迭代训练所述三元组精彩程度模型和所述成对噪声模型,直到所述结果噪声分数、所述结果精彩分数、所述第一模型参数和所述第二模型参数都保持不变为止。

优选地,所述将精彩视频帧、非精彩视频帧和网络图片输入三元组精彩程度模型的步骤之前,所述方法还包括:

获取精彩片段集合和网络图片的深度学习特征向量、精彩片段集合和网络图片集合,所述精彩片段集合和所述网络图片集合标注有类别标签;

计算所述精彩片段集合与所述网络图片集合之间的域间隙;

从所述网络图片中过滤掉所述域间隙高于阈值的类别的网络图片。

此外,为实现上述目的,本发明还提供一种视频精彩片段检测装置,所述装置包括:

获取模块,用于获取待检测视频片段;

帧提取模块,用于提取所述待检测视频片段的帧数据;

预测模块,用于将所述帧数据输入视频精彩片段检测模型预测所述待检测视频片段的精彩分数,所述视频精彩片段检测模型包括两个互相约束的深度模型;

锁定模块,用于根据所述精彩分数,确定目标精彩片段。

优选地,所述装置还用包括:

模型训练模块,用于获取网络图片,所述网络图片为视频精彩片段检测模型的弱监督信息;

优选地,所述模型训练模块还用于:

获取网络图片,所述网络图片为视频精彩片段检测模型的训练数据;

基于所述网络图片,训练得到所述视频精彩片段检测模型。

优选地,所述模型训练模块还用于:

基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果噪声分数和结果精彩分数;

基于所述结果噪声分数,分离所述网络图片中的噪声图片;

基于所述分离噪声图片后的网络图片训练得到所述视频精彩片段检测模型。

优选地,所述模型训练模块还用于:

将所述网络图片输入噪声分类器,得到每一张网络图片对应的初始隐形噪声标签,所述初始隐形噪声标签用于标注网络图片是噪声图片还是精彩图片;

根据所述初始隐形噪声标签,将所述网络图片分为相关网络图片和噪声网络图片,并获取所述初始隐性噪声标签对应的初始噪声分数;

将精彩视频帧、非精彩视频帧和所述网络图片输入所述三元组精彩程度模型,得到所述网络图片的初始精彩分数;

将所述初始精彩分数和所述初始噪声分数输入第一公式,得到修正噪声分数;

将所述修正噪声分数、相关网络图片和噪声网络图片输入成对噪声模型训练得到所述网络图片的结果噪声分数。

优选地,所述模型训练模块还用于:

给定所述修正噪声分数,并获取初始精彩分数、精彩片段集合、非精彩片段集合和网络图片集合;

通过所述三元组精彩程度模型获得所述网络图片调整后的结果精彩分数。

优选地,所述模型训练模块还用于:

固定所述三元组精彩程度模型的第一模型参数不变,根据成对深度排序交叉熵铰链损失函数来训练成对噪声模型并更新所述第一模型参数;

固定所述成对噪声模型的第二模型参数不变,根据三元组排序交叉熵铰链损失函数来训练三元组精彩程度模型并更新所述第二模型参数,所述三元组排序交叉熵铰链损失函数包括差额项和排序约束项,所述差额项用于约束精彩片段或网络图片的精彩分数与非精彩片段的精彩分数的差值,所述排序约束项用于约束精彩片段、非精彩片段以及网络图片对应的精彩分数的大小关系;

迭代训练所述三元组精彩程度模型和所述成对噪声模型,直到所述结果噪声分数、所述结果精彩分数、所述第一模型参数和所述第二模型参数都保持不变为止。

优选地,所述装置还包括:

过滤模块,用于获取精彩片段集合和网络图片的深度学习特征向量、精彩片段集合和网络图片集合,所述精彩片段集合和所述网络图片集合标注有类别标签;

优选地,所述过滤模块还用于:

计算所述精彩片段集合与所述网络图片集合之间的域间隙;

从所述网络图片中过滤掉所述域间隙高于阈值的类别的网络图片。

此外,为实现上述目的,本发明还提供一种视频精彩片段检测设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频精彩片段检测程序,所述视频精彩片段检测程序配置为实现如上所述的视频精彩片段检测方法的步骤。

此外,为实现上述目的,本发明还提供一种存储介质,其特征在于,所述存储介质上存储有视频精彩片段检测程序,所述视频精彩片段检测程序被处理器执行时实现如上所述的视频精彩片段检测方法的步骤。

本发明提出的视频精彩片段检测方法,通过获取待检测数据,并使用多标签图像分类网络对待检测数据进行特征提取,得到缺陷特征数据;再对缺陷特征数据进行识别分类,能够对缺陷类别、严重程度、一般异常和旋转异常进行判别,得到缺陷检测结果,并对缺陷检测结果进行时钟位置标记;并且通过选择轻量化的网络和减少卷积网络参数,实现了模型的轻量化,通过本发明视频精彩片段检测方法能够准确的找到和分类管道中的缺陷,得到缺陷的位置以及缺陷严重程度,解决了镜头视角旋转带来的缺陷难以定位的问题。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的视频精彩片段检测设备的结构示意图;

图2为本发明视频精彩片段检测方法第一实施例的流程示意图;

图3为本发明视频精彩片段检测方法一实施例视频精彩片段检测模型训练过程的流程示意图;

图4为本发明视频精彩片段检测方法一实施例三元组深度排序系统方案描述图;

图5为本发明精彩视频片段检测方法一实施例中成对噪声模型示意图;

图6为本发明精彩视频片段检测方法一实施例中三元组精彩程度模型示意图;

图7为本发明视频精彩片段检测方法一实施例计算域间隙的流程示意图;

图8为本发明视频精彩片段检测装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的视频精彩片段检测设备结构示意图。

如图1所示,该视频精彩片段检测设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的结构并不构成对视频精彩片段检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及视频精彩片段检测程序。

在图1所示的视频精彩片段检测设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明视频精彩片段检测设备中的处理器1001、存储器1005可以设置在视频精彩片段检测设备中,所述视频精彩片段检测设备通过处理器1001调用存储器1005中存储的视频精彩片段检测程序,并执行本发明实施例提供的视频精彩片段检测方法。

本发明实施例提供了一种视频精彩片段检测方法,参照图2,图2为本发明视频精彩片段检测方法第一实施例的流程示意图。

本实施例中,所述视频精彩片段检测方法包括:

步骤S10,获取待检测视频片段;

步骤S20,提取所述待检测视频片段的帧数据;

步骤S30,将所述帧数据输入视频精彩片段检测模型预测所述待检测视频片段的精彩分数,所述预测模型包括两个互相约束的深度模型;

步骤S40,根据所述精彩分数,确定目标精彩片段。

本实施例视频精彩片段检测方法用于视频内容分析,为了解决现有技术中视频精彩片段检测方法大量依赖人工标注数据的问题,我们提出可以使用大量易获得的网络图片作为视频精彩片段检测的弱监督信息,从而弱化视频精彩片段检测方法对人工标注数据的依赖性。比如,我们通过搜索引擎查询和“足球射门”相关的图片,搜索引擎返回的排名靠前的图片中会包含大量的和足球比赛的精彩片段相似的正样本,换句话说,“足球射门”精彩片段包含的视频帧的视觉外观和搜索到的网络图片是非常相似的。因此,我们提出了一种新颖的三元组深度排序算法,在采用少量的人工标注的训练数据作为全监督信息的同时,额外采用大量可用的网络图片作为弱监督信息来进行视频精彩片段检测。

然而,在应用网络图片进行检测的时候,虽然大多数搜索到的网络图片与相应的精彩视频片段是高度相关的,但仍然包含很多与视频精彩片段无关的噪声图片,为了解决网络图片的噪声问题,本发明提出了一个新颖的三元组深度排序模型也即视频精彩片段检测模型,此模型包含两个相互依赖的深度模型:成对噪声模型和三元组精彩程度模型。

以下将对各个步骤进行详细说明:

步骤S10,获取待检测视频片段;

在一实施例中,获取待检测视频片段,待检测视频片段可以是各类视频,比赛视频、影视视频、新闻视频等等。待检测视频片段可以从直播中截取,也可以是已经获取的视频。

步骤S20,提取所述待检测视频片段的帧数据;

在一实施例中,将待检测视频片段进行处理,将视频数据处理为图片数据,也即进行帧提取。具体地,可以通过帧间差分的方法提取待检测视频片段的帧数据,因为视频有很多帧,而通常相近的帧之间其图片内容是相似的,因此,将两帧图像进行差分,得到图像的平均像素强度可以用来衡量两帧图像的变化大小。因此,基于帧间差分的平均强度,每当视频中的某一帧与前一帧画面内容产生了大的变化,我们便认为它是关键帧,并将其提取出来。当然,也可以按预设帧间隔直接提取帧数据,具体的提取方法不进行限定。

步骤S30,将所述帧数据输入视频精彩片段检测模型预测所述待检测视频片段的精彩分数,所述视频精彩片段检测模型包括两个互相约束的深度模型,所述;

在一实施例中,将帧数据输入视频精彩片段检测模型,通过视频精彩片段检测模型预测待检测视频片段的精彩分数。视频精彩片段检测模型的训练数据包括少量人工标注的视频片段,包括属于同一视频的精彩片段和非精彩片段,以及大量的网络图片,通过训练数据对视频精彩片段检测模型进行训练,并核验其准确度,得到最终的视频精彩片段检测模型。人工标注的视频片段可以是公开的高质量数据,也可以是人工抽取部分数据进行标注。需要说明的是,网络图片为大概率与精彩片段相关的画面,可以通过场景、时间、人物等方面进行选择。现有的弱监督方法,通常是将精彩片段检测视为弱监督的识别任务,给定训练视频集,模型会寻找训练样本中出现频率较高的内容,并将包含此类内容的视频片段检测为精彩片段。但此种方案缺乏判别能力,因为训练视频中出现频率较高的内容不一定是视频的精彩内容。因此,本方案采用网络图片作为弱监督数据训练模型。而为了解决网络图片的噪声问题,采用了两个互相约束的深度模型进行降噪,使得预测的精准度更高。其中,视频精彩片段检测模型可以采用CNN(卷积神经网络)来进行特征提取,将图片数据转化为向量形式,经过全连接层,通过学习得到的精彩片段和非精彩片段的特征,使模型能够对待检测视频片段的帧数据精彩分数进行预测。

步骤S40,根据所述精彩分数,确定目标精彩片段。

在一实施例中,基于预测得到的待检测视频片段的精彩分数,确认目标精彩片段。通过对待检测视频片段的帧图片进行精彩程度预测,视频精彩片段检测模型能够输出帧数据对应的精彩分数,进而通过计算待检测视频片段对应的帧图片的精彩分数总分,能够得到视频片段的精彩得分。具体地,可以将精彩分数进行排序,然后从中选出精彩分数较高的片段作为目标片段,例如选择前20%作为精彩片段。

本实施例通过获取待检测视频片段,并将待检测视频片段的帧数据提取出来,将其输入视频精彩片段检测模型,通过经常视频片段检测模型实现待检测视频片段精彩分数的预测,并根据精彩分数,以实现目标精彩片段的检测。视频精彩片段预测模型包含了两个相互约束的深度模型:成对噪声模型和三元组精彩程度模型,将这两个模型融入到视频精彩片段检测任务中,能够提高精彩片段检测的准确率,此外,通过深度排序算法训练得到的视频精彩片段检测模型是与类别无关的通用模型,因此即使不共享完全相同的类别,我们的模型也可以用于其他任何视频精彩片段的检测任务。

进一步地,基于本发明视频精彩片段检测方法第一实施例,提出本发明视频精彩片段检测方法第二实施例。

参照图3,图3为本发明视频精彩片段检测方法一实施例视频精彩片段检测模型训练过程的流程示意图,在第二实施例中,所述将所述帧数据输入视频精彩片段检测模型预测所述待检测视频片段的精彩分数的步骤之前还包括:

步骤S50,获取网络图片,所述网络图片为视频精彩片段检测模型的训练数据;

步骤S60,基于所述网络图片,训练得到所述视频精彩片段检测模型。

在本实施例中,视频精彩片段检测模型采用网络图片作为弱监督信息进行训练,并且通过成对噪声模型和三元组精彩程度模型对网络图片进行噪声去除,以提高模型的预测精准性。

以下将对各个步骤进行详细说明:

步骤S50,获取网络图片,所述网络图片为视频精彩片段检测模型的训练数据;

在一实施例中,获取网络图片,将网络图片作为精彩片段检测的弱监督信息。可以通过输入关键词,搜索与目标类别的视频精彩片段精彩部分相关的图片,例如篮球比赛可以输入进球、投篮、三分,游戏比赛可以输入团灭、胜利、五杀等等,具体地获取哪些网络图片,可以通过对精彩视频的研判得到,搜索并将网络图片下载储存作为训练数据。

步骤S60,基于所述网络图片,训练得到所述视频精彩片段检测模型。

在一实施例中,得到网络图片后,训练视频精彩片段检测模型学习网络图片的特征,使得模型在后续得到待检测视频片段的帧图片时,能进行分类。可以理解的,我们所获取的网络图片是精彩视频中会出现的一些图片内容,通过对图片特征进行提取,能够学习相关特征,结合少量人工标注的有标签数据,能够训练得到视频精彩片段检测模型。

进一步地,在一实施例中,所述视频精彩片段检测模型包括成对噪声模型和三元组精彩程度模型,所述基于所述网络图片,训练得到所述视频精彩片段检测模型的步骤包括:

步骤S61,基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果噪声分数和结果精彩分数;

在一实施例中,通过训练两个互补且相互依赖的深度模型(即成对噪声模型和三元组精彩程度模型)来约束网络图片的精彩分数和噪声分数之间的关联性。成对噪声模型将网络图片作为输入,为每一张网络图片赋予一个噪声分数,噪声分数越高,表示这张图片是噪声图片的可能性越高,之所以是成对噪声模型,也即模型有两个部分的数据,一部分是网络图片中的相关网络图片,一部分是网络图片中的噪声网络图片。由网络图片的噪声分数对网络图片进行分类,得到相关网络图片和噪声网络图片,即网络图片的隐性噪声标签。而三元组精彩程度模型,则是将网络图片、精彩视频片段、非精彩视频片段作为输入,能够预测精彩程度,并通过深度排序算法对各个部分的精彩分数进行约束。此外,两个模型直接还能通过迭代训练互相约束,例如噪声分数越低的网络图片,则其精彩分数应当比噪声分数越高的网络图片更高,通过设置一些约束规则,调整网络图片的噪声分数和精彩分数,得到网络图片的结果精彩分数和结果噪声分数。其中,成对噪声模型、三元组精彩程度模型可以采用常规的神经网络分类方法训练得到。

步骤S62,基于所述结果噪声分数,分离所述网络图片中的噪声图片。

在一实施例中,根据结果噪声分数分离网络图片中的噪声图片,也即,成对噪声模型最终能够对网络图片的噪声分数进行更准确的预测,因此,通过预测得到结果噪声分数,在后续的预测中,如果待检测视频片段的帧图片与噪声图片相似,那么更容易被赋予低的精彩得分,或者说不将待检测视频片段的帧图片与噪声图片进行匹配,而只与相关网络图片进行匹配。

步骤S63,基于所述分离噪声图片后的网络图片训练得到所述视频精彩片段检测模型。

在一实施例中,将去除噪声后的网络图片作为视频精彩片段检测模型的弱监督数据,弱监督也即没有标签的数据,而采用去除噪声后的网络图片进行训练,则这部分网络图片与精彩片段的相关性更高,从而能够提高视频精彩片段检测模型的预测精准度。

进一步地,在一实施例中,所述基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果噪声分数的步骤包括:

步骤S611,将所述网络图片输入噪声分类器,得到每一张网络图片对应的初始隐形噪声标签,所述初始隐形噪声标签用于标注网络图片是噪声图片还是精彩图片;

在一实施例中,为了处理网络数据中的噪声,我们首先通过训练噪声分类器来初始化网络图片的隐性噪声标签。在初始阶段,我们通过一个噪声分类器来为每一张网络图片赋予一个隐性噪声标签y∈{0,1},如果y=0代表这张网络图片是噪声图片,如果y=1则代表这张网络图片是相关图片。具体来说,在训练阶段,我们采用在ImageNet数据集上预训练的深度卷积神经网络AlexNet作为我们的噪声分类器,并在视频精彩片段检测的目标数据集上对这个分类模型的参数做微调。在测试阶段,我们将网络图片输入到噪声分类器中,并将噪声分类器的输出作为此网络图片的初始隐性噪声标签。

步骤S612,根据所述初始隐形噪声标签,将所述网络图片分为相关网络图片和噪声网络图片,并获取所述初始隐性噪声标签对应的初始噪声分数;

在一实施例中,我们根据网络图片的初始隐性噪声标签将网络图片分为相关网络图片和噪声网络图片。

步骤S613,将精彩视频帧、非精彩视频帧和所述网络图片输入所述三元组精彩程度模型,得到所述网络图片的初始精彩分数。

在一实施例中,三元组精彩程度模型将精彩视频帧、非精彩视频帧和网络图片这个三元组作为输入,并为它们赋予一个精彩程度分数,精彩程度分数越高,表示其与视频精彩片段相关的可能性越高。具体地,初始模型可以采用LR,linearSVC,lightgbm等,之后再训练数据上进行训练得到适应视频精彩程度分类的模型。

步骤S614,将所述初始精彩分数和所述初始噪声分数输入第一公式,得到修正噪声分数;

具体地,我们根据下式来调整噪声得分:

其中w表示网络图片,

步骤S615,将所述修正噪声分数、相关网络图片和噪声网络图片输入成对噪声模型训练得到所述网络图片的结果噪声分数。

在一实施例中,通过成对深度排序损失函数L

其中

进一步地,在一实施例中,所述基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果精彩分数的步骤包括:

步骤S616,给定所述修正噪声分数,并获取初始精彩分数、精彩片段集合、非精彩片段集合和网络图片集合;

步骤S617,通过所述三元组精彩程度模型获得所述网络图片调整后的结果精彩分数。

在本实施例中,给定经过调整的网络图片的修正噪声分数,我们利用三元组精彩程度模型获得网络图片的精彩分数。具体来说,三元组精彩程度模型的输入是一个包含精彩片段h、非精彩片段n、网络图片w三元组。我们的目的是学习一个深度排序模型来约束三元组的精彩程度得分,使得

f(h)>f(n),f(u)>f(n),f(h)≈f(w)

其中

其中w表示网络图片,

进一步地,在一实施例中,所述通过所述三元组精彩程度模型获得所述网络图片调整后的结果精彩分数的步骤之后,所述方法还包括:

步骤S71,固定所述三元组精彩程度模型的第一模型参数不变,根据成对深度排序损失函数来训练成对噪声模型并更新所述第一模型参数;

步骤S72,固定所述成对噪声模型的第二模型参数不变,根据三元组排序交叉熵铰链损失函数来训练三元组精彩程度模型并更新所述第二模型参数,所述三元组排序交叉熵铰链损失函数包括差额项和排序约束项,所述差额项用于约束精彩片段或网络图片的精彩分数与非精彩片段的精彩分数的差值,所述排序约束项用于约束精彩片段、非精彩片段以及网络图片对应的精彩分数的大小关系;

步骤S73,迭代训练所述三元组精彩程度模型和所述成对噪声模型,直到所述结果噪声分数、所述结果精彩分数、所述第一模型参数和所述第二模型参数都保持不变为止。

本实施例中,在对模型的训练过程中,可以固定一个模型的参数不变对另一个模型进行训练,多次反复迭代,直到两个模型的参数都保持不变,其中,模型参数包括损失函数、AUC、精确率等等,结果隐形噪声标签指的是最终调整好的模型预测得到的网络图片噪声分数,通过迭代,当模型各参数收敛时,即认为训练完成。

进一步地,在一实施例中,所述三元组排序交叉熵铰链损失函数包括:

差额项和排序约束项,所述差额项用于约束精彩片段或网络图片的精彩分数与非精彩片段的精彩得分的差值,所述排序约束项用于约束精彩片段、非精彩片段以及网络图片在排序序列中的相对位置关系。

在一实施例中,基于以上约束,我们提出了一个三元组排序交叉熵铰链损失函数用来训练此模型:

M

其中Θ是训练数据中的三元组集合,N

参照图4,图4为本发明视频精彩片段检测方法一实施例三元组深度排序系统方案描述图,图4显示了我们提出的三元组深度排序系统训练过程的整个框架,我们在步骤(a)中初始化隐性噪声标签并在步骤(b)中处理域间隙,在步骤(c)(d)(e)中我们使用经过校正的隐性噪声标签迭代训练两个相互依赖的深度模型。最后,我们在步骤(f)中预测视频片段的精彩程度得分。进一步地,参照图5和图6,图5和图6分别为本发明精彩视频片段检测方法一实施例中成对噪声模型/三元组精彩程度模型的示意图。其中,CNN为卷积神经网络,FC为Fully Connected Layers,全连接层。成对噪声模型能够对相关网络图片和噪声图片分别预测得到噪声分数,并通过成对排序交叉熵铰链损失函数来进行调整。三元组精彩程度模型能够对精彩片段、非精彩片段、网络图片的精彩分数进行预测,并通过三元组排序交叉熵铰链损失函数来进行调整。

本实施例不再仅仅依赖人工标注的数据而是采用网页数据作为弱监督来训练视频精彩片段检测模型,这些网络数据可以简单地通过搜索引擎的文本查询获取。通过训练两个相互依赖的深度排序模型来约束网络图片的噪声分数和精彩分数,从而减少网络图片中的噪声干扰。我们的深度排序算法是与类别无关的通用模型,因此即使不共享完全相同的类别,我们的模型也可以用于其他任何视频精彩片段的检测任务。

进一步地,基于本发明视频精彩片段检测方法的在前实施例,提出本发明视频精彩片段检测方法的第三实施例。参照图7,图7为本发明视频精彩片段检测方法一实施例计算域间隙的流程示意图,在本实施例中,所述将精彩视频帧、非精彩视频帧和网络图片输入三元组精彩程度模型的步骤之前,所述方法还包括:

步骤S81,获取精彩片段集合和网络图片的深度学习特征向量、精彩片段集合和网络图片集合,所述精彩片段集合和所述网络图片集合标注有类别标签;

步骤S82,计算所述精彩片段集合与所述网络图片集合之间的域间隙;

步骤S83,从所述网络图片中过滤掉所述域间隙高于阈值的类别的网络图片。

在一实施例中,通过计算域间隙,并将域间隙高于阈值的网络图片过滤,解决视频帧和网络图片之间存在域间隙的问题。需要说明的是,通常在不同数据集之间存在域间隙(domain gap),也即在一个数据集上训练好的模型无法应用在另一个数据集上。因此,通过计算最大平均差异(Maximum Mean Discrepancy)来衡量视频帧与网络图片之间的域间隙:

其中F(h

本实施例通过取精彩片段集合和网络图片的深度学习特征向量、精彩片段集合和网络图片集合,并采用了最大平均差异来衡量域间隙,如果计算得到某个类别的网络图片域间隙大于预设阈值,则将网络图片中对应类别的网络图片删除,以解决视频帧和网络图片之间存在一定的视觉差异的问题。

本发明还提供一种视频精彩片段检测装置。如图8所示,图8为本发明视频精彩片段检测装置一实施例的功能模块示意图。

本发明视频精彩片段检测装置包括:

获取模块10,用于获取待检测视频片段;

帧提取模块20,用于提取所述待检测视频片段的帧数据;

预测模块30,用于将所述帧数据输入视频精彩片段检测模型预测所述待检测视频片段的精彩分数,所述视频精彩片段检测模型包括两个互相约束的深度模型;

锁定模块40,用于根据所述精彩分数,确定目标精彩片段。

优选地,所述模型训练模块还用于:

获取网络图片,所述网络图片为视频精彩片段检测模型的训练数据;

基于所述网络图片,训练得到所述视频精彩片段检测模型。

优选地,所述模型训练模块还用于:

基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果噪声分数和结果精彩分数;

基于所述结果噪声分数,分离所述网络图片中的噪声图片;

基于所述分离噪声图片后的网络图片训练得到所述视频精彩片段检测模型。

优选地,所述模型训练模块还用于:

将所述网络图片输入噪声分类器,得到每一张网络图片对应的初始隐形噪声标签,所述初始隐形噪声标签用于标注网络图片是噪声图片还是精彩图片;

根据所述初始隐形噪声标签,将所述网络图片分为相关网络图片和噪声网络图片,并获取所述初始隐性噪声标签对应的初始噪声分数;

将精彩视频帧、非精彩视频帧和所述网络图片输入所述三元组精彩程度模型,得到所述网络图片的初始精彩分数;

将所述初始精彩分数和所述初始噪声分数输入第一公式,得到修正噪声分数;

将所述修正噪声分数、相关网络图片和噪声网络图片输入成对噪声模型训练得到所述网络图片的结果噪声分数。

优选地,所述模型训练模块还用于:

给定所述修正噪声分数,并获取初始精彩分数、精彩片段集合、非精彩片段集合和网络图片集合;

通过所述三元组精彩程度模型获得所述网络图片调整后的结果精彩分数。

优选地,所述模型训练模块还用于:

固定所述三元组精彩程度模型的第一模型参数不变,根据成对深度排序交叉熵铰链损失函数来训练成对噪声模型并更新所述第一模型参数;

固定所述成对噪声模型的第二模型参数不变,根据三元组排序交叉熵铰链损失函数来训练三元组精彩程度模型并更新所述第二模型参数,所述三元组排序交叉熵铰链损失函数包括差额项和排序约束项,所述差额项用于约束精彩片段或网络图片的精彩分数与非精彩片段的精彩分数的差值,所述排序约束项用于约束精彩片段、非精彩片段以及网络图片对应的精彩分数的大小关系;

迭代训练所述三元组精彩程度模型和所述成对噪声模型,直到所述结果噪声分数、所述结果精彩分数、所述第一模型参数和所述第二模型参数都保持不变为止。

优选地,所述装置还包括:

过滤模块,用于获取精彩片段集合和网络图片的深度学习特征向量、精彩片段集合和网络图片集合,所述精彩片段集合和所述网络图片集合标注有类别标签;

优选地,所述过滤模块还用于:

计算所述精彩片段集合与所述网络图片集合之间的域间隙;

从所述网络图片中过滤掉所述域间隙高于阈值的类别的网络图片。

本发明还提供一种存储介质。

本发明存储介质上存储有视频精彩片段检测程序,所述视频精彩片段检测程序被处理器执行时实现如上所述的视频精彩片段检测方法的步骤。

其中,在所述处理器上运行的视频精彩片段检测程序被执行时所实现的方法可参照本发明视频精彩片段检测方法各个实施例,此处不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个拉曼光谱数据处理”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号