首页> 中国专利> 一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法

一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法

摘要

本发明公开了一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法。方法首先将视频文件分解成帧序列,按照帧的时间顺序依次使用深度神经网络分别提取语义特征和视觉显著性特征;语义特征经过双向LSTM模型处理预测出视频帧被选择为关键帧的初始概率;显著性特征用于区分出图像画面中,能够引起观众注意的区域,将显著性特征输入视觉显著度模型中,衡量视频帧的视觉重要度得分;同时利用视觉显著度模型的视觉重要度得分对双向LSTM模型产生的初始概率进行调制,高效地提升了视频摘要生成结果。

著录项

  • 公开/公告号CN113111218A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 华中师范大学;

    申请/专利号CN202110308808.6

  • 发明设计人 钟睿;黄炎森;肖地洋;王蕊;

    申请日2021-03-23

  • 分类号G06F16/738(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构42222 武汉科皓知识产权代理事务所(特殊普通合伙);

  • 代理人鲁力

  • 地址 430079 湖北省武汉市洪山区珞瑜路152号

  • 入库时间 2023-06-19 11:49:09

说明书

技术领域

本发明属于视频摘要技术领域,尤其涉及一种针对用户的“随手拍”视频,基于视觉显著度调制的双向LSTM模型的无监督视频摘要技术。

背景技术

视频摘要的目的是通过一个简短的视频来表示一个原始的视频内容,该技术能够方便视频的预览、存储、检索和管理。自从YouTube、Instagram等自媒体平台快速发展以来,普通用户创建并上传了大量的视频数据。然而,传统的基于人工浏览视频,挑选出关键片段的模式需要耗费大量的人力和时间、效率低下,无法高效及时的处理海量视频。自动视频摘要技术能够自动分析原始视频中的内容,并提炼出关键的片段组成时长更短的视频。便于自媒体平台快速的浏览,存储,检索,传播视频信息,对信息的流通具有重要的意义。

现有的视频摘要方法主要解决特定类别的视频,如运动视频,监控视频,关注的是在背景不变,或者有额外辅助信息的条件下度量视频帧的关键程度。然而,“随手拍”视频,场景在短时间内频繁变化,大大增加了视频内容的语义信息复杂度,同时干扰信息也更多。因此,传统的方法并不能很好的解决“随手拍”视频的摘要问题。

发明内容

针对现有技术存在的不足,本发明提供了一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要技术。该方法针对“随手拍”视频,提出将语义信息和视觉信息融合,并以视觉显著度模型调制双向LSTM模型的形式以确定当前图像被选为关键帧的概率。其特征在于:将视频文件分解成帧序列,按照帧的时间顺序依次使用深度神经网络分别提取语义特征和视觉显著性特征;语义特征经过双向LSTM模型处理预测出视频帧被选择为关键帧的初始概率;显著性特征用于区分出图像画面中,能够引起观众注意的区域,将显著性特征输入本发明最新提出的视觉显著度模型中,衡量视频帧的视觉重要度得分;同时利用视觉显著度模型的视觉重要度得分对双向LSTM模型产生的初始概率进行调制,高效地提升了视频摘要生成结果;本发明系统框架图见附图1。在两个标准“随手拍”视频摘要数据集上的测试结果证明视觉显著度调制的双向LSTM模型的有效性,见表1。其流程如附图2所示,具体实现如下:

基于以下定义,视频文件分解为一段长视频序列

步骤1、从给定视频

步骤2、将视觉显著性特征

步骤3、将整个的语义特征

步骤4、基于步骤2、3得到的视觉显著度分数

步骤5、基于步骤4得到的调制概率,从长视频序列中选取关键帧组成视频帧序列,从而构成视频摘要。

在上述的一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法,所述步骤1中,提取语义特征

将视频帧序列

在上述的一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法,所述步骤1中,在基于FCN的视频显著目标检测网络中提取视觉显著性特征

步骤1.1、将单个视频帧x

步骤1.2、在相同通道上按深度连接视频帧x

步骤1.3、迭代步骤1.1,1.2直到视频序列末尾,得到视觉显著性特征

在上述的一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法,所述步骤2中,对于每一帧图像,将像素按z

在上述的一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法,所述步骤3中,将整个的语义特征

在上述的一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法,所述步骤5基于步骤4得到的调制概率,计算第t帧是否被选为关键帧,计算公式为y

与现有视频摘要技术与系统相比,本发明具有以下优点和有益效果:1、与现有技术相比,本发明解决了一个新问题,即用户“随手拍”视频下的视频摘要问题。2、与现有技术相比,本发明提出了一种全新的基于视觉显著度调制的双向LSTM模型的无监督视频摘要技术。3、与现有技术相比,本发明利用视频帧的视觉信息和语义信息,计算视频帧的视觉显著性和语义特征重要性及其相关性来展开“随手拍”视频下的视频摘要工作。

附图说明

图1是本发明的系统框架图。

图2是本发明的视频摘要流程图。

图3是本发明使用的基于FCN的视频显著目标检测网络的结构图。

图4是本发明的GoogLeNet架构。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合附图对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。

本发明提供了一种针对手持设备拍摄的视频,自动生成视频摘要的技术,属于视频摘要技术领域。该方法针对“随手拍”视频,提出将语义信息和视觉信息融合,并以视觉显著度模型调制双向长短期记忆模型双向LSTM的形式以确定当前图像被选为关键帧的概率。首先,将视频文件按照帧的时间顺序依次使用深度识别网络分别提取语义特征序列和视觉显著性特征序列。第二,语义特征经过双向LSTM模型处理预测出视频帧被选择为关键帧的初始概率。第三,根据每帧视频帧的视觉显著性特征构建显著性特征直方图,确定每帧的视觉重要度分数。最后,利用视觉显著度模型的视觉重要度得分对双向LSTM模型产生的初始概率进行调制,然后将确定的关键帧组成视频摘要。见附图2。

框架图请见附图1、本实施例采用VS2013作为仿真实验平台,在公共的数据集SumMe和TVSum上进行测试。SumMe数据集包含25个由普通用户拍摄的原始视频,每段视频时长在1-10min不等。TVSum数据集含有50段时长在1-10min的长视频,包含了纪录片,采访等形式的视频。以下针对上述实例对本发明做进一步的阐述,本发明的流程包括:

步骤一:

1、视频摘要定义。在给定的一段长视频序列

2、视频帧描述信息。由视觉信息(z

步骤二:视觉显著度调制的双向LSTM模型。

1、给定视频帧图像的视觉显著性特征表达和语义特征表达分别为

2、视觉显著度模型。如果图像的显著域的面积大小大于预设的阈值

3、双向LSTM模型。整个的语义特征

4、调制概率。在基于视觉显著度调制的双向LSTM模型的无监督视频摘方法中结合了语义特征和视觉显著性特征,提高了在选择关键帧时过滤冗余关键帧的能力,因此模型挑选关键帧的精度显著提升,调制后概率表示为β

步骤三:关键帧序列的选择。

1、选择关键帧函数。联合视觉显著度模型调制的预测概率,确定语义特征与视觉显著性特征均重要的关键帧y

2、视频摘要效果评价。

F-score评价指标:为了和其他的方法公平比较,我们采用目前最为通用的测评标准F-score作为我们方法的测试指标。A表示自动生成摘要的长度,B表示真值摘要长度。P为精确度,R为召回率。

F-score计算自动生成摘要与真值摘要间的相似度:

本方法与其他前沿方法在TVSum和SumMe上的F-score结果见表1。从表1中可以发现,本发明的视频摘要方法性能明显高于其他前沿方法,也证明了引入视觉显著度调制的双向LSTM模型的无监督视频摘要技术的有效性。

表1:与其它前沿方法比较

从表1可以看出,我们提出的视觉显著度调制的双向LSTM模型的无监督视频摘要技术在SumMe和TVSum数据集上的F-score分别比DR-DSN[4]高出22.95%和1.56%。

应当理解的是,本说明书未详细阐述的部分均属于现有技术。

应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号