法律状态公告日
法律状态信息
法律状态
2022-08-30
实质审查的生效 IPC(主分类):G06V20/40 专利申请号:2022105021780 申请日:20220509
实质审查的生效
技术领域
本发明属于视频图像处理技术领域,具体涉及一种基于图像信息熵和HOG_SSIM的视频关键帧提取方法。
背景技术
近年来,随着计算机视觉技术的发展,视频分类的需求逐渐增加,目前视频信息逐渐成为人们获取信息的主要途径,对于时间较长的视频,如何从视频中选取具有代表性的视频摘要,从而帮助人类既可以快速了解整个视频的语义内容信息,又可以缩短观看视频的时间。视频关键帧提取技术较好地解决这个问题,常见的基于视频的关键帧提取技术大致可以分为以下几类:
基于抽样的关键帧提取方法:基于抽样的方法是随机抽取或者在预定义的时间间隔内随机抽取视频帧。该方法实现起来较为简单,但是存在一定的不足,在大多数情况下,使用随机抽样的方式所得到的关键帧并不能够很好的代表视频的主要信息,存在极大的冗余视频帧,从而导致最后的结果不太理想。
基于聚类的关键帧提取方法:该方法是通过视频帧之间的相似性度量将所有的视频帧划分成簇类,将每个簇类的中心挑选作为关键帧。但是基于聚类的关键帧提取方法需要提前设定簇类的数量,而且采用该方法没有考虑到视频帧的时间顺序。
基于镜头边界的关键帧提取方法:该方法主要是通过视频片段镜头发生变化,将视频以镜头为单位分割成片段,在每个片段中分别提取第一帧、中间帧、尾帧、作为该片段的关键帧。该方法在镜头变化较为明显的视频当中效果较好,但是在视频镜头切换较小的时候,并不适用。
基于深度学习的关键帧提取方法:传统的关键帧提取算法一般是将视频第一帧添加到关键帧序列当中,根据颜色特征、形状特征、纹理等视觉特征依次将下一帧和关键帧进行相似度对比,如果相似度较小,则将该视频帧加入到关键帧序列当中。但是视频帧的低阶特征不足以描述视频信息。Cheng Huang and Hongmei Wang等人于2020年提出一个基于胶囊网络的时空特征的视频自动分割方法,将视频流自动分割成镜头,并且引入一个自注意力模型来选择镜头内的关键帧。但是这些方法需要依靠深层网络来提高关键帧提取的精度,导致计算量较大,消耗较多的运行时间和内存资源。
发明内容
针对上述几类关键帧提取方法的的不足,本发明提出一种基于图像信息熵和HOG_SSIM的视频关键帧提取方法。该方法通过主要分为两个阶段,第一个阶段初步提取筛选关键帧,将提取出的视频帧,纳入候选关键帧集合当中。第二个阶段是去除候选关键帧集合中的冗余帧。最终保留下来的视频帧即为本发明最终提取的关键帧。
本发明的技术方案包括下列步骤:
步骤1)读取视频数据,通过预处理得到视频帧序列,计算视频帧序列中每一帧视频帧的图像信息熵;
步骤2)将视频帧序列中每一帧视频帧依次进行编号,得到每一帧视频帧的帧号;将视频帧序列中视频帧的帧号与图像信息熵的熵值进行对应,构建二维熵值曲线图;
步骤3)将熵值曲线图中局部极值点对应的视频帧纳入候选关键帧集合中;
步骤4)使用结构相似度(SSIM)算法和HOG特征相似度算法计算候选关键帧集合中的相邻候选关键帧之间的结构相似度和HOG特征相似度,分别设定判断关键帧结构相似度和HOG特征相似度的阈值;对候选关键帧集合进行筛选,保留小于阈值的视频帧,删除大于阈值的视频帧,最终保留的视频帧即为本发明提取的视频关键帧。
所述步骤1)具体为:
1.1)通过Opencv中的cv2.VideoCapture(sourceFileName).read()方法提取视频数据的每一帧,得到视频帧序列,并将其存储到存放视频所有视频帧的文件夹中;
1.2)依次计算所有视频帧的图像信息熵,并保存在熵值列表中。
所述步骤2)具体为:通过matplotlib库函数绘制熵值曲线图,横坐标为视频帧帧号,纵坐标为视频帧对应的熵值。
所述步骤3)具体为
3.1)根据熵值曲线图,找寻图中所有的局部极值点;局部极值点包括局部极大值点和局部极小值点:局部极大值点定义为当前视频帧的熵值同时大于前后两帧视频帧的熵值,局部极小值点定义为当前视频帧的熵值同时小于前后两帧视频帧的熵值;
3.2)将步骤3.1)得到的局部极值点和视频帧帧号进行对应,将局部极值点对应的视频帧纳入候选关键帧集合中。
所述步骤4)具体为
4.1)遍历候选关键帧集合中的视频帧,对于每相邻的两个候选关键帧:
1)使用结构相似度算法计算相邻两个候选关键帧之间的结构相似度;
2)使用HOG特征相似度算法分别计算相邻两个候选关键帧的HOG特征,然后使用余弦相似度算法计算相邻两个候选关键帧的HOG特征相似度;
4.2)计算步骤4.1)得到的所有结构相似度值的最小值和中位数值,并通过下式设定判断视频帧结构相似度的阈值TS:
其中,TS表示相邻视频帧的结构相似度判断阈值,Min(SimSSim
计算步骤4.1)得到的所有HOG特征相似度值的最小值和中位数值,并通过下式设定判断视频帧HOG特征相似度的阈值TG:
其中,TG表示相邻视频帧的HOG特征相似度判断阈值,Min(SimHog
4.3)通过步骤4.2)设定的阈值去除候选关键帧集合中的冗余帧,从而完成关键帧的提取,具体操作如下:
如果相邻两个候选关键帧的结构相似度值小于阈值TS或HOG特征相似度值小于阈值TG,则认定两视频帧不相似,不执行冗余帧去除操作;
反之,如果两个候选关键帧的结构相似度值大于阈值TS或HOG特征相似度值大于阈值TG,则认定两视频帧相似,去除相邻两个候选关键帧中前一个视频帧。
本发明的有益效果:
1)本发明提出利用两步法来提取视频关键帧,第一个步骤能够进行初步提取关键帧,第二个步骤能够去除第一个步骤提取出来的关键帧中的冗余帧;
2)本发明提出的关键帧提取方法中,在第二个步骤,采用结构相似度算法和HOG特征相似度算法两种相似性度量算法来进行冗余帧的去除,从亮度、对比度、结构、图像的HOG特征等方面去进行视频帧间相似度对比,能够有效的去除冗余帧。
附图说明
图1为本发明方法的流程图。
图2和图3为本发明实验的部分视频数据。
图4为本发明关键帧提取方法的整体流程图。
图5为本发明视频关键帧提取过程中的熵值曲线图。
图6为本发明使用的HOG特征相似度算法框架图。
图7为本发明使用HOG特征相似度算法的部分实验结果。
图8为本发明提取出来的候选关键帧。
图9为本发明提取出的视频关键帧。
图10为本发明关键帧提取方法和现有方法对比的结果图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明主要针对于视频关键帧提取,由于本发明是对视频数据提取出具有代表性的一些视频来代替原始视频数据,所以从UCF101数据集中挑选了部分视频数据进行本发明关键帧提取的实验对象。视频数据如图2、3所示。
如图1所示,首先通过读取视频数据,将视频数据划分为视频帧,然后基于图像信息熵初步提取关键帧,将提取出来的视频帧纳入候选关键帧集合当中,其次通过结构相似度算法和HOG特征相似度算法去除候选关键帧集合中的冗余帧,最终提取出视频的关键帧。
本发明具体步骤如下:
1)读取视频数据,通过Opencv中的cv2.VideoCapture(sourceFileName).read()方法提取出视频数据的每一帧,得到视频帧序列,然后对每一帧进行预处理将视频帧转为灰度图像,并计算每一帧视频帧的图像信息熵。
2)将步骤1得到的图像信息熵和视频帧号进行对应,通过使用matplotlib库函数绘制熵值曲线图,熵值曲线图如图5所示,横坐标表示视频帧,纵坐标为该视频帧对应的熵值。
3)在图5所示的熵值曲线图中,根据如下公式找到熵值的局部极值点(局部极值点包括局部极大值点和局部极小值点),将局部极值点所对应的视频帧纳入候选关键帧集合C_K当中。
C_K={Local Extreme point(f
在上述公式中,Local Extreme Point表示熵值曲线图的局部极值点,IE(f
4)在图4所示的视频关键帧提取流程当中,使用基于HOG特征相似度算法和结构相似度算法(SSIM)两种度量算法去除候选关键帧集合C_K中的冗余帧,其中HOG特征相似度算法流程图如图6所示,主要通过依次计算出相邻候选关键帧之间的HOG特征(部分候选关键帧的HOG特征图的计算结果如图7所示,其中图7(a)、图7(b)和图7(c)为部分候选关键帧,7(d)、图7(e)和图7(f)为7(a)、图7(b)和图7(c)的HOG特征图,从图中可以看出,动作差异较为明显的候选关键帧,其HOG特征图之间的差异也比较明显)。然后通过使用余弦相似度计算相邻候选关键帧的HOG特征之间的余弦距离相似度从而度量相邻候选关键帧相似度。结构相似度算法则是通过比较两候选关键帧之间的亮度、对比度、结构来度量相邻候选关键帧的相似度。分别找到两种度量算法得到的相似度值集合中的相似度最小值和相似度中位数值,计算判断视频帧相似度的阈值TG,TS,最后根据阈值去除候选关键帧集合C_K的冗余帧,从而提取出最后的视频关键帧。计算公式如下所示:
SimHog
SimSSim
K={selectC_K(f
其中C_K(f
如图8为本发明通过基于图像信息熵提取出来的候选关键帧,从图中可以看出,候选关键帧的提取结果整体上能够反映原视频“Basketball”的内容,但是依旧存在一定的冗余帧,为了去除冗余帧,提出一种基于HOG_SSIM的相似度算法来去除候选关键帧中的冗余帧,关键帧结果如图9所示。从图9可以看出本发明最终提取出的关键帧能够较好的去除候选关键帧集合中的冗余帧,并且最终提取的视频关键帧能够基本体现出“Baskteball”的内容。
其次,为了充分验证本发明提出的方法的有效性,我们提出一种客观评价指标来评估关键帧提取的效果。1)压缩率:压缩率一般表示为:压缩率=1-(提取的视频关键帧数/视频总帧数)。压缩率越大表示该算法消除的冗余帧越多,提取的关键帧更具有代表性。2)误检率:误检率=提取出的关键帧中不包含关键动作的关键帧数量/总关键帧数量。误检率越小,说明关键帧提取的效果越好。如表1为本发明在UCF101和CSL数据集上的客观评价实验结果。从表1可以看出,本发明提出的关键帧方法具有较高的压缩率和较低的的误检率。
表1
为了进一步验证本发明提出视频关键帧提取方法的有效性,本发明在UCF101数据集上选取部分视频进行实验并且和一些现有的方法进行对比,其部分结果对比如图10所示,图10(a)为本发明视频关键帧方法的提取结果,图10(b)为基于帧间差分的视频关键帧提取方法的提取结果,图10(c)为文献(Zhao Y,Guo H,Gao L,et al(2021)Multifeaturefusion action recognition based on key frames.Concurrency and Computation:Practice and Experience,e6137)中记载的视频关键帧的提取结果。
从图10可以看出,本发明提出的方法,能够基本体现出整个射箭“Archery”的动作,图10(b)和本发明对比存在较多的冗余帧,图10(c)的方法和本发明相比也存在一些冗余帧,并且该方法没有包含射箭结束后的动作。所以,本发明提出的视频关键帧提取方法是可行的,较大多数现有方法提取的视频关键帧效果较好。
上述具体技术流程用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。
机译: 视频序列的关键帧提取方法,视频序列的关键帧提取设备,存储介质和程序软件
机译: 关键帧提取设备,其方法,广播记录设备以及能够从视频流中提取与每个场景相对应的关键帧的方法
机译: 用于压缩和解压缩彩色数字视频数据的视频电信系统和方法技术领域本发明涉及一种用于压缩电信系统视频中数字彩色视频数据的方法,该方法具有用于生成视频信号的装置,该装置是用于生成视频信号的装置。将视频信号转换为多个彩色视频帧速率,每个帧图像由多个扫描线组成,扫描线由多个像素组成,图像中的每个像素由彩色数字分量组成(该方法包括确定功能的步骤);基于彩色数字(b)的三个分量中的至少一个的亮度像素,基于两个像素之间的亮度差异,针对当前图像表的扫描线中的至少大部分像素,确定至少一个参数决策。与每条扫描线中至少一个像素相距预定距离的像素,以及至少(c)比较决策参数与