法律状态公告日
法律状态信息
法律状态
2019-09-10
未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20160203 终止日期:20180924 申请日:20120924
专利权的终止
2018-02-09
专利实施许可合同备案的注销 IPC(主分类):G06F17/30 合同备案号:2016320000210 让与人:南京邮电大学 受让人:江苏南邮物联网科技园有限公司 解除日:20180116 申请日:20120924
专利实施许可合同备案的生效、变更及注销
2016-12-14
专利实施许可合同备案的生效 IPC(主分类):G06F17/30 合同备案号:2016320000210 让与人:南京邮电大学 受让人:江苏南邮物联网科技园有限公司 发明名称:一种基于故事情节的视频摘要提取方法 申请公布日:20130130 授权公告日:20160203 许可种类:普通许可 备案日期:20161114 申请日:20120924
专利实施许可合同备案的生效、变更及注销
2016-02-03
授权
授权
2013-03-13
实质审查的生效 IPC(主分类):G06F17/30 申请日:20120924
实质审查的生效
2013-01-30
公开
公开
查看全部
技术领域
本发明涉及一种视频摘要提取方法,尤其涉及一种基于故事情节的视频摘要提取方法,属于图像处理技术领域。
背景技术
随着越来越多的影片资料出现在网络、个人电脑和数字设备上,要求采取有效且实用的方法组织和管理这些海量数据的愿望也越来越强烈。这些方法中,影片摘要方法不仅可获得对原始影片资料故事情节发展的简单描述,而且有利于观众观看整部影片前便能捕获电影主题。因此,电影摘要的目的是依据故事情节的发展,选择合适的片段构成影片摘要。然而,如何合理地选择电影片段及有效地将它们整合为摘要,仍是一个有待进一步研究的问题。
经对现有技术文献的检索发现,Ma等人(Y.Ma,X.Hua,L.Lu,and H Zhang.Ageneric framework of user attention model and its application in video summarization.InIEEE Transactions on Multimedia,7(5):907–919,2005)提出了用户注意模型的电影摘要,Li等人(K.Li,L.Guo,C.Faraco,and et al.Human-centered attention models for videosummarization.In Proceedings of IEEE International Conference on Multimodal Interfaces,2010:27-30)提出了关于电影摘要的以人为本的注意模型,Lu等人(S.Lu,I.King,andM.Lyu.Video summarization by video structure analysis and graph optimization.InProceedings of IEEE International Conference on Multimedia and Expo,2004:1959-1962)通过电影结构分析和图优化的方法实现电影摘要。这些电影摘要方法主要侧重于通过提取底层视听特征或中间层视听特征来生成摘要。然而从人们理解角度来说,由于底层视听特征与高层语义理解的差异,底层视听特征并不能很好地描述电影情节的进展。由电影制作理论可知,任何影片的本质都是讲述一个故事。因此,一个理想的电影摘要能清楚描述原始电影情节的进展。从观众的角度来看,一部电影之所以吸引他,是他想知道故事接下来的情节该如何发展。即,故事情节为一部影片的结构及精彩的内容,提供了有意义的描述。
发明内容
本发明所要解决的技术问题在于克服现有视频摘要方法的不足,提供一种基于故事情节的视频摘要提取方法,依据故事情节发展关系选择合适的摘要片段,既符合人们的逻辑思维,也有利于保证影片内容的完整性。
本发明的基于故事情节的视频摘要提取方法,包括以下步骤:
步骤A、对原始视频进行关键帧、镜头以及场景检测;
步骤B、根据视频故事情节从场景中检测出精彩场景;
步骤C、根据实际情况从精彩场景中选择摘要片段,并按照时序进行拼接,生成原始视频的摘要。
所述精彩场景的检测包括:
对话场景检测:首先依据人脸信息检测出含有交替出现的人脸镜头的场景,作为候选对话场景;然后,从候选对话场景中选出包含语音的场景,即为对话场景;
动作场景检测:一个场景同时满足下列三个条件时,则将该场景视为动作场景:该场景中每个镜头的帧数小于25,每个镜头的平均活跃强度超过200,且每个镜头的平均音频能量超过100;
悬疑场景检测:当一个场景同时满足下列三个条件时,则该场景为悬疑场景:该场景的平均光照强度小于50;该场景开始某几个镜头的音频能量包不超过5,且某两个连续镜头的音频能量包变化超过50;该场景开始几个镜头的活跃强度不超过5,且某两个连续镜头的活跃强度变化超过100。
进一步地,所述对话场景检测还包括情感对话场景的检测:分别提取各对话场景的平均的基音频率和短时的强度变化,选择两者均大于预设阈值的对话场景,即为情感对话场景。
进一步地,所述动作场景检测还包括:
枪战场景检测:选择橙、黄、红三种颜色特征均大于预设阈值的动作场景作为枪战场景;
打斗场景检测:选择包含吼叫声音频特征的动作场景作为打斗场景;
追逐场景检测:选择包含摩擦声和尖叫声音频特征的动作场景作为追逐场景。
优选地,所述步骤C具体包括以下各子步骤:
步骤C1、按照以下公式计算任意两个精彩场景间的演变强度:
PIF(ASu,ASv)=α*TTn(ASu,ASv)+β*STn(ASu,ASv)+γ*RTn(ASu,ASv)
式中,PIF(ASu,ASv)表示两个不同场景ASu和ASv之间的演变强度,TTn(ASu,ASv)、STn(ASu,ASv)、RTn(ASu,ASv)分别是ASu和ASv之间的时域变换强度TT(ASu,,ASv)、空间变换强度ST(ASu,ASv)、周期转换强度RT(ASu,ASv)的归一化形式,α、β、γ为满足α+β+γ=1的权重系数;其中,
时域变换强度TT(ASu,ASv)的计算公式为:
>
式中,N(ASu,Shl,Kfp)是场景ASu内最后一个镜头l中关键帧p里出现的人脸数目,N(ASv,Shw,Kfq)是场景ASv内第一个镜头w中关键帧q里出现的人脸数目,P、Q分别为镜头l和w中的关键帧数目;
空间变换强度ST(ASu,ASv)的计算公式为:
>
>
式中,RA(p)、GA(p)、BA(p)和LA(p)分别表示场景ASu内最后一个镜头l中关键帧p的背景区域中红、绿、蓝以及亮度的平均值,RA(q)、GA(q)、BA(q)和LA(q)分别表示场景ASv内第一个镜头w中关键帧q的背景区域中红、绿、蓝以及亮度的平均值,P、Q分别为镜头l和w中的关键帧数目;
周期转换强度RT(ASu,ASv)的计算公式为:
>
式中,Len(Shm)为场景ASu内第m个镜头Shm所包含的帧数,Len(Shn)为场景ASv内第n个镜头Shn所包含的帧数,M、N分别为场景ASu、场景ASv中的镜头数目;
步骤C2、将演变强度从大到小进行排序,选择最大的前K个演变强度所对应的所有精彩场景作为备选摘要片段;K的值小于或等于步骤B所检测出的精彩场景的总数;
步骤C3、从备选摘要片段中选择出最终的摘要片段,按照时序进行拼接,生成原始视频的摘要。
所述从备选摘要片段中选择出最终的摘要片段,可以直接以备选摘要片段作为最终的摘要片段,也可以根据所需的摘要长度随机选择。为了使最终生成的摘要中的视频片段能够更流畅地呈现给观众,本发明进一步将持续时间过短而无法表达有用信息的备选摘要片段剔除,并根据语句的完整性对备选摘要片段进行调整,具体按照以下方法:
首先将备选摘要片段中长度小于1秒的精彩场景剔除;然后分别对剩余的各备选摘要片段进行完整语句的检测,并根据检测结果对备选摘要片段进行相应调整:如完整语句的边界超出备选摘要片段边界,则将该备选摘要片段的边界调整至完整语句的边界;调整后的候选摘要片段即为最终的摘要片段。
相比现有技术,本发明具有以下有益效果:
本发明依据故事情节发展关系选择合适的摘要片段生成视频摘要,这既符合人们的逻辑思维,也有利于保证影片内容的完整性;另外,与底层或中间层视听特征相比较,故事情节发展特征表现出高层语义内涵,因此,基于该方法生成的摘要可认为是更贴近视频内容的语义描述。
附图说明
图1为各精彩场景之间的演变强度;
图2为给定的摘要长度为7秒时的摘要片段选择情况;
图3为给定的摘要长度为10秒时的摘要片段选择情况。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
本发明的目的是提供一种基于故事情节的视频摘要提取方法,其实现思路为:首先,利用时空相关性剖析影片结构,包括镜头和场景的有效分割;然后,分析感兴趣场景内容和提取视听描述特征,实现故事情节分析;最后,依据场景间转换强度,生成符合人类观看习惯的电影摘要。
本发明的基于故事情节的视频摘要提取方法的一个优选实施方式,具体包括以下步骤:
步骤A、对原始视频进行关键帧、镜头以及场景检测。
1、镜头分割
镜头是视频数据的基本单元,因此,将视频数据分割为有意义的镜头是提取摘要的第一步。从图像处理角度来看,镜头分割的过程是将在同一地点拍摄的图片帧聚到同一类的过程。可以采用现有的各种镜头检测方法实现,例如,Zhuang等人提出的采用无监督方法实现镜头边界的检测(Y.Zhuang,Y.Rui,T.Huang,and S.Mehrotra.Adaptivekey frame extraction using unsupervised clustering.In Proceedings of IEEE InternationalConference on Image Processing,1998:866-870),Boreczky等人采用隐马尔科夫模型实现解决镜头边界的问题(J.Boreczky,L.Wilcox.A hidden markov model framework forvideo segmentation using audio and image features.In Proceedings of IEEE InternationalConference onAcoustics,Speech,and Signal Processing,1998:3741–3744),Lienhart等人运用神经网络进行镜头边界的检测(R.Lienhart.Reliable dissolve detection.InProceedings of IEEE International Conference on Storage and Retrieval for Media Databases2001:219-230,2001:219–230.)。为了使镜头检测更为准确,本具体实施方式中使用以下方法实现镜头分割:首先,通过以下步骤实现候选镜头边界的检测:利用镜头帧之间内容信息的差异性确定候选镜头的初始边界,在此基础上,依据初始镜头边界邻域内内容信息的差异性确定候选镜头的精确边界;其次,依据图像帧的二维熵特性确定真实的候选镜头的转换类型(渐变、突变等),同时利用去除那些因物体的快速运动、摄像机的抖动、闪光灯等情况生成的无效的候选镜头。
2、场景检测
与镜头层的内容分析相比,场景层的内容信息要显得更有意义和更加完整。这是因为从图像处理角度来看,场景检测过程可定义为将时空上具有相关性的镜头,聚类到同一场景的过程。本发明中可以使用现有的各种场景检测方法,例如,Yeung等人提出基于场景转换图的方法实现场景边界的检测(M.Yeung,B.Yeo,and B.Liu.Segmentation of video by clustering and graph analysis.Computer Vision and ImageUnderstanding,1998,71(1):94-109),Tavanapong等人结合影片制作理论进行场景边界的检测(W.Tavanapong and J.Zhou.Shot clustering technique for story browsing.IEEEtransactions on multimedia,(2004),6(4),517–526),Zhai等人采用马儿客服链蒙特卡洛方法解决场景边界检测的问题(Y.Zhai and M,Shah.A general framework temporal videoscene segmentation.In Proceedings on IEEE international conference on computer vision,2005:1111-1116)。本具体实施方式中优选采用以下方法实现场景检测:首先,在时间窗口的约束机制下(用以确保来自同一场景的镜头不被划分到不同场景中,以及防止来自不同场景的镜头被误划分到同一场景中),确定镜头间的语义内容信息的空间相关性;然后,在已有空间-时间相关性的基础上,依据各个镜头间语义内容信息的差异性,准确建立场景的边界。该方法在场景检测中引入了时间约束机制,可避免场景的欠分割或过分割,从而获得准确的场景片段。
步骤B、根据视频故事情节从场景中检测出精彩场景。
故事情节对电影的有效管理和电影内容的语义理解至关重要,而其中的精彩情节(场景)又是构成整部电影内容的核心部分,利用精彩场景来构建视频摘要,能够更好地体现视频的核心内容。本发明通过分析视频的视听特征检测出对话场景、打斗场景、悬疑场景这三种最具有代表性的精彩场景,具体如下:
1、对话场景的检测
电影视频中的对话场景往往能够传达重要的信息,有助于观看者了解故事情节的发展。本发明首先利用人脸检测方法检测出含有交替出现的人脸镜头的场景,作为类似对话场景;然后,利用音频分析方法(例如隐马尔科夫模型)区分语声与其他音频,从类似对话场景中选出包含语音的场景,即为对话场景。
在不同的对话场景中,情感对话场景更易吸引观看者的注意,且对整个故事情节发展有着重要的影响。因此,有必要从一般的对话场景中检测出情感对话场景。本发明采用两种典型音频特征实现情感对话场景的识别:平均的基音频率和短时的强度变化,具体为:分别提取各对话场景的平均的基音频率和短时的强度变化,选择两者均大于预设阈值的对话场景,即为情感对话场景。。
2、打斗场景的检测
在动作/战争/冒险类的视频中,经常会出现很多的动作场景,如枪斗场景、搏斗场景和追逐场景。
若一个场景同时满足下列三个条件时,我们则将该场景视为动作场景:该场景中每个镜头的帧数小于25,每个镜头的平均活跃强度超过200,且每个镜头的平均音频能量超过100。在此基础上,动作场景还可进一步分为以下三种人们更为熟悉的场景。
(1)枪战场景。根据我们的日常经验知识以及电影制作的理论可知,枪战场景中经常出现炮火、爆炸和流血的画面。通过对颜色直方图的仔细分析,我们发现这三种画面最显著的颜色分别:是橙色、黄色和红色。因此,我们通过对颜色的预处理来实现枪战场景的识别,即选择橙、黄、红三种颜色特征均大于预设阈值的动作场景作为枪战场景。
(2)打斗场景和追逐场景。通过对这两个场景音频信息的仔细研究,我们发现它们都有各自独特的音频信息。其中,打斗场景通常包含吼叫声,而追逐场景则往往包含摩擦声和尖叫声。因此,可以采用采用音频分析方法(例如隐马尔科夫模型)区分这三种独特的音频信息,从而实现打斗场景和追逐场景的区分:选择包含吼叫声音频特征的动作场景作为打斗场景,选择包含摩擦声和尖叫声音频特征的动作场景作为追逐场景。
3、悬疑场景的检测
惊悚影片和侦探影片中会出现很多的悬疑场景。当一个场景同时满足下列三个条件时,我们则该场景称为悬疑场景:
(1)该场景的平均光照强度小于50;
(2)该场景开始某几个镜头的音频能量包不超过5,且某两个连续镜头的音频能量包变化超过50;
(3)该场景开始几个镜头的活跃强度不超过5,且某两个连续镜头的活跃强度变化超过100。
步骤C、根据实际情况从精彩场景中选择摘要片段,并按照时序进行拼接,生成原始视频的摘要。
根据步骤B中得到的精彩场景,已经可以直接生成视频摘要,例如,可根据所需的摘要时长随机选取部分合适的精彩场景,也可根据视频的主要情节选择某类精彩场景构成摘要。本发明根据精彩情节间的转换强度对精彩场景进行进一步筛选,从而通过情节间的变化更好的描述故事情节的发展。步骤C具体包括以下子步骤:
步骤C1、计算任意两个精彩场景间的演变强度。
精彩情节间的变换类型包括以下三种:时域变换,空间变换以及节奏变换。根据我们日常经验与影片剪辑原理可知:两个情节间相关性越少,则相应的转换强度越大。因此,此处的情节转换强度不仅是评价电影故事情节发展的主要指标,同时也是生成电影摘要的重要基础。
(1)一般情况下,两个不同场景间的时域变换可通过相应的人脸数量来描述。两个场景ASu和ASv间的时域变换强度表示为:
>
式中,N(ASu,Shl,Kfp)是场景ASu内最后一个镜头l中关键帧p里出现的人脸数目,N(ASv,Shw,Kfq)是场景ASv内第一个镜头w中关键帧q里出现的人脸数目,P、Q分别为镜头l和w中的关键帧数目。
如下面的不等式成立,则场景ASu和ASv间存在时域转换:
>
(2)空间变换表示同一个演员出现在两个不同的场景中,可通过判断背景区域的变化得到。空间变换强度的计算公式如下:
>
>
式中,RA(p)、GA(p)、BA(p)和LA(p)分别表示场景ASu内最后一个镜头l中关键帧p的背景区域中红、绿、蓝以及亮度的平均值,RA(q)、GA(q)、BA(q)和LA(q)分别表示场景ASv内第一个镜头w中关键帧q的背景区域中红、绿、蓝以及亮度的平均值,P、Q分别为镜头l和w中的关键帧数目。
如下列不等式成立,则场景ASu和ASv间存在空间转换:
>>
>
(3)持续时间上采用周期性变换,代表的是气氛的紧张和轻松,场景ASu和场景ASv的周期转换强度计算公式如下:
>
式中,Len(SHm)为场景ASu内第m个镜头Shm所包含的帧数,Len(Shn)为场景ASv内第n个镜头Shn所包含的帧数,M、N分别为场景ASu、场景ASv中的镜头数目。
当下面不等式成立时,场景ASu和ASv存在周期转换:
>
本发明采用演变强度函数(Progress Intensity Function,PIF)阐述两个场景ASu和ASv间情节演变,其表达式如下:
PIF(ASu,ASv)=α*TTn(ASu,ASv)+β*STn(ASu,ASv)+γ*RTn(ASu,ASv) (7)
式中,PIF(ASu,ASv)表示两个不同场景ASu和ASv之间的演变强度,TTn(ASu,ASv)、STn(ASu,ASv)、RTn(ASu,ASv)分别是ASu和ASv之间的时域变换强度TT(ASu,ASv)、空间变换强度ST(ASu,ASv)、周期转换强度RT(ASu,ASv)的归一化形式,α、β、γ为满足α+β+γ=1的权重系数。
步骤C2、将演变强度从大到小进行排序,选择最大的前K个演变强度所对应的所有精彩场景作为备选摘要片段;K的值小于或等于步骤B所检测出的精彩场景的总数。
由于通常要求的摘要时间较短,因此可以根据所需的摘要时长,挑选出与其他精彩场景演变强度最大的一部分精彩场景作为备选摘要片段。
步骤C3、从备选摘要片段中选择出最终的摘要片段,按照时序进行拼接,生成原始视频的摘要。
备选摘要片段实际上已基本符合摘要要求,可以直接以其作为最终的摘要片段,对其按时序进行拼接,生成视频摘要。图2显示了采用该方案生成视频摘要的一个实例,该实例中通过步骤B共获得了KS-1、KS-2、KS-3、KS-4这四段精彩场景,持续长度分别为2秒、3秒、3秒和4秒。其两两之间的演变强度如图1所示,按照演变强度由高到低的次序,根据给定的摘要长度即可确定最终的摘要片段。例如,当给定的摘要长度为7秒时,应选择KS-1和KS-3,如图2所示;当给定的摘要长度为10秒时,则应选择KS-1、KS-3、KS-4,如图3所示。
为了使最终生成的摘要中的视频片段能够更流畅地呈现给观众,本发明进一步将持续时间过短而无法表达有用信息的备选摘要片段剔除,并根据语句的完整性对备选摘要片段进行调整。
摘要的目在于将生成一个压缩率很高的视频片段,其应包含尽可能多的有用的情节信息,并且这些视频片段可流畅地呈现给观众。要使得生成的每一摘要片段有意义,则各摘要片段不能过短,根据统计研究发现:若视频序列持续时间小于1s,则其不能表示任何有用信息。因此,本发明首先将持续时间小于1秒的备选摘要片段作为无用的视频片段直接剔除。
为了使视频片段尽可能流畅呈献给观众,还需根据语句完整性对剩余的备选摘要片段做出适当调整,具体如下:
分别对剩余的各备选摘要片段进行完整语句的检测,并根据检测结果对备选摘要片段进行相应调整。完整语句的检测可采用现有的各种方法,例如,Schreiner提出基于调制频谱的完整语句检测方法(O.Schreiner.Modulation spectrum for pitch and speechpause detection.In Proceedings on.European Conference on Speech Communication andTechnology,2003),刘等人采用条件随机场方法检测完整语句的边界(Y.Liu,A.Stolcke,E.Shriberg,and M.Harper.Using Conditional Random Fields for Sentence BoundaryDetection in Speech.Annual Meeting of the Association for Computational Linguistics,2005),Szczurowska等人利用Kohonen网络实现语句边界完整性的检测(I.Szczurowska,W.,and E.Smolka.Speech nonfluency detection using Kohonen networks.NeuralComputing and Applications,2009,18(7):677-687)。本具体实施方式中采用以下方法进行完整语句的检测:使用音频能量和二阶过零率,从连续的语音序列中检测出暂停片段;采用最小的暂停时间和语句时间,实现上一步分割结果的平滑;用更长的暂停时间,检测出语句片段。
根据检测结果对备选摘要片段进行调整:如完整语句的边界超出备选摘要片段边界,则将该备选摘要片段的边界调整至完整语句的边界。完整语句的边界超出备选摘要片段边界可分为两种情况,一种是完整语句单边边界超出备选摘要片段边界,另一种是完整语句前后边界均超出备选摘要片段边界(即完整语句覆盖备选摘要片段),此时将该备选摘要片段的边界调整至完整语句的边界。调整后的候选摘要片段即为最终的摘要片段。按照时间先后顺序将最终的摘要片段拼接起来即得到视频摘要。
相比现有的各种视频摘要提取方法,本发明依据故事情节发展关系选择合适的摘要片段生成视频摘要,更符合人们的逻辑思维,也有利于保证影片内容的完整性,准确体现视频的主要故事情节。
机译: 一种基于重复提取的洋葱皮中槲皮素的有效提取方法和一种能增加洋葱皮提取粉中槲皮素含量的洋葱皮中有效地获取粉末的方法
机译: 故事情节:基于面部识别的小组生成
机译: 基于路径概率定义故事情节的方法和装置