公开/公告号CN107241645A
专利类型发明专利
公开/公告日2017-10-10
原文格式PDF
申请/专利权人 成都索贝数码科技股份有限公司;
申请/专利号CN201710434108.5
申请日2017-06-09
分类号H04N21/44(20110101);H04N21/472(20110101);G06K9/00(20060101);
代理机构51218 成都金英专利代理事务所(普通合伙);
代理人袁英
地址 610041 四川省成都市高新区新园南二路2号
入库时间 2023-06-19 03:30:12
法律状态公告日
法律状态信息
法律状态
2020-07-24
授权
授权
2017-11-07
实质审查的生效 IPC(主分类):H04N21/44 申请日:20170609
实质审查的生效
2017-10-10
公开
公开
技术领域
本发明涉及视频提取技术,具体涉及一种通过对视频的字幕识别自动提取进球精彩瞬间的方法。
背景技术
就目前而言,融合媒体时代,广电媒体和互联网媒体齐头并进,相辅相成。广电媒体拥有丰富的资源,比如,有大量的专业体育赛事信号可以为互联网媒体提供内容支撑,而体育赛事也是人们生活中常常津津乐道的话题,拥有大量的受众;互联网媒体具有传播速度快、散播面广、信息碎片化等特点,能够持续保持热度,一方面,能够推动广电媒体的生产,另一方面,也对广电媒体现有制作系统提出了内容和效率的要求。
现有的制作系统中,主要存在以下两个问题:
内容问题,一场比赛一般有一两个小时,内容的时间长度不利于在互联网、社交媒体传播,互联网和融合媒体的发展,使得越来越多的人适应和需求“碎片化”的信息。因此,就内容来说,一般采取提取比赛精彩镜头再针对互联网发布的方式。
效率问题,现有的提取比赛精彩镜头的方法基本上是在视频收录完成之后进行手动打点、人工剪切,显然这样的方法不仅消耗大量的人力和时间,而且效率很低,也不能满足时效性的需求。
发明内容
本发明的目的在于克服现有技术的不足,提供一种通过对视频的字幕识别自动提取进球精彩瞬间的方法,应用比分变化前有得分镜头的原理对视频进行字幕识别提取比赛进球镜头,该方法改善了现有技术中手动打点剪切精彩镜头的缺陷,能够提高效率。
本发明的目的是通过以下技术方案来实现的:
一种通过对视频的字幕识别自动提取进球精彩瞬间的方法,包括以下步骤:
S1:确定比分字幕位置,按比分牌的特征对视频画面中的比分字幕板进行识别;
S2监控比分,连续间隔的获取当前比分所对应的画面,并将当前比分与前一次比分进行比较,若相同则忽略,若不同则表示此处有进球的精彩瞬间的镜头;
S3:提取精彩镜头,从比分变化的帧开始往前寻找标记好的最近的远景,在识别出远镜头后,以远镜头结束帧为基准,在其前后截取一定数量的连续的视频帧,作为进球镜头。
进一步的,所述的步骤S1确定比分板的位置具体包括以下子步骤:
S11:全屏搜索文字字幕,分区域识别出字幕文字;
S12:将识别出的字幕文字与比分牌特征进行对比,若能对比上则为比分字幕板的位置。
进一步的,所述的比分牌特征是队1名称队1比分:队2比分队2名称或者队1名称队1比分 - 队2比分队2名称,即识别字幕中的字符“:”或者“-”。
进一步的,所述的步骤S2计算监控比分具体包括以下子步骤:
S21:按设置的时间间隔获取比分所在位置的画面;
S22:通过字幕识别方法识别比分;
S23:将本次识别的比分与上一次的比分对比,首次识别的比分除外,若相同则忽略,若不同则表示此处有进球的精彩瞬间的镜头。
进一步的,所述的步骤S3提取精彩镜头具体包括以下子步骤:
S31:以帧为单位,识别每一帧画面;
S32:根据人头数目标注近景、中景、远景或根据镜头内帧对比方式标注远景、非远景;
S33:在识别出远镜头后,以远镜头结束帧为基准,在其前后截取一定数量的连续的视频帧,作为进球镜头。
进一步的,所述的根据人头数目判断帧画面具体是指利用人工神经网络训练出识别人头数的模型,通过人头识别技术判断画面中人头的数目,若人头数小于等于1,则该画面为近景画面;若人头数在2和设定的值x之间,则该画面为中景;若人头数大于x,则为远景画面。
进一步的,所述的镜头内帧对比方式是指识别转场镜头,两个转场镜头间为一个自然镜头,对每个自然镜头进行内部帧对比观察其波动情况,波动幅度小的为远景,波动幅度大的为非远景,剪切视频时主要用到远景,因此不用详细区分近景和中景。
进一步的,所述的近景、中景、远景定义如下:
近景:指进球或出界发生后对球员、教练的个人技艺、表情的特写,是一个人的镜头;
中景:指对抢球、犯规等事件发生过程的局部特写,是2-5人的镜头;
远景:是对整个球场的活动的镜头,以球的运动为线索进行拍摄,是多人的镜头,其人数大于中景中的人数。
本发明的有益效果是:本发明通过识别字幕中比分变化情况,再结合镜头近景、中景、远景的分析,综合计算找出进球瞬间的精彩视频,该方法操作简单可靠,能有效提取体育比赛视频中的精彩进球画面。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图1进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
原理介绍:
1、我们把球赛中的各种镜头分类,分别为近景镜头、中景镜头和远景镜头。通过分析,我们发现进球镜头都是发生在远镜头中
1)近景镜头:通常指进球、出界等事件发生后对球员、教练的个人技艺、表情的特写,基本是一个人的镜头,这种镜头一般都发生在比赛中断期间。
2)中景镜头:通常指对抢球、犯规等事件发生过程的局部特写,一般是三五个人的镜头。这种镜头一般出现在中场或者边场,球门前不会出现这种镜头。
3)远景镜头:通常是对整个球场的活动的镜头,一般以球的运动为线索进行拍摄。球到球门前,一般都会切换到这种镜头,进球的过程发生在这类镜头中。
2、一场比赛中,比分板的位置不会改变。
3、比分的变化标志着此处前有一个进球瞬间,一场比赛中进球瞬间是观众最关心的关键点,可以提取离比分变化最近的远景镜头作为精彩镜头发布到互联网媒体。
【实施例一】
一种通过对视频的字幕识别自动提取进球精彩瞬间的方法,应用于足球比赛,包括以下步骤;
S1:确定比分字幕位置
全屏搜索文字字幕,分区域识别出字幕文字,将识别出的字幕文字与比分牌特征进行对比,若能对比上则为比分字幕板的位置;比分模板特征为:队1名称 队1比分:队2比分 队2名称,例如中国00:00韩国;
S2:监控比分
按设置的时间间隔获取比分所在位置的画面,通过字幕识别方法识别比分,将本次识别的比分与上一次的比分对比(首次识别的比分除外),若相同则忽略,若不同则表示此处有进球的精彩瞬间的镜头,进行下一步。
S3:提取精彩镜头
从比分变化的帧开始往前寻找标记好的最近的远景,画面类型的判断是与比分监控同时进行的,画面的判断包括以下步骤:
以帧为单位,识别每一帧画面,根据人头数目标注近景、中景、远景或根据镜头内帧对比方式标注远景、非远景。
通过人头数目判定:
利用人工神经网络训练出识别人头数的模型,通过该模型可以用于人头识别,通过人头识别技术判断画面中人头的数目,若人头数为小于等于1,则该画面为近景画面;若人头数在2和设定的值X之间,则该画面为中景;若人头数大于X,则为远景画面,其中X可根据具体的视频对应设置。
镜头内帧对比方法判定:
识别转场镜头,两个转场镜头间为一个自然镜头,对每个自然镜头进行内部帧对比观察其波动情况,波动幅度小的为远景,波动幅度大的为非远景,剪切视频时主要用到远景,因此不用详细区分近景和中景。
选取进球镜头
在识别出远镜头后,以远镜头结束帧为基准,在其前后截取一定数量的连续的视频帧,比如前面截取15秒,后面切取5秒,作为进球镜头。
【实施例二】
一种通过对视频的字幕识别自动提取进球精彩瞬间的方法,应用于篮球比赛;
S1:确定比分字幕位置
全屏搜索文字字幕,分区域识别出字幕文字,将识别出的字幕文字与比分牌特征进行对比,若能对比上则为比分字幕板的位置;比分模板特征为:队1名称 队1比分-队2比分 队2名称,例如公牛00-00火箭;
S2:监控比分
按设置的时间间隔获取比分所在位置的画面,通过字幕识别方法识别比分,将本次识别的比分与上一次的比分对比(首次识别的比分除外),若相同则忽略,若相差3分表示此处有进球的精彩瞬间的镜头(篮球比赛中3分球一般都是精彩镜头),进行下一步。
S3:提取精彩镜头
从比分变化的帧开始往前寻找标记好的最近的远景,画面类型的判断是与比分监控同时进行的,画面的判断包括以下步骤:
以帧为单位,识别每一帧画面,根据人头数目和镜头内帧对比等方式综合判断帧画面的类型,并标注:近景、中景、远景或远景、非远景。
通过人头数目判定:
利用人工神经网络训练出识别人头数的模型,通过该模型可以用于人头识别,通过人头识别技术判断画面中人头的数目,若人头数为小于等于1,则该画面为近景画面;若人头数在2和设定的值X之间,则该画面为中景;若人头数大于X,则为远景画面,其中X可根据具体的视频对应设置。
镜头内帧对比方法判定:
识别转场镜头,两个转场镜头间为一个自然镜头,对每个自然镜头进行内部帧对比观察其波动情况,波动幅度小的为远景,波动幅度大的为非远景,剪切视频时主要用到远景,因此不用详细区分近景和中景。
选取进球镜头
在识别出远镜头后,以远镜头结束帧为基准,在其前后截取一定数量的连续的视频帧,比如前面截取15秒,后面切取5秒,作为进球镜头。
本发明不仅仅局限于篮球或足球比赛中,同样适用于其他计分制体育比赛,可以根据不同比赛计分机制制定精彩镜头的分值变化标准,从而提取相应的精彩镜头。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
机译: 存储介质使用grava u00c7 u00e7o / reprodu u00c7 u00e7o设备,reprod u00c7 u00e7o文本格式的字幕数据以及音频 /视频数据( AV),一种用于以文本格式复制音频 /视频(AV)和字幕数据的设备,M。 grava u00c7 u00e7o通过计算机中的读取控制设备的方法用于带有文本格式字幕数据的数据sincroniza u00c7 u00e7o音频//视频(AV),计算机中媒体当前通过 u00cdvel读取以及以sicroniza u00c7 文本格式复制字幕数据的方法u00e7o带有音频 /视频(AV)数据
机译: 字幕字符识别方法,视频存储显示设备,字幕字符识别和检索终端以及视频检索终端
机译: 用于下载文本字幕的信息存储的信息存储介质,一种字幕再现方法和一种装置,尤其是针对与具有多个再现路径的视频再现结构相对应的字幕再现