法律状态公告日
法律状态信息
法律状态
2016-05-18
授权
授权
2014-01-22
实质审查的生效 IPC(主分类):G06F17/27 申请日:20130913
实质审查的生效
2013-12-25
公开
公开
技术领域
本发明属于中文文本处理领域,具体涉及一种基于字幕文件的纪录片内容自动分节及其小标题的自动生成方法。
背景技术
现代化、高水平的课堂教学活动需要教师针对教学目标广泛收集和精心组织各种各样的教学素材。美国国家地理、Discovery频道和中国中央电视台的科教频道、纪录片频道等著名的纪录片品牌栏目无疑是高质量的教学素材的重要来源之一。采用这样的多媒体教学素材不仅可以丰富教师的教学内容,还可以增加学生的课堂印象和激发学生的学习兴趣。
然而,纪录片的时间长度一般在45分钟以上,相当一部分长达1个半小时,甚至2个小时,远远超过了一节课的时间。全部播完整部纪录片不仅容易脱离教学目标,而且会占用过多的课堂时间。一般来说,某段纪录片中符合教师当前教学目标的内容大约为3-5分钟,只占该段纪录片全部时长很小的一部分。如果没有一种方便的自动化方法,仅靠人眼浏览纪录片的每一幅画面去搜索这段素材,必然会显著降低教师备课的效率。
目前,给一个视频文件进行分段,将一个时间比较长的大影片分割成一系列的时间比较短的小影片,已经有比较成熟的方法。这些方法的区别在于分割的依据。比较简单的一种是依据在时间上等分的思路进行分段,或者根据被点播的片段流行度进行分段。比较复杂的是根据场景的变化或者镜头的切换进行分段。但是,已有的方法受其需求的限制(比如影片分段是为了促进视频服务器缓存的置换或者提取某段特定内容如足球射门),还存在比较突出的两个缺陷:一是不利于语义表达,即除非从头到尾看完,用户不清楚分割出来的某段影片具有什么样的内容;二是不利于内容搜索,即除非从头到尾看完,用户不清楚分割出来的某段影片是否具有自己关心的其它内容。
字幕文件的出现,为使用计算机弥补上述缺陷准备了条件。
为保障听力有障碍人士的权益,联合国公约和我国的有关法律都鼓励和提倡在音像制品提供字幕。现在,在中央电视台的所有频道和栏目中,除极少数部分直播节目外,播出的电视节目都附有字幕。
一般来说,字幕分为“软”、“硬”两种。所谓“软”字幕,是指音像制品在压制的时候,将字幕内容作为一个独立的轨道(track),与音频和视频内容分开,封装到一个文件(如MKV格式的文件)中,那些需要字幕插件支持、可以单独保存的“外挂字幕”也属于这一类,即与画面内容分属不同的视频播放流。而“硬”字幕,则是指字幕内容被当作水印嵌入到视频内容中,与画面内容处于视频播放流的同一个数据组中。现在,已有成熟的方法提取视频内容中的 “硬”字幕,其思路大致分为两种:基于字体边缘的提取和基于字体颜色连通区域的提取。两者的共同点在于最后一步都要经过OCR文字识别,形成字符单元,从而生成记录了字幕出现起止时刻和字幕内容的字幕文件。
发明内容
本发明就是针对上述现有技术的不足,而提供的一种基于字幕文件的纪录片内容自动分节及其小标题的自动生成方法,为提高教师备课效率、丰富课堂教学内容和提高学生兴趣提供技术支持。
本发明目的是通过以下技术手段实现的。
一种基于字幕文件的纪录片内容自动分节及其小标题的自动生成方法,该方法分为内容自动分节和小标题自动生成两个阶段,分别使用了字幕文件中的时间和文字信息。字幕文件以句为单位,存储其有关信息,常见的基本格式如下。
表1 字幕文件的常见基本格式
内容自动分节阶段的目的是为了给一般具有较大时长的纪录片分成若干小视频章节。纪录片通常由一位解说员以画外音的方式、以平和的基调朗读与画面内容相配的文字脚本,有些纪录片还辅之以背景音乐或穿插人物对话。在解说员朗读的过程中,停顿较长的时间间隔往往可以作为某段解说告一段落、即将另起一段的位置。这一特殊的现象反映在字幕文件中,则表现为某句字幕开始出现的时刻与上一句字幕消失的时刻之差比较大。据此分节不仅简便易行,而且具有从语义上进行分段的重要意义。具体步骤如下所示:
第一步,遍历字幕文件的每一行,总共有N条字幕。如果发现其首字符是数字,则说明这是一条新字幕的第一行,如表1所示。记录其编号i以及提取相应的开始出现时刻Tbegin(i)和消失时刻Tend(i)。
第二步,计算当前字幕开始出现时刻与上一条字幕消失时刻的时间差:,(i> 1)。
第三步,对(N-1)个这样的时间差从大到小进行排序。获取排在前面的若干个i。这些i即为内容分节的位置。建议这样的i不超过9个,即最多分为10个章节。
小标题自动生成阶段的目的是为了给在内容自动分节阶段形成的若干小的视频章节建立导航或索引。自动生成一个既符合语法又贴切的小标题,具体的说是在字幕文件的文字内容中挖掘“定中结构”的字符串,作为相应章节的小标题。其步骤如下所示:
第一步,依据内容自动分节阶段所划分的章节时间信息,提取介于该章节起止时刻之间的字幕文字内容。
第二步,使用自动分词工具对第一步提取的字幕文字内容进行分词,并对分出的词标注词性。
第三步,按顺序从头至尾逐个扫描第二步分出的词,如果发现该词是名词或者形容词,并且下一个词是名词,就将其作为“定中结构”的词组提取出来。这些词组作为该章节小标题的候选词组。
第四步,经过一定的遴选规则,从多个候选词组中选出一个作为该章节的小标题。这些遴选规则如下所列,编号排在前面的规则优先运用。
(1) 如果候选词组只有1个,那它就直接成为小标题,且不必运用后面的规则。
(2) 如果候选词组多于1个,那就比较其中心语,即“名词+(的)+名词”或“形容词+(的)+名词”结构中的第二个实词或者最后那个词性为名词的词语,在该章节中出现的次数。如果中心语出现次数最多的候选词组只有1个,那么它就成为小标题,且不必运用后面的规则。如果发生中心语出现次数最多的候选词组多于1个,那么这样的候选词组将进入下一轮的遴选。
(3) 比较这些候选词组的定语,即“名词+(的)+名词”或“形容词+(的)+名词”结构中的第一个实词,也就是“名词+(的)+名词”结构中的第一个名词或者“形容词+(的)+名词”的形容词,在该章节中的出现的次数。如果定语中心语出现次数最多的候选词组只有1个,那么它就成为小标题,且不必运用后面的规则。如果定语中心语出现次数最多的候选词组多于1个,那么这样的候选词组将进入下一轮的遴选。
(4) 比较这些候选词组的字数。如果字数最多的候选词组只有1个,那么它就成为小标题,且不必运用后面的规则。如果字数最多的候选词组多于1个,那么这样的候选词组将进入最后一轮的遴选。
(5) 比较这些候选词组出现的顺序,先出现的就成为小标题。
本发明提出了一种基于字幕文件的纪录片内容自动分节及其小标题的自动生成方法,解决了采用人工手动方式将较长的纪录片依据语义分段需要较长时间的技术问题。该发明由内容自动分节和小标题自动生成两阶段组成。在内容自动分节阶段,根据纪录片字幕文件中记录的相邻字幕出现的时间间隔的大小,选择间隔最长的若干个位置作为分割点,将整部纪录片在时间上分成若干章节。由于这种划分方式实际上是按照纪录片解说词在朗读配音时的停顿时间长短来划分该纪录片的,因而划分出来的这些章节在内容上具备一定的语义一致性。在章节小标题的自动生成阶段,依据前一阶段确定的章节起止时刻,在一定的遴选规则的指导下,在该章节的解说词中,自动选择出一个具有“定语+中心语”这种语法结构的短语组合,作为该章节的小标题。该发明较为明显地缩短了人工手动方式依照语义对较长纪录片进行分段的时间,极大提高了教师采用制作精良的纪录片片段作为教学素材的积极性。
附图说明
图1为本发明中内容自动分节阶段的流程示意图。
图2为本发明中小标题自动生成阶段流程示意图。
具体实施方式
下面结合附图及实施例对本发明作进一步详细描述。
以法国导演Yann Arthus-Bertrand执导的纪录片《家园(Home)》为例,详细介绍基于字幕文件的纪录片内容自动分节及其小标题的自动生成方法的具体实施方式。
该纪录片由世界各地所拍摄的高质量的空中影像组合而成,展示了地球上生物的多样性以及人类的活动如何危害地球上的生态平衡。
本实施例中采用的是该纪录片的90分钟版本。与该版本对应的字幕文件共包含778条字幕。除去第1条字幕提供的是翻译者的信息外,其他777条都是纪录片解说者旁白用的解说词。该字幕文件的字幕格式符合表1。如果遇到其他格式的字幕文件,可以使用字幕文件格式转换工具,如Subresync,就可以方便的进行对ssa、ass、srt、smi、idx、sub等常用字幕文件格式的互转以及其他的字幕编辑功能,将其转为与表1格式一致的字幕文件。
首先进入内容自动分节阶段。如图1所示,包括以下步骤:
第一步,遍历字幕文件的每一行,总共有N条字幕。如果发现其首字符是数字,则说明这是一条新字幕的第一行,如表1所示。记录其编号i以及提取相应的开始出现时刻Tbegin(i)和消失时刻Tend(i)。
第二步,计算当前字幕开始出现时刻与上一条字幕消失时刻的时间差:,(i> 1)。
第三步,对(N-1)个这样的时间差从大到小进行排序。获取排在前面的若干个i。这些i即为内容分节的位置。建议这样的i不超过9个,即最多分为10个章节。
根据上述步骤,通过提取无字幕出现的时间间隔最长的9个位置,将《家园》在时间上划分成了10个小章节。如表2所示。
表2. 《家园》的10个小章节
然后进入小标题自动生成阶段。如图2所示。包括以下步骤:
第一步,依据内容自动分节阶段所划分的章节时间信息,提取介于该章节起止时刻之间的字幕文字内容。
第二步,使用自动分词工具对第一步提取的字幕文字内容进行分词,并对分出的词标注词性。
第三步,按顺序从头至尾逐个扫描第二步分出的词,如果发现该词是名词或者形容词,并且下一个词是名词,就将其作为“定中结构”的词组提取出来。这些词组作为该章节小标题的候选词组。
第四步,经过一定的遴选规则,从多个候选词组中选出一个作为该章节的小标题。这些遴选规则如下所列,编号排在前面的规则优先运用。
(1)如果候选词组只有1个,那它就直接成为小标题,且不必运用后面的规则。
(2)如果候选词组多于1个,那就比较其中心语,即“名词+(的)+名词”或“形容词+(的)+名词”结构中的第二个实词或者最后那个词性为名词的词语,在该章节中出现的次数。如果中心语出现次数最多的候选词组只有1个,那么它就成为小标题,且不必运用后面的规则。如果发生中心语出现次数最多的候选词组多于1个,那么这样的候选词组将进入下一轮的遴选。
(3)比较这些候选词组的定语,即“名词+(的)+名词”或“形容词+(的)+名词”结构中的第一个实词,也就是“名词+(的)+名词”结构中的第一个名词或者“形容词+(的)+名词”的形容词,在该章节中的出现的次数。如果定语中心语出现次数最多的候选词组只有1个,那么它就成为小标题,且不必运用后面的规则。如果定语中心语出现次数最多的候选词组多于1个,那么这样的候选词组将进入下一轮的遴选。
(4)比较这些候选词组的字数。如果字数最多的候选词组只有1个,那么它就成为小标题,且不必运用后面的规则。如果字数最多的候选词组多于1个,那么这样的候选词组将进入最后一轮的遴选。
(5)比较这些候选词组出现的顺序,先出现的就成为小标题。
在本发明中,小标题自动生成阶段自动为内容自动分节阶段分出的每个章节依次生成小标题。
现以内容自动分节阶段分出的第4个章节为例,来说明该章节小标题自动生成的过程。对于这一章节的字幕文字内容,可以调用自动分词工具,如中国科学院计算所开发的ICTCLAS,从字符串中分割出词语并标注其词性。下面是分词的结果:
生命/n 在/p 地球/n 上/f 是/v 伟大/a 的/u 历险/n
每种/r 生物/n 各/r 有/v 其/r 位/q ,/w 各司其职/v
没有/v 多余/a 或/c 有害/a
它们/r 互相/d 平衡/a
你们/r 这些/r 聪明/a 的/u 人类/n
在/p 这/r 成为/v 主角/n
你们/r 从/p 地球/n 四十亿年/m 的/u 遗产/n 受惠/v
你们/r 只/d 得/v 二十/m 万/m 年/q 历史/n
但/c 你们/r 改变/v 了/u 世界/n 的/u 面貌/n
虽/c 有/v 弱点/n
但/c 你们/r 占据/v 了/u 所有/b 栖息地/n
征服/v 所有/b 土地/n
任何/r 生物/n 都/d 未尝/d 做/v 过/v
经过/p 十八/m 万/m 年/q 的/u 游牧/v 岁月/n
气候/n 变/v 得/u 温和/a
人类/n 开始/v 安定/a 下来/v
他们/r 不再/d 以/p 打猎/v 为生/v
他们/r 定居/v 于/p 充满/v 渔猎/n 和/c 野生/b 植物/n 的/u 湿地/n
这里/r 土地/n 、/w 水/n 和/c 生命/n 混合/v
即使/c 今天/t
大部分/m 人类/n 都/d 靠/v 着/u 海岸/n 河边/s 和/c 湖畔/n 居住/v
他们/r 开始/v 进化/v
但/c 他们/r 可/v 用/v 的/u 能量/n 只是/c 双臂/n 和/c 大自然/n 赋予/v 的/u 东西/n
这/r 是/v 人类/n 数千年/m 来/u 的/u 故事/n
也/d 是/v 现今/t 四分一/m 人类/n 即/v 十五亿/m 人/n 的/u 故事/n
这/r 数目/n 是/v 富裕/a 国家/n 人口/n 的/u总和/n
词性标记符号的含义见表3。
表3. 上述分词结果中词语的词性标记符号与含义
根据小标题自动生成流程,从前到后,逐个扫描每一个词语,如果发现它自身和随后出现的两个词,总共三个词的词性依次为“/a”,“/u”和“/n”或者“/n”,“/u”和“/n”,即符合“形容词+(的)+名词”或“名词+(的)+名词”这种形式的定中结构,就将其作为小标题的候选词组。具体来说,第4章节的小标题候选词组如表4所示。
表4 第4章节的小标题候选词组(在适用遴选规则之前)
表4还示出了对上述候选词组施加规则(1)后的结果,根据该规则,显然“聪明的人类”成为第4章的小标题。
依此类推,该纪录片的全部章节小标题如下表5所示。
表5. 纪录片《家园》90分钟版的10个章节标题
机译: 自动生成视频内容字幕的服务方法
机译: 自动生成视频内容的翻译字幕的服务方法
机译: 基于内容的文件自动生成系统