公开/公告号CN116320622B
专利类型发明专利
公开/公告日2023.08.18
原文格式PDF
申请/专利权人 成都索贝数码科技股份有限公司;
申请/专利号CN202310554645.9
申请日2023.05.17
分类号H04N21/4402(2011.01);G06V20/40(2022.01);G06V40/16(2022.01);G06F40/289(2020.01);H04N21/4415(2011.01);H04N21/8352(2011.01);H04N21/84(2011.01);G10L15/18(2013.01);G10L15/26(2006.01);
代理机构成都九鼎天元知识产权代理有限公司 51214;
代理人周浩杰
地址 610041 四川省成都市高新区新园南二路2号
入库时间 2023-09-08 19:14:30
法律状态公告日
法律状态信息
法律状态
2023-08-18
授权
发明专利权授予
技术领域
本发明涉及广播电视新闻媒资内容制作领域,更为具体的,涉及一种广播电视新闻视频转图文稿制作系统和制作方法。
背景技术
随着计算机算力的提升以及相关视觉、NLP技术的成长,运用人工智能等技术为媒体机构和内容创作者提供通用型创作工具,提升内容生成与分发效率,助力媒体深度融合也逐渐成为一种趋势。在这种环境下,百度、知乎等各大厂商都相继推出了“图文转视频”的工具或功能。对内容创作者来说,市面上的这些“图文转视频”工具足以满足他们的需求,相关用户可以快速上手,借助“图文转视频”工具自动实现配音、字幕、画面的视频内容生产。
然而,要想提升传统主流媒体在新媒体领域的话语权和影响力,除“图文转视频”外,“视频转图文”能力也必不可少。地方电视台等传统主流媒体客户都有自己的新媒体传播矩阵(比如微信公众号、微博等),传播矩阵里不可避免的更多的是图文形式的稿件,纯靠人工将新闻视频转化为图文稿再进行分发耗时耗力,也容易丢失新闻的时效性。“视频转成图文稿”能力可以方便用户将电视新闻视频快速转化为图文稿件以在新媒体渠道进行传播,点对点推送到用户手中,提高新闻宣传的时效性和用户满意度。就目前调研情况来看,市面上还没有“视频转图文”的相关产品雏形。现有技术中,视频转图文稿的产品和相关技术存在空缺。并且,现有技术制作的图文稿存在可读性较差,制作效率低的技术问题。
发明内容
本发明的目的在于克服现有技术的不足,针对视频转图文稿产品和技术的空缺,提供一种广播电视新闻视频转图文稿制作系统和制作方法,提升图文稿制作效率,增强图文稿可读性,填补了空白。
本发明的目的是通过以下方案实现的:
一种广播电视新闻视频转图文稿制作系统,其特征在于,包括:
文本分析模块,用于提取输入视频的文本标签;
多模态创作模块,用于将输入视频的语音文本内容分段,并为每个段落提取语义相关的关键帧,并生成多种风格的候选标题;
多模态信息融合模块,用于基于入出点对齐关键帧、分段文本与文本标签以形成图文稿初稿,并在编辑工具中分段呈现;其中,每个段落除文本信息外,还配有相应的候选关键帧、文本标签,同时还呈现有整个图文稿的候选标题。
进一步地,所述文本分析模块包括语音识别结果分析子模块,用于对输入视频的语音识别结果进行分析,以提取相关文本标签。
进一步地,所述文本分析模块包括文本纠错子模块、标点补全子模块、实体提取子模块和关键词提取子模块中的一个或多个。
进一步地,所述多模态创作模块包括人脸识别子模块、转场识别子模块、场景识别子模块、同期声识别子模块、文本分段子模块、语义关键帧提取子模块和多风格标题生成子模块中的一个或多个。
进一步地,还包括训练数据模块,所述训练数据模块内的训练数据包括新闻视频数据和新闻文本数据;所述文本分析模块与多模态创作模块利用所述训练数据来优化和提升准确率。
一种广播电视新闻视频转图文稿制作方法,包括如下步骤:
S1,提取输入视频的文本标签;
S2,多模态创作:生成分段文本、相应关键帧和多种风格的候选标题;
S3,多模态信息融合:基于入出点对齐关键帧、分段文本与文本标签以形成图文稿初稿,并在编辑工具中分段呈现;其中,每个段落除文本信息外,还配有相应的候选关键帧、文本标签,同时还呈现整个图文稿的候选标题。
进一步地,在步骤S1中,所述提取输入视频的文本标签,包括子步骤:
S11,利用语音识别获得输入视频的语音文本;
S12,利用文本纠错子模块对S11中获得的语音文本进行纠错;
S13,利用标点补全子模块对S12中纠错后的语音文本进行标点补全;
S14,利用实体提取子模块提取S13中标点补全后的语音文本中的实体标签;
S15,利用关键词提取子模块提取S13中标点补全后的语音文本的关键词标签。
进一步地,在步骤S2中,所述生成分段文本、相应关键帧和多种风格的候选标题,包括子步骤:
S21,利用转场识别子模块将新闻视频分割为多个片段;
S22,利用同期声识别子模块判断S21中每个片段的音频是否为同期声;
S23,利用人脸识别子模块、场景识别子模块结合判断S21中每个片段是否为演播室;
S24,结合S23中演播室结果、S22中同期声结果,利用文本分段子模块对S13中标点补全后的语音文本进行分段,并给出每个段落的类别。
进一步地,在步骤S24中,所述结合S23中演播室结果、S22中同期声结果,利用文本分段子模块对S13中标点补全后的语音文本进行分段,并给出每个段落的类别,具体包括子步骤:
S241,将连续的演播室片段合并,并使其单独成段;
S242,将步骤S241中剩余非演播室片段中的连续同期声片段合并,并使其单独成段;
S243,对步骤S242中余下的连续的非演播室非同期声片段,利用文本分段子模块整合后,依据整合后的内容长度自适应地分段;
S244,给出新闻视频的所有分段结果以及每个段落的类别;
S245,对视频进行分析,为每个文本段提取语义关键帧,具体为:在每段文本对应的视频入出点内,结合相关人脸识别结果、文本标签提取结果,利用语义关键帧提取子模块为每个文段获得候选关键帧,输出的每个候选关键帧带有相应的置信度。
进一步地,所述类别包括“演播室”、“非演播室-同期声”、“非演播室-非同期声”。
本发明的有益效果包括:
(1)本发明填补了本领域市场产品空白和相应技术空缺。
(2)本发明利用多种智能技术,对广播电视新闻视频进行识别、提炼和分析,生成图文稿初稿,让编辑人员可以高效地在图文稿初稿上进行二次加工和编辑,极大提升图文稿制作效率。
(3)本发明利用多种智能技术对广播电视新闻进行分析和提炼创作,高效生成图文稿,并提供了多风格的候选标题、多角度的文本标签以及带置信度的候选关键帧,能够让编辑人员迅速了解新闻视频内容,将更多的精力投入到新闻视频的相应图文稿的二次加工和创作上,极大提升图文稿制作效率。其中,本发明的多模态创作模块利用NLP技术、视觉图像技术和语音技术将不可用的视频语音转换成可用的图文稿文本,并为每个文本段落赋予了与其语义相关的视频关键帧,避免了图不对文或文不对图的简单堆砌,增强了图文稿的可读性。其中,本发明将分析结果直接呈现在编辑工具中,分段呈现,每个段落除文本信息外,还配有相应的候选关键帧、文本标签等,同时还将呈现多风格的候选标题,加强了智能分析结果与编辑工具的联动,让编辑人员可以根据图文稿将要投放的新媒体渠道(如微信公众号、微博等)灵活且快速地进行关键帧的选择、标签、标题的选择以及相关段落文本的改写等。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的广播电视新闻视频转图文稿制作系统结构示意图;
图2为本发明实施例的广播电视新闻视频转图文稿制作方法流程示意图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
为了解决背景中的技术问题,本发明提出一种广播电视新闻视频转图文稿制作系统和制作方法,旨在将信息通信、人工智能、大数据等方面的先进技术融入新闻信息生成、传播、服务全过程,驱动传统媒体加快转型升级,引领和带动媒体深度融合发展。
如图1所示,本发明实施例提供一种广播电视新闻视频转图文稿制作系统,包括:
文本分析模块,用于提取输入视频的文本标签;
多模态创作模块,用于将输入视频的语音文本内容分段,并为每个段落提取语义相关的关键帧,并生成多种风格的候选标题;
多模态信息融合模块,用于基于入出点对齐关键帧、分段文本与文本标签以形成图文稿初稿,并在编辑工具中分段呈现;其中,每个段落除文本信息外,还配有相应的候选关键帧、文本标签,同时还呈现有整个图文稿的候选标题;编辑人员在图文稿初稿上进行挑选和编辑,以完成对图文稿初稿的加工创作。
在实际应用过程中,文本分析模块包括语音识别结果分析子模块,用于对输入视频的语音识别结果进行分析,以提取相关文本标签。
在实际应用过程中,文本分析模块包括文本纠错子模块、标点补全子模块、实体提取子模块和关键词提取子模块中的一个或多个。
在实际应用过程中,多模态创作模块包括人脸识别子模块、转场识别子模块、场景识别子模块、同期声识别子模块、文本分段子模块、关键帧提取子模块和多风格标题生成子模块中的一个或多个。
在实际应用过程中,还包括训练数据模块,训练数据模块内的训练数据包括新闻视频数据和新闻文本数据;文本分析模块与多模态创作模块利用训练数据来优化和提升准确率。
如图2所示,本发明实施例提供一种广播电视新闻视频转图文稿制作方法,包括如下步骤:
S1,提取输入视频的相关文本标签;
S2,多模态创作:生成分段文本、相应关键帧和多种风格的候选标题;
S3,多模态信息融合:基于入出点对齐关键帧、分段文本与文本标签以形成图文稿初稿,并在编辑工具中分段呈现;其中,每个段落除文本信息外,还配有相应的候选关键帧、文本标签,同时还呈现整个图文稿的候选标题;编辑人员在图文稿初稿上进行挑选和编辑,以完成对图文稿初稿的加工创作。
在实际应用过程中,在步骤S1中,可以基于NLP智能技术对输入视频的语音识别结果进行分析,以提取实体、关键词等文本标签,提取输入视频的相关文本标签,具体包括子步骤:
S11,利用语音识别获得输入视频的语音文本;
S12,利用文本纠错子模块对S11中获得的语音文本进行纠错;
S13,利用标点补全子模块对S12中纠错后的语音文本进行标点补全;
S14,利用实体提取子模块提取S13中标点补全后的语音文本中的实体标签;
S15,利用关键词提取子模块提取S13中标点补全后的语音文本的关键词标签。
在实际应用过程中,在步骤S2中,生成分段文本、相应关键帧和多种风格的候选标题,可以基于NLP智能技术与视觉智能技术将输入视频的语音文本分段,并为每个段落提取语义相关的关键帧,具体包括子步骤:
S21,利用转场识别子模块将新闻视频分割为多个片段;
S22,利用同期声识别子模块判断S21中每个片段的音频是否为同期声;
S23,利用人脸识别子模块、场景识别子模块结合判断S21中每个片段是否为演播室;
S24,结合S23中演播室结果、S22中同期声结果,利用文本分段子模块对S13中标点补全后的语音文本进行分段,并给出每个段落的类别。
在实际应用过程中,在步骤S24中,结合S23中演播室结果、S22中同期声结果,利用文本分段子模块对S13中标点补全后的语音文本进行分段,并给出每个段落的类别,具体包括子步骤:
S241,将连续的演播室片段合并,并使其单独成段;
S242,将步骤S241中剩余非演播室片段中的连续同期声片段合并,并使其单独成段;
S243,对步骤S242中余下的连续的非演播室非同期声片段,利用文本分段子模块整合后,依据整合后的内容长度自适应地分段;
S244,给出新闻视频的所有分段结果以及每个段落的类别;
S245,对视频进行分析,为每个文本段提取语义关键帧,具体为:在每段文本对应的视频入出点内,结合相关人脸识别结果、文本标签提取结果,利用语义关键帧提取子模块为每个文段获得候选关键帧,输出的每个候选关键帧带有相应的置信度。
在实际应用过程中,类别包括“演播室”、“非演播室-同期声”、“非演播室-非同期声”。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
根据本发明实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
作为另一方面,本发明实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
机译: 配管完工图制作系统及配管施工图制作方法,配管完工图制作系统所使用的飞行器,管接头位置计算装置
机译: 包含非音频声波的广播文件或视频包的制作方法,以及使用该方法的电视广播系统
机译: 三维效果图,三维效果图,三维效果图的制作方法和三维效果图的制作方法