公开/公告号CN115623144A
专利类型发明专利
公开/公告日2023-01-17
原文格式PDF
申请/专利权人 湖南中周至尚信息技术有限公司;
申请/专利号CN202210630875.4
申请日2022-06-06
分类号H04N5/222(2006.01);H04N5/265(2006.01);
代理机构厦门原创专利事务所(普通合伙) 35101;
代理人李荣耀
地址 410000 湖南省长沙市开福区月湖街道鸭子铺路1号63房5室
入库时间 2023-06-19 18:19:26
法律状态公告日
法律状态信息
法律状态
2023-02-10
实质审查的生效 IPC(主分类):H04N 5/222 专利申请号:2022106308754 申请日:20220606
实质审查的生效
2023-01-17
公开
发明专利申请公布
技术领域
本发明涉及新闻联播技术领域,具体为一种新闻联播系统及其控制方法。
背景技术
新闻是通过报纸、电台、广播、电视台等媒体途径所传播信息的一种称谓,是记录社会、传播信息、反映时代的一种文体,新闻联播是中国特有的一种广播电视新闻节目形态,早期一般指一家电台或者电视台制作的全域综合新闻节目,播出内容有本台联合域内下级广播电视新闻传媒进行采编,或下级广播电视新闻传媒单独采编向上报送,新闻播报指消息类新闻口语传播的语言样态的统称,主要形式有:规范播报、说新闻、播说结合、方言新闻、读报等。随着广播电视新闻节目改革的深入发展,消息类节目的内容、形式、播出时间、传播对象等各个方面都有细化的分工。
现有的新闻联播有播报的文本稿,但是没有字幕没法对应到句,影响新闻联播的音话同步质量,且人工标注语料成本过高,为此,我们提供一种新闻联播系统及其控制方法。
发明内容
本发明的目的在于提供一种新闻联播系统及其控制方法,以解决上述背景技术中提出的现有的新闻联播有播报的文本稿,但是没有字幕没法对应到句,影响新闻联播的音话同步质量,且人工标注语料成本过高的问题。
为实现上述目的,本发明提供如下技术方案:一种新闻联播系统,包括装置平台、字幕机、话筒、音频调音台、调制器和新闻播放终端;
还包括:
语音转文字计算机,其设置在所述装置平台的上端,且语音转文字计算机的两侧均设置有新闻录像机,两个新闻录像机关于装置平台的垂直中心线对称分布;
后置托架,其设置在所述装置平台的一端位置上,后置托架与装置平台一体成型设置,且后置托架内部的凹槽中设置有承载框架,承载框架的内部设置有播放显示屏;
平台支架,其设置在所述承载框架的两侧位置上,且两个平台支架均通过螺钉与后置托架的前端面固定连接,两个平台支架的内部分别设置有插播器和音响。
优选的,所述的一种新闻联播系统的控制方法,包括以下步骤:
步骤一:主持人进行新闻的播报工作,声音通过话筒传输给音频调音台进行调音处理,调音处理后将音频分别传输给语音转文字计算机、插播器和音响;
步骤二:主持人播报新闻的实时画面被新闻录像机拍摄记录,拍摄到的实时画面转换成视频信号传输给插播器;
步骤三:语音转文字计算机将接收到的音频信号切割成小段,然后按照一定的规则用一个向量来表示每一段,预先将把编译好的矢量放入声学模型中,然后进行解码,将表示每一段的数字向量借助声学模型转换成音节字母;
步骤四:语言模型基于深度学习识别实时的音节字母信号,借助语言模型将转换成的音节字母拼写组成语言文字,并将组成的语言文字字幕信号传输给插播器;
步骤五:插播器将音频信号和字幕信号插播到实时的视频信号上,接着插播器将带有音频和字幕的视频信号传输给播放显示屏和调制器,播放显示屏实时播放主持人的新闻播放画面给审核人员观看;
步骤六:审核完成后,通过调制器将视频信号转换成射频信号传输到新闻播放终端上进行新闻联播的播放。
与现有技术相比,本发明的有益效果是:
1、本发明通过语音转文字计算机将接收到的音频信号切割成小段,然后按照一定的规则用一个向量来表示每一段,预先将把编译好的矢量放入声学模型中,然后进行解码,将表示每一段的数字向量借助声学模型转换成音节字母,语言模型基于深度学习识别实时的音节字母信号,借助语言模型将转换成的音节字母拼写组成语言文字,并将组成的语言文字字幕信号传输给插播器,克服了现有的新闻联播有播报的文本稿,但是没有字幕没法对应到句,影响新闻联播的音话同步质量,且人工标注语料成本过高的问题。
附图说明
图1为本发明的新闻联播系统整体结构示意图;
图2为本发明的支撑底台结构示意图;
图3为本发明的新闻联播系统工作流程示意图;
图4为本发明的语音转文字计算机工作流程示意图;
图5为本发明的新闻联播系统的控制方法工作流程示意图;
图6为本发明的新闻联播系统的框架图;
图中:1、装置平台;2、保险柜;3、语音转文字计算机;4、新闻录像机;5、平台支架;6、插播器;7、音响;8、后置托架;9、承载框架; 10、播放显示屏;11、支撑底台;12、连接圆柱;13、传动转把;14、套接载座;15、内接圆槽;16、轴承;17、限位卡盘;18、字幕机;19、话筒;20、音频调音台;21、调制器;22、新闻播放终端、23、表情识别单元、24、处理器。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。
请参阅图1-5,本发明提供的一种实施例:一种新闻联播系统,包括装置平台1、字幕机18、话筒19、音频调音台20、调制器21和新闻播放终端,装置平台1的底部设置有保险柜2,保险柜2与装置平台1一体成型设置;
还包括:
语音转文字计算机3,其设置在装置平台1的上端,且语音转文字计算机3的两侧均设置有新闻录像机4,两个新闻录像机4关于装置平台1 的垂直中心线对称分布;
后置托架8,其设置在装置平台1的一端位置上,后置托架8与装置平台1一体成型设置,且后置托架8内部的凹槽中设置有承载框架9,承载框架9的内部设置有播放显示屏10;
平台支架5,其设置在承载框架9的两侧位置上,且两个平台支架5 均通过螺钉与后置托架8的前端面固定连接,两个平台支架5的内部分别设置有插播器6和音响7。
请参阅图2,新闻录像机4的底部设置有套接载座14,套接载座14 的下端设置有连接圆柱12,连接圆柱12与套接载座14一体成型设置,套接载座14的底部设置有支撑底台11,支撑底台11与套接载座14一体成型设置,新闻录像机4的底部设置的套接载座14起到套接固定新闻录像机4的作用,套接载座14的下端设置的连接圆柱12起到支撑套接载座 14的作用。
请参阅图2,支撑底台11的内部设置有内接圆槽15,内接圆槽15 与支撑底台11一体成型设置,内接圆槽15的内壁上设置有轴承16,轴承16通过螺钉与内接圆槽15的内壁固定连接,连接圆柱12通过轴承16 与支撑底台11活动连接,支撑底台11的内部设置的内接圆槽15起到承载轴承16的作用,内接圆槽15的内壁上设置的轴承16辅助连接圆柱12 转动的作用。
请参阅图2,连接圆柱12的一端设置有限位卡盘17,限位卡盘17 与连接圆柱12一体成型设置,限位卡盘17的尺寸大于轴承16的口径,连接圆柱12的一端设置的限位卡盘17起到对连接圆柱12限位防脱的作用。
请参阅图1,连接圆柱12的一侧外壁上设置有传动转把13,传动转把13与连接圆柱12一体成型设置,连接圆柱12的一侧外壁上设置的传动转把13起到便于转动连接圆柱12调节新闻录像机4拍摄角度的作用。
请参阅图3,话筒19的输出端与音频调音台20的输入端传输连接,音频调音台20的输出端与插播器6和音响7的输入端传输连接,新闻录像机4的输出端与插播器6的输入端传输连接。
请参阅图3,插播器6的输出端与播放显示屏10和调制器21的输入端传输连接,调制器21的输出端与新闻播放终端22的输入端传输连接。
请参阅图3,语音转文字计算机3的输出端与字幕机18的输入端传输连接,字幕机18的输出端与插播器6的输入端传输连接。
请参阅图4,语音转文字计算机3的内部设置有语言交互系统,语言交互系统包括语言识别模块、自然语言处理模块和语言合成模块,将表示每一段的数字向量借助声学模型转换成音节字母,语言模型基于深度学习识别实时的音节字母信号,借助语言模型将转换成的音节字母拼写组成语言文字。
请参见图6,在其他实施例中,所述新闻联播系统还包括:
后台处理器24,用于获取所述字幕机18的即时字幕;
储存器25,用于存储原始字幕;
所述后台处理器24还进一步用于将所述即时字幕与所述原始字幕进行比对,从而获取主持人的发音正确率。从而可以实现,对主持人的主持水平和状态进行评估。
在其他实施例中,所述新闻联播系统还包括:
表情识别单元23,用于根据新闻录像机4的图像信息获取主持人的即时表情。
人的情绪一般可以分成7类基本表情,包括平淡、生气、讨厌、恐惧、开心、悲伤、惊讶这7种基本表情;目前基于这7种基本的情绪识别准确率可以达到90%以上。上述表情的识别可以通过基于人脸识别Reid技术的大数据分析系统获得,或其他方法获得,在此不再累述。
所述表情识别单元23获取主持人的即时表情后,传输给后台处理器 24。所述后台处理器24根据即时表情,判断主持人的即时表情是否符合要求。
作为进一步改进的,所述后台处理器24还可以用于获取即时字幕与所述原始字幕对比后,发现错误的时间点的前、后表情变化。通过错误的时间点的前后、表情变化,可以获取主持人的内心变化,进而对主持人的心理素质进行评估。
作为进一步改进的,还可以将不同的原始字幕内容定义为不同的情绪。例如,“喜迎新春”的字幕内容,可以定义为“开心”;讣告、战争、等字幕内容,可以定义“悲伤”;一般“消息类”新闻,可以定义为平淡;恶性事件的新闻,例如“死伤...人等”可以定义为“生气”等等。
作为进一步改进的,所述后台处理器24还可以进一步用于获取主持人在播报不同情绪的文本内容时的即时表情,并将所述即时表情与文本内容表情相比对,判断主持人的即时表情是否符合要求。可以理解,通过比对,可以对主持人的基本主持能力进一步有针对性的训练。当主持人的即时表情超过设定时间还不符合要求时,对主持人进行提醒。由于人脸的表情识别并不是100%准确,因此,可以通过设定一定时间来降低错误的概率。
作为进一步改进的,所述后台处理器24还可以进一步用于获取主持人在播报两种反差较大的情绪的文本内容时的即时表情,并将所述即时表情与文本内容表情相比对,判断主持人的即时表情是否符合要求。在实际过程中,还可以将两种反差内容较大的文本内容连续反复设置,从而训练主持人的基本应变能力。故,本发明的新闻播报辅助用语音模型识别装置及其控制方法不仅仅可以用于实际播报中的辅助,还可以广泛用于主持人的实际训练过程中。
请参阅图1-5,一种新闻联播系统的控制方法,包括以下步骤:
步骤一:主持人进行新闻的播报工作,声音通过话筒19传输给音频调音台20进行调音处理,调音处理后将音频分别传输给语音转文字计算机3、插播器6和音响7;
步骤二:主持人播报新闻的实时画面被新闻录像机4拍摄记录,拍摄到的实时画面转换成视频信号传输给插播器6;
步骤三:语音转文字计算机3将接收到的音频信号切割成小段,然后按照一定的规则用一个向量来表示每一段,预先将把编译好的矢量放入声学模型中,然后进行解码,将表示每一段的数字向量借助声学模型转换成音节字母;
步骤四:语言模型基于深度学习识别实时的音节字母信号,借助语言模型将转换成的音节字母拼写组成语言文字,并将组成的语言文字字幕信号传输给插播器6;
步骤五:插播器6将音频信号和字幕信号插播到实时的视频信号上,接着插播器6将带有音频和字幕的视频信号传输给播放显示屏10和调制器21,播放显示屏10实时播放主持人的新闻播放画面给审核人员观看;
步骤六:审核完成后,通过调制器21将视频信号转换成射频信号传输到新闻播放终端22上进行新闻联播的播放。
请参见图6,在其他实施例中,所述控制方法还包括:
获取原始字幕及所述字幕机18的即时字幕;
将所述即时字幕与所述原始字幕进行比对,从而获取主持人的发音正确率。通过比对从而可以实现,对主持人的主持水平和状态进行评估。
在其他实施例中,所述控制方法还可以包括:
根据新闻录像机4的图像信息获取主持人的即时表情,并判断所述即时表情是否符合要求。
作为进一步改进的,在其他实施例中,所述控制方法还可以包括:
获取即时字幕与所述原始字幕对比后,发现错误的时间点的前、后表情变化。通过错误的时间点的前后、表情变化,可以获取主持人的内心变化,进而对主持人的心理素质进行评估。
作为进一步改进的,在其他实施例中,所述控制方法还可以包括:
获取主持人在播报不同情绪的文本内容时的即时表情,并将所述即时表情与文本内容表情相比对,判断主持人的即时表情是否符合要求。可以理解,通过比对,可以对主持人的基本主持能力进一步有针对性的训练。当主持人的即时表情超过设定时间还不符合要求时,对主持人进行提醒。由于人脸的表情识别并不是100%准确,因此,可以通过设定一定时间来降低错误的概率。
作为进一步改进的,作为进一步改进的,在其他实施例中,所述控制方法还可以包括:
获取主持人在播报两种反差较大的情绪的文本内容时的即时表情,并将所述即时表情与文本内容表情相比对,判断主持人的即时表情是否符合要求。在实际过程中,还可以将两种反差内容较大的文本内容连续反复设置,从而训练主持人的基本应变能力。故,本发明的新闻播报辅助用语音模型识别装置及其控制方法不仅仅可以用于实际播报中的辅助,还可以广泛用于主持人的实际训练过程中。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
机译: 控制数据传输方法,一种受控设备,一种远程控制中介设备,一种通用远程控制设备,一种服务器及其远程控制系统,能够为该受控设备设置控制代码
机译: 一种控制系统的方法,包括通过从系统数据中获取控制信息来执行对控制系统的动作,其中根据对控制系统的数据确定另一种动作或操作。
机译: 用于至少一种有害生物监测和控制的系统和方法,以及制造用于至少一种有害生物监测和控制以及有害生物控制系统维护的系统的方法。