公开/公告号CN113179442A
专利类型发明专利
公开/公告日2021-07-27
原文格式PDF
申请/专利权人 浙江工业大学;
申请/专利号CN202110425839.X
申请日2021-04-20
分类号H04N21/43(20110101);H04N21/439(20110101);H04N5/262(20060101);H04N5/04(20060101);G10L15/26(20060101);G10L25/24(20130101);G10L25/57(20130101);G10L25/51(20130101);G10L21/043(20130101);G10L21/0208(20130101);
代理机构33213 杭州浙科专利事务所(普通合伙);
代理人周红芳
地址 310006 浙江省杭州市拱墅区朝晖六区潮王路18号
入库时间 2023-06-19 12:00:51
技术领域
本发明属于语音识别技术领域,涉及一种基于语音识别的视频中音频流替换方法,具体是通过音频分析计算每字起止时间,以实现当视频中音频流部分改变时可以使得新生成音频无缝替换原视频中对应音频的方法。
背景技术
近年来,随着自然语言处理技术的发展,智能语音识别和语音合成技术逐渐投入到生产生活中。但是语音识别技术的发展多见于不同语种的识别,不同的识别方式,通过各种方法来达到更好的识别效果与更快的识别速度以及更广的识别范围。对于一个含有对话、演讲等内容的视频而言,要想在不改变视频流的基础上,用几乎无痕的方式修改其中的音频,是非常困难的,其中的最大的一个难点就在于如何将合成的音频流恰好地重新嵌入回视频中。
为解决音频流替换的问题,学术界、工业界提出了很多方案,其中与本发明较为接近的技术方案有:专利公开号为CN 110019961A的发明专利中,通过语音识别、获取音频流的语音特征和语音合成的方法来修改视频流中的音频流,但是该专利中,没有对合成的音频再进行修改,可能会导致视频的剪辑痕迹重,在单个字上音画不同步等问题。
本方法就能够通过精准识别单个字音频的起止时间,再修改合成的音频流,达成音频流的无痕修改。
发明内容
针对现有技术中存在的上述问题,本发明的目的在于提供一种基于语音识别的视频中音频流替换方法,该方法为在语音识别时得到单个字在音频中的起始时间与结束时间,依托此技术通过判断修改前后音频流中不同,选择执行不同操作以实现当视频中音频流部分改变时将新生成音频无缝替换原视频中对应音频的操作。
本发明公开的一种基于语音识别的视频中音频流替换方法,包括如下步骤:
步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:
步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1)计算每一帧的时长,最后将每一帧乘上汉明窗;
其中,T表示音频帧时长,n表示一个AAC帧对应的采样点个数,v表示采样频率;
步骤1.2:根据式(2)计算每一帧的能量值,
其中,E
步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值E
步骤1.4:取音频起始处50帧的语音作为背景音,将所取的50帧的语音以每组10帧分为5组,对每组的语音帧进行傅里叶变换,求得每组的频谱,并求5组的频谱平均值,得到10帧长度的频谱作为噪声频谱;对整个音频的全部语音进行傅里叶变换求出频谱,使用噪声频谱进行补偿,即两者相减,再使用傅里叶逆变换得到正常的降噪后的音频;
步骤2:对音频进行特征值提取,具体为:对步骤1)降噪后的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值C;
步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值C
S
其中,C表示输入的音频的特征值,S表示输入的语音特征C对应的概率,S
步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值C
T
T
其中,T
步骤5:根据原音频中每个字的起止时间确定演讲者语速并修改新音频语速:
步骤5.1:根据式(6)和(7)和步骤4结果推算演讲者发音持续时长T
其中,T
步骤5.2:将根据演讲者语速进行更改:
对于待替换的音频,根据每个字的起止时间截取成N
并按照音频原有排列顺序在每两段音频之间插入时间长度为T
步骤6:根据修改后的新音频状态确定插入视频方式:
步骤6.1:对于修改后的新音频,若其长度T
T
其中,T
步骤6.2:将步骤6.1生成的新视频与步骤5.2得到的修改后的新音频合成,或将步骤6.1生成的新音频嵌入步骤1中待处理的视频中,得到全新的视频,该视频即为替换后的新视频。
通过采用上述技术,与现有技术相比,本发明的有益效果为:
本发明通过记录语音识别时对应字的特征值,与之前特征值提取时按序对比,得到识别结果中每个字在音频中的起始时间与结束时间,并实现更改后的视频音画同步,可以在语音识别效果检测和视频制作领域起到巨大作用。
附图说明
图1为本发明的噪声频谱图的灰度图。
具体实施方式
下面结合实施例来详细阐述本发明的具体实施方式,但要发明的保护范围并不仅限于此。
本发明的基于语音识别的视频中音频流替换方法,具体包括如下步骤:
步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:
步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1)计算每一帧的时长,最后将每一帧乘上汉明窗;
其中,T表示音频帧时长,n表示一个AAC帧对应的采样点个数,v表示采样频率;
步骤1.2:根据式(2)计算每一帧的能量值,
其中,E
步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值E
步骤1.4:取音频起始处50帧的语音作为背景音,将所取的50帧的语音以每组10帧分为5组,对每组的语音帧进行傅里叶变换,求得每组的频谱,并求5组的频谱平均值,得到10帧长度的频谱作为噪声频谱;对整个音频的全部语音进行傅里叶变换求出频谱,使用噪声频谱进行补偿,即两者相减,再使用傅里叶逆变换得到正常的降噪后的音频,其中噪声频谱图如图1所示,为使图明显,此处噪声频谱图时长为3s;
步骤2:对音频进行特征值提取,具体为:对步骤1)降噪后的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值C;
步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值C
S
其中,C表示输入的音频的特征值,S表示输入的语音特征C对应的概率,S
步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值C
T
T
其中,T
步骤5:根据原音频中每个字的起止时间确定演讲者语速并修改新音频语速:
步骤5.1:根据式(6)和(7)和步骤4结果推算演讲者发音持续时长T
其中,T
步骤5.2:将根据演讲者语速进行更改:
对于待替换的音频,根据每个字的起止时间截取成N
并按照音频原有排列顺序在每两段音频之间插入时间长度为T
步骤6:根据修改后的新音频状态确定插入视频方式:
步骤6.1:对于修改后的新音频,若其长度T
T
其中,T
步骤6.2:将步骤6.1生成的新视频与步骤5.2得到的修改后的新音频合成,或将步骤6.1生成的新音频嵌入步骤1中待处理的视频中,得到全新的视频,该视频即为替换后的新视频
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
机译: 用于压缩和解压缩彩色数字视频数据的视频电信系统和方法技术领域本发明涉及一种用于压缩电信系统视频中数字彩色视频数据的方法,该方法具有用于生成视频信号的装置,该装置是用于生成视频信号的装置。将视频信号转换为多个彩色视频帧速率,每个帧图像由多个扫描线组成,扫描线由多个像素组成,图像中的每个像素由彩色数字分量组成(该方法包括确定功能的步骤);基于彩色数字(b)的三个分量中的至少一个的亮度像素,基于两个像素之间的亮度差异,针对当前图像表的扫描线中的至少大部分像素,确定至少一个参数决策。与每条扫描线中至少一个像素相距预定距离的像素,以及至少(c)比较决策参数与
机译: 通过用基于光盘的视频流无缝替换基于内存的视频流来减少视频点播系统中光盘工作量的方法,反之亦然
机译: 一种用于发送基于面积的360度视频的方法,一种用于接收基于面积的360度视频的方法,一种用于发送基于区域的360度视频的设备,一种用于基于区域接收360度视频的设备