首页> 中国专利> 合成语音与原始视频匹配方法、系统、装置及存储介质

合成语音与原始视频匹配方法、系统、装置及存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种合成语音与原始视频匹配方法、系统、装置及存储介质，其中所述方法包括：获取原始视频的第一长度；获取合成语音的第二长度；根据所述第一长度与所述第二长度的长度差异，对所述原始视频和/或所述合成语音进行变速处理。本申请使得变速处理后的视频与语音的长度一致，提高用户的观感体验。本申请可广泛应用于视频处理领域。

著录项

公开/公告号CN112562719A

专利类型发明专利
公开/公告日2021-03-26

原文格式PDF
申请/专利权人清华珠三角研究院;赛业(广州)生物科技有限公司;
展开▼

申请/专利号CN202011373933.7
发明设计人李嘉雄;王伦基;叶俊杰;李权;成秋喜;胡玉针;朱杰;黄桂芳;韩蓝青;
展开▼

申请日2020-11-30
分类号G10L21/043(20130101);G10L25/57(20130101);H04N21/44(20110101);H04N21/4402(20110101);H04N21/439(20110101);H04N5/262(20060101);
代理机构44205 广州嘉权专利商标事务所有限公司;
代理人常柯阳
地址 510530 广东省广州市黄埔区香雪八路98号香雪国际公寓F栋
入库时间 2023-06-19 10:24:22

说明书

技术领域

本申请涉及视频处理领域，尤其涉及一种合成语音与原始视频匹配方法、系统、装置及存储介质。

背景技术

随着互联网的不断发展，人们对信息获取的速度、广度及深度要求越来越高也越来越直观，通信行业经历了语音时代、数据时代，现正以极快的步伐迈入视频时代，视频已成为信息传递的主要新载体，也逐渐成为大众群体获取及分享信息的主流方式。相较于文字、语音等形式，以视频为主的信息传递介质和功能载体可以为人们带来更多的便利，因此“视联网”已成为当今互联网的发展趋势。

但由于目前不同民族、国家、地域的语言文化存在较大差异，也无法做到全球语言统一，因此从不同国家产出的音视频文件必然是跨语种的，这使得信息在交流中遇到较大障碍，信息传递的流畅性与实时性也大打折扣。为此，相关技术提出一种视频翻译方法，将说话人的语言翻译为指定语言并配合生成同步的唇形，让视频中的说话人看起来像是在使用指定语言在说话，提高用户的观感体验。而实现该视频翻译方法的过程中，需要对说话人的原始视频进行文本翻译，再合成音频，由于不同语种的文本存在不一致的现象，因此合成音频与原始视频会出现长度不匹配的情况，影响视频的观感。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请提出一种合成语音与原始视频匹配方法、系统、装置及存储介质，能够匹配视频翻译过程中合成音频与原始视频的长度。

第一方面，本申请一些实施例提供了一种合成语音与原始视频匹配方法，包括：获取原始视频的第一长度；获取合成语音的第二长度；根据所述第一长度与所述第二长度的长度差异，对所述原始视频和/或所述合成语音进行变速处理。得到长度匹配的原始视频和合成语音。

在一些实施例中，所述第一长度为第一时间长度，所述第二长度为第二时间长度，所述长度差异为所述第一时间长度与所述第一时间长度的比值，所述根据所述长度差异，对所述原始视频和/或所述合成语音进行变速处理，包括：当所述长度差异在预设的第一阈值区间内，根据第一视频变速参数对所述原始视频作第一减速处理，并根据第一语音变速参数对所述合成语音作第一加速处理；当所述长度差异在预设的第二阈值区间内，根据第二语音变速参数对所述合成语音作第一变速处理；当所述长度差异在预设的第三阈值区间内，根据第二视频变速参数对所述原始视频作第二加速处理，并根据第三语音变速参数对所述合成语音作第二减速处理。

在一些实施例中，所述方法还包括所述原始视频作局部变速处理的步骤，该步骤具体包括：确定所述原始视频中任意一帧中的若干人体关键点；根据当前帧的所述人体关键点与第一视频帧的所述人体关键点之间的欧式距离以及所述原始视频的时间序列，确定所述原始视频中人体动作幅度与所述时间序列的关系；其中，第一视频帧是所述原始视频中与当前帧间隔预设帧数的视频帧；根据所述原始视频中人体动作幅度与所述时间序列的关系，确定若干局部变速区间；根据所述长度差异，在所述局部变速区间，对所述原始视频作局部变速处理。

在一些实施例中，所述根据所述长度差异，在所述局部变速区间，对所述原始视频作局部变速处理，包括：确定视频变速上限参数和视频变速下限参数；在若干所述局部变速区间，根据所述长度差异、所述视频变速上限参数以及所述视频变速下限参数对所述原始视频作局部变速处理。

在一些实施例中，所述在若干所述局部变速区间，根据所述长度差异、所述视频变速上限参数以及所述视频变速下限参数对所述原始视频作局部变速处理，包括：当所述长度差异在预设的第一阈值区间内，且所述第一视频变速参数大于所述视频变速上限参数，根据所述视频变速上限参数，对所述原始视频作第一减速处理。

在一些实施例中，所述在若干所述局部变速区间，根据所述长度差异、所述视频变速上限参数以及所述视频变速下限参数对所述原始视频作局部变速处理，还包括：当所述长度差异在预设的第三阈值区间内，且所述第二视频变速参数小于所述视频变速下限参数，根据所述视频变速下限参数，对所述原始视频作第二加速处理。

在一些实施例中，所述第一视频变速参数、所述第二语音变速参数以及所述第二视频变速参数的确定过程具体为：根据预设的所述第一语音变速参数，以及所述长度差异，确定所述第一视频变速参数；根据所述长度差异，确定所述第二语音变速参数；根据预设的所述第三语音变速参数，以及所述长度差异，确定所述第二视频变速参数。

第三方面，本申请一些实施例还提供了一种合成语音与原始视频匹配系统，包括：获取模块，用于获取视频长度和语音长度；比较模块，用于确定视频时长和语音时长的长度差异；变速模块，用于根据所述视频时长和语音时长的长度差异，对所述视频以及所述语音作变速处理。

第二方面，本申请一些实施例还提供了一种装置，包括：至少一个处理器；至少一个存储器，用于存储至少一个程序；当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如第一方面所述的合成语音与原始视频匹配方法。

第三方面，本申请一些实施例还提供了一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由所述处理器执行时用于实现如第一方面所述的合成语音与原始视频匹配方法。

本申请实施例的有益效果如下：获取原始视频的时长与合成音频的时长，并获取原始视频的时长与合成音频的时长的长度差异，根据长度差异的结果，分别对原始视频以及合成语音作变速处理，使得变速处理后的视频与语音的长度一致，提高用户的观感体验。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请一些实施例提供的合成语音与原始视频匹配的方法流程图；

图2是本申请一些实施例提供的长度差异在第一阈值区间内的视频及语音变化示意图；

图3是本申请一些实施例提供的长度差异在第二阈值区间内的视频及语音变化示意图；

图4是本申请另一些实施例提供的长度差异在第二阈值区间内的视频及语音变化示意图；

图5是本申请一些实施例提供的长度差异在第三阈值区间内的视频及语音变化示意图；

图6为本申请一些实施例提出的对视频局部变速的方法流程图；

图7为本申请一些实施例提供的人体动作幅度与时间序列的关系的第一示意图；

图8为本申请一些实施例提供的人体动作幅度与时间序列的关系的第二示意图；

图9为本申请一些实施例提供的人体动作幅度与时间序列的关系的第三示意图；

图10为本申请一些实施例提供的合成语音与原始视频匹配系统的结构示意图；

图11为本申请一些实施例提供的一种装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

下面结合附图，对本申请实施例作进一步阐述。

参考图1，图1是本申请一些实施例提供的合成语音与原始视频匹配的方法，该方法包括但不限于步骤S100至步骤S120。

步骤S100，获取原始视频的第一长度。

具体地，第一长度为时间长度，获取原始视频的时间长度。

步骤S110，获取合成语音的第二长度。

具体地，第二长度为时间长度，获取合成音频的时间长度。

步骤S120，根据第一长度与第二长度的长度差异，对原始视频和/或合成语音进行变速处理，得到长度匹配的原始视频和合成语音。

具体地，根据第一长度与第二长度的长度差异，对原始视频和合成视频都进行变速处理，或者只对原始视频和合成视频中的一个进行变速处理。

需要说明的是，本申请一些实施例中采用的视频变速方法为利用多媒体处理工具FFMPEG(Fast Forward Mpeg)来改变原始视频的PTS(Presentation Time Stamp，显示时间戳)，来进行固定帧率变速。具体的视频变速过程为现有技术，在此不再赘述。

需要说明的是，本申请一些实施例中采用的语音变速方法为利用LSEE-MSTFTM算法(The Least-Square Error Estimation From the Modified Short-Time FourierTransform Magnitude)，对声音频谱进行差值或抽取，实现各频率分量的拓展或压缩。该算法是基于短时傅里叶变换来实现的，利用最小均方误差原则，寻找一个时域信号的短时傅里叶变换幅度谱逼近理想变速信号的频谱。该迭代算法通过在每次迭代中减小了估计信号的短时傅里叶变换幅度与修正短时傅里叶变换幅度之间的均方误差，且修正短时傅里叶变换幅度的时间尺度变化不影响光谱特性，因此可以实现语音的变速不变调。适用于本申请实施例的语言变速要求。

在本申请一些实施例中，优先对合成语音作变速处理，合成语音的第二长度变化区间一般控制在±5％，以保证说话人在一定的语速范围内说话。

长度差异可以为第一长度与第二长度的差值，也可以为第一长度与第二长度的比值。当长度差异为第一长度与第二长度的差值，原始视频的第一长度变化区间一般控制在±25％；当长度差异为第一长度与第二长度的比值，原始视频的第一长度变化区间一般控制在±20％，而且当长度差异为第一长度与第二长度的差值时，需要设定较多条件去确定同时适用于第一长度和第二长度的变速参数；而当长度差异为第一长度与第二长度的比值时，可以较为方便地确定变速参数。因此在本申请以下实施例中，以长度差异为第一长度与第二长度的比值为例子，阐述合成语音与原始视频匹配的方法。

参考图2，图2是本申请一些实施例提供的长度差异在第一阈值区间内的视频及语音变化。假设第一阈值区间为[0.75,0.95]，原始视频的第一长度L

参考图3，图3是本申请一些实施例提供的长度差异在第二阈值区间内的视频及语音变化，假设第二阈值区间为[0.95,1.05]，原始视频的第一长度L

参考图4，图4是本申请另一些实施例提供的长度差异在第二阈值区间内的视频及语音变化，同理，假设第二阈值区间为[0.95,1.05]，当原始视频的第一长度L

参考图5，图5是本申请一些实施例提供的长度差异在第三阈值区间内的视频及语音变化，假设第三阈值区间为[1.05,1.25]，原始视频的第一长度L

当长度差异在预设的第一阈值区间、第二阈值区间以及第三阈值区间以外，原始视频和合成语音的长度匹配的效果比较差。假设第一阈值区间为[0.75,0.95]，第二阈值区间为[0.95,1.05]，第三阈值区间为[1.05,1.25]，当第一长度与第二长度的比值L

通过步骤S100到步骤S120，获取原始视频的第一时长和合成语音的第二时长，通过取差值或者取比值来确定第一时长和第二时长的长度差异。设定第一阈值区间、第二阈值区间和第三阈值区间，当长度差异位于上述三个阈值区间内，分别对原始视频或合成语音作变速处理，令变速处理后的原始视频和变速处理后的合成语音长度匹配，提高用户的观感体验。另外，当长度差异位于上述三个阈值区间之外，则说明原始视频和合成语音的长度差异过大，无法通过视频变速和语音变速进行较好的匹配，可以修改合成语音的文本，或者是将若干合成语音拼接并重新剪辑，生成新的合成语音，再重新确定长度差异并进行变速处理。

由于原始视频中会存在人物的人体动作，在变速处理中可能会对原始视频一些动作幅度比较大的人体动作进行加速或减速，例如抬手、甩头、踢腿。如果变速的参数比值大小不考虑这些动作的话，可能导致变速处理后，视频中看到的人体动作变得很缓慢，或者是人体动作变得很快，例如左手飞快抬起或放下，与实际生活中的动作相比不够自然，严重影响变速后视频的观感。

因此，在一些实施例中，本申请提出的合成语音与原始视频匹配方法对原始视频作局部变速处理的步骤，参考图6，图6为本申请一些实施例提出的对视频局部变速的方法，该方法包括但不限于步骤S600至步骤S630。

步骤S600，确定原始视频中任意一帧中的若干人体关键点。

具体地，在本申请一些实施例中，使用OpenPose的人体姿势识别技术，标记出原始视频中每一帧出现人物的15个人体关键点，这些人体关键点分别对应人体上有一定自由度的关节，例如手肘关节、膝盖关节，通过这些人体关键点可以识别人体的动作幅度。

步骤S610，根据当前帧的人体关键点与第一视频帧的人体关键点之间的欧氏距离以及原始视频的时间序列，确定原始视频中人体动作幅度与时间序列的关系。

欧氏距离(euclidean metric，也称为欧几里得度量)指在m维空间中两个点之间的真实距离，在二维和三维空间中的欧氏距离就是两点之间的实际距离。具体地，假设当前帧为第1帧，预设帧数为4帧，则第5帧为第一视频帧，计算第1帧的人体关键点与第5帧的对应人体关键点的欧氏距离，例如计算第1帧标记左手手肘关节的人体关键点与第5帧标记左手手肘关节的人体关键点之间的欧氏距离。根据当前帧的人体关键点与第一视频帧的人体关键点之间的欧式距离，以及原始视频的时间序列，可以确定原始视频中人体动作幅度与时间序列的关系。

参考图7，图7为本申请一些实施例提供的人体动作幅度与时间序列的关系的第一示意图。图7中横轴为原始视频的帧序列，纵轴为当前帧与第一视频帧之间的欧氏距离，需要说明的是，纵轴表示的欧氏距离已做归一化处理。在本申请一些实施例中，当纵轴表示的欧氏距离超过预设的数值，则判断在该帧中人体动作的幅度大，人体幅度较大的帧区间作为局部变速区间。

参照图8，图8为本申请一些实施例提供的人体动作幅度与时间序列的关系的第二示意图。以预设数值为0.25为例，图8中横线为区分线，区分线上方表示欧氏距离大于0.25，区分线下方表示欧氏距离小于0.25。图8中B点为曲线与区分线的第一个交点，则判断B点的前一个拐点A点为第一局部变速区间的开始点。在本申请实施例中，结束拐点是曲线由凹变凸的点。而本申请实施例中确定局部变速区间结束点的方法是：若当前结束拐点的下一个拐点低于区分线，在本段例子中则是当前结束拐点的下一个拐点的值小于0.25，则当前结束拐点为局部变速区间的结束点。参照图8，C点为第一局部变速区间的第一个结束拐点，D点为C点以后的下一个拐点，由于D点的值大于0.25，则C点并不是第一局部变速区间的结束点。E点为曲线与区分线的另一个交点，F点为E点以后的结束拐点，G点为F点以后的下一个拐点，由于G点的值小于0.25，则判断F点为第一局部变速区间的结束点。则A点对应的视频帧为第一局部变速区间的起始帧，F点对应的视频帧为第一局部变速区间的结束帧，由A点和F点可以确定第一局部变速区间，原始视频中的其他局部变速区间也可以通过本段阐述的方法一一确定。通过本段中阐述的确定局部变速区间的方法，可以恰当划分原始视频，使原始视频不会被分成太多局部变速区间，保证了整个原始视频里每一个局部变速区间的流畅性和观看性。参照图9，图9为本申请一些实施例提供的人体动作幅度与时间序列的关系的第三示意图，图9中用方框框住的部分为三个局部变速区间，均可以使用本申请实施例中阐述的确定局部变速区间的方法确定。

步骤S620，根据原始视频中人体动作幅度与时间序列的关系，确定若干局部变速区间。

根据原始视频中人体动作幅度与时间序列的关系，可以确定在原始视频中人体动作幅度较大的区间，将这些区间定为局部变速区间。

步骤S630，在局部变速区间，对原始视频作局部变速处理。

具体地，在原始视频的局部变速区间，对原始视频作局部变速处理；而在原始视频中除了局部变速区间以外的区间，根据原始视频和合成语音的长度差异，对原始视频和合成语音作如图1中步骤S120的变速处理。

在一些实施例中，对于原始视频的局部变速区间，设定一个视频变速上限参数和一个视频变速下限参数。假设在局部变速区间，原始视频的视频变速范围为±15％，则视频变速上限参数为1.15，视频变速下限参数为0.85。在局部变速区间对原始视频进行变速处理时，需要考虑原始视频和合成语音的长度差异，以及视频变速上限参数和视频变速下限参数。具体地，设定原始视频和合成语音的长度差异为第一长度和第二长度的比值，当第一长度和第二长度的比值L

同理可得，在一些实施例中，当第一长度和第二长度的比值L

通过步骤S600至步骤S630，确定原始视频中任意一帧中的若干人体关键点，并确定当前帧的人体关键点与第一视频帧的人体关键点之间的欧氏距离，从而确定原始视频中人体幅度较大的区间，将这些区间定义为局部变速区间。在局部变速区间，根据第一视频变速参数与视频变速上限参数的大小，对局部变速区间进行第一减速处理；或者根据第二视频变速参数与视频变速下限参数的大小，对局部变速区间进行第二减速处理。对原始视频中人体动作幅度较大的区间进行局部变速处理，可以有效改善变速处理后人体动作变化过快或过慢的情况，使变速处理后的视频中的人体动作流畅自然，提高用户的观感体验。

通过图1和图6中的方法步骤，本申请实施例根据原始视频和合成语音的长度差异，分别对原始视频和合成语音进行变速处理，对于原始视频中人体动作幅度较大的区间，进行局部变速处理，令变速处理后的原始视频和变速处理后的合成语音长度匹配，且有效改善变速处理后人体动作变化过快或过慢的情况，使变速处理后的视频中的人体动作流畅自然，提高用户的观感体验。

参照图10，图10为本申请一些实施例提供的合成语音与原始视频匹配系统1000，该系统1000包括获取模块1010、比较模块1020及变速模块1030。利用获取模块1010获取视频长度和语音长度，利用比较模块1020确定视频时长和语音时长的长度差异，并利用变速模块1030用于根据视频时长和语音时长的长度差异，对视频以及语音作变速处理，令变速处理后的原始视频和变速处理后的合成语音长度匹配，提高用户的观感体验。

参考图11，图11为本申请一些实施例提供的一种装置1100，该装置1100包括至少一个处理器1110，还包括至少一个存储器1120，用于存储至少一个程序；图11中以一个处理器1110及一个存储器1120为例。

处理器1110和存储器1120可以通过总线或者其他方式连接，图11中以通过总线连接为例。

存储器1120作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器1120可以包括高速随机存取存储器1120，还可以包括非暂态存储器1120，例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中，存储器1120可选包括相对于处理器1110远程设置的存储器1120，这些远程存储器1120可以通过网络连接至该装置1100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请的另一个实施例还提供了一种装置1100，该装置1100可用于执行如上任意实施例中的控制方法，例如，执行以上描述的图1中的方法步骤S100至S120。

以上所描述的装置800实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本申请实施例还公开了一种计算机存储介质，其中存储有处理器1110可执行的程序，其特征在于，处理器1110可执行的程序在由处理器1110执行时用于实现本申请提出的合成语音与原始视频匹配方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 合成语音与原始视频匹配方法、系统、装置及存储介质 [P] . 中国专利： CN112562719A . 2021-03-26
2. 语音合成字典分发装置、语音合成系统以及程序存储介质 [P] . 中国专利： CN109427325A . 2019-03-05
3. VOICE SYNTHESIZING SYSTEM, VOICE SYNTHESIZING METHOD, SERVER, STORAGE MEDIUM, PROGRAM TRANSMITTING DEVICE, VOICE SYNTHETIC DATA STORAGE MEDIUM AND VOICE OUTPUTTING EQUIPMENT [P] . 日本专利： JP2002023777A . 2002-01-25

机译：语音合成系统，语音合成方法，服务器，存储介质，程序传输设备，语音合成数据存储介质和语音输出设备
4. Voice synthesizing apparatus, voice synthesizing system, voice synthesizing method and storage medium [P] . 美国专利： US7031924B2 . 2006-04-18

机译：语音合成装置，语音合成系统，语音合成方法和存储介质
5. Voice synthesizing apparatus, voice synthesizing system, voice synthesizing method and storage medium [P] . 美国专利： US2006143012A1 . 2006-06-29

机译：语音合成装置，语音合成系统，语音合成方法和存储介质