首页> 中国专利> 一种基于并行流模型的快速唇动-语音对齐方法

一种基于并行流模型的快速唇动-语音对齐方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于并行流模型的快速唇动‑语音对齐方法。本发明使用基于流的解码器在无约束限制下快速生成高质量的语音，提出了一种简单的视频和音频对齐方法来实现语音的并行生成，保证视频帧和音频帧的时间同步；提出了一个状态模块，通过它生成粗糙但可理解的语音；基于这些粗糙的语音，进一步提出了一种基于流的解码器来生成更高质量的语音。相比于一般的现有方法，本发明突破了只能生成语音在有限的词汇和固定的句子结构的约束条件的限制，可以生成比当前最先进的口型到语音模型更自然的语音，并实现比当前最先进模型高达20倍左右的加速。

著录项

公开/公告号CN113852851A

专利类型发明专利
公开/公告日2021-12-28

原文格式PDF
申请/专利权人国网浙江省电力有限公司营销服务中心;
展开▼

申请/专利号CN202110926508.4
发明设计人胡若云;沈然;张宏达;丁麒;郑斌;马亮;沈皓;谷泓杰;
展开▼

申请日2021-08-12
分类号H04N21/43(20110101);G10L15/16(20060101);G10L15/25(20130101);G10L15/06(20130101);G06K9/00(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构33206 浙江翔隆专利事务所(普通合伙);
代理人张建青
地址 311100 浙江省杭州市余杭区云联路138号5幢
入库时间 2023-06-19 13:26:15

法律信息

法律状态公告日

法律状态信息

法律状态
2023-04-18

授权

发明专利权授予

相似文献

专利
中文文献
外文文献

1. 一种基于并行流模型的快速唇动-语音对齐方法 [P] . 中国专利： CN113852851A . 2021-12-28
2. 基于说话人模型对齐的非对称语音库条件下的语音转换方法 [P] . 中国专利： CN104217721A . 2014-12-17
3. A method for Acoustic Model Training, which includes a forced alignment of Speech Training Data, process data and obtain the estimated Scattering matrices of Scattering matrices, skew the intermediate class and Internal diagonalize matrices and in Intermediate Class Terna and Estimating eigenvectors, to obtain new functions using discriminative vectorTrain a New Acoustic Model, to Save the Model, method and System for Acoustic Model Training [P] . CL2015000445A1 . 2015-06-19

机译：一种用于声学模型训练的方法，其中包括语音训练数据，过程数据的强制对齐以及获得估计的散射矩阵的散射矩阵，使中间类别和内部对角化矩阵倾斜以及在中间类别Terna和估计特征向量中倾斜，以获得新功能使用判别向量训练新的声学模型，以保存模型，方法和系统以进行声学模型训练
4. Speech synthesis apparatus, speech synthesis method and speech synthesis program based on one model speech recognition synthesis [P] . 日本专利： JP5574344B2 . 2014-08-20

机译：基于一种模型的语音识别合成的语音合成装置，语音合成方法和语音合成程序
5. Method and apparatus for producing a lip movement parameter in a 3 dimension model-based coding system [P] . 英国专利： GB2320838B . 2001-05-16

机译：在基于三维模型的编码系统中产生唇动参数的方法和装置