首页> 中国专利> 视频生成方法、生成模型训练方法、装置、介质及设备

视频生成方法、生成模型训练方法、装置、介质及设备

摘要

本公开涉及一种视频生成方法、生成模型训练方法、装置、介质及设备。方法包括:获取待合成的目标音频数据;提取目标音频数据的声学特征作为目标声学特征;根据目标声学特征,确定目标音频数据对应的音素后验概率,并根据音素后验概率,生成目标音频数据对应的图像序列;将目标音频数据和目标音频数据对应的图像序列进行视频合成,得到目标视频数据。由于音素后验概率为与实际说话人无关的信息,由此可以避免不同说话人发音习惯(口音)、噪声等因素对后续生成的图像序列的影响,从而可以提升生成的图像序列中头部动作和身体姿态的准确度。并且,针对任意说话人的语音数据,均可生成相应的图像序列,进而得到视频数据。

著录项

  • 公开/公告号CN111933110B

    专利类型发明专利

  • 公开/公告日2021-10-29

    原文格式PDF

  • 申请/专利权人 北京字节跳动网络技术有限公司;

    申请/专利号CN202010807940.7

  • 发明设计人 殷翔;

    申请日2020-08-12

  • 分类号G10L15/02(20060101);G10L15/06(20130101);G10L15/26(20060101);G10L25/24(20130101);G10L25/57(20130101);G06K9/00(20060101);G06K9/62(20060101);G06N3/08(20060101);

  • 代理机构11447 北京英创嘉友知识产权代理事务所(普通合伙);

  • 代理人贾会玲

  • 地址 100041 北京市石景山区实兴大街30号院3号楼2层B-0035房间

  • 入库时间 2022-08-23 12:41:15

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号