首页> 外文会议>Annual conference of the International Speech Communication Association;INTERSPEECH 2010 >A Minimum Converted Trajectory Error (MCTE) Approach to High Quality Speech-to-Lips Conversion
【24h】

A Minimum Converted Trajectory Error (MCTE) Approach to High Quality Speech-to-Lips Conversion

机译:高质量语音到嘴唇转换的最小转换轨迹误差(MCTE)方法

获取原文

摘要

High quality speech-to-lips conversion, investigated in this work, renders realistic lips movement (video) consistent with input speech (audio) without knowing its linguistic content. Instead of memoryless frame-based conversion, we adopt maximum likelihood estimation of the visual parameter trajectories using an audio-visual joint Gaussian Mixture Model (GMM). We propose a minimum converted trajectory error approach (MCTE) to further refine the converted visual parameters. First, we reduce the conversion error by training the joint audio-visual GMM with weighted audio and visual likelihood. Then MCTE uses the generalized probabilistic descent algorithm to minimize a conversion error of the visual parameter trajectories defined on the optimal Gaussian kernel sequence according to the input speech. We demonstrate the effectiveness of the proposed methods using the LIPS 2009 Visual Speech Synthesis Challenge dataset, without knowing the linguistic (phonetic) content of the input speech.
机译:在这项工作中研究了高质量的语音到嘴唇的转换,在不知道其语言内容的情况下,使逼真的嘴唇运动(视频)与输入语音(音频)一致。代替无记忆的基于帧的转换,我们采用视听联合高斯混合模型(GMM)对视觉参数轨迹进行最大似然估计。我们提出了一种最小转换轨迹误差方法(MCTE),以进一步完善转换后的视觉参数。首先,我们通过用加权的视听可能性训练联合视听GMM来减少转换误差。然后,MCTE使用广义概率下降算法根据输入语音,将在最佳高斯核序列上定义的视觉参数轨迹的转换误差最小化。我们在不知道输入语音的语言(语音)内容的情况下,使用LIPS 2009视觉语音合成挑战数据集演示了所提出方法的有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号