首页> 中文会议>第十一届全国人机语音通讯学术会议 >基于AAM和异步发音特征DBN 模型的逼真可视语音合成

基于AAM和异步发音特征DBN 模型的逼真可视语音合成

摘要

本文提出了一种基于主动外观模型(AAM)特征和异步发音特征DBN模型(AF_AVDBN)的逼真可视语音合成方法。在 AF_AVDBN模型中,发音特征(如嘴唇、舌体和声门/软腭的状态)之间允许在一定约束范围内异步,以更好地模拟协同发音现象,为人类真实发音过程建模。在模型训练中,以42维感知线性预测(PLP)特征作为音频特征,视频特征为嘴部图像的80维AAM特征。在听视觉数据库上训练好模型参数后,对于给定输入语音,基于期望值最大化(EM)算法推导出相应最优嘴部参数学习算法,并由学习得到的AAM特征重构出嘴部图像序列。在实验中,为30句连接词语音重构了嘴部动画,客观评价结果表明,与听视觉状态同步DBN模型(SS_DBN)和听视觉状态异步DBN模型(SA_DBN)相比,由AF_AVDBN模型学习得到的嘴部参数更加接近真实参数。对合成可视语音的主观评价结果表明,在模型中考虑听视觉之间的异步,会增加合成嘴部动画与语音之间的一致性,尤其是由AF_AVDBN模型,得到了非常准确、逼真、自然和清晰的可视语音。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号