首页> 中文学位 >真实感可视语音合成算法研究
【6h】

真实感可视语音合成算法研究

代理获取

目录

文摘

英文文摘

独创性声明和关于论文使用授权的说明

第一章绪论

1.1背景

1.2国内外研究现状

1.3音素层可视语音合成方法

1.4特征层可视语音合成的映射方法

1.1.1基于矢量量化的方法

1.1.2基于混合高斯模型的方法

1.1.3基于神经网络的方法

1.1.4基于隐马尔可夫模型的方法

1.5存在的问题和本文的主要贡献

1.5.1存在的问题

1.5.2本文的主要贡献

1.6论文的组织结构

第二章动画模型

2.1基于图像采样的动画

2.2基于模型的动画

2.3本章小结

第三章音素层的可视语音合成

3.1音素层可视语音合成介绍

3.2本文所用的人脸模型

3.3关键帧之间的平滑变形技术(MORPHING)

3.3.1用运动分析在关键帧之间建立象素级对应关系

3.3.2光流及其连接策略

3.3.3引入渐变控制速率的渐变过程

3.4连读模型与口形渐变速率

3.4.1发音的连读分析

3.4.2渐变控制率及连读模型

3.5与背景视频频缝合

3.6视频与音频的同步及汉字文本的处理

3.7本章小结

第四章概率映射模型

4.1 HMM的基本思想

4.1.1 Markov链

4.1.2 HMM的基本概念

4.1.3 HMM的基本算法

4.2 HMM的实际应用

4.3本章小结

第五章特征层的可视语音合成

5.1语音特征的表达及提取

5.1.1语音信号的时域处理方法

5.1.2线性预测系数及其倒谱系数

5.2视觉特征的表达及提取

5.2.1全局口形纹理的特征表达

5.2.2口形纹理的PCA分析

5.2.3同步映射模型中的视觉输入模式

5.3语音特征的矢量量化(VQ)

5.4双模态同步映射模型

5.4.1基本映射模型

5.4.2双层隐马尔可夫模型

5.4.3唇动预测

5.4.4实验结果

5.5本章小结

第六章语音动画系统

6.1文本驱动动画系统

6.1.1系统框架

6.1.2系统界面

6.2语音驱动动画系统

6.2.1系统框架

6.2.2视频合成

6.3本章小结

总结与展望

本文总结

未来工作展望

参考文献

发表论文

致谢

展开▼

摘要

可视语音的合成是近年来多媒体信号处理中的一个研究焦点和难点.随着智能人机交互应用的兴起,人们需要在交流过程中融合多种表达方式,多种行为模态以增加信息的含量,提高信息描述的准确性.同时,在娱乐应用中需要提供一个声色兼备的界面以吸引用户,实现人性化的交互目的.该文在可视语音合成这个研究背景下,将工作重点放在可视语音合成中的真实感研究方面.首先,该文在音素层可视语音合成中采用关键帧核心技术,通过引入连读模型来提高关键帧口形合成中的真实感.通过引入渐变控制率使元音与辅音(V-C)关键帧之间的唇动更趋向于自然的唇动过程,该渐变控制率用非线性的幂函数来实现,幂函数所描述的变化过程与元音和辅音之间实际过渡相符.在引入渐变控制率的基础之上,通过对元音与辅音口形间相互影响的分级定量描述,针对汉语中连读影响最频繁最明显的元-辅-元(V-C-V)发音过程,该文提出了适用于关键帧技术的连读处理模型.由于该模型充分考虑了,光流对应在连读过程中的实际变化,因此该模型与图象关键帧变形技术相兼容.其次,该文在特征层可视语音合成中采用隐马尔可夫模型(HMM)作为基本的同步映射模型,用以描述底层语音特征与视觉口形之间的关联,通过双层HMM的框架来提高映射的准确性,从而提高合成结果的真实感.在基本的映射模型中,充分考虑语音上下文信息,将当前帧前一时刻和后一时刻的语音信息都作为模型的观察值.考虑到音视频对应中一对多的特性,对同一视觉类中的语音观察值进行视觉类内再聚类,从而得到多个语音观察子类,这些子类各自代表同一视觉类下的同一语音分布群体,通过它们得到的第二层模型包含在第一层模型下面,该文通过两层HMM的映射机制来实现底层语音特征与视觉口形之间关联的描述.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号