真实感可视语音合成算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

可视语音的合成是近年来多媒体信号处理中的一个研究焦点和难点.随着智能人机交互应用的兴起,人们需要在交流过程中融合多种表达方式,多种行为模态以增加信息的含量,提高信息描述的准确性.同时,在娱乐应用中需要提供一个声色兼备的界面以吸引用户,实现人性化的交互目的.该文在可视语音合成这个研究背景下,将工作重点放在可视语音合成中的真实感研究方面.首先,该文在音素层可视语音合成中采用关键帧核心技术,通过引入连读模型来提高关键帧口形合成中的真实感.通过引入渐变控制率使元音与辅音(V-C)关键帧之间的唇动更趋向于自然的唇动过程,该渐变控制率用非线性的幂函数来实现,幂函数所描述的变化过程与元音和辅音之间实际过渡相符.在引入渐变控制率的基础之上,通过对元音与辅音口形间相互影响的分级定量描述,针对汉语中连读影响最频繁最明显的元-辅-元(V-C-V)发音过程,该文提出了适用于关键帧技术的连读处理模型.由于该模型充分考虑了,光流对应在连读过程中的实际变化,因此该模型与图象关键帧变形技术相兼容.其次,该文在特征层可视语音合成中采用隐马尔可夫模型(HMM)作为基本的同步映射模型,用以描述底层语音特征与视觉口形之间的关联,通过双层HMM的框架来提高映射的准确性,从而提高合成结果的真实感.在基本的映射模型中,充分考虑语音上下文信息,将当前帧前一时刻和后一时刻的语音信息都作为模型的观察值.考虑到音视频对应中一对多的特性,对同一视觉类中的语音观察值进行视觉类内再聚类,从而得到多个语音观察子类,这些子类各自代表同一视觉类下的同一语音分布群体,通过它们得到的第二层模型包含在第一层模型下面,该文通过两层HMM的映射机制来实现底层语音特征与视觉口形之间关联的描述.

著录项

作者
刘文韬;
展开▼
作者单位

北京工业大学;

展开▼
授予单位北京工业大学;
学科计算机应用技术
授予学位硕士
导师姓名尹宝才;
年度 2004
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音合成;
关键词
可视语音; 关键帧变形; 连读模型; 音视频映射; 隐马尔可夫模型;
入库时间 2022-08-17 10:18:29

相似文献

中文文献
外文文献
专利

1. 基于离散变换域的语音合成算法研究 [J] . 李亚文 . 商洛学院学报 . 2013,第006期
2. 基于韵律特征参数的情感语音合成算法研究 [J] . 何凌 ,黄华 ,刘肖珩 . 计算机工程与设计 . 2013,第007期
3. 面向语音合成的藏语单音素与三音素自动切分算法研究 [J] . 张金溪 ,李永宏 ,单广荣 . 计算机应用研究 . 2013,第011期
4. 面向语音合成的藏语音素切分算法研究 [J] . 张金溪 ,李照耀 ,肖俊生 . 西北民族大学学报（自然科学版） . 2012,第004期
5. 面向语音合成的维吾尔语音素自动切分算法研究 [J] . 阿依木尼萨·胡甫尔 ,艾斯卡尔·艾木都拉 . 计算机应用与软件 . 2011,第009期
6. 基于动态基元选取的真实感可视语音合成系统 [C] . 周密 ,穆凯辉 ,陶建华 . 第八届全国虚拟现实与可视化学术会议(CCVRV'08) . 2008
7. 基于神经网络的语音合成与可视语音合成研究 [A] . 樊博 . 2016

真实感可视语音合成算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅