首页> 中文学位 >情感语音识别与合成的研究
【6h】

情感语音识别与合成的研究

代理获取

目录

摘要

ABSTRACT

符号对照表

图索引

表索引

第一章 绪论

1.1 课题研究背景与意义

1.2 语音感知系统和生成系统

1.2.1 激励模型

1.2.2 声道模型

1.2.3 辐射模型

1.2.4 语音信号的数学模型

1.3 语音识别技术与语音合成技术的研究现状

1.3.1 国内外语音识别技术的现状

1.3.2 国内外语音合成技术的现状

1.4 本文的研究内容及创新点

1.5 论文的结构安排

第二章 情感语音基本理论研究

2.1 绪论

2.2 情感的分类

2.2.1 情感维度空间理论

2.2.2 离散情感理论

2.2.3 基于离散情感的情感维度空间理论

2.3 情感语音特征分析

2.3.1 短时平均过零率

2.3.2 短时平均能量

2.3.3 基音频率

2.3.4 共振峰

2.4 情感语音识别模型

2.4.1 隐马尔科夫模型(HMM)

2.4.2 人工神经网络(ANN)

2.4.3 混合高斯模型(GMM)

2.4.4 主元素分析法(PCA)

2.4.5 矢量分隔型马氏距离判别法

2.4.6 支持向量机(SVM)

2.5 情感语音合成研究

2.6 本章小结

第三章 情感语音库

3.1 引言

3.2 TYUT情感语音数据库的建立

3.2.1 情感语音数据库建立的基本原则

3.2.2 情感及情感语句的选择

3.2.3 语音的采集

3.2.4 情感语句的有效性分析

3.3 Berlin(EMO-DB)情感语音数据库

3.4 其它情感语音数据库简介

3.5 本章小结

第四章 多种语音情感识别特征对情感语音库有效性的验证

4.1 引言

4.2 基本特征简介

4.2.1 LPCC特征

4.2.2 MFCC特征

4.2.3 LPMCC特征

4.2.4 ZCPA特征

4.2.5 AUSEES特征

4.2.6 AUSEEG特征

4.3 实验过程及结果分析

4.3.1 一种语言的实验

4.3.2 混合语音数据库的实验

4.4 本章小结

第五章 基于人耳听觉特性模型的特征研究及在情感语音识别中的应用

5.1 引言

5.2 人耳的听觉模型

5.3 基于人耳听觉特性的过零峰值幅度(ZCPA)特征及其在情感语音识别中的应用

5.3.1 过零峰值幅度特征基本算法

5.3.2 过零峰值幅度特征在情感语音识别中的应用

5.4 帧优化算法对ZCPA特征的改进

5.4.1 帧优化算法基本理论

5.4.2 实验步骤

5.4.3 实验结果及分析

5.5 Teager能量算子特征及在情感语音识别中的应用

5.5.1 Teager能量算子

5.5.2 Teager能量算子在情感语音识别中的应用

5.6 基于人耳听觉特性的过零峰值最大Teager能量算子(ZCMT)特征

5.6.1 ZCMT特征原理及提取步骤

5.6.2 实验结果及分析

5.7 本章小结

第六章 声门特征补偿的人耳听觉模型特征研究及在情感语音识别中的应用

6.1 引言

6.2 声门特征的基本理论

6.2.1 语音产生的非线性模型

6.2.2 典型的声门特征及基音周期的提取

6.3 一种声门特征补偿的人耳听觉模型特征

6.3.1 声门特征对于人耳听觉模型特征的影响

6.3.2 人耳听觉补偿算法

6.3.3 声门特征补偿的人耳听觉模型特征在情感语音识别中的应用

6.3.4 实验结果及分析

6.3.5 本文所有特征在情感语音识别实验的结果比较

6.4 本章小结

第七章 基于隐马尔科夫模型的语音合成与情感语音合成

7.1 引言

7.2 基于HMM的语音合成系统

7.2.1 基于HMM的语音合成系统的基本结构

7.2.2 基于HMM的语音合成系统实验平台的搭建

7.2.3 实验结果及分析

7.3 基于HMM的情感语音合成系统的实现

7.3.1 基于HMM的情感语音合成系统的基本结构

7.3.2 实验结果及分析

7.4 本章小结

第八章 总结与展望

8.1 总结

8.2 展望

参考文献

致谢

攻读博士期间已发表的学术论文

攻读博士期间的科研工作及成果

展开▼

摘要

情感语音识别与合成技术是当前语音信号处理研究的热点问题,目的是使计算机既能够听懂人类语言所携带的情感成分,又可以说出人类语言,实现人机智能通信,使计算机与人的交流畅通无阻。情感语音识别是语音识别技术的一个新的分支,由于情感本身概念的不确定性及语音中情感特征的模糊性,使得情感语音识别成为一个难点问题。语音合成技术一直以来研究者众多,但是,如何能够构建出一个存储量小,自然度高的合成系统一直是需要重点解决的问题。  本文紧紧抓住情感语音识别的难点和语音合成的重点,提出了基于人耳听觉特性模型的情感语音识别特征,并用声门特征对基于人耳听觉的情感语音特征进行了补偿优化;实现了基于隐马尔科夫模型的语音合成系统,在此基础上,对系统合成的语音进行了参数分析和修改,将情感特征加入了合成语音,实现了基于隐马尔科夫模型的情感语音合成。  本文的主要工作和创新性成果如下:(1)在深入研究情感理论的基础上,分析了韵律特征在不同情感中的表现,构建了包括“高兴”、“生气”和“中立”三种情感状态,汉语普通话和英语两种语言的TYUT情感语音数据库。通过主观辨听实验和典型特征的分析实验,确定了TYUT情感语音数据库的有效性。  (2)将基于人耳听觉特性模型的过零峰值幅度特征用于情感语音识别,并将该特征中用于代表频率与说话速率的过零特征与Teager能量算子中的非线性能量特征有机地结合在一起,提出了一种基于人耳听觉特性模型的新特征——过零最大Teager能量算子特征,新特征在情感语音识别实验中表现出良好的性能。  (3)将人的发音模型与听觉模型相结合,通过分析声门特征对人耳听觉模型特征的影响,提出了用声门特征补偿人耳听觉特征的新算法,并将补偿后的新算法用于情感识别实验,得到了较高的识别率。新算法表现出了优良的性能。  (4)针对实际交谈中,背景环境复杂的情况,设计了一种混合情感语音数据库的实验,用以检验情感特征的数据库独立性。通过对混合语音数据库实验结果的对比,发现过零最大Teager能量算子特征是本文所有特征中,数据库依赖性最小的特征。  (5)为了能够合成出具有不同情感的语句,首先,搭建了基于隐马尔科夫模型的情感语音合成系统,接着对合成出的语句进行了参数修改,最终实现了基于隐马尔科夫模型的情感语音合成,初步得到了合成的情感语音。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号