首页> 中文学位 >普通话语音情感识别关键技术研究
【6h】

普通话语音情感识别关键技术研究

代理获取

目录

文摘

英文文摘

第一章绪论

第二章普通话情感语音数据库

第三章普通话语音情感表达

第四章语音情感识别中的分类器

第五章语音情感识别中的特征选择

第六章用相对特征提高语音情感识别率

第七章基于语段的语音情感识别

第八章EmEars—一个普通话语音情感识别系统

第九章总结与展望

参考文献

攻读博士学位期间完成论文情况

致谢

独创性声明及学位论文版权使用授权书

展开▼

摘要

自然人机交互技术是当前计算机应用技术研究的重要方向。语音识别是实现人机交互的重要途径,而语音的情感识别对于实现人机的自然交互更是至关重要。近年来随着心理学、生理学、神经科学和计算机技术及与之相关的模式识别技术的发展,情感计算,特别是语音的情感识别研究,作为计算机科学的一个重要领域在理论和应用上都取得了长足进步。在情感的定义与分类、情感关联的声学特征及相关的分类模型研究上提出了不同的技术和方法,发展了多个语种的情感识别研究,初步建立起语音情感识别的框架体系。但随着人们对语音情感识别的要求越来越高,各种情感识别方面的应用需求提上日程,目前现有的技术与方法已经不能满足需求,特别是汉语普通话语音情感识别的研究相对较少,这就需要我们加快工作步伐,填补这方面的空白。 普通话语音的情感识别技术目前主要面临四大关键技术问题:普通话语音情感语料库问题,亟待建立一个在数量、质量、管理和多样性等方面满足研究要求的普通话情感语音库;情感的声学关联特征问题,寻求一组抗干扰能力强,与情感状态紧密相关的声学特征向量;小样本问题,减少由于说话人和文本差异带来的对情感声学特征的干扰,减小情感特征的类内距离,提高情感识别率;特征向量的高维问题,经过特征选择或降维,选出最具有情感区别力的声学特征,提高分类器泛化能力。 本文以下一代自然人机交互为应用背景,系统分析研究了语音情感识别,特别是普通话语音情感识别的特点及存在的问题;在建立一个扩展性与应用能力良好的普通话情感语音数据库基础上,提出以特征选择、相对特征和情感焦点为核心的新的语音情感识别技术。本文的主要研究内容概括如下: (1)普通话情感语音数据库。由于普通话情感语音研究刚刚起步,有关建立普通话情感语音数据库的技术、经验和方法都较少。为了研究的需要,本文建立了一个普通话情感语音数据库,用录音法和剪辑法共采集1376句情感语音,分愤怒、害怕、高兴、中性和悲伤5个情感类别。数据库还存储了各情感语音的基频、能量、时长和共振峰等韵律学及音质相关的声学特征。 (2)声学特征分析与选择。情感的声学关联特征是语音情感识别的关键之一。本文在普通话情感语音数据库的基础上,分析韵律学特征和共振峰特征在不同情感状态下的静态规律,以及在情感状态转变时的动态规律。同时,进行特征选择和大规模的统计实验,确定了特征向量在情感识别领域各种情况下的最优配置。 (3)模式分类器研究。在对现有语音情感识别领域常用分类器进行分析的基础上,本文选择神经网络为主要分类器,详细探讨了它的原理、结构,及其在普通话语音情感识别中的运用。根据说话人和文本的异同,设计了4种训练和测试样本组织方式,在神经网络分类器下进行情感识别实验,分析说话人与文本差异对情感识别的影响,并对两种结构的神经网络模型进行性能优化分析。最后比较了神经网络与SVM和KNN等分类器的识别性能。 (4)相对特征研究。针对说话人差异对语音情感识别的影响,本文提出了相对识别方法,用相对特征对说话人准相关和说话人无关两组语音进行情感识别的实验,并将结果与绝对特征作了比较。结果表明在说话人无关情况下,相对特征比绝对特征的平均识别率提高了约40个百分点。本文还对相对特征和绝对特征的性能差异、适用范围和易用性进行了分析比较。 (5)情感焦点研究。针对文本差异对情感识别的影响,本文分析了情感语音全局特征的缺点,提出以神经网络为分类器,以分段训练和分段测试为样本重组方式,以投票制为最终决策机制的崭新识别方法。在此基础上,本文提出情感焦点理论,用情感焦点的方法筛选参与投票的语段,最终使得平均识别率比使用全局特征时提高了13个百分点。 此外,本文还介绍了采用神经网络和特征选择等技术开发的一个普通话语音情感识别的原型系统:EmEars。经过实验测试,并与人类识别性能进行比较,可以得出结论:在说话人无关,且文本无关情况下,EmEars的情感识别能力远低于人类;但在说话人相关,且文本相关情况下,EmEars的情感识别能力有大幅提高,甚至超过人类。 本文的贡献和创新点归纳起来主要有以下三大方面: (1)普通话情感语音数据库的建立为普通话情感语音的录制、情感状态的引导、文本选择和语音情感质量的评测等方面提供了一系列有效的方法,为国内同行的普通话语音情感识别研究,提供一个具有可比性的实验样本数据平台。 (2)由于语种的差别,西方语系的情感语音声学特征分析与选择的研究成果不能完全适用于普通话情感语音。本文对普通话情感语音的此项研究填补了这方面的空白,同时它也为普通话的情感语音合成提供了参考。本文提出的特征选择研究方案首次对情感类别、声学特征种类、声学特征个数以及训练样本数量之间的关系进行了定量分析,为寻求特征在种类、数量和识别类型上的最优配置,提供了有效方法。 (3)本文用实验方法证实了说话人和文本差异对语音情感识别的严重干扰。为解决此技术难点,本文从分析人类的语音情感识别机制入手,提出基于相对特征和情感焦点的新方法。它们能有效减少由于发声系统和文本差异造成的类内距离增大的不良影响,显著提高语音情感识别率。为进一步探明人类的语音情感识别机制,实现实时的语音情感识别提供了良好的思路。 本文的研究成果不但丰富了语音情感识别的思想和理论宝库,而且为语音情感识别中有关情感语料库的建立、情感声学特征的分析和选择,以及文本和说话人差异对情感识别影响这一最大技术难点提供了一套崭新有效的解决方案。本文的所有算法和技术可望在语音的情感计算相关领域广泛应用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号