首页> 中文学位 >汉语语音基于包络频谱调制模式的连续情绪计算
【6h】

汉语语音基于包络频谱调制模式的连续情绪计算

代理获取

摘要

在智能人-机交互系统中,语音连续情绪计算是目前流行的研究领域,并且得到了广泛的应用。虽然许多科研人员已经提出了解决语音离散情绪识别的可能性,并取得了一些成果,但至今在语音连续情绪上仍没有满意的结论。
   本文的主要研究内容是汉语语音连续情绪计算,即从语音信号中识别说话人当时所处的连续情绪状态。文章描述了一个基于听觉心理学的连续情绪计算模型-包络频谱调制模式(envelope spectral modulation patterns,ESMP)与情绪心理学维数(效价维、激励维、支配维和能量维)之间的分布关系,用于人类语音连续情绪的自动识别。ESMP是从听觉感应长期临界频谱表示中提取的,包含了频谱和临界调制频率成分,从而通过人类语音知觉频谱特征而不是传统的韵律特征来传递情绪信息。本文以汉语语音连续情绪计算为重点,主要研究内容包括:
   ①模糊连续情绪语料数据库的建立;
   ②人主观辨听实验:语音情绪维数分析;
   ③机器实验:包络频谱特征提取、频谱计算和情绪分类。
   汉语普通话模糊连续情绪语音采集:在分析当前国际上一些情绪语料数据库的基础上,独立设计文本,确定录音人数、语音种类(自然、模仿、诱出)、模糊情绪种类和语料数目。所研究的情绪为5种模糊基本情绪状态:(稍微、比较和非常)喜、怒、惊、悲和惧,1种模糊二次派生情绪(稍微、比较和非常)惊喜,另取参考语音信号表征没有情绪时的状态。通过对采集的模糊情绪语音数据进行第一次主观听辨实验,最后建立汉语模糊情绪语音数据库。
   第二次、三次主观辨听实验:实验研究了上述情绪在V-A-D上的分布情况。每一维可划分7个水平,然后请正常听力的人对第一次主观辨听实验选出的情绪语料进行再次辨听,并且鉴定每个情绪语料的7个水平在V-A-D三维空间的分布。从而得到每种情绪在V-A-D三维空间的分布结果。
   计算机实验:首先,分析了情绪语音相对于参考(无情绪)语音的包络特征(上下包络线、包络谱和包络特征向量)。然后,使用全相经验模态分解(ensemble empirical mode decomposition,EEMD)分段幂函数插值(PPF)算法提取这些特征,通过对情绪语音信号进行EEMD得到一系列情绪本征模态函数(emotional intrinsic mode functions,IMFe),提取每一级IMFe的频率倒谱系数作为表征说话人情绪的特征参数,对得到的情绪特征参数用矢量量化进行识别。根据IMFe频谱变换获得包络线和包络谱,同时通过快速傅立叶变换(FFT)也得到了包络特征向量。
   在提取包络特征的基础上,文章进一步研究了汉语情绪语音的功率频谱密度和能量频谱,进而得到了ESMP。利用Matlab软件仿真了模糊情绪的EEMD和包络频谱特性,得到模糊情绪的ESMP。同时,根据ESMP的峰值(PV)、峰值瞬时(IP)、形心(C)、等距宽度(EW)和横坐标均方(MSA),进一步在V-A-D-P四维空间中分析了维数水平和ESMP之间的关系。
   在汉语语音模糊情绪分类上,文章提出一种新颖的、基于ESMP提取和模糊支持向量回归(FSVR)分类器(classifier)的互相关性算法。该算法应用于汉语语音模糊情绪((稍微、比较和非常)喜、惊和惊喜)的分类上。同时,FSVR分类器使用了模糊连续二分(FCB)过程,并且适用于情绪语音互相关的包络频谱特征。这种借助FSVR分类器的包络频谱互相关性算法,可以大幅提高汉语语音模糊情绪识别率,并且在识别非常喜情绪时准确率甚至可以达到92.58%。
   综上所述,在进行了主观辨听实验和机器实验后,文章确切的得出了结论:人辨听实验与机器实验的结果基本一致,而且使用ESMP可以大大提高汉语语音模糊情绪的识别率。作为一种新的尝试,文章提出的一个新颖特征(ESMP)和两个新算法(EEMD和FSVR)都具有一定的理论依据和较好的实用效果,为今后的语音连续情绪计算和人一机语音情绪交互研究奠定了良好的基础。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号