首页> 中文学位 >基于深度神经网络的语音情感识别模型研究
【6h】

基于深度神经网络的语音情感识别模型研究

代理获取

目录

1 绪 论

1.1 研究背景及意义

1.2 语音情感识别国内外研究历史、现状及挑战

1.3 本文的主要工作

1.4 论文组织结构

2 语音情感识别研究基础

2.1 情感的分类

2.2 代表性情感语音库

2.3 语音信号的预处理

2.3.1 预加重处理

2.3.2 分帧和加窗

2.3.3 端点检测

2.4 常见语音情感特征

2.5 语音情感识别相关算法

2.6 本章小结

3 基于SMel-CNN模型的语音情感识别

3.1 基于卷积网络的特征提取

3.2 SMel-CNN特征提取模型

3.2.1 语谱图的定义与生成

3.2.2 梅尔频谱图定义与生成

3.2.3 SMel-CNN模型的构建

3.3 实验数据及结果分析

3.3.1 实验环境

3.3.2 实验数据集

3.3.3 实验过程和结果分析

3.4本章小结

4 多层次语音情感识别框架ML-EM

4.1 多层次识别框架ML-EM

4.1.1 多采样率数据增强

4.1.2 情感相似度计算

4.1.3 SC-LSTM网络模型

4.2 实验过程及结果分析

4.2.1 实验过程及结果

4.2.2 实验结果分析

4.3 本章小结

5 自动语音情感识别系统设计与实现

5.1 语音情感识别系统功能模块设计

5.2 语音情感识别系统设计与实现

5.3 系统测试

5.4 本章小结

6 总结与展望

6.1 全文总结

6.2 未来工作展望

参考文献

附录

A.作者在攻读学位期间取得的科研成果目录

B.学位论文数据集

致谢

展开▼

摘要

语音情感识别是音频领域的热点研究内容,尤其是在智能课堂、智能驾驶和智能医疗等人工智能交互领域中有广泛应用。语音情感识别旨在通过机器感知判断,使机器能够捕捉人类声音中所传达的情感,进而灵活调整交互方案和实时决策,达到更高程度的人机交互。  本文对语音情感识别的谱图表示和深度学习的相关方法进行了研究,其中语音情感特征提取的充分性和情感识别的准确性是本文研究的重点。针对语音情感特征提取过程繁琐且特征提取不充分的问题,本文采用多态频谱图与深度学习相结合的方式进行端对端的学习,提高语音情感特征提取的充分性和有效性,实现自动的特征提取过程。针对传统语音情感误识别率高、辨别度较低等问题,本文提出语音情感多层次识别框架,该框架首先通过哈希算法计算得到高相似情感类别,并采用以长短时记忆网络为基础的语音情感模型,生成时序语音情感特征向量,并增加多采样率数据增强的方法来丰富原始样本,优化语音情感多层次识别框架,进一步提高识别的精度。  本文的主要贡献包括:  ①传统语音情感识别方法需要分别对声学参数进行提取并统计,提取过程繁琐且提取的特征不充分。针对上述问题本文提出一种语音情感识别模型SMel-CNN,该模型将语谱图和梅尔频谱图作为初始输入,然后同时提取时频域特征,最后将时频域特征进行融合以提高语音特征提取的有效性,并实现自动语音情感特征提取过程。实验证明本文提出的SMel-CNN模型的有效性。  ②针对传统语音情感识别存在的误识别率高、情感相似性高等问题。本文提出多层次语音情感识别框架ML-EM,该框架采用哈希算法对语音情感类别进行相似度计算,得到高相似度情感集合,并采用本文提出的时序模型SC-LSTM对高相似度情感进行识别。SC-LSTM模型使用SMel-CNN网络进行前期谱图的特征提取并使用 LSTM 网络进行后期的时序建模。实验证明 ML-EM 框架提高了语音情感识别整体的辨别度和精确度。  ③本文设计并实现自动语音情感识别系统,提取语音段的语谱图和梅尔频谱图作为特征提取模型的初始层,通过SMel-CNN模型和SC-LSTM模型分别进行特征提取和识别,最终得到高精度识别结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号