您现在的位置: 首页> 研究主题> 语音情感识别

语音情感识别

语音情感识别的相关文献在2005年到2022年内共计302篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、汉语 等领域,其中期刊论文233篇、会议论文18篇、专利文献297279篇;相关期刊117种,包括东南大学学报(英文版)、电子器件、数据采集与处理等; 相关会议15种,包括2014第20届全国信息存储技术学术会议、第十二届全国人机语言通讯学术会议(NCMMSC`2013)、2009年全国理论计算机科学学术年会等;语音情感识别的相关文献由642位作者贡献,包括赵力、张雪英、孙颖等。

语音情感识别—发文量

期刊论文>

论文:233 占比:0.08%

会议论文>

论文:18 占比:0.01%

专利文献>

论文:297279 占比:99.92%

总计:297530篇

语音情感识别—发文趋势图

语音情感识别

-研究学者

  • 赵力
  • 张雪英
  • 孙颖
  • 查诚
  • 张昕然
  • 张石清
  • 毛启容
  • 陶华伟
  • 黄程韦
  • 余华
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 彭涛; 郑传锟; 张自力; 刘军平; 胡新荣; 何儒汉
    • 摘要: 语音情感识别在人机交互中有重要的作用。在语音情感识别领域中,通常使用迁移学习解决语音情感数据难获取的问题,但忽略了语音数据的时序信息和空间信息。考虑到AlexNet网络中的参数来自图像数据集,不能完全表现语音数据的空间信息,并且不包含时序信息,因此提出通过膨胀卷积网络提取语音频谱图的空间信息,添加双向长短期记忆神经网络提取时序信息,并进行时空特征融合;针对语音中含有大量与情感无关的特征,通过将对数梅尔频谱图的三个通道作为输入,减少情感无关因素的影响,并添加注意力机制,选取情感权重大的时域信号。用公开数据集实验证明了方法的有效性,在WAR和UAR上都有提升。
    • 蒯红权; 吴建华; 吴亮
    • 摘要: 自从注意力机制在自然语言处理领域(NLP)取得了巨大成功,其被引入了语音情感识别任务(SER)中,使各种语音情感识别模型的性能获得了提高。为了能在深度循环神经网络中更加高效地利用注意力机制,对传统的注意力机制进行了推广,提出了基于分段的注意力机制,并将其应用于深度循环神经网络(RNN)中。在CASIA语音情感数据集上的实验结果证明,这一方法不仅能够有效提高模型训练速度,还可以提高模型识别性能。
    • 邬卓恒; 时小芳
    • 摘要: 针对快速发展的语音情感识别技术,归纳总结了机器学习算法在语音情感识别领域的发展过程并预测语音情感识别技术的发展方向。首先针对语音情感的离散描述模型,总结语音情感识别模型训练和识别算法的一般过程;然后,根据机器学习算法的发展阶段,分别对比分析传统机器学习算法,深度神经网络、卷积神经网络、循环神经网络等深度学习算法与语音情感特征结合在情感识别中优缺点;最后,总结现阶段语音情感识别领域存在的问题,并预测该领域的发展方向。
    • 李瑞航; 吴红兰; 孙有朝; 吴华聪
    • 摘要: 针对语音情感识别任务中说话者的差异性,计算谱特征的一阶差分、二阶差分组成三通道的特征集输入二维网络。结合卷积神经网络、双向长短时记忆网络以及注意力机制建立基线模型,引入深度残差收缩网络分配二维网络中的通道权重,进一步提高语音情感识别的精度。为提升模型的学习效果,采取特征层融合(特征向量并行和特征向量拼接两种方式)和决策层融合(平均得分和最大得分两种方式)等不同信息融合机制。结果表明:(1)特征层融合中的特征向量并行策略是更有效的方式;(2)本文提出模型在CASIA和EMO⁃DB数据库下分别取得了84.93%和86.83%的未加权平均召回率(Unweighted average recall,UAR),相较于基线模型,引入深度残差收缩网络后的模型在CASIA和EMO⁃DB数据库上的未加权召回率分别提高5.3%和6.2%。
    • 王珂; 邹宇; 赵慧; 张伟; 魏子涵
    • 摘要: 人类的语音情感既抽象又复杂,无法用静态的模式呈现出动态而又抽象的情感,然而语音情感识别是情感计算领域中一个重要分支,是实现人工智能、人机交互、模式识别的关键技术之一。文章针对语音情感识别的研究史进行综述,主要从语音情感语料库、相关特征与降维、语音情感识别算法、面临的问题与挑战5个方向进行整合分析,对语音情感识别系统和现有的算法展开全面而深入的分析与总结,并对当前语音情感识别存在的问题与挑战进行总结与展望。
    • 邬卓恒; 赵嘉熙; 时小芳
    • 摘要: 语音情感识别是人工智能的重要研究领域之一。文章基于神经网络算法分析与设计语音情感识别系统。系统分为前端和后端两个模块:前端部署在移动终端上,实现接收语音,上传语音文件,显示识别结果等功能;后端部署在服务器上,实现语音降噪、特征提取、语音情感模型训练、情感识别、个人语音库创建等功能。
    • 王怡; 王黎明; 柴玉梅
    • 摘要: 语音情感识别已经成为下一代人机交互技术的重要组成部分,从语音信号中提取与情感相关的特征是语音情感识别的重要挑战.针对单一特征在情感识别中准确度不高的问题,该文提出了特征级-决策级融合的方法融合声学特征和语义特征进行情感识别.首先提取声学特征,包括:1)低层次手工特征集,包括基于谱相关、音质、能量、基频等相关特征,以及基于低层次特征的高级统计特征;2)DNN提取的谱相关特征的深度特征;3)CNN提取的基于Filter_bank特征的深度特征.并且使用基于Listen-Attend-Spell(LAS)模型的语音识别模块提取语义特征.然后将声学特征中的3类特征与语义特征进行特征级融合,在确定融合特征的先后顺序时引入了构造哈夫曼树的方法.最后得到融合后特征和原始4类特征各自的情感识别结果,在结果之上进行决策级融合,使用此方法在IEMOCAP数据集中分类准确度可达76.2%.
    • 张会云; 黄鹤鸣
    • 摘要: 语音情感识别是自动语音识别的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。基于此,构建了基于注意机制、跳跃连接、掩蔽操作等关键技术的语音情感识别声学模型,称为具有掩蔽操作的基于注意机制的跳跃卷积双向循环神经网络。该模型有8个隐层,依次是2个全连接层、卷积层、跳跃层、掩蔽层、Bi-LSTM层、注意层和池化层。其中,卷积层提取语音情感空间特征;Bi-LSTM层提取语音情感时间序列特征;跳跃层主要解决梯度问题;掩蔽层使数据中为0的值不参与计算,降低了计算量;注意层根据不同时间序列特征对情感的贡献程度分配权重;池化层计算语音情感序列权重。实验结果表明,所提出的模型在EMO-DB库上取得了92.34%的识别性能。
    • 张会云; 黄鹤鸣
    • 摘要: 提取能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别系统的核心。面向语音情感识别构建基于注意力机制的异构并行卷积神经网络模型AHPCL,采用长短时记忆网络提取语音情感的时间序列特征,使用卷积操作提取语音空间谱特征,通过将时间信息和空间信息相结合共同表征语音情感,提高预测结果的准确率。利用注意力机制,根据不同时间序列特征对语音情感的贡献程度分配权重,实现从大量特征信息中选择出更能表征语音情感的时间序列。在CASIA、EMODB、SAVEE等3个语音情感数据库上提取音高、过零率、梅尔频率倒谱系数等低级描述符特征,并计算这些低级描述符特征的高级统计函数共得到219维的特征作为输入进行实验验证。结果表明,AHPCL模型在3个语音情感数据库上分别取得了86.02%、84.03%、64.06%的未加权平均召回率,相比LeNet、DNN-ELM和TSFFCNN基线模型具有更强的鲁棒性和泛化性。
    • 王兰馨; 王卫亚; 程鑫
    • 摘要: 针对单一模态情感识别精度低的问题,提出了基于Bi-LSTM-CNN的语音文本双模态情感识别模型算法。该算法采用带有词嵌入的双向长短时记忆网络(bi-directional long short-term memory network,Bi-LSTM)和卷积神经网络(convolutional neural network,CNN)构成Bi-LSTM-CNN模型,实现文本特征的提取,将其与声学特征融合结果作为联合CNN模型的输入,进行语音情感计算。基于IEMOCAP多模态情感检测数据集的测试结果表明,情感识别准确率达到了69.51%,比单一模态模型提高了至少6个百分点。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号