语音情感识别
语音情感识别的相关文献在2005年到2022年内共计302篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、汉语
等领域,其中期刊论文233篇、会议论文18篇、专利文献297279篇;相关期刊117种,包括东南大学学报(英文版)、电子器件、数据采集与处理等;
相关会议15种,包括2014第20届全国信息存储技术学术会议、第十二届全国人机语言通讯学术会议(NCMMSC`2013)、2009年全国理论计算机科学学术年会等;语音情感识别的相关文献由642位作者贡献,包括赵力、张雪英、孙颖等。
语音情感识别—发文量
专利文献>
论文:297279篇
占比:99.92%
总计:297530篇
语音情感识别
-研究学者
- 赵力
- 张雪英
- 孙颖
- 查诚
- 张昕然
- 张石清
- 毛启容
- 陶华伟
- 黄程韦
- 余华
- 张卫
- 梁瑞宇
- 詹永照
- 韩文静
- 张会云
- 李海峰
- 黄鹤鸣
- 宋鹏
- 金赟
- 毕福昆
- 包永强
- 周伟东
- 周后盘
- 夏鹏飞
- 张静
- 李廉
- 李恒杰
- 杨桃香
- 王坤侠
- 王彬
- 章国宝
- 赵小蕾
- 邢尹
- 邢玉娟
- 郭庆
- 陆应亮
- 韩纪庆
- 黄永明
- 任浩
- 傅洪亮
- 叶亮
- 姜林
- 安宁
- 张成文
- 张波
- 徐新洲
- 李伟
- 李冬冬
- 李月
- 杨鉴
-
-
彭涛;
郑传锟;
张自力;
刘军平;
胡新荣;
何儒汉
-
-
摘要:
语音情感识别在人机交互中有重要的作用。在语音情感识别领域中,通常使用迁移学习解决语音情感数据难获取的问题,但忽略了语音数据的时序信息和空间信息。考虑到AlexNet网络中的参数来自图像数据集,不能完全表现语音数据的空间信息,并且不包含时序信息,因此提出通过膨胀卷积网络提取语音频谱图的空间信息,添加双向长短期记忆神经网络提取时序信息,并进行时空特征融合;针对语音中含有大量与情感无关的特征,通过将对数梅尔频谱图的三个通道作为输入,减少情感无关因素的影响,并添加注意力机制,选取情感权重大的时域信号。用公开数据集实验证明了方法的有效性,在WAR和UAR上都有提升。
-
-
蒯红权;
吴建华;
吴亮
-
-
摘要:
自从注意力机制在自然语言处理领域(NLP)取得了巨大成功,其被引入了语音情感识别任务(SER)中,使各种语音情感识别模型的性能获得了提高。为了能在深度循环神经网络中更加高效地利用注意力机制,对传统的注意力机制进行了推广,提出了基于分段的注意力机制,并将其应用于深度循环神经网络(RNN)中。在CASIA语音情感数据集上的实验结果证明,这一方法不仅能够有效提高模型训练速度,还可以提高模型识别性能。
-
-
邬卓恒;
时小芳
-
-
摘要:
针对快速发展的语音情感识别技术,归纳总结了机器学习算法在语音情感识别领域的发展过程并预测语音情感识别技术的发展方向。首先针对语音情感的离散描述模型,总结语音情感识别模型训练和识别算法的一般过程;然后,根据机器学习算法的发展阶段,分别对比分析传统机器学习算法,深度神经网络、卷积神经网络、循环神经网络等深度学习算法与语音情感特征结合在情感识别中优缺点;最后,总结现阶段语音情感识别领域存在的问题,并预测该领域的发展方向。
-
-
李瑞航;
吴红兰;
孙有朝;
吴华聪
-
-
摘要:
针对语音情感识别任务中说话者的差异性,计算谱特征的一阶差分、二阶差分组成三通道的特征集输入二维网络。结合卷积神经网络、双向长短时记忆网络以及注意力机制建立基线模型,引入深度残差收缩网络分配二维网络中的通道权重,进一步提高语音情感识别的精度。为提升模型的学习效果,采取特征层融合(特征向量并行和特征向量拼接两种方式)和决策层融合(平均得分和最大得分两种方式)等不同信息融合机制。结果表明:(1)特征层融合中的特征向量并行策略是更有效的方式;(2)本文提出模型在CASIA和EMO⁃DB数据库下分别取得了84.93%和86.83%的未加权平均召回率(Unweighted average recall,UAR),相较于基线模型,引入深度残差收缩网络后的模型在CASIA和EMO⁃DB数据库上的未加权召回率分别提高5.3%和6.2%。
-
-
王珂;
邹宇;
赵慧;
张伟;
魏子涵
-
-
摘要:
人类的语音情感既抽象又复杂,无法用静态的模式呈现出动态而又抽象的情感,然而语音情感识别是情感计算领域中一个重要分支,是实现人工智能、人机交互、模式识别的关键技术之一。文章针对语音情感识别的研究史进行综述,主要从语音情感语料库、相关特征与降维、语音情感识别算法、面临的问题与挑战5个方向进行整合分析,对语音情感识别系统和现有的算法展开全面而深入的分析与总结,并对当前语音情感识别存在的问题与挑战进行总结与展望。
-
-
邬卓恒;
赵嘉熙;
时小芳
-
-
摘要:
语音情感识别是人工智能的重要研究领域之一。文章基于神经网络算法分析与设计语音情感识别系统。系统分为前端和后端两个模块:前端部署在移动终端上,实现接收语音,上传语音文件,显示识别结果等功能;后端部署在服务器上,实现语音降噪、特征提取、语音情感模型训练、情感识别、个人语音库创建等功能。
-
-
王怡;
王黎明;
柴玉梅
-
-
摘要:
语音情感识别已经成为下一代人机交互技术的重要组成部分,从语音信号中提取与情感相关的特征是语音情感识别的重要挑战.针对单一特征在情感识别中准确度不高的问题,该文提出了特征级-决策级融合的方法融合声学特征和语义特征进行情感识别.首先提取声学特征,包括:1)低层次手工特征集,包括基于谱相关、音质、能量、基频等相关特征,以及基于低层次特征的高级统计特征;2)DNN提取的谱相关特征的深度特征;3)CNN提取的基于Filter_bank特征的深度特征.并且使用基于Listen-Attend-Spell(LAS)模型的语音识别模块提取语义特征.然后将声学特征中的3类特征与语义特征进行特征级融合,在确定融合特征的先后顺序时引入了构造哈夫曼树的方法.最后得到融合后特征和原始4类特征各自的情感识别结果,在结果之上进行决策级融合,使用此方法在IEMOCAP数据集中分类准确度可达76.2%.
-
-
张会云;
黄鹤鸣
-
-
摘要:
语音情感识别是自动语音识别的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。基于此,构建了基于注意机制、跳跃连接、掩蔽操作等关键技术的语音情感识别声学模型,称为具有掩蔽操作的基于注意机制的跳跃卷积双向循环神经网络。该模型有8个隐层,依次是2个全连接层、卷积层、跳跃层、掩蔽层、Bi-LSTM层、注意层和池化层。其中,卷积层提取语音情感空间特征;Bi-LSTM层提取语音情感时间序列特征;跳跃层主要解决梯度问题;掩蔽层使数据中为0的值不参与计算,降低了计算量;注意层根据不同时间序列特征对情感的贡献程度分配权重;池化层计算语音情感序列权重。实验结果表明,所提出的模型在EMO-DB库上取得了92.34%的识别性能。
-
-
张会云;
黄鹤鸣
-
-
摘要:
提取能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别系统的核心。面向语音情感识别构建基于注意力机制的异构并行卷积神经网络模型AHPCL,采用长短时记忆网络提取语音情感的时间序列特征,使用卷积操作提取语音空间谱特征,通过将时间信息和空间信息相结合共同表征语音情感,提高预测结果的准确率。利用注意力机制,根据不同时间序列特征对语音情感的贡献程度分配权重,实现从大量特征信息中选择出更能表征语音情感的时间序列。在CASIA、EMODB、SAVEE等3个语音情感数据库上提取音高、过零率、梅尔频率倒谱系数等低级描述符特征,并计算这些低级描述符特征的高级统计函数共得到219维的特征作为输入进行实验验证。结果表明,AHPCL模型在3个语音情感数据库上分别取得了86.02%、84.03%、64.06%的未加权平均召回率,相比LeNet、DNN-ELM和TSFFCNN基线模型具有更强的鲁棒性和泛化性。
-
-
王兰馨;
王卫亚;
程鑫
-
-
摘要:
针对单一模态情感识别精度低的问题,提出了基于Bi-LSTM-CNN的语音文本双模态情感识别模型算法。该算法采用带有词嵌入的双向长短时记忆网络(bi-directional long short-term memory network,Bi-LSTM)和卷积神经网络(convolutional neural network,CNN)构成Bi-LSTM-CNN模型,实现文本特征的提取,将其与声学特征融合结果作为联合CNN模型的输入,进行语音情感计算。基于IEMOCAP多模态情感检测数据集的测试结果表明,情感识别准确率达到了69.51%,比单一模态模型提高了至少6个百分点。
-
-
-
Bo Liu;
刘博;
Yuchao Fan;
范钰超;
Mingxing Xu;
徐明星
- 《第十三届全国人机语音通讯学术会议》
| 2015年
-
摘要:
语音情感识别是具有挑战性的语音处理技术之一,应用领域广泛.本文提出了一种新的基于特征级决策级双层融合的语音情感识别方法,一方面将全局统计特征和局部频谱特征在特征级上融合;另一方面基于SVM和ANN构建多个不同的识别系统,然后在决策级对使用不同声学特征的多个分类器的输出结果进行融合,得到最终的语音情感判别结果.该方法在汉语情感语音数据库上进行了测试,实验结果表明,本文提出的特征级决策级双层融合算法,显著改善了语音情感识别性能.
-
-
SONG Peng;
宋鹏;
ZHENG Wenming;
郑文明;
ZHAO Li;
赵力
- 《第十三届全国人机语音通讯学术会议》
| 2015年
-
摘要:
在实际语音情感识别系统中,训练语音和测试语音往往来自不同的语料库,识别率将显著下降.针对这一问题,本文提出了一种有效的基于特征迁移学习的跨库语音情感识别方法.引入最大均值差异(Maximum mean discrepancy,MMD)来描述不同数据库情感特征分布之间的相似度,并通过MMDE(Maximum mean discrepancy embedding)算法及特征降维算法来寻找二者之间的邻近低维特征空间,并在此低维空间中训练得到情感分类器用于情感识别.同时,为了更好的保证情感信息的类别区分度,进一步引入半监督判别分析(Semi-supervised discriminative analysis,SDA)方法用于特征降维.最后,在两个经典语音情感数据库上对提出的方法进行实验评价,实验结果表明本文提出的方法可以有效提高跨库条件下的语音情感识别率.
-
-
-
Wei Zhang;
张卫;
Xueying Zhang;
张雪英;
Ying Sun;
孙颖
- 《第十二届全国人机语言通讯学术会议(NCMMSC`2013)》
| 2013年
-
摘要:
在语音情感识别系统中,语音情感特征的提取尤为重要,本文在前期已有对HHT方法研究的基础上,将HHT方法与Teager能量算子相结合,用于语音情感识别.文中首先利用Hilbert-Huang变换得到语音情感信号的Hilbert谱,再对Hilbert谱提取Teager能量并计算其边际谱,然后将不同语种的不同情感语音的边际Teager能量通过一组Mel滤波器,提出了一种新的情感特征:Hilbert边际Teager能量谱系数,最后利用SVM分类方法对不同语种的不同情感进行识别,实验结果表明,该方法有很好的识别结果.
-
-
-
Mao Qirong;
毛启容;
Zhan Yongzhao;
詹永照
- 《第六届智能CAD与数字娱乐学术会议》
| 2009年
-
摘要:
针对错分累积严重影响分层识别方法识别效果的问题,本文提出了一种新的基于改进有向无环图的分层语音情感识别方法.在该方法中,改进的有向无环图根据情感对之间的混淆度进行构建,图中的分类器为SVM.提出了基于流形距离的测试算法,给易错分样本提供多次分类的机会,提高容易错分样本的识别率.最后,在课题组录制的语音情感数据库和德国柏林的情感数据库上,分别采用多分类SVM,基于SVM的二叉树,传统的有向无环图,未采用测试新算法的改进有向无环图,采用测试新算法的改进有向无环图进行了情感识别实验,实验中的特征和SVM的参数均采用遗传算法进行选择和优化.实验结果表明:和其他算法相比,采用测试新算法的改进有向无环图方法在识别时间增加不大的前提下,识别率最高.
-
-
邓广慧;
荆东星;
叶吉祥
- 《2009年全国理论计算机科学学术年会》
| 2009年
-
摘要:
本文针对语音情感识别中BP神经网络收敛速度慢和正确率低的问题,提出了一种训练径向基函数(RBF)网络的混合算法。在语音情感特征提取的基础上,采用免疫RBF神经网络进行情感识别,同时还训练了一个BP网络进行对比实验,得到了比较理想的识别结果。
-
-
-
Zhang Wei;
张卫;
Zhang Xueying;
张雪英;
He Shuling;
何淑琳
- 《第十三届全国人机语音通讯学术会议》
| 2015年
-
摘要:
针对核函数极限学习机(Extreme Learning Machine with Kernel,KELM)参数优化问题,提出了改进的人工蜂群算法(Improved Artificial Bee Colony,Im-ABC),采用了基于排序的选择概率,同时跟随蜂阶段结合了模拟退火思想和精英保留策略,侦查蜂阶段用高斯变异取代随机搜索,改进后的算法既能保证搜索高效性和种群的多样性,又利于全局最优解寻优.将用Im-ABC和ABC优化参数的KELM和SVM两模型用于语音情感识别,对各模型性能对比,结果表明:对于模型KELM和SVM的参数寻优,Im-ABC都有更好的寻优效果,且模型Im-ABC-KELM较Im-ABC-SVM在时间和情感识别效果上均更优.