...
首页> 外文期刊>電子情報通信学会技術研究報告. 音声. Speech >感情音声認識におけるDNNおよびCNNボトルネック特徴量の検討
【24h】

感情音声認識におけるDNNおよびCNNボトルネック特徴量の検討

机译:DNN和CNN瓶颈在情感语音识别中的特征数量

获取原文
获取原文并翻译 | 示例

摘要

話者感情の揺らぎは音声へ影響を与え,音声認識システムにおいてモデルとのミスマッチを発生させ認識精度を悪化させる.本研究では,DNNボトルネック特微量およびCNNボトルネック特徴量を用いることを提案し,感情音声認識精度の改善を図る.ボトルネック構造のニューラルネットワークによって特徴量変換を施したボトルネック特徴量は,入力音声の変動に対して頑健な音響特徴量を抽出できることが示されている.ボトルネック特徴量とは,中間層のユニット数を少なくしたボトルネック構造の多層ニューラルネットワークから抽出する特徴量である.ボトルネック特微量は特微量強調が行われ,感情音声のゆらぎに左右されない音素の本質的な成分を抽出されていることが期待されている.本実験では感情音声に対してボトルネック特徴量変換を行い,それぞれの特徴量でGMM-HMM音響モデルを再学習する.この時のボトルネック音響モデルの感情音声に対する精度向上を確認する.また他の特微量変換手法と組み合わせることで認識精度の向上を図る.DNN,CNNボトルネック特微量を用いた認識精度はそれぞれのベースラインと比較し,認識精度の改善が確認できた.また他の特徴量変換手法の組み合わせにより認識精度の向上を確認できた.
机译:扬声器情绪的波动会影响语音并在语音识别系统中与模型产生不匹配,并降低识别精度。在这项研究中,我们建议使用DNN瓶颈特性和CNN瓶颈特征数量,并提高情感语音识别准确性。已经示出了由瓶颈结构的神经网络具有特征量转换的瓶颈特征量,已经示出了相对于输入语音的波动提取强大的声学特征量。瓶颈特征量是从具有瓶颈结构中提取的特征量,其中中间层的单位数减小。可以提取瓶颈,可以用光度计增强提取瓶颈,不依赖于情绪语音的波动。在该实验中,对情绪语音进行瓶颈特征数转换,并且通过每个特征量重新学习GMM-HMM声学模型。检查此时瓶颈声学模型的情感声音的准确性提高。另外,通过与其他字符转换方法组合来改善识别精度。将使用DNN和CNN瓶颈进行识别准确性与每个基线进行比较,确认了识别精度的提高。此外,可以通过其他特征量转换方法的组合来确认识别精度改进。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号