...
首页> 外文期刊>電子情報通信学会技術研究報告. 音声. Speech >感情音声データベースJTESを用いた感情音声認識におけるモデル適応の性能向上の検討
【24h】

感情音声データベースJTESを用いた感情音声認識におけるモデル適応の性能向上の検討

机译:用情感数据库JTES检查情绪语音识别模型适应性能提高

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

近年,感情音声コーパスとしてJTES(Japanese Twitter-based Emotional Speech)が構築された.Twitterの呟きをベースとしており,感情ラベルの付与,音韻·韻律のバランスが取れた文選択などの特徴がある.我々はこれまで,日本語話し言葉コーパス(CSJ)を用いて学習したDNN-HMMによる音響モデルを初期モデルとして,JTESを用い話者や感情へ適応した音響モデルを用いて認識実験を行なってきた.CSJで学習しCSJのテストセットを認識した場合の単語誤り率は15.12%と比較的良好な認識結果が得られていた.一方CSJによる初期モデルを適応した後のJTESによる評価を見ると話者適応では27.86%と十分な結果が得られていない.本稿では,適応法と言語モデルに関して検討し,更なる性能向上を試みた.適応法としては,DNNのエポック数の決定にearly stoppingの利用を検討した.また,言語モデルにおいては未知語の影響を調査し,未知語を追加した言語モデルを検討した.以上により話者適応でベースラインが27.86%に対し,23.05%,コーパス適応のベースラインが32.37%に対し,26.91%と大幅な性能向上が得られた.
机译:近年来,JTES(日本基于Twitter的情感演讲)被建造为情感语音语料库。它基于Twitter的清晰度,并且有一个特征,如句子标签的陈述,声音和韵律的陈述选择。到目前为止,已经使用使用JTES作为初始模型使用适用于使用日语和说话公司(CSJ)的DNN-HMM的初始模型进行识别实验。 CSJ学习并识别CSJ测试集的单词错误率与15.12%相对较好的识别结果。另一方面,如果通过CSJ调整初始模型后,请查看JTES的评估,则扬声器适应没有获得足够的结果,27.86%。在本文中,我们检查了适应方法和语言模型,并试图提高进一步的性能。作为适应方法,我们检查了早期停止的使用以确定DNN的单数数。此外,在语言模型中,我们检查了未知单词的影响并检查了用未知单词的语言模型。如上所述,扬声器适应的基线为27.86%,基线为23.05%,语料库适应基线适应32.37%,导致显着的性能改善,26.91%。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号