首页> 外文会议>Conference on Computational Linguistics and Speech Processing >融合多任務學習類神經網路聲學模型訓練於會議語音辨識之研究.
【24h】

融合多任務學習類神經網路聲學模型訓練於會議語音辨識之研究.

机译:融合多任务学习类神经网路声学模型训练于会议语音辨识之研究.

获取原文

摘要

語音長久以來一直是人跟人之間最自然的溝通方式;它在未來將是人與電腦等機器間溝 通的一個不可或缺的重要工具。近六十年來,自動語音辨識的研究活動十分活躍,並且 已取得了巨大的成功。在研究初期,語音辨識器只能在安靜的環境中識別一個單獨的詞 彙。1980年代,以高斯混合模型-隱藏式馬可夫模型(Gaussian mixture model-hidden Markov model, GMM-HMM)做為聲學模型使得語音辨識有能力進行大詞彙量連續語音 識別[1]。由於GMM-HMM的架構易於訓練模型和進行聲學解碼,因此在近二十年來 GMM-HMM是自動語音辨識系統的主流聲學模型,聲學模型的研究主要集中在以更好 的模型結構與訓練演算法改良GMM-HMM[1][2][3][4]。在過去的五年内,我們看見了 深層學習架構和技術在語音領域的突破性的發展和卓越的成效[5][6][7]。深層類神經網 路與其變體最终取代了高斯混合模型:時下的混合深層類神經網路-隱藏式馬可夫模型 (hybrid deep neural networks-hidden Markov model, DNN-HMM)已成為大多數自動語音 辨識系統的聲學模型[8][9][10]。雖然自動語音辨識技術已經是一項成熟的技術,但是在 實際應用上仍有許多問題需要被解決。例如使用智慧型手機錄音時往往離手機麥克風較 遠,錄音品質容易受環境影響。此外,現今語音辨識領域也面臨著海量詞彙、自由不受限的任務、吵雜的遠距離語音、自發性的口語及語言混雜情景的挑戰[11]。而會議語音 辨識正涵蓋了上述大部分的困境與挑戰,是一個相當困難的語音辨識任務。因此,本論 文以會議語音辨識的發展為硏究動機,旨在探索如何融合多任務學習(multi-task learning, MTL)技術於聲學模型之參數估測'藉以改善會議語音辨識(meeting speech recognition) 之準確性。我們的貢獻主要有三點:(1)我們進行了實證研究以充分利用各種輔助任務 來加強多任務學習在會議語音辨識的表現。此外,我們還研究多任務與不同聲學模型像 是深層類神經網路(deep neural networks, DNN)聲學模型及摺積神經網路(convolutional neural networks, CNN)結合的協同效應,期望增加聲學模型建模之一般化能力 (generalization capability) 。 (2)由於訓練多任務聲學模型的過程中,調整不同輔助任務之 貢獻(權重)的方式並不是最佳的,因此我們提出了重新調適法,以減輕這個問題。我們 基於在台灣所收錄的華語會議語料庫(Mandarin meeting recording corpus, MMRC)建立 了一系列的實驗。與數種現有的基礎實驗相比,實驗結果揭示了我們所提出的方法之有 效性。
机译:语音长久以来一直是人跟人之间最自然的沟通方式;它在未来将是人与电脑等机器间沟 通的一个不可或缺的重要工具。近六十年来,自动语音辨识的研究活动十分活跃,并且 已取得了巨大的成功。在研究初期,语音辨识器只能在安静的环境中识别一个单独的词 汇。 1980年代,以高斯混合模型-隐藏式马可夫模型(Gaussian mixture model-hidden Markov model, GMM-HMM)做为声学模型使得语音辨识有能力进行大词汇量连续语音 识别[1]。由于GMM-HMM的架构易于训练模型和进行声学解码,因此在近二十年来GMM-HMM是自动语音辨识系统的主流声学模型,声学模型的研究主要集中在以更好的模型结构与训练演算法改良GMM-HMM[1][2][3][4]。在过去的五年内,我们看见了 深层学习架构和技术在语音领域的突破性的发展和卓越的成效[5][6][7]。深层类神经网路与其变体最终取代了高斯混合模型:时下的混合深层类神经网路-隐藏式马可夫模型(hybrid deep neural networks-hidden Markov model, DNN-HMM)已成为大多数自动语音辨识系统的声学模型[8][9][10]。虽然自动语音辨识技术已经是一项成熟的技术,但是在 实际应用上仍有许多问题需要被解决。例如使用智慧型手机录音时往往离手机麦克风较 远,录音品质容易受环境影响。此外,现今语音辨识领域也面临着海量词汇、自由不受限的任务、吵杂的远距离语音、自发性的口语及语言混杂情景的挑战[11]。而会议语音 辨识正涵盖了上述大部分的困境与挑战,是一个相当困难的语音辨识任务。因此,本论文以会议语音辨识的发展为硏究动机,旨在探索如何融合多任务学习(multi-task learning, MTL)技术于声学模型之参数估测'借以改善会议语音辨识(meeting speech recognition)之准确性。我们的贡献主要有三点:(1)我们进行了实证研究以充分利用各种辅助任务 来加强多任务学习在会议语音辨识的表现。此外,我们还研究多任务与不同声学模型像是深层类神经网路(deep neural networks, DNN)声学模型及折积神经网路(convolutional neural networks, CNN)结合的协同效应,期望增加声学模型建模之一般化能力(generalization capability) 。 (2)由于训练多任务声学模型的过程中,调整不同辅助任务之 贡献(权重)的方式并不是最佳的,因此我们提出了重新调适法,以减轻这个问题。我们 基于在台湾所收录的华语会议语料库(Mandarin meeting recording corpus, MMRC)建立 了一系列的实验。与数种现有的基础实验相比,实验结果揭示了我们所提出的方法之有 效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号