融合多任務學習類神經網路聲學模型訓練於會議語音辨識之研究.

机译：融合多任务学习类神经网路声学模型训练于会议语音辨识之研究.

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

語音長久以來一直是人跟人之間最自然的溝通方式；它在未來將是人與電腦等機器間溝通的一個不可或缺的重要工具。近六十年來，自動語音辨識的研究活動十分活躍，並且已取得了巨大的成功。在研究初期，語音辨識器只能在安靜的環境中識別一個單獨的詞彙。1980年代，以高斯混合模型-隱藏式馬可夫模型(Gaussian mixture model-hidden Markov model, GMM-HMM)做為聲學模型使得語音辨識有能力進行大詞彙量連續語音識別[1]。由於GMM-HMM的架構易於訓練模型和進行聲學解碼，因此在近二十年來 GMM-HMM是自動語音辨識系統的主流聲學模型，聲學模型的研究主要集中在以更好的模型結構與訓練演算法改良GMM-HMM[1][2][3][4]。在過去的五年内，我們看見了深層學習架構和技術在語音領域的突破性的發展和卓越的成效[5][6][7]。深層類神經網路與其變體最终取代了高斯混合模型：時下的混合深層類神經網路-隱藏式馬可夫模型 (hybrid deep neural networks-hidden Markov model, DNN-HMM)已成為大多數自動語音辨識系統的聲學模型[8][9][10]。雖然自動語音辨識技術已經是一項成熟的技術，但是在實際應用上仍有許多問題需要被解決。例如使用智慧型手機錄音時往往離手機麥克風較遠，錄音品質容易受環境影響。此外，現今語音辨識領域也面臨著海量詞彙、自由不受限的任務、吵雜的遠距離語音、自發性的口語及語言混雜情景的挑戰[11]。而會議語音辨識正涵蓋了上述大部分的困境與挑戰，是一個相當困難的語音辨識任務。因此，本論文以會議語音辨識的發展為硏究動機，旨在探索如何融合多任務學習(multi-task learning, MTL)技術於聲學模型之參數估測'藉以改善會議語音辨識(meeting speech recognition) 之準確性。我們的貢獻主要有三點：（1)我們進行了實證研究以充分利用各種輔助任務來加強多任務學習在會議語音辨識的表現。此外，我們還研究多任務與不同聲學模型像是深層類神經網路(deep neural networks, DNN)聲學模型及摺積神經網路(convolutional neural networks, CNN)結合的協同效應，期望增加聲學模型建模之一般化能力 (generalization capability) 。（2)由於訓練多任務聲學模型的過程中，調整不同輔助任務之貢獻(權重)的方式並不是最佳的，因此我們提出了重新調適法，以減輕這個問題。我們基於在台灣所收錄的華語會議語料庫(Mandarin meeting recording corpus, MMRC)建立了一系列的實驗。與數種現有的基礎實驗相比，實驗結果揭示了我們所提出的方法之有效性。

机译：语音长久以来一直是人跟人之间最自然的沟通方式;它在未来将是人与电脑等机器间沟通的一个不可或缺的重要工具。近六十年来，自动语音辨识的研究活动十分活跃，并且已取得了巨大的成功。在研究初期，语音辨识器只能在安静的环境中识别一个单独的词汇。 1980年代，以高斯混合模型-隐藏式马可夫模型(Gaussian mixture model-hidden Markov model, GMM-HMM)做为声学模型使得语音辨识有能力进行大词汇量连续语音识别[1]。由于GMM-HMM的架构易于训练模型和进行声学解码，因此在近二十年来GMM-HMM是自动语音辨识系统的主流声学模型，声学模型的研究主要集中在以更好的模型结构与训练演算法改良GMM-HMM[1][2][3][4]。在过去的五年内，我们看见了深层学习架构和技术在语音领域的突破性的发展和卓越的成效[5][6][7]。深层类神经网路与其变体最终取代了高斯混合模型：时下的混合深层类神经网路-隐藏式马可夫模型(hybrid deep neural networks-hidden Markov model, DNN-HMM)已成为大多数自动语音辨识系统的声学模型[8][9][10]。虽然自动语音辨识技术已经是一项成熟的技术，但是在实际应用上仍有许多问题需要被解决。例如使用智慧型手机录音时往往离手机麦克风较远，录音品质容易受环境影响。此外，现今语音辨识领域也面临着海量词汇、自由不受限的任务、吵杂的远距离语音、自发性的口语及语言混杂情景的挑战[11]。而会议语音辨识正涵盖了上述大部分的困境与挑战，是一个相当困难的语音辨识任务。因此，本论文以会议语音辨识的发展为硏究动机，旨在探索如何融合多任务学习(multi-task learning, MTL)技术于声学模型之参数估测'借以改善会议语音辨识(meeting speech recognition)之准确性。我们的贡献主要有三点：（1)我们进行了实证研究以充分利用各种辅助任务来加强多任务学习在会议语音辨识的表现。此外，我们还研究多任务与不同声学模型像是深层类神经网路(deep neural networks, DNN)声学模型及折积神经网路(convolutional neural networks, CNN)结合的协同效应，期望增加声学模型建模之一般化能力(generalization capability) 。（2)由于训练多任务声学模型的过程中，调整不同辅助任务之贡献(权重)的方式并不是最佳的，因此我们提出了重新调适法，以减轻这个问题。我们基于在台湾所收录的华语会议语料库(Mandarin meeting recording corpus, MMRC)建立了一系列的实验。与数种现有的基础实验相比，实验结果揭示了我们所提出的方法之有效性。

著录项

来源
《Conference on Computational Linguistics and Speech Processing》|2016年|4-6|共3页
会议地点
作者
楊明翰; 許曜麒; 洪孝宗; 陳映文; 陳冠宇;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
多任務學習; 深層學習; 類神經網路; 會議語音辨識;

机译：多任务学习; 深层学习; 类神经网路; 会议语音辨识;
入库时间 2022-08-26 13:47:03

相似文献

外文文献
中文文献
专利

1. 曲仕上げ過程に着目したピアノ奏者の聴覚認知と演奏行動に関する研究(その1)：曲仕上げ過程段階の分類と練習·演奏行動·音場への意識に関する統計的因果分析 [J] . 松尾綾子, 秋田　剛, 小島隆矢, 日本建築学会環境系論文集 . 2020,第774期

机译：对同行诺象的听力认知和性能行为研究专注于曲线整理过程（第1部分）：分类与实践，绩效行为和声音意识的统计因果关系
2. 融合多任務學習類神經網路聲學模型訓練於會議語音辨識之研究. [C] . 楊明翰, 許曜麒, 洪孝宗, Conference on Computational Linguistics and Speech Processing . 2016

机译：融合多任务学习类神经网路声学模型训练于会议语音辨识之研究.
3. Methods and Effects of Shadowing Using Online Authentic Videos on L2 Acquisition of Mandarin Chinese Tones =網路影片跟讀對漢語聲調習得的影響及教學法 [D] . Lu, Ai-Ling. 2021

机译：Methods and Effects of Shadowing Using Online Authentic Videos on L2 Acquisition of Mandarin Chinese Tones =网路影片跟读对汉语声调习得的影响及教学法
4. 關於金屬研究工作報告會的工作報告mdash;mdash;中國科學院技術科學部主任嚴濟慈在中國科學院第41次院務常務會議上的報告,並經同次會議批准 [O] . 濟慈嚴 1954

机译：关于金属研究工作报告会的工作报告——中国科学院技术科学部主任严济慈在中国科学院第41次院务常务会议上的报告,并经同次会议批准

融合多任務學習類神經網路聲學模型訓練於會議語音辨識之研究.

摘要

著录项

相似文献

相关主题

期刊订阅