首页> 外文会议>Conference on Computational Linguistics and Speech Processing >探討聲學模型的合併技術與半監督鑑別式訓練於會議語音辨識之研究
【24h】

探討聲學模型的合併技術與半監督鑑別式訓練於會議語音辨識之研究

机译:探讨声学模型的合并技术与半监督鉴别式训练于会议语音辨识之研究

获取原文

摘要

近年來鑑別式訓練(Discriminative training)的目標函數Lattice-free Maximum mutual information (LF-MMI)在自動語音辨識(Automatic speech recognition, ASR)上取得了重大 的突破,有別於傳統交互熵訓練(Cross-Entropy training, CE)和鑑別式訓練 (Discriminative training)的二階段訓練,LF-MMI提供更快的訓練與解碼。儘管LF-MMI 在監督式環境下斬獲最好的成果,然而在半監督式環境的表現仍有待研究。在半監督式 環境最常見的訓練方法是自我學習(Self-training)[2][3][4]中,由於種子模型(Seed model) 常因語料有限而效果不佳。且LF-MMI屬於鑑別式訓練之故,更易受到標記錯誤的影 響。為了減緩上述的問題,過往常加入置信度過濾器(Confidence-based filter)對 訓練語料做挑選。過濾語料可在不同層級上進行,分為音框層級、詞層級、句子 層級。 本論文利用兩種思路於半監督式訓練。其一,引入負條件熵(Negative conditional entropy, NCE)權重與詞圖(Lattice)'前者是最小化詞圖路徑的條件熵(Conditional entropy),等同 對MMI的參考轉錄(Reference transcript)做權重平均'權重的改變能自然地加入MMI 訓練中,並同時對不確定性建模。其目的希望無置信度過濾器(Confidence-based filter) 也可訓練模型。後者加入詞圖,比起過往的one-best ,可保留更多假說空間,提升找到 參考轉錄(Reference transcript)的可能性;其二 ,我們借鑒整體學習(Ensemble learning) 的概念[10],使用弱學習器(Weak learner)修正彼此的錯誤,分為音框層級合併 (Frame-level combination)[11]和假說層級合併(Hypothesis-level combination)[12]。 本論文的實作目的便是在語料缺乏的半監督式環境下,利用負條件熵與詞圖輔助 LF-MMI的訓練,並利用模型合併技術,進一步提升模型的辨識結果。我們希望即使在 語料不足的情況下,仍能達到不錯的辨識效果,甚至媲美原先有標記語料的訓練結果。 實驗結果顯示,加入NCE與詞圖皆能降低詞錯誤率(Word error rate, WER),而模型合併 (Model combination)則能在各個階段顯著提升效能,且兩者結合可使詞修復率(Word recovery rate, WRR)達到60.8% 。
机译:近年来鉴别式训练(Discriminative training)的目标函数Lattice-free Maximum mutual information (LF-MMI)在自动语音辨识(Automatic speech recognition, ASR)上取得了重大的突破,有别于传统交互熵训练(Cross -Entropy training, CE)和鉴别式训练(Discriminative training)的二阶段训练,LF-MMI提供更快的训练与解码。尽管LF-MMI 在监督式环境下斩获最好的成果,然而在半监督式环境的表现仍有待研究。在半监督式 环境最常见的训练方法是自我学习(Self-training)[2][3][4]中,由于种子模型(Seed model) 常因语料有限而效果不佳。且LF-MMI属于鉴别式训练之故,更易受到标记错误的影 响。为了减缓上述的问题,过往常加入置信度过滤器(Confidence-based filter)对 训练语料做挑选。过滤语料可在不同层级上进行,分为音框层级、词层级、句子 层级。本论文利用两种思路于半监督式训练。其一,引入负条件熵(Negative conditional entropy, NCE)权重与词图(Lattice)'前者是最小化词图路径的条件熵(Conditional entropy),等同对MMI的参考转录(Reference transcript)做权重平均'权重的改变能自然地加入MMI 训练中,并同时对不确定性建模。其目的希望无置信度过滤器(Confidence-based filter) 也可训练模型。后者加入词图,比起过往的one-best ,可保留更多假说空间,提升找到参考转录(Reference transcript)的可能性;其二,我们借鉴整体学习(Ensemble learning) 的概念[10],使用弱学习器(Weak learner)修正彼此的错误,分为音框层级合并(Frame-level combination)[11]和假说层级合并(Hypothesis-level combination)[12]。本论文的实作目的便是在语料缺乏的半监督式环境下,利用负条件熵与词图辅助 LF-MMI的训练,并利用模型合并技术,进一步提升模型的辨识结果。我们希望即使在 语料不足的情况下,仍能达到不错的辨识效果,甚至媲美原先有标记语料的训练结果。实验结果显示,加入NCE与词图皆能降低词错误率(Word error rate, WER),而模型合并(Model combination)则能在各个阶段显著提升效能,且两者结合可使词修复率(Word recovery rate, WRR)达到60.8% 。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号