首页> 外文会议>Conference on Computational Linguistics and Speech Processing >調變頻譜分解之改良於強健性語音辨識
【24h】

調變頻譜分解之改良於強健性語音辨識

机译:调变频谱分解之改良于强健性语音辨识

获取原文

摘要

絕大多數的自動語音辨識(Automatic Speech Recognition, ASR)系統常因為訓練與測試環境的不匹配而致使效能嚴重地下降。有鑒於此,音強健性(Robustness)技術的發展長久以來一直是一個相當重要且熱門的研究領域。本論文之目的在於探索新穎的語音強健性技術,期望透過簡單且有效的語音特徵調變頻譜處理來擷取較具強健性的語音特徵。為達此目的,本論文使用非負矩陣分解(Nonnegative Matrix Factorization, NMF)以及一些改進方法來分解調變頻譜強度成分,以獲得較具強健性的語音特徵。本論文有下列幾項特色:(1)我們嘗試結合稀疏性的想法,冀望能夠獲取到較具調變頻譜局部性的資訊以及重疊較少的NMF基底向量表示;(2)藉助於局部不變性的概念,我們希望發音内容相似的語句之調變頻譜強度成分能在NMF空間有越相近的向量表示,以保留兩兩語句之間的關連程度;(3)在測試階段經由正規化NMF之編碼向量,更進一步提升語音特徵之強健性;(4)我們結合上述三種NMF的改進方法。本論文的所有實驗皆於國際通用的Aurora-2連續數字語音語料庫進行; 一系列的實驗結果顯示出,相較於僅使用梅爾倒頻譜特徵(Mel-frequency Cepstral Coefficients, MFCC)之基礎系統,我們所提出的新穎語音強健性技術能夠顯著地增進語音辨識效能,最終獲得63.18%的相對詞錯誤率降低。另一方面,本論文也嘗試將我們所提出的改進方法與一些知名的特徵強健技術做比較和結合,以驗證我們所提出語音強健性技術之實用性。例如,當其與$充計圖等化法(Histogram Equalization, HEQ)結合時,能較僅使用統計圖等化法的語音辨識系統有19.90%的相對詞錯誤率降低;而當其與進階前端標準方法(Advanced Front-End Standard, AFE)結合時,能較僅使用進階前端標準方法的語音辨識系統有2.73%的相對詞錯誤率降低。
机译:绝大多数的自动语音辨识(Automatic Speech Recognition, ASR)系统常因为训练与测试环境的不匹配而致使效能严重地下降。有鉴于此,音强健性(Robustness)技术的发展长久以来一直是一个相当重要且热门的研究领域。本论文之目的在于探索新颖的语音强健性技术,期望透过简单且有效的语音特征调变频谱处理来撷取较具强健性的语音特征。为达此目的,本论文使用非负矩阵分解(Nonnegative Matrix Factorization, NMF)以及一些改进方法来分解调变频谱强度成分,以获得较具强健性的语音特征。本论文有下列几项特色:(1)我们尝试结合稀疏性的想法,冀望能够获取到较具调变频谱局部性的资讯以及重叠较少的NMF基底向量表示;(2)借助于局部不变性的概念,我们希望发音内容相似的语句之调变频谱强度成分能在NMF空间有越相近的向量表示,以保留两两语句之间的关连程度;(3)在测试阶段经由正规化NMF之编码向量,更进一步提升语音特征之强健性;(4)我们结合上述三种NMF的改进方法。本论文的所有实验皆于国际通用的Aurora-2连续数字语音语料库进行; 一系列的实验结果显示出,相较于仅使用梅尔倒频谱特征(Mel-frequency Cepstral Coefficients, MFCC)之基础系统,我们所提出的新颖语音强健性技术能够显著地增进语音辨识效能,最终获得63.18%的相对词错误率降低。另一方面,本论文也尝试将我们所提出的改进方法与一些知名的特征强健技术做比较和结合,以验证我们所提出语音强健性技术之实用性。例如,当其与$充计图等化法(Histogram Equalization, HEQ)结合时,能较仅使用统计图等化法的语音辨识系统有19.90%的相对词错误率降低;而当其与进阶前端标准方法(Advanced Front-End Standard, AFE)结合时,能较仅使用进阶前端标准方法的语音辨识系统有2.73%的相对词错误率降低。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号