首页> 外文会议>Conference on Computational Linguistics and Speech Processing >基於卷積類神經網路之廣播節目音訊事件偵測系統
【24h】

基於卷積類神經網路之廣播節目音訊事件偵測系統

机译:基于卷积类神经网路之广播节目音讯事件侦测系统

获取原文

摘要

廣播電臺節目中通常包含語音,音樂與其他音訊事件(如笑聲或特效聲)。若能偵 測並切割這些音訊事件,就能進一步對廣播節目進行加值運用。例如,轉寫語音片段的 逐字稿,或是辨認音樂片段的歌名與曲名,以利檢索。針對此問題,在本論文中,我們首先設計,並以人工標註出一廣播節目音訊事件資料庫,再利用Convolutional Neural Network (CNN)自動擷取有效的特徵音訊參數,對廣播電臺的音檔做音訊事件偵測與切 割,最後轉成具時間資訊的音訊事件標註檔。實驗方面我們從教育電臺節目中,選出新 聞類與不同性質的談話類節目共14個,經人工標注後,獲得總長度共約60小時的音 檔,並用來訓練與測試CNN和傳統Gaussian Mixture Model (GMM)的效能。實驗結 果顯示以CNN直接搭配頻譜參數,在偵測語音與非語音,音樂與非音樂或其它與非其 它音訊事件等的錯誤率(equal error rates , EER),分別為2.27% 、 12.52%與9.51% ,皆 低於傳統以GMM搭配Mel-Frequency Cepstral Coefficients (MFCCs)的3.65% 、 15.68% 與13.25% 。
机译:广播电台节目中通常包含语音,音乐与其他音讯事件(如笑声或特效声)。若能侦 测并切割这些音讯事件,就能进一步对广播节目进行加值运用。例如,转写语音片段的 逐字稿,或是辨认音乐片段的歌名与曲名,以利检索。针对此问题,在本论文中,我们首先设计,并以人工标注出一广播节目音讯事件资料库,再利用Convolutional Neural Network (CNN)自动撷取有效的特征音讯参数,对广播电台的音档做音讯事件侦测与切割,最后转成具时间资讯的音讯事件标注档。实验方面我们从教育电台节目中,选出新闻类与不同性质的谈话类节目共14个,经人工标注后,获得总长度共约60小时的音档,并用来训练与测试CNN和传统Gaussian Mixture Model (GMM)的效能。实验结果显示以CNN直接搭配频谱参数,在侦测语音与非语音,音乐与非音乐或其它与非其它音讯事件等的错误率(equal error rates , EER),分别为2.27% 、 12.52%与9.51 % ,皆低于传统以GMM搭配Mel-Frequency Cepstral Coefficients (MFCCs)的3.65% 、 15.68% 与13.25% 。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号