【24h】

音声/非音声判別法を用いた時間圧縮音声再生法

机译:使用音频/非音频鉴别方法的时间压缩音频回放方法

获取原文
获取原文并翻译 | 示例
       

摘要

近年HDDレコーダやDVDレコーダ等の映像録画機器の普及に伴い,大量の映像·音声に関するマルチメディアの蓄積が容易になっている.データの蓄積は専用機械によって自動的に行われる一方データの視聴は人間が行わざるを得ないため,大量のデータを視聴する場合には視聴速度の向上が求められる.本報告では元となるマルチメディアデータの音声データに着目し,データ中の音声区間の再生を主とした時間圧縮音声再生法について提案する.提案手法は我々がこれまで提案してきた特徴量Block Cepstrum Fluxを用いた音声/非音声判別手法を用いて対象となる音声区間を検出した後に定常部削減を行う,音声/非音声のパターン認識に基づく時間圧縮音声再生法である.元となるデータから非音声区間を取り除くことにより音声区間を残すことになるため,一律に圧縮した場合よりも話速が遅くなり,より聞き取り易い圧縮音声を生成することが可能となる.圧縮音声を視聴した主観評価実験の結果はデータを一律に圧縮するPICOLA法を単独で用いた場合よりも良好な結果を得ることができ,提案手法とPICOLA法を併用することも可能であることを示した.
机译:近年来,随着诸如HDD记录器和DVD记录器之类的视频记录设备的普及,已经变得容易积累大量与视频和音频有关的多媒体。尽管数据是由专用机器自动存储的,但是人们只能选择查看数据,因此,在查看大量数据时,有必要提高查看速度。在此报告中,我们集中于原始多媒体数据的音频数据,并提出了一种时间压缩的音频再现方法,该方法主要再现数据中的音频部分。所提出的方法是用于语音/非语音模式识别的,该方法在使用我们到目前为止提出的特征量块倒频谱通量的语音/非语音识别方法检测目标语音部分之后,减少了固定部分。这是基于此的时间压缩音频再现方法。通过从原始数据中删除非语音部分,将保留语音部分,因此语音速度比统一压缩时要慢,并且可以生成更易于听见的压缩语音。观看压缩音频的主观评估实验的结果可能比单独使用用于均匀压缩数据的PICOLA方法更好,并且可以与建议的方法和PICOLA方法一起使用。表明。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号