首页> 外文期刊>電子情報通信学会技術研究報告 >スペクトル距離に基づく声道長正規化のための周波数帯域の選定について
【24h】

スペクトル距離に基づく声道長正規化のための周波数帯域の選定について

机译:基于谱距离的声道长度归一化频段选择

获取原文
获取原文并翻译 | 示例
       

摘要

母音のスペクトル形状は,主要な要因である声道長に加え,声道音源波形や梨状裔による零などの影響により個人毎に大きく異なっている.この個人差を取り除くことは,高品質な音声モーフィングの実現や音声認識における重要な課題である.本研究では,この主要な変動要因である声道長比の推定精度を改善する方法を検討した.スペクトル距離に基づく声道長比の推定において,声道長比の影響が支配的である周波数帯域を選択することにより,推定精度を改善できると考えられる.実験では,28名により読み上げられた文音声の全ての鼠合せから推定された相対的な声道長を真値と仮定し,周波数帯域と推定精度との関係を調べた.その結果,MFCCの計算に用いられるフィルタ出力の対数スペクトル距離とその周波数方向の導関数の距離とを合成した距離を400Hzから4000Hzの周波数帯域で評価した場合に,最良の結果が得られることが示された.%Normalization of speaker dependent spectral differences is an important issue in speech applications, such as automatic speech recognition and high-quality voice morphing. Individual spectral differences are primarily dependent on vocal tract length differences. They are also dependent on glottal source signal and the shape of pyriform fossa. This article investigates effects of frequency range selection on spectral distance-based vocal tract length normalization (VTLN). It is based on an idea that the best VTLN performance can be attained by selecting frequency region where spectral differences are virtually exclusively determined by differences of vocal tract length. All combination of utterances spoken by 28 subjects were used to calculate estimates of their relative vocal tract lengths, which are used as the tentative "true" lengths to evaluates deviation of each VTL ratio estimation based on spectral distances. The test results revealed that the best performance is yielded by selecting frequency region spanning from 400 Hz to 4000 Hz, using an integrated logarithmic spectral distance using outputs of MFCC filter bank and their frequency derivatives.
机译:元音的频谱形状由于人声源波形的影响而在人与人之间变化很大,并且除了人声道长度之外,由于梨状形而归零,这是一个主要因素。消除这种个体差异是实现高质量语音变形和语音识别的重要问题。在这项研究中,我们研究了一种提高声道长度比率(主要变量)估计准确性的方法。在基于谱距离估计声道长度比率时,认为可以通过选择其中声道长度比率的影响占主导的频带来提高估计精度。在实验中,假定从28个人阅读的所有语音中估计出的相对声道长度为真实值,并研究了频带与估计精度之间的关系。结果,当在400Hz至4000Hz的频带中评估在MFCC的计算中使用的滤波器输出的对数谱距离与导数的距离在频率方向上的组合距离时,可以获得最佳结果。已显示。语音相关频谱差异的归一化百分比是语音应用中的重要问题,例如自动语音识别和高质量语音变形;各个频谱差异主要取决于声道长度差异;它们还取决于声源信号和形状本文研究了频率范围选择对基于频谱距离的声道长度归一化(VTLN)的影响。基于这样一个想法,即可以通过选择实际上专门确定频谱差异的频率区域来实现最佳VTLN性能。所有声道长度的差异。使用28位受试者说出的话语的所有组合来计算其相对声道长度的估计,将其用作临时的“真实”长度,以根据频谱距离评估每个VTL比估计的偏差。测试结果表明,sel可以产生最佳性能使用MFCC滤波器组及其频率导数的输出,使用积分对数频谱距离,测量范围为400 Hz至4000 Hz的频率区域。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号