首页> 外文期刊>電子情報通信学会技術研究報告 >構造評価関数を用いた構造的表象からの音声合成系の高精度化
【24h】

構造評価関数を用いた構造的表象からの音声合成系の高精度化

机译:使用结构评估功能从结构表示提高语音合成系统的准确性

获取原文
获取原文并翻译 | 示例
           

摘要

Speech acoustics vary due to differences in age, gender, vocal tract length, microphone, and so on. The authors recently proposed a structural and abstract representation of speech, where these variations were effectively removed. This representation captures only dynamics of speech. In our previous study, using this abstract representation, a new framework of speech synthesis was proposed and some fundamental investigations were carried out. In this new framework, an utterance is modeled using two separate attributes; one corresponding to what is known as speech Gestalt, which is a speaker-invariant speech form, and the other to the embodiment seen in vocal tubes, which characterizes speaker differences. Acoustic signals are generated by using the Gestalt as constraint conditions and the vocal tube embodiment as initial conditions. In other words, the Gestalt can be acoustically realized only when the speaker's embodiment is provided. This new framework can be regarded as an implementation of infants' vocal imitation. In this study, by following the initial investigations, we improve accuracy and efficiency in acoustic realization of the Gestalt based on a structural cost function. Experiments of generating continuous utterances of Japanese vowels show the validity of the proposed method.%音声は年齢,性別,声道長や音響機器などの非言語的特徴によって変形し,多様性に富んでいる.筆者らはこれらの非言語的な音響変形におよそ不変な音声の構造的・抽象的表象を提案してきた.この表象は音声の動きのみに着眼した物理表象である.先行研究において,音声の構造的表象に基づく音声合成の枠組みを提案し,その基礎的検討を行ってきた.提案する枠組みでは音声発話を発話内容(語形)と発話者の身体性に分離して捉え,生成に際しては話者不変の語形に発話者の身体性を付与する事で合成音声を得る.これは,幼児の音声模倣に対応する音声合成のモデルといえる.本稿では提案する枠組みと幼児の音声模倣の対応について考察し,加えて構造評価関数とそれに基づく音響事象の推定法(音響空間における定位法)を導入する事で,従来手法における幾何学的アプローチと比べて,技術的な改善を試みた.連続音声を対象とした音声合成実験を行い,主観評価実験の結果から,提案手法において高次の特徴量分割手法を導入した場合における品質の向上を確認した.
机译:语音声学会因年龄,性别,声道长度,麦克风等的不同而有所不同。作者最近提出了一种语音的结构化和抽象表示形式,其中有效地消除了这些变化。此表示仅捕获语音动态。在我们以前的研究中,使用这种抽象表示,提出了一种新的语音合成框架,并进行了一些基础研究。在这个新的框架中,使用两个单独的属性对发声进行建模。一个对应于所谓的语音完形,这是一种说话者不变的语音形式,另一种对应于在声管中看到的体现说话者差异特征的实施例。通过使用格式塔格式作为约束条件,并使用声管实施例作为初始条件来生成声音信号。换句话说,仅当提供扬声器的实施例时,才能在声学上实现格式塔。这个新的框架可以被认为是婴儿声音模仿的一种实现。在这项研究中,通过初步研究,我们基于结构成本函数提高了格式塔声学实现的准确性和效率。日语发音的连续发音实验证明了所提方法的有效性。の非言语的な音响変形におよそ不変な音声の构造构造・抽象的表象を进行してきた。この表象は音声の动きのみに着眼した物理表象である。先行研究において,音声の构造的表象に基づく进行する枠组みでは音声発话を発话内容(语形)と発话者の身体性に分离して捉え,生成に际しては话者不変の语形にこれは话者の身体性を付与する事で合成音声を得る。これは,幼児の音声模仿に対応する音声合成のモデルといえる。构造评価关数とそれに基づく音响事象の推定法(音响空间における定位法)を引入する事で,従来手法における几何学的アプローチと比べて,技术的な改善を试みた。连続音声を対象とした音声合成実験を行い,主観评価実験の结果から,初步手法において高次の特徴量分割手法を引入した场合における品质の向上を确认した。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号