本稿では自発性の高い対話音声の合成において,多様な親律を生成するための拡張コンテキストの提案とその評価を行った結果を報告する.HMM 音声合成では音韻.韻律の変動要因をコンテキストとして考慮し学習・合成を行っているが,従来の読上げ音声のためのコンテキストセットでは対話音声の韻律の多様性を実現することが困難である,そこで,大規模音声コーパスである日本語話し言葉コーパス(CSJ)に含まれる様々な情報をコンテキストとして追加し拡張コンテキストとした.従来のコンテキストと拡張コンテキストの比較を行い,音素引き延ばしおよびX-JTbBI のトーン層ラベルに基づく情報がコンテキストとして有効であるという結果を得た.さらに.コンテキストの増加による遇学習を避けるための決定木クラスタリングの新たな停止基準の導入や,実用上のシステムを考慮して合成時に一部の追加コンテキストを自動推定する手法の提案を行い,その有効性を評価した.%This paper proposes an extended context set for generating the prosodic variability of spontaneous speech in HMM-based conversational speech synthesis. Since the conventional context set used for HMM-based reading-style speech synthesis is insufficient for conversational speech synthesis, we introduce new contexts derived from the Corpus of Spontaneous Japanese. We compare the context sets with and without newly introduced contexts, and the experimental results show that the contexts about phone prolongation and X-JToBI tone tier label are effective. Furthermore, we examine the stopping criteria for decision-tree clustering and the automatic estimation of a part of contexts for practical applications.
展开▼