This paper describes the performance evaluation results of a context-dependent HMM-based voice conversion technique to show its effectiveness by comparing with a GMM-based one. In the HMM-based conversion, first we extract the phonetic and prosodic information from input speech of a source speaker. Then, converted synthetic speech is generated from the pre-trained acoustic model of a target speaker. To appropriately model the pitch information, we use a roughly quantized FO symbol sequence as the prosodic context instead of accent information obtained by manual labeling for training data. By using the phonetically and prosodically context-dependent HMMs, the speaker characteristics appearing in segmental and supra-segmental features can be also converted, which is difficult in conventional GMM-based techniques. Objective and subjective experimental results show that the naturalness and speaker individuality of converted speech are significantly improved by using HMM-based voice conversion.%コンテキスト依存HMMに基づく声質変換法の有効性を示すためにGMMに基づく声質変換法との比較を中心に,客観及び主観評価実験を行った結果を報告する.この手法では元話者の入力音声に対して音韻及び韻律の情報を抽出し,これらの情報に基づいてあらかじめ学習した目標話者の音響モデルから音声を生成することで声質変換を実現している.また韻律のうち,ピッチ情報を適切にモデル化するために,従来HMM音声合成で用いられていた手動ラベリングに基づくアクセント情報ではなく,学習データのF0値自体を粗く量子化したシンボルをコンテキストとして利用することで学習データに対する自動ラベリングが可能である.さらに従来提案されているGMMに基づく声質変換法では音素単位や複数の音素にわたる音響的特徴に含まれる話者の個人性を適切に変換することが困難であったのに対し,HMMに基づく手法では音韻・韻律に関わるコンテキスト依存モデルを利用することにより,このようなセグメンタル・スープラセグメンタル特徴も変換することができる.評価の結果,HMMに基づく手法を用いることにより,従来法よりも自然性が大幅に改善され,また話者性の変換においても従来を上回る結果が得られた.
展开▼