Speech synthesis techniques require speech data which is annotated with labels concerning prosodic information. This paper describes a method of automatic labeling of prosodic information focusing on accent phrase boundaries. A probabilistic model using both linguistic and prosodic information predicts the boundaries under the condition that the contents of speech and phoneme labels are given. We use CRF and multidimensional normal distribution for the linguistic probability model and the FO probability model, respectively. We try to improve accuracy of the accent phrase boundary prediction using the cumulative mora count from the proceeding accent phrase boundary. The cumulative mora count is calculated by making hypotheses of the accent phrase boundaries. Evaluation experiments show that the cumulative mora count improves accuracy of accent phrase boundary prediction for read speech of ATR503 sentences.%音声合成手法ゐ開発・評価するための音声データには,アクセントなどに関する韻律情報ラベルが不可欠である。本研究では,音声データラベリングにおけるアクセント句境界を自動推定する手法について述べる。発話内容と音素ラベルが既知の条件のもと,言語モデルとF0モデルに基づき境界の自動推定を行う。言語モデルに基づく推定にはCRF,F0モデルに基づく推定には多次元正規分布を用いる。また,アクセント句境界の仮説を立てて,先行アクセント句境界からの累積モーラ数を利用することで推定精度の向上を試みる。累積モーラ数を利用してアクセント句境界の自動推定を行うことにより,読み上げ音声であるATR503文において精度の向上が確認できた。
展开▼