HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討

能勢　隆; 小林　隆夫

首页> 外文期刊>電子情報通信学会技術研究報告 >HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討

【24h】

HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討

机译：基于动态特征的HMM语音音素持续时间建模研究

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

This paper proposes a technique for modeling and generating phone durations using their dynamic features to improve prediction accuracy of phone durations in HMM-based speech synthesis. For the duration modeling, a technique with explicit state-duration modeling based on hidden semi-Markov model (HSMM) has been proposed. However, the HSMM cannot directly model phone durations, and the relation of phone durations among adjacent phonemes are represented only by context labels. In the proposed technique, phone durations are regarded as observable data obtained by manual labeling or forced alignment and are directly modeled using single Gaussian distributions. To explicitly take into account the correlation of phone durtions in the model training and speech synthesis, we use not only static phone durations but also dynamic ones. When synthesizing speech, we generate a phone-duration sequence from the trained duration models using a parameter generation algorithm with static and dynamic features. We evaluate the performance of our duration modeling technique by comparing to other techniques with static or static log-duration features.%HMM 音声合成における音素継続長の推定精度の改善を目的とし，動的特徴量を用いた音素継続長のモデル化および生成手法を提案する．継続長のモデル化については隠れセミマルコフモデル（HSMM）により状態継続長を明示的にモデル化する手法が提案されているが，音素継続長が直接モデル化されておらず，また音素間の継続長の関係はコンテキストのみで表現されている．提案法では，音素継続長を観測データとみなし直接モデル化を行う．モデル化の際には，音素間の継続長の相関を明示的に考慮するために静的特徴量だけでなく音素継続長の動的特徴量も用いて学習を行う．合成時には静的および動的特徴量を用いて音素継続長系列を生成することにより音素間の継続長の相関を合成音声に反映させることが可能となる．静的特徴量のみを用いた場合や対数継続長を用いた場合などとの比較を行い，提案法の有効性を示す．

机译：本文提出了一种利用其动态特征来建模和生成电话持续时间的技术，以提高基于HMM的语音合成中电话持续时间的预测准确性。对于持续时间建模，提出了一种基于隐式半马尔可夫模型（HSMM）的具有显式状态持续时间建模的技术。但是，HSMM无法直接对电话持续时间建模，并且相邻音素之间的电话持续时间关系仅由上下文标签表示。在提出的技术中，电话持续时间被视为通过手动标记或强制对齐获得的可观察数据，并使用单个高斯分布直接建模。为了在模型训练和语音合成中明确考虑电话持续时间的相关性，我们不仅使用静态电话持续时间，还使用动态电话持续时间。合成语音时，我们使用具有静态和动态功能的参数生成算法，从训练后的时长模型生成电话持续时间序列。我们通过与具有静态或静态对数持续时间功能的其他技术进行比较来评估我们的持续时间建模技术的性能。％HMM音声合成における音素継続长の推定精度の改善を目的とし，动的特徴量を用いた音素継続长継続长のモデル化につ生成ては隠れセミマ法ては隠れセミマ实行デ。实行法では，音素継続长を観测データとみなし直接モデル化を行う。モデル化の际には，音素间のの合成时には静的および动的特徴量を用いて音素継続长系列静的特徴量のみを用いた场合た数や対长を用いた场合などとの比较を行い，实行法の有效性を示す。

著录项

来源
《電子情報通信学会技術研究報告》 |2011年第364期|p.197-202|共6页
作者
能勢　隆; 小林　隆夫;
展开▼
作者单位

東京工業大学大学院総合理工学研究科　〒226-8502　横浜市緑区長津田町4259-G2-4;

東京工業大学大学院総合理工学研究科　〒226-8502　横浜市緑区長津田町4259-G2-4;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
HMM 音声合成; 音素継続長; 動的特徴量を考慮したパラメータ生成; 隠れセミマルコフモデル;

机译：HMM语音合成;音素持续时间;考虑动态特征的参数生成;隐式半马尔可夫模型;
入库时间 2022-08-18 00:31:38

相似文献

外文文献
中文文献
专利

1. HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討 [J] . 能勢隆, 小林隆夫電子情報通信学会技術研究報告. 音声. Speech . 2011,第365期

机译：使用动态功能检查HMM语音合成的语音连续性长度模型
2. HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討 [J] . 能勢隆, 小林隆夫電子情報通信学会技術研究報告. 言語理解とコミュニケーション. Natural Language Understanding and Models of Communication . 2011,第364期

机译：使用动态功能检查HMM语音合成的语音连续性长度模型
3. HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討 [J] . 能勢　隆, 小林　隆夫電子情報通信学会技術研究報告 . 2011,第365期

机译：基于动态特征的HMM语音音素持续时间建模研究
4. 深層学習に基づく音声合成における2次統計量を用いたスペクトル特徴量のモデリングの検討 [C] . 松永悟行, 大谷大和, 平原達也日本音響学会;日本音響学会研究発表会 . 2019

机译：基于深度学习的语音合成中使用二次统计的频谱特征建模检查
5. 持続可能な生活のための日常活動の多次元データを用いたウェルビーイング識別システム [D] . Lawanont Worawat 2019

机译：使用日常活动的多维数据的幸福感识别系统，以实现可持续生活
6. アミロイドーシスの病理学的研究　：　第1報　免疫組織化学的および電子顕微鏡を用いた病型分類　：　第2報　全身性アミロイドーシスにおけるAP (amyloid P-component)の役割についての免疫組織学的検討　：　第3報　全身性アミロイドーシスの骨髄における免疫グロブリン産生細胞の検索　：　第4報　仝身性アミロイドーシスの骨髄における免疫グロブリン産生細胞の検索（続報） [O] . 豊田充康 1988

机译：淀粉样变性病的病理研究：第一次报告，使用免疫组织化学和电子显微镜进行类型分类：第二次报道，AP（淀粉样P成分）在系统性淀粉样变性中的作用的免疫组织学研究：第三次报告报告：在患有系统性淀粉样变性的骨髓中寻找产生免疫球蛋白的细胞：第4部分：在患有阴道淀粉样变性的骨髓中寻找产生免疫球蛋白的细胞（续）

HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討

摘要

著录项

相似文献

相关主题

期刊订阅