F0量子化と非パラレル学習に基づく声質変換の検討

太田　悠平; 能勢　隆; 小林　隆夫

首页> 外文期刊>電子情報通信学会技術研究報告 >F0量子化と非パラレル学習に基づく声質変換の検討

【24h】

F0量子化と非パラレル学習に基づく声質変換の検討

机译：基于F0量化和非并行学习的语音质量转换研究

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

HMM音素認識とHMM音声合成を用いた非パラレル学習に基づく声質変換手法を操業する.提案法では，音素認識と基本周波数の量子化を利用し，変換元の話者の入力音声から音素情報，音素継続長，及び基本周波数パターンの大まかな変勤惰報を抽出し合成部に伝達する.合成部では，伝達された各情報からコンテキスト依存ラベルを作成し，これとあらかじめ学習しておいた目標話者の多空間確率分布HMMを用いて，音声を生成する.元話者と目標話者のモデルは独立に学習することが可能であるため，元話者と目標話者が同じ文章を発話したパラレルデータを用意する必要がないという特徴がある.また音素継続長に含まれる話者性の適切な変換のため，入力音声の各音素の継続長に対して線形変換を行う.本稿では，パラレルデータが利用可能でない複合，及び継続長の変換の効果について客観及び主観評価を行い，提案手法である非パラレルデータ学習に基づく声質変換法の有効性を示す.%This paper presents a novel voice conversion technique using HMM-based phoneme recognition and speech synthesis with nonparallel training data. In the proposed technique, a phoneme sequence with durations and a rough FO contour are extracted from input speech of a source speaker using phoneme recognition and FO quantization, and are transmitted to synthesis part. In the synthesis part, a context-dependent label sequence is generated from the transmitted phonemes, durations, and quantized FO symbols. Then, converted speech is generated from the label sequence using a target speaker's pre-trained MSD-HMM. In the model training, the models of the source and the target speakers can be trained separately with nonparallel data. For duration modification, linear transformation is applied to each phone duration of input speech. The objective and subjective experimental results show that the proposed technique works well even if the parallel speech data is not available.

机译：我们使用基于HMM音素识别和HMM语音合成的非并行学习的语音质量转换方法，在该方法中，利用音素识别和基频量化从原始说话人的输入语音中提取音素信息。提取音素持续时间和基本频率模式的基本移位模式，并将其发送到合成器，该合成器从每个发送的信息和预先学习的目标中创建上下文相关的标签。语音是使用说话者的多空间概率分布HMM生成的，由于可以独立学习原始说话者和目标说话者的模型，因此原始说话者和目标说话者会说出相同的句子。不需要准备并行数据，并且为了适当地转换包括在音素持续时间中的说话者特性，对输入语音的每个音素的持续时间执行线性转换。在没有并行数据的情况下，我们在主观上评估了复杂和连续长度转换的效果，并显示了基于非并行数据学习的方法的有效性。该技术采用基于HMM的音素识别和具有非并行训练数据的语音合成技术。该技术中，使用音素识别和FO量化从源说话人的输入语音中提取具有持续时间和粗略FO轮廓的音素序列，并将其传输到在合成部分中，从传输的音素，持续时间和量化的FO符号生成上下文相关的标签序列，然后使用目标说话者的pr从标签序列生成转换后的语音。 e-trained MSD-HMM。在模型训练中，可以使用非并行数据分别训练源说话者和目标说话者的模型。为了进行时长修改，将线性变换应用于输入语音的每个电话时长。结果表明，即使没有并行语音数据，所提出的技术也能很好地工作。

著录项

来源
《電子情報通信学会技術研究報告》 |2009年第355期|p.171-176|共6页
作者
太田　悠平; 能勢　隆; 小林　隆夫;
展开▼
作者单位

東京工業大学　大学院総合理工学研究科物理情報システム専攻　〒226-8502　横浜市緑区長津田町4259-G2-4;

東京工業大学　大学院総合理工学研究科物理情報システム専攻　〒226-8502　横浜市緑区長津田町4259-G2-4;

東京工業大学　大学院総合理工学研究科物理情報システム専攻　〒226-8502　横浜市緑区長津田町4259-G2-4;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
声質変換; 音素認乱　HMM音声合成; F0量子化;

机译：声质変换;音素认乱　HMM音声合成;F0量子化;

相似文献

外文文献
中文文献
专利

1. F0量子化と非パラレル学習に基づく声質変換の検討 [J] . 太田悠平, 能勢隆, 小林隆夫電子情報通信学会技術研究報告. 音声. Speech . 2009,第356期

机译：基于F0量化和非并行学习的语音质量转换检查
2. F0量子化と非パラレル学習に基づく声質変換の検討 [J] . 太田悠平, 能勢隆, 小林隆夫電子情報通信学会技術研究報告. 言語理解とコミュニケーション. Natural Language Understanding and Models of Communication . 2009,第355期

机译：基于F0量化和非并行学习的语音质量转换检查
3. F0量子化と非パラレル学習に基づく声質変換の検討 [J] . 太田　悠平, 能勢　隆, 小林　隆夫電子情報通信学会技術研究報告 . 2009,第356期

机译：基于F0量化和非并行学习的语音质量转换研究
4. 非負値タッカー分解によるNMF辞書学習に基づく非パラレル声質変換 [C] . 高島悠樹, 矢野肇, 中鹿亘, 日本音響学会;日本音響学会春季研究発表会 . 2018

机译：基于非负Tucker分解的NMF字典学习的非并行语音转换
5. ポール?ワイスのスポーツ哲学についての構造学的研究 : とくにクラスターアナリシスによる解釈仮説の設定に基づいて ~ 上 [D] . 片岡暁夫 1986

机译：保罗·韦斯体育哲学的结构研究：特别是在通过聚类分析建立解释假设的基础上
6. 連続の式に基づく非侵襲的狭断面積推定と、その血行動態変動時の不変性についての研究 : 大動脈狭窄モデル犬を用いた実験的検討 [O] . 藤井謙司, フジイケンシ 2017

机译：基于连续性方程及其在血流动力学波动过程中不变性的无创狭窄横截面积估计：主动脉狭窄模型犬的实验研究

F0量子化と非パラレル学習に基づく声質変換の検討

摘要

著录项

相似文献

相关主题

期刊订阅