机译:在本报告中,我们旨在构建一种情感语音合成系统,该系统使用少量目标情感语音来改善情感语音合成。通过应用DNN语音合成方法,该方法从包括说话者和情感表达的各种\ r \ n语音以及少量目标情感语音数据\ r \ n中生成学习数据中未包含的情感\ r \ n语音我们提出了一种生成目标情感言语的方法。根据客户的感知和主观评估实验,使用建议的方法仅使用\ n \ n声学模型(PM,AIM)学习声学模型(SED),并且目标语音为450句我们比较了性能。客观评估\ r \ n值的结果表明,在眼睛\ r \ n少于450个句子和情感语音数据的情况下,PM和AIM的性能与SED相同,而在450 \ r \ n句子下,PM和AIM的性能均超过450 SED。它是。从主观评估结果可以看出,学习目标语音一句话的声学模型可以生成质量与450句子\ r \ n的SED相同的语音。从上面可以看出,所提出的方法\ r \ n在使用少量目标情感语音数据构建情感语音合成系统\ r \ n中的有效性。
展开▼