首页> 美国卫生研究院文献>Data in Brief >The First Vietnamese FOSD-Tacotron-2-based Text-to-Speech Model Dataset
【2h】

The First Vietnamese FOSD-Tacotron-2-based Text-to-Speech Model Dataset

机译:基于越南FOSD-Tacotron-2的文本到语音模型数据集

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Recent trends in voicebot application development have enabled utilization of both speech-to-text and text-to-speech (TTS) generation techniques. In order to generate a voice response to a given speech, one needs to use a TTS engine. The recently developed TTS engines are shifting towards end-to-end approaches utilizing models such as Tacotron, Tacotron-2, WaveNet, and WaveGlow. The reason is that it enables a TTS service provider to focus on developing training and validating datasets comprising of labelled texts and recorded speeches instead of designing an entirely new model that outperforms the others which is time-consuming and costly. In this context, this work introduces the first Vietnamese FPT Open Speech Data (FOSD)-Tacotron-2-based TTS model dataset. This dataset comprises of a configuration file in *.json format; training and validating text input files (in *.csv format); a 225,000-step checkpoint of the trained model; and several sample generated audios. The published dataset is extremely worth for serving as a model for benchmarking with other newly developed TTS models / engines. In addition, it opens an entirely new TTS research optimization problem to be addressed: How to effectively generate speech from text given: a black box TTS (trained) model and its training and validation input texts.
机译:Voicebot应用程序开发的最新趋势使得能够利用语音到文本和文本到语音(TTS)生成技术。为了为给定语音生成语音响应,需要使用TTS引擎。最近开发的TTS发动机正在朝向端到端的端部方法,利用塔克罗伦,塔克罗伦-2,Wavenet和Waveglow等模型。原因是它使得TTS服务提供商能够专注于开发培训和验证数据集,包括标记文本和记录的语音,而不是设计完全新的模型,这些模型优于耗时和昂贵的其他模式。在这种情况下,这项工作介绍了第一越南FPT开放语音数据(FOSD) - 基于Tacotron-2的TTS模型数据集。此数据集包括* .json格式的配置文件;培训和验证文本输入文件(以* .csv格式为单位);培训模型的225,000步检查站;和几个样本生成的audios。已发布的数据集作为用于与其他新开发的TTS模型/引擎的基准测试的型号非常值得。此外,它还开启了一个完全新的TTS研究优化问题,以解决:如何有效地从给定的文本中生成语音:黑匣子TTS(训练)模型及其训练和验证输入文本。

著录项

  • 期刊名称 Data in Brief
  • 作者

    Duc Chung Tran;

  • 作者单位
  • 年(卷),期 2020(-1),-1
  • 年度 2020
  • 页码 -1
  • 总页数 5
  • 原文格式 PDF
  • 正文语种
  • 中图分类
  • 关键词

    机译:文本到语音;自然语言处理;自然语言生成;越南语;语音;数据集;塔克罗伦;WOVENET;
  • 入库时间 2022-08-21 12:07:44

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号