您现在的位置: 首页> 研究主题> 语音合成

语音合成

语音合成的相关文献在1984年到2023年内共计2607篇,主要集中在无线电电子学、电信技术、自动化技术、计算机技术、语言学 等领域,其中期刊论文965篇、会议论文181篇、专利文献231182篇;相关期刊499种,包括电声技术、现代电子技术、电脑编程技巧与维护等; 相关会议76种,包括第十二届全国人机语言通讯学术会议(NCMMSC`2013)、第十一届全国人机语音通讯学术会议、第十届全国人机语音通讯学术会议等;语音合成的相关文献由3549位作者贡献,包括王健宗、李秀林、陶建华等。

语音合成—发文量

期刊论文>

论文:965 占比:0.42%

会议论文>

论文:181 占比:0.08%

专利文献>

论文:231182 占比:99.51%

总计:232328篇

语音合成—发文趋势图

语音合成

-研究学者

  • 王健宗
  • 李秀林
  • 陶建华
  • 康永国
  • 江源
  • 蔡莲红
  • 凌震华
  • 程宁
  • 李健
  • 王仁华
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 西电标
    • 摘要: 如果说近代音响都是西电的子子孙孙,你一定会不服气,但事实又是如此,不但音响是西电发明并定下各种标准,而且西电还是整个人类现代科技的奠基人,西电旗下的贝尔实验室,是晶体管、激光器、太阳能电池、发光二极管、数字交换机、通信卫星、电子数字计算机、蜂窝移动通信设备、长途电视传送,仿真语言、有声电影、立体声录音,以及通信网的许多重大发明的诞生地,从1939年展示的O vodero电子语音合成装置到现在最先进的语音合成及识别等。
    • 赵斌; 陈志伟; 林启超
    • 摘要: 由于用电户数在不断地增加,电力工作人员的电费催费与回收的工作也日趋繁重,而传统的催费方式存在很大的局限性。因此,实现电费催费工作的智能化势在必行。本文主要研究并实现了基于Tacotron2与Griffin-Lim算法的端到端语音合成模块,同时使用Spring Boot作为主体框架,结合RocketMQ与WebSocket等技术,设计并实现了智能语音电费催费系统,包括实现自动语音催费功能、用户账单信息管理等功能,具有一定的实用价值。
    • 安鑫; 代子彪; 李阳; 孙晓; 任福继
    • 摘要: 针对基于RNN的神经网络语音合成模型训练和预测效率低下以及长距离信息丢失的问题,提出了一种基于BERT的端到端语音合成方法,在语音合成的Seq2Seq架构中使用自注意力机制(Self-Attention Mechanism)取代RNN作为编码器。该方法使用预训练好的BERT作为模型的编码器(Encoder)从输入的文本内容中提取上下文信息,解码器(Decoder)采用与语音合成模型Tacotron2相同的架构输出梅尔频谱,最后使用训练好的WaveGlow网络将梅尔频谱转化为最终的音频结果。该方法在预训练BERT的基础上通过微调适配下游任务来大幅度减少训练参数和训练时间。同时,借助其自注意力(Self-Attention)机制还可以并行计算编码器中的隐藏状态,从而充分利用GPU的并行计算能力以提高训练效率,并能有效缓解远程依赖问题。与Tacotron2模型的对比实验表明,文中提出的模型能够在得到与Tacotron2模型相近效果的基础上,把训练速度提升1倍左右。
    • 唐君; 张连海; 李嘉欣
    • 摘要: 针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度。在LJSpeech数据集上的实验表明,改进后的网络提高了注意力学习的速度和精度,合成语音的错误率相比基线降低了33.4%;同时,整个网络合成语音的速度相比之下提升约523倍,实时因子(Real Time Factor,RTF)为0.96,满足实时性的要求;此外,在语音质量方面,合成语音的平均主观意见分(Mean Opinion Score,MOS)达到3.88。
    • 郭琦; 袁少卿; 吕小凡; 蔡硕琦
    • 摘要: 随着新一代人工智能和通信技术的快速发展,电网调度指令技术面临着新的技术革新,传统的调度指令操作已无法满足目前提质增效的要求。文中深入研究了基于机器学习的电网调度指令智能交互技术,将电网调度指令分解为执行和评估两个步骤,并建立系统化的人机交互模型。模型设计涵盖了人机交互的4个阶段和一个循环过程,通过交互式迭代提升了调度系统的可交互性。采用机器学习算法完成调度指令的数据清洗,利用端对端的传输结构实现电网调度指令的传输,同时建立传输通道模型。经过系统测试验证了所提方法的有效性,电网调度指令的平均识别率达到91.45%,能够满足电网调度的基本要求。
    • 郭伟
    • 摘要: 伴随新媒体业务及智慧广电建设的开展,利用语音合成和虚拟数字人视频合成技术,对韵律、口型等驱动3D建模,定制“真人”为原型的虚拟主播形象,只需输入文字,就可进行音视频的快速合成播报,合成后的虚拟主播表情生动自然,唇形能随播报内容同步变化。本文主要阐述智能语音转写、合成的基本原理,以及虚拟数字人技术的技术架构、功能设计与实现效果。
    • 胡恺
    • 摘要: 广电传输机房各类监控系统繁多,一些是基于B/S架构,另一些是基于C/S架构。众多的监控系统因为系统相对独立、数据接口各不相同,无法进行统一管理,如何将不同接口的告警数据集中、统一、指定终端输出是监控系统统一化的难题。本文从如何将各类网管告警信息汇聚到统一监控平台并支持语音告警,以解决日常应急抢修、监控人员到异地值守的实际问题出发,在统一语音播报监控平台搭建成本低、各类第三方监控告警信息兼容性强等方面进行了探索性的实践攻关。
    • 白华
    • 摘要: 人工智能是中国为数不多的与世界同步发展的技术领域,经过数十年国内无数优秀科学家、学者,以及众多企业研发工程师的不懈努力,我国部分领域核心关键技术实现重要突破,语音识别、视觉识别技术世界领先。这一次产业界和学术界深度融合,发挥了更广泛的作用,在捷通华声等专注核心技术研发和产业化应用的企业共同努力下,守住了智能语音核心技术在国际竞争中的主动权,中国语音合成产业市场牢牢掌握在我们的民族企业手上。
    • 尼玛; 珠杰; 拉巴顿珠
    • 摘要: 文章以目前在前端语言模型中较为突出的字音转换问题为研究对象,结合藏语本身特有的语音特点,一是研究了藏语语音结构,以及语音合成中藏语同音字的发音规律。二是较为全面的统计及分析了藏语同音字的发音归类问题,并根据统计及归类结果,把18738个字中除341个字(没有同音字)之外的其余字归类为2539个同音字类别。三是通过拉丁转写方式对同音字定义了读音标记,给出的2880个音素覆盖了所有18738个藏字。
    • 徐志航; 陈博; 张辉; 俞凯
    • 摘要: 在语音合成中,使用少量的用户录制数据进行说话人自适应一直面临着一个问题:如何在不过分降低合成声音的自然度的情况下,提高合成声音的相似度.现有的句子级别、帧级别说话人嵌入等自适应方法在合成训练集外说话人声音时会出现低相似度的问题.使用少量的用户录制数据微调预训练的语音合成模型的自适应方法尽管能提升合成音频的相似度,但是也常伴随着自然度的下降.为了解决这个问题,本文提出了一种基于音素级别的说话人嵌入的语音合成自适应方法.在训练阶段,从真实的特征片段中提取音素级别的说话人嵌入,控制语音合成模型的训练.在自适应阶段,通过对说话人嵌入预测网络进行快速自适应,在推理阶段代替真实音频得到音素级别说话人嵌入帮助模型合成音频.实验使用了少量真实的用户录制数据,对现在主流的不同粒度的说话人嵌入方法进行了性能比较.实验表明,相比较各种不同的说话人嵌入方法,本文提出的方法在不更新语音合成模型的情况下保持自然度不明显下降,并取得了最好相似度;在更新语音合成模型的情况下,该方法同时达到了最好的自然度和相似度.分析发现音素级别的说话人嵌入方法在几乎不增加自适应训练时间的情况下,提供了更好的模型自适应初始点,有效地提高了自适应模型合成声音的质量.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号