语音合成
语音合成的相关文献在1984年到2023年内共计2607篇,主要集中在无线电电子学、电信技术、自动化技术、计算机技术、语言学
等领域,其中期刊论文965篇、会议论文181篇、专利文献231182篇;相关期刊499种,包括现代电子技术、电脑编程技巧与维护、电脑知识与技术等;
相关会议76种,包括第十二届全国人机语言通讯学术会议(NCMMSC`2013)、第十一届全国人机语音通讯学术会议、第十届全国人机语音通讯学术会议等;语音合成的相关文献由3549位作者贡献,包括王健宗、李秀林、陶建华等。
语音合成—发文量
专利文献>
论文:231182篇
占比:99.51%
总计:232328篇
语音合成
-研究学者
- 王健宗
- 李秀林
- 陶建华
- 康永国
- 江源
- 蔡莲红
- 凌震华
- 程宁
- 李健
- 王仁华
- 胡郁
- 张旭龙
- 刘庆峰
- 武卫东
- 孙涛
- 孙见青
- 胡国平
- 戴礼荣
- 孙奥兰
- 贾磊
- 陈明
- 艾斯卡尔·艾木都拉
- 张辉
- 周鸿斌
- 杨鸿武
- 殷翔
- 潘俊杰
- 谢湘
- 陈昌滨
- 顾宇
- 李昊
- 盖于涛
- 于洪志
- 卢恒
- 张连毅
- 杨嵩
- 贺天威
- 那兴宇
- 何娅玲
- 吴志勇
- 王少军
- 祖漪清
- 马泽君
- 马骏
- 俞凯
- 吕士楠
- 智鹏鹏
- 李雅
- 王洪斌
- 胡亚军
-
-
西电标
-
-
摘要:
如果说近代音响都是西电的子子孙孙,你一定会不服气,但事实又是如此,不但音响是西电发明并定下各种标准,而且西电还是整个人类现代科技的奠基人,西电旗下的贝尔实验室,是晶体管、激光器、太阳能电池、发光二极管、数字交换机、通信卫星、电子数字计算机、蜂窝移动通信设备、长途电视传送,仿真语言、有声电影、立体声录音,以及通信网的许多重大发明的诞生地,从1939年展示的O vodero电子语音合成装置到现在最先进的语音合成及识别等。
-
-
赵斌;
陈志伟;
林启超
-
-
摘要:
由于用电户数在不断地增加,电力工作人员的电费催费与回收的工作也日趋繁重,而传统的催费方式存在很大的局限性。因此,实现电费催费工作的智能化势在必行。本文主要研究并实现了基于Tacotron2与Griffin-Lim算法的端到端语音合成模块,同时使用Spring Boot作为主体框架,结合RocketMQ与WebSocket等技术,设计并实现了智能语音电费催费系统,包括实现自动语音催费功能、用户账单信息管理等功能,具有一定的实用价值。
-
-
安鑫;
代子彪;
李阳;
孙晓;
任福继
-
-
摘要:
针对基于RNN的神经网络语音合成模型训练和预测效率低下以及长距离信息丢失的问题,提出了一种基于BERT的端到端语音合成方法,在语音合成的Seq2Seq架构中使用自注意力机制(Self-Attention Mechanism)取代RNN作为编码器。该方法使用预训练好的BERT作为模型的编码器(Encoder)从输入的文本内容中提取上下文信息,解码器(Decoder)采用与语音合成模型Tacotron2相同的架构输出梅尔频谱,最后使用训练好的WaveGlow网络将梅尔频谱转化为最终的音频结果。该方法在预训练BERT的基础上通过微调适配下游任务来大幅度减少训练参数和训练时间。同时,借助其自注意力(Self-Attention)机制还可以并行计算编码器中的隐藏状态,从而充分利用GPU的并行计算能力以提高训练效率,并能有效缓解远程依赖问题。与Tacotron2模型的对比实验表明,文中提出的模型能够在得到与Tacotron2模型相近效果的基础上,把训练速度提升1倍左右。
-
-
唐君;
张连海;
李嘉欣
-
-
摘要:
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度。在LJSpeech数据集上的实验表明,改进后的网络提高了注意力学习的速度和精度,合成语音的错误率相比基线降低了33.4%;同时,整个网络合成语音的速度相比之下提升约523倍,实时因子(Real Time Factor,RTF)为0.96,满足实时性的要求;此外,在语音质量方面,合成语音的平均主观意见分(Mean Opinion Score,MOS)达到3.88。
-
-
郭琦;
袁少卿;
吕小凡;
蔡硕琦
-
-
摘要:
随着新一代人工智能和通信技术的快速发展,电网调度指令技术面临着新的技术革新,传统的调度指令操作已无法满足目前提质增效的要求。文中深入研究了基于机器学习的电网调度指令智能交互技术,将电网调度指令分解为执行和评估两个步骤,并建立系统化的人机交互模型。模型设计涵盖了人机交互的4个阶段和一个循环过程,通过交互式迭代提升了调度系统的可交互性。采用机器学习算法完成调度指令的数据清洗,利用端对端的传输结构实现电网调度指令的传输,同时建立传输通道模型。经过系统测试验证了所提方法的有效性,电网调度指令的平均识别率达到91.45%,能够满足电网调度的基本要求。
-
-
郭伟
-
-
摘要:
伴随新媒体业务及智慧广电建设的开展,利用语音合成和虚拟数字人视频合成技术,对韵律、口型等驱动3D建模,定制“真人”为原型的虚拟主播形象,只需输入文字,就可进行音视频的快速合成播报,合成后的虚拟主播表情生动自然,唇形能随播报内容同步变化。本文主要阐述智能语音转写、合成的基本原理,以及虚拟数字人技术的技术架构、功能设计与实现效果。
-
-
胡恺
-
-
摘要:
广电传输机房各类监控系统繁多,一些是基于B/S架构,另一些是基于C/S架构。众多的监控系统因为系统相对独立、数据接口各不相同,无法进行统一管理,如何将不同接口的告警数据集中、统一、指定终端输出是监控系统统一化的难题。本文从如何将各类网管告警信息汇聚到统一监控平台并支持语音告警,以解决日常应急抢修、监控人员到异地值守的实际问题出发,在统一语音播报监控平台搭建成本低、各类第三方监控告警信息兼容性强等方面进行了探索性的实践攻关。
-
-
白华
-
-
摘要:
人工智能是中国为数不多的与世界同步发展的技术领域,经过数十年国内无数优秀科学家、学者,以及众多企业研发工程师的不懈努力,我国部分领域核心关键技术实现重要突破,语音识别、视觉识别技术世界领先。这一次产业界和学术界深度融合,发挥了更广泛的作用,在捷通华声等专注核心技术研发和产业化应用的企业共同努力下,守住了智能语音核心技术在国际竞争中的主动权,中国语音合成产业市场牢牢掌握在我们的民族企业手上。
-
-
尼玛;
珠杰;
拉巴顿珠
-
-
摘要:
文章以目前在前端语言模型中较为突出的字音转换问题为研究对象,结合藏语本身特有的语音特点,一是研究了藏语语音结构,以及语音合成中藏语同音字的发音规律。二是较为全面的统计及分析了藏语同音字的发音归类问题,并根据统计及归类结果,把18738个字中除341个字(没有同音字)之外的其余字归类为2539个同音字类别。三是通过拉丁转写方式对同音字定义了读音标记,给出的2880个音素覆盖了所有18738个藏字。
-
-
徐志航;
陈博;
张辉;
俞凯
-
-
摘要:
在语音合成中,使用少量的用户录制数据进行说话人自适应一直面临着一个问题:如何在不过分降低合成声音的自然度的情况下,提高合成声音的相似度.现有的句子级别、帧级别说话人嵌入等自适应方法在合成训练集外说话人声音时会出现低相似度的问题.使用少量的用户录制数据微调预训练的语音合成模型的自适应方法尽管能提升合成音频的相似度,但是也常伴随着自然度的下降.为了解决这个问题,本文提出了一种基于音素级别的说话人嵌入的语音合成自适应方法.在训练阶段,从真实的特征片段中提取音素级别的说话人嵌入,控制语音合成模型的训练.在自适应阶段,通过对说话人嵌入预测网络进行快速自适应,在推理阶段代替真实音频得到音素级别说话人嵌入帮助模型合成音频.实验使用了少量真实的用户录制数据,对现在主流的不同粒度的说话人嵌入方法进行了性能比较.实验表明,相比较各种不同的说话人嵌入方法,本文提出的方法在不更新语音合成模型的情况下保持自然度不明显下降,并取得了最好相似度;在更新语音合成模型的情况下,该方法同时达到了最好的自然度和相似度.分析发现音素级别的说话人嵌入方法在几乎不增加自适应训练时间的情况下,提供了更好的模型自适应初始点,有效地提高了自适应模型合成声音的质量.
-
-
-
WU Peiwen;
吴沛文;
YANG Hongwu;
杨鸿武;
GAN Zhenye;
甘振业
- 《第十四届全国人机语音通讯学术会议》
| 2017年
-
摘要:
本文提出了一种基于深度神经网络(Deep Neural Network,DNN)的汉藏语双语语音合成方法.该方法以普通话和藏语的声韵母作为语音合成基元,利用普通话和藏语的不同说话人的训练语料,训练合成基元的DNN声学模型.在语音合成时,利用文本分析获得藏语或普通话文本中合成基元的上下文相关信息,进而利用训练好的DNN声学模型产生语音参数,合成出藏语或普通话语音.主客观实验表明,本文方法合成的藏语语音音质优于基于HMM的汉藏双语跨语言语音合成的藏语语音,也优于仅使用藏语训练语料训练的DNN模型合成的藏语语音.该方法能够应用于语音资源稀少的民族语言的语音合成.
-
-
LIU Yazhu;
刘亚祝;
LI Ya;
李雅;
WEN Zhenqi;
温正棋;
WANG Yang;
王洋;
GU Mingliang;
顾明亮;
TAO Jianhua;
陶建华
- 《第十二届全国语音学学术会议》
| 2016年
-
摘要:
传统语音合成系统只能合成单一风格的语音,不能满足当前对多表现力合成语音的需求.本文提出面向有声小说的语音合成框架.有声小说语音具有韵律特征丰富、发音风格多样的特点,用传统基于隐马尔可夫模型(Hidden Markov Models,HMM)的语音合成系统进行有声小说语音合成时,决策树的聚类过程会对多种风格的语音参数进行平均,使得相比于传统单一风格的语音合成而言,合成语音音质进一步下降,针对这一问题,本文采用深度神经网络(Deep Neural Network,DNN)对生成语音参数进行后增强处理,采用两种增强方式:(1)仅对谱参数进行增强,(2)同时对谱参数与基频进行增强.主客观评测结果表明:仅对谱参数进行增强可以获得更好的合成语音音质.
-
-
-
-
ZHENG Yibin;
郑艺斌;
TAO Jianhua;
陶建华;
LI Ya;
李雅;
WEN Zhengqi;
温正棋
- 《第十四届全国人机语音通讯学术会议》
| 2017年
-
摘要:
本文提出了一种基于注意力的端到端韵律结构和重音联合预测方法,首次将韵律结构预测和重音预测统一到同一框架中.该方法是基于端到端的,无需任何人为的特征处理工作.其基本框架是一个RNN“编码-解码”模型,在此基础上本文逐渐引入了字embedding层、“编码-解码”时的对齐信息、注意力机制和多任务学习,并详细探讨了它们在韵律结构预测和重音预测上所发挥的作用.实验结果表明,相比于目前在韵律结构和重音预测上最好的方法(Bi-LSTM),本文提出的方法在韵律词、韵律短语、语调短语和重音预测上分别在客观指标(F1Score)上有了进一步提高;合成语音的主观结果也表明,本文提出的方法能够提高语音合成的自然度和表现力.
-
-
ZHANG Wei;
张微;
XIE Yanlu;
解焱陆;
XIONG Ziyu;
熊子瑜;
ZHANG Jinsong;
张劲松
- 《第十二届全国语音学学术会议》
| 2016年
-
摘要:
语音合成是现代语音学的研究中常见的需求,语音合成的工具有很多.Praat软件是一款功能强大的语音处理软件,业内应用广泛,可以进行语音合成.由日本和歌山大学的Kawahara教授开发的STRAIGHT系统在语音的变换分析和合成方面有较好的效果,但该系统并不像Praat软件一样应用广泛.本文以合成前后鼻音连续统为例,着重描述在STRAIGHT系统下共振峰修改与合成的过程,实验基于STRAIGHT系统和Praat软件合成了两种单音节前后鼻音连续统,共80个刺激,并用此进行了主观性评价MOS实验,结果如下:基于STRAIGHT系统合成的连续统MOS实验评分为4.6,基于Praat软件合成的连续统MOS实验评分为3.4,方差检验结果为差异显著.
-
-
敖敏;
熊子瑜;
白音门德
- 《第十二届全国语音学学术会议》
| 2016年
-
摘要:
本文基于《面向语音合成的蒙古语电子发音词典》系统考察了电子词典中出现的长元音和多音词两大问题,研究结果表明,在传统研究和言语工程上所指的蒙古语多音词之间存在显著差异,为了加以区分,把传统研究中所指的词形相同读音不同的"假"性多音字叫一词多音,而词形相同、书面语读音相同而口语读音不同的词叫多音词.在语音合成中可用规则、构词和扩充电子发音词典等三个办法总和应用来确定多音词在具体语境中的唯一读音.非成音节元音、非词首音节短元音的弱化和脱落以及带有个别式动词词缀的动词等三个活跃因素在超音段功能作用下产生的语流音变是蒙古语语流音变的主要表现.
-
-
YAO Yun;
姚云;
WU Xiyu;
吴西愉;
KONG Jingping;
孔江平
- 《第十三届全国人机语音通讯学术会议》
| 2015年
-
摘要:
为了得到更加精确的声道共鸣特性,人们越来越关心说话时声道的结构及其形状变化.本文从MRI3D图像数据中提取了汉语普通话7个单元音[a],[o],[(r)],[i],[u],[y],[e]声道边缘、中线和矢量半径数据,并沿着声道中线从唇到声门等间距截取声道的36个截面,对于每个截面,根据矢量半径的大小让同一个位置的截面形状作线性过渡,从而建立了用矢量半径驱动的汉语普通话立体声道模型.计算模型的共振峰并合成语音样本,在与自然语音对比的听辨实验中,本模型取得了较好的语音合成效果.
-
-
丁星光;
李雅;
赖玮;
陶建华
- 《第十三届全国人机语音通讯学术会议》
| 2015年
-
摘要:
韵律层级的预测是影响合成语音自然度的关键因素之一.本文提出了一种基于递归神经网络(Recurrent neural Network,RNN)的韵律层级预测模型并加入了词向量(word2vec)作为语义特征.实验表明,基于该算法的F-score较传统的机器学习方法有一定的提升,同时词向量特征可以较好的适应递归神经网络模型.还将深度学习的结果和传统模型进行了融合,在此基础上提出了基于概率网络搜索的韵律层级多样性模型,在多人标注的语料中进行检验.检验结果表明,该方法可以较好的描述韵律层级的多样性.最后结合各种模型的结果,对特征进行了分析排序.