您现在的位置: 首页> 研究主题> 声码器

声码器

声码器的相关文献在1981年到2022年内共计427篇,主要集中在无线电电子学、电信技术、自动化技术、计算机技术、军事技术 等领域,其中期刊论文225篇、会议论文24篇、专利文献2873852篇;相关期刊119种,包括解放军理工大学学报(自然科学版)、电声技术、电子学报等; 相关会议21种,包括浙江省电子学会2011学术年会、第五届全国“信号与信息处理”联合学术会议暨陕西省生物医学工程学会二〇〇六年学术年会、中国航海学会通信导航专业委员会2006年学术年会暨2006年全国船舶通信导航学术年会等;声码器的相关文献由595位作者贡献,包括崔慧娟、威廉·R·加德纳、唐昆等。

声码器—发文量

期刊论文>

论文:225 占比:0.01%

会议论文>

论文:24 占比:0.00%

专利文献>

论文:2873852 占比:99.99%

总计:2874101篇

声码器—发文趋势图

声码器

-研究学者

  • 崔慧娟
  • 威廉·R·加德纳
  • 唐昆
  • 李晔
  • 洪侃
  • S·凯瑟琳·兰姆
  • 克莱恩·S·吉豪森
  • 冲·U·李
  • 庞潼川
  • 民昌·蔡
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 刘畅; 魏为民; 孟繁星; 才智
    • 摘要: 语音风格迁移技术指在不改变说话内容的前提下,将源说话人的音色或语音风格转换为目标说话人的音色或语音风格。随着人们对社交媒体隐私保护等方面的迫切需求和基于神经网络篡改技术的快速发展,语音风格迁移技术在领域内被深入研究。在语音风格迁移基本原理的基础上,从声码器、语料对齐以及迁移模型3个重要影响因素的角度对研究现状进行分析,主要包括传统声码器与WaveNet声码器、平行语料与非平行语料以及传统迁移模型与神经网络模型,归纳出目前语音风格迁移技术存在的问题与挑战,并对发展方向进行展望。
    • 唐君; 张连海; 李嘉欣; 李宜亭
    • 摘要: HiFi-GAN声码器通过采用缩减网络层的通道数或层数的方式来有效减少模型参数、提高推理速度,但此种方式也严重损害了生成语音的质量。针对此问题,提出了两点改进措施:1.采用多尺度卷积策略对输入Mel谱进行处理来有效表征特征信息;2.采用一维深度可分离卷积替换生成器网络中的标准一维卷积。实验结果表明,多尺度卷积策略有效提升了模型性能,提高了生成语音的质量,而一维深度可分离卷积显著减少了模型参数量并加快了模型推理速度。通过将这两者结合,有效提升了HiFi-GAN模型的性能,具体来说,模型参数量约减少了67.72%,在GPU、CPU上的推理速度分别提升了11.72%、28.98%。此外,语音质量也得到略微提升,平均主观意见分(Mean Opinion Score,MOS)提升了0.07,客观语音质量评估(Perceptual Evaluation of Speech Quality,PESQ)得分提升了0.05。
    • 张小峰; 谢钧; 罗健欣; 杨涛
    • 摘要: 语音合成技术在人机交互中扮演着重要角色,深度学习的发展带动语音合成技术高速发展.基于深度学习的语音合成技术在合成语音的质量和速度上都超过了传统语音合成技术.从基于深度学习的声码器和声学模型出发对语音合成技术进行综述,探讨各类声码器和声学模型的工作原理及其优缺点,在此基础上对语音合成系统进行综述,系统综述经典的基于深度学习的语音合成系统,对基于深度学习的语音合成技术进行展望.
    • 王楷丰
    • 摘要: 语音合成是对人类语音的人工制作,实现将正常语言文本转换为语音是人机交互的重要一环.本文探讨了最近几年语音合成相关的各种技术,尤其是详细介绍了Wavenet和端到端系统的原理,系统综述了基于深度学习的语音合成系统研究的全貌.
    • 伍宏传; 凌震华
    • 摘要: In recent years,WaveNet-based neural vocoder can achieve high quality of reconstructed speech. However,it depends on the amount of speech data because of the speaker-dependent model training method. In this paper,we study the training method of neural vocoders with limited target speaker data. In our proposed method,a speaker-independent WaveNet vocoder is first trained using a multi-speaker speech corpus. Then,the parameters of the speaker-independent model are adaptively updated to obtain the neural vocoder of the target speaker. In our experiments,we compare local updating strategy with global updating strategy in adaptive training,then compare adaptive training method with speaker-dependent training method on the same training data. Experiments show that the neural vocoder constructed by our proposed method can achieve better reconstructed speech quality than STRAIGHT,and the method can achieve better objective and subjective performance than speaker-dependent training with limited target speaker data.%近年来出现的基于WaveNet 的神经网络声码器可以取得较高的重构语音质量,但其采用的话者相关模型训练方法对于目标发音人语音数据量依赖较大. 因此,本文研究目标发音人语音数据量受限情况下的神经网络声码器训练方法. 首先利用多发音人数据训练话者无关声码器模型,进一步利用少量目标发音人数据对话者无关模型进行自适应更新,以得到目标发音人的神经网络声码器模型. 本文实验对比了自适应训练中局部更新与全局更新两种策略,以及自适应与话者相关两种训练方法.实验表明,本文方法构建的神经网络声码器可以取得优于STRAIGHT 声码器的重构语音质量,在目标发音人数据量受限的情况下,该方法相对话者相关训练也可以取得更好的客观和主观性能表现.
    • 陶诗秀1
    • 摘要: 直接当面询问女士的年龄是一件困难的事,即使得到了答案,也不一定正确。这时只能靠举止表现以及外貌来估计,虽说有点难度,但和估计星星的岁数比较起来,还只能算是小意思。因为宇宙的时间尺度远超过人类的想象,如果将整个宇宙史当成一年来看待,伟大的牛顿是在12月31日的最后一秒才出现。但天文学家可有''朝菌知晦朔,蟪蛄知春秋''的本领,可以合理地估算长达数百万甚至一百多亿的年岁。赫罗图是星星一生变化的演示图(如图1),天文学家利用它分析星星的一生,也可以借此推算星星的年龄。
    • 白俊杰1
    • 摘要: 美国研究人员将脑信号直接转化为语言当人们听别人说话甚至想象听别人说话时,脑电波会呈现出特定模式。多年来,科学家一直在尝试解读这类脑电波,并努力将其转化为声音语言。近日,美国哥伦比亚大学研究人员利用语音合成技术与神经网络算法新开发出一种''声码器'',可将受试者倾听数字时产生的脑电波还原为他们听到的声音。测试显示,约75%的情况下,''声码器''能将人脑电波还原为可被人类理解的一串数字。研究人员说,这是开发脑机接口技术的一项关键性进展。未来他们计划利用更加复杂的词汇进行测试,最终目标是开发一款可植入设备,可将中风等说话能力受损的患者的想法转化为语言,让他们重获交流能力。
    • 摘要: 噩梦也会遗传德国《明镜周刊》2018.12卡特琳娜经常做一个噩梦:她和心上人一起奔跑,却突然中枪身亡。最近,她终于知道这个梦因何而来。法兰克福创伤处理研究所的心理学家玛丽安娜·劳瓦尔德发现,父母的可怕遭遇可能会通过遗传信息进入下一代的精神世界。二战期间,卡特琳娜的父亲罗伯特在匈牙利布达佩斯遭到法西斯枪击。
    • 摘要: 美国:研发出直接音译大脑信号的设备据美国媒体近日报道,美国科学家首次研制出的一套新系统,借助语音合成器和人工智能,通过监控某人的大脑活动,将其想法直接转化成了可理解、可识别的语音。研究人员称,此项研究为那些言语能力有限或无法说话的人重新获得与外界沟通的能力奠定了基础,也有望为计算机直接与大脑通信开辟新途径。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号