声码器
声码器的相关文献在1981年到2022年内共计427篇,主要集中在无线电电子学、电信技术、自动化技术、计算机技术、军事技术
等领域,其中期刊论文225篇、会议论文24篇、专利文献2873852篇;相关期刊119种,包括电子学报、电信科学、通信技术等;
相关会议21种,包括浙江省电子学会2011学术年会、第五届全国“信号与信息处理”联合学术会议暨陕西省生物医学工程学会二〇〇六年学术年会、中国航海学会通信导航专业委员会2006年学术年会暨2006年全国船舶通信导航学术年会等;声码器的相关文献由595位作者贡献,包括崔慧娟、威廉·R·加德纳、唐昆等。
声码器—发文量
专利文献>
论文:2873852篇
占比:99.99%
总计:2874101篇
声码器
-研究学者
- 崔慧娟
- 威廉·R·加德纳
- 唐昆
- 李晔
- 洪侃
- S·凯瑟琳·兰姆
- 克莱恩·S·吉豪森
- 冲·U·李
- 庞潼川
- 民昌·蔡
- 张雄伟
- 保罗·E·雅各布
- 安德鲁·P·德雅克
- 杨成功
- 王炳锡
- 王沁
- 陈新富
- 何伟
- 夏红兵
- 孙涛
- 张诗壮
- 彭坦
- 王立军
- 罗希特·卡普尔
- 肖荣建
- 辛勤
- 马文光
- 颜夕宏
- K·H·埃尔玛莱
- 侯方勇
- 保罗·E·雅各布斯
- 塞拉芬·迪亚兹·斯平多拉
- 孙健
- 孙晨曦
- 宫晓飞
- 张杰
- 张正阳
- 张生平
- 张鹏
- 樊昌信
- 温正棋
- 王主磊
- 福雷德里克·纳格尔
- 秦龙
- 荆涛
- 萨沙·迪施
- 陈亮
- 陈冰雪
- 陈显治
- 陶建华
-
-
刘畅;
魏为民;
孟繁星;
才智
-
-
摘要:
语音风格迁移技术指在不改变说话内容的前提下,将源说话人的音色或语音风格转换为目标说话人的音色或语音风格。随着人们对社交媒体隐私保护等方面的迫切需求和基于神经网络篡改技术的快速发展,语音风格迁移技术在领域内被深入研究。在语音风格迁移基本原理的基础上,从声码器、语料对齐以及迁移模型3个重要影响因素的角度对研究现状进行分析,主要包括传统声码器与WaveNet声码器、平行语料与非平行语料以及传统迁移模型与神经网络模型,归纳出目前语音风格迁移技术存在的问题与挑战,并对发展方向进行展望。
-
-
唐君;
张连海;
李嘉欣;
李宜亭
-
-
摘要:
HiFi-GAN声码器通过采用缩减网络层的通道数或层数的方式来有效减少模型参数、提高推理速度,但此种方式也严重损害了生成语音的质量。针对此问题,提出了两点改进措施:1.采用多尺度卷积策略对输入Mel谱进行处理来有效表征特征信息;2.采用一维深度可分离卷积替换生成器网络中的标准一维卷积。实验结果表明,多尺度卷积策略有效提升了模型性能,提高了生成语音的质量,而一维深度可分离卷积显著减少了模型参数量并加快了模型推理速度。通过将这两者结合,有效提升了HiFi-GAN模型的性能,具体来说,模型参数量约减少了67.72%,在GPU、CPU上的推理速度分别提升了11.72%、28.98%。此外,语音质量也得到略微提升,平均主观意见分(Mean Opinion Score,MOS)提升了0.07,客观语音质量评估(Perceptual Evaluation of Speech Quality,PESQ)得分提升了0.05。
-
-
张小峰;
谢钧;
罗健欣;
杨涛
-
-
摘要:
语音合成技术在人机交互中扮演着重要角色,深度学习的发展带动语音合成技术高速发展.基于深度学习的语音合成技术在合成语音的质量和速度上都超过了传统语音合成技术.从基于深度学习的声码器和声学模型出发对语音合成技术进行综述,探讨各类声码器和声学模型的工作原理及其优缺点,在此基础上对语音合成系统进行综述,系统综述经典的基于深度学习的语音合成系统,对基于深度学习的语音合成技术进行展望.
-
-
王楷丰
-
-
摘要:
语音合成是对人类语音的人工制作,实现将正常语言文本转换为语音是人机交互的重要一环.本文探讨了最近几年语音合成相关的各种技术,尤其是详细介绍了Wavenet和端到端系统的原理,系统综述了基于深度学习的语音合成系统研究的全貌.
-
-
伍宏传;
凌震华
-
-
摘要:
In recent years,WaveNet-based neural vocoder can achieve high quality of reconstructed speech. However,it depends on the amount of speech data because of the speaker-dependent model training method. In this paper,we study the training method of neural vocoders with limited target speaker data. In our proposed method,a speaker-independent WaveNet vocoder is first trained using a multi-speaker speech corpus. Then,the parameters of the speaker-independent model are adaptively updated to obtain the neural vocoder of the target speaker. In our experiments,we compare local updating strategy with global updating strategy in adaptive training,then compare adaptive training method with speaker-dependent training method on the same training data. Experiments show that the neural vocoder constructed by our proposed method can achieve better reconstructed speech quality than STRAIGHT,and the method can achieve better objective and subjective performance than speaker-dependent training with limited target speaker data.%近年来出现的基于WaveNet 的神经网络声码器可以取得较高的重构语音质量,但其采用的话者相关模型训练方法对于目标发音人语音数据量依赖较大. 因此,本文研究目标发音人语音数据量受限情况下的神经网络声码器训练方法. 首先利用多发音人数据训练话者无关声码器模型,进一步利用少量目标发音人数据对话者无关模型进行自适应更新,以得到目标发音人的神经网络声码器模型. 本文实验对比了自适应训练中局部更新与全局更新两种策略,以及自适应与话者相关两种训练方法.实验表明,本文方法构建的神经网络声码器可以取得优于STRAIGHT 声码器的重构语音质量,在目标发音人数据量受限的情况下,该方法相对话者相关训练也可以取得更好的客观和主观性能表现.
-
-
陶诗秀1
-
-
摘要:
直接当面询问女士的年龄是一件困难的事,即使得到了答案,也不一定正确。这时只能靠举止表现以及外貌来估计,虽说有点难度,但和估计星星的岁数比较起来,还只能算是小意思。因为宇宙的时间尺度远超过人类的想象,如果将整个宇宙史当成一年来看待,伟大的牛顿是在12月31日的最后一秒才出现。但天文学家可有''朝菌知晦朔,蟪蛄知春秋''的本领,可以合理地估算长达数百万甚至一百多亿的年岁。赫罗图是星星一生变化的演示图(如图1),天文学家利用它分析星星的一生,也可以借此推算星星的年龄。
-
-
白俊杰1
-
-
摘要:
美国研究人员将脑信号直接转化为语言当人们听别人说话甚至想象听别人说话时,脑电波会呈现出特定模式。多年来,科学家一直在尝试解读这类脑电波,并努力将其转化为声音语言。近日,美国哥伦比亚大学研究人员利用语音合成技术与神经网络算法新开发出一种''声码器'',可将受试者倾听数字时产生的脑电波还原为他们听到的声音。测试显示,约75%的情况下,''声码器''能将人脑电波还原为可被人类理解的一串数字。研究人员说,这是开发脑机接口技术的一项关键性进展。未来他们计划利用更加复杂的词汇进行测试,最终目标是开发一款可植入设备,可将中风等说话能力受损的患者的想法转化为语言,让他们重获交流能力。
-
-
-
-
摘要:
噩梦也会遗传德国《明镜周刊》2018.12卡特琳娜经常做一个噩梦:她和心上人一起奔跑,却突然中枪身亡。最近,她终于知道这个梦因何而来。法兰克福创伤处理研究所的心理学家玛丽安娜·劳瓦尔德发现,父母的可怕遭遇可能会通过遗传信息进入下一代的精神世界。二战期间,卡特琳娜的父亲罗伯特在匈牙利布达佩斯遭到法西斯枪击。
-
-
-
-
摘要:
美国:研发出直接音译大脑信号的设备据美国媒体近日报道,美国科学家首次研制出的一套新系统,借助语音合成器和人工智能,通过监控某人的大脑活动,将其想法直接转化成了可理解、可识别的语音。研究人员称,此项研究为那些言语能力有限或无法说话的人重新获得与外界沟通的能力奠定了基础,也有望为计算机直接与大脑通信开辟新途径。
-
-
-
-
吕声;
王炳锡
- 《中国航空学会第六届航空通讯技术交流会》
| 2002年
-
摘要:
本文首先介绍美国国防部语音信号数字处理协会(DDVPC)在选择新的2.4kbps语音压缩编码标准时所用的声码器测试的主观评价方法,主要是采用DRT进行可懂度测试,采用DAM、MOS和DMOS进行话音质量测试,采用SAME-DIFFERENT进行说话人识别测试,采用ACE-95进行通信适应性的测试.此外,还简要介绍目前国内外正在进行研究的客观评价方法.
-
-
-
-
-
-
李莉;
王炳锡
- 《第十一届全国信号处理学术年会》
| 2003年
-
摘要:
后置滤波技术作为语音增强的一种方法在语音编码中得到广泛的应用.8kbps QCELP是一种变速率语音编码算法,其自适应后置滤波器由短时后置滤波器、频谱倾斜补偿滤波器和自动增益控制(AGC)三部分组成.这种自适应后置滤波器能够显著改善合成语音的主观质量,而且语音失真小,计算复杂度低.本文详细介绍了自适应后置滤波器中各个组成部分,并与其它变速率语音编码中的后置滤波器进行了比较.
-
-
-
丁琦;
徐金甫;
王炳锡
- 《第十二届全国信号处理学术会议》
| 2005年
-
摘要:
本文提出了一种基于MELP编码器的速率可变的极低速率语音编码算法.该算法采用超级帧结构和参数联合矢量化技术降低语音信号帧间的冗余度,利用超级帧中各帧线性预测滤波器的相似性,使用变速率语音编码技术降低平均比特率.文中定义了一个新的LSF距离测度,用来度量两组不同的LSF参数所表征的滤波器间的差别,并由距离测度决定每超级帧的速率.对算法解码语音质量的客观测试表明本文提出的语音编码算法可以在所使用的560bps和800bps两种速率下保持可接受的语音质量.
-
-
丁琦;
徐金甫;
王炳锡
- 《第十二届全国信号处理学术会议》
| 2005年
-
摘要:
本文提出了一种基于MELP编码器的速率可变的极低速率语音编码算法.该算法采用超级帧结构和参数联合矢量化技术降低语音信号帧间的冗余度,利用超级帧中各帧线性预测滤波器的相似性,使用变速率语音编码技术降低平均比特率.文中定义了一个新的LSF距离测度,用来度量两组不同的LSF参数所表征的滤波器间的差别,并由距离测度决定每超级帧的速率.对算法解码语音质量的客观测试表明本文提出的语音编码算法可以在所使用的560bps和800bps两种速率下保持可接受的语音质量.