语音增强
语音增强的相关文献在1957年到2023年内共计2133篇,主要集中在无线电电子学、电信技术、自动化技术、计算机技术、物理学
等领域,其中期刊论文1089篇、会议论文127篇、专利文献170832篇;相关期刊321种,包括电子学报、电子与信息学报、数据采集与处理等;
相关会议88种,包括第十二届全国人机语言通讯学术会议(NCMMSC`2013)、第十六届全国信号处理学术年会及产业发展大会、第23届全国计算机新科技与计算机教育学术会议等;语音增强的相关文献由3347位作者贡献,包括张雄伟、曾庆宁、赵力等。
语音增强—发文量
专利文献>
论文:170832篇
占比:99.29%
总计:172048篇
语音增强
-研究学者
- 张雄伟
- 曾庆宁
- 赵力
- 童峰
- 贾海蓉
- 叶利剑
- 宁更新
- 张雪英
- 蓝天
- 赵晓晖
- 邹霞
- 颜永红
- 马建芬
- 冯义志
- 刘峤
- 张军
- 李晓东
- 鲍长春
- 余华
- 叶中付
- 季飞
- 李如玮
- 梁瑞宇
- 王青云
- 袁文浩
- 赵鹤鸣
- 张晨
- 张正友
- 张涛
- 殷福亮
- 洪青阳
- 郑羲光
- 周跃海
- 李森
- 欧世峰
- 王冬霞
- 陶智
- 高勇
- 刘自成
- 吕忆蓝
- 彭川
- 郭英
- 陈紫强
- 叶文政
- 惠国强
- 李萌
- 杜利民
- 王健宗
- 谢跃
- 郑成诗
-
-
蓝天;
彭川;
李森;
钱宇欣;
陈聪;
刘峤
-
-
摘要:
为提高神经网络对语音信号时域波形的直接处理能力,提出了一种基于RefineNet的端到端语音增强方法.本文构建了一个时频分析神经网络,模拟语音信号处理中的短时傅里叶变换,利用RefineNet网络学习含噪语音到纯净语音的特征映射.在模型训练阶段,用多目标联合优化的训练策略将语音增强的评价指标短时客观可懂度(Short-time objective intelligibility,STOI)与信源失真比(Source to distortion ratio,SDR)融入到训练的损失函数.在与具有代表性的传统方法和端到端的深度学习方法的对比实验中,本文提出的算法在客观评价指标上均取得了最好的增强效果,并且在未知噪声和低信噪比条件下表现出更好的抗噪性.
-
-
王童;
王雨田;
王晖;
张勤
-
-
摘要:
电影经历了百余年的历史,一些记录老电影音频的感光胶片由于受到时间侵蚀和人为损坏,产生了霉斑、划痕等痕迹,导致还音时出现了背景噪声,影响听感。目前国内外针对老电影的音频修复主要依靠人工,工作量大、修复周期长。深度学习的发展使机器在音频修复方面代替人工成为可能。本文将基于生成对抗网络的语音增强模型SEGAN应用于老电影音频修复当中,并结合老电影音频的噪声特点对模型进行改进。在判别器中加入矢量量化层以匹配生成器性能,在生成器中加入频域损失,使降噪后的音频在频域上与干净音频更加相似。实验结果表明,本文提出的方法能够进一步提高老电影音频的降噪效果,各客观评价指标均有所提升。
-
-
付英;
刘增力
-
-
摘要:
针对汉语方言识别率低和在噪声环境下鲁棒性差问题,将特征提取与语音增强结合,提出一种基于变分模态分解(Variational Mode Decomposition,VMD)的改进梅尔频率倒谱系数(MelFrequency Cepstral Coefficients,MFCC)和Teager能量算子倒谱系数(Teager Energy Operator Cepstral Coefficient,TEOCC)融合的特征提取算法。该算法先将方言信号经VMD改进算法提取特征后再与TEOCC融合,最后通过高斯混合通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)进行方言语种识别。实验结果表明:相对于单一的MFCC特征,所提方法在无噪和有噪环境下识别率均有所提升,验证了改进算法在方言语种识别中的有效性。
-
-
崔智恒;
焦继业;
祝禛天
-
-
摘要:
为了满足小型化嵌入式设备语音增强对阵列体积和语音增强性能的需求,提出了一种基于一阶差分阵列的双麦克风语音增强改进算法,并给出了硬件实现方案。针对现有算法容易因静音段估计不准确造成语音增强性能下降这一问题,引入了语音活动检测,通过语音活动检测对有无声段进行判别,实现对静音段的准确估计。实验结果表明,引入语音活动检测可以有效提高语音增强的质量,相较于改进前,语音PESQ得分平均提高20.18%;基于该改进方案的FPGA硬件实现,在结果准确性方面,与纯浮点Matlab平台等效,在实时性方面,处理1 s的16 kHz语音仅需要1.92 ms,可实现实时语音增强。
-
-
徐峰;
李平
-
-
摘要:
本文提出基于生成对抗网络设计的DVUGAN模型,用于语音增强任务。该模型工作在变换域上,输入采用STDCT特征,该特征能隐式表达相位,可在实值网络中学习,避免了复频域复杂网络或处理,利用相位的同时降低模型复杂度;生成器采用变分U-Net编解码器,集成DDSP组件利用强归纳偏置显著提升自动编码器性能,变分概率瓶颈改善脉冲噪声源的抑制,增加对未知数据分布的鲁棒性;引入DDSP中的Multi-Scale Spectral Loss,利用振荡器感知偏差,指导生成器优化感知性能;将SI-SNR Loss优化判别器性能,以平衡生成对抗网络结构,促使模型稳定训练。该模型在DNS开发数据集和Voice Bank+DEMAND数据集下评估优于基线模型和最近部分研究,证明了本文提出的DVUGAN在变换域语音增强领域的优越性。
-
-
许春冬;
徐琅;
周滨
-
-
摘要:
语音增强的目的是从带噪语音中恢复出干净的语音信号,为了解决现有深度神经网络中语音增强算法不稳定,语音增强效果不理想的问题,提出一种改进的U⁃Net网络与残差神经网络相结合的语音增强算法。首先,该方法构建了一个基于U⁃Net网络的端到端的语音增强模型;然后在该模型的编解码块中引入残差单元,将残差神经网络结构的跨层连接和拟合残差项应用到模型训练中,该方法更有利于恢复目标语音的细节特征信息,增强了模型训练的稳定性,提高了模型的特征提取能力和训练效率,改进后的Residual⁃U⁃Net网络模型能够实现更优的语音增强效果。仿真实验结果表明:与现有的其他几种语音增强方法相比,文中所提出的Residual⁃U⁃Net算法更有效地实现了语音增强,此外,该算法具有良好的去噪效果,进一步提高了语音信号的质量及其可懂度。
-
-
张敏;
贾海蓉;
张刚敏;
王素英
-
-
摘要:
针对采用梅尔域特征进行语音增强时存在有效特征丢失的问题,提出采用更符合人耳压缩感知的幂函数提取带噪语音的伽马通域特征,将其与梅尔域特征深度混合进行语音增强,用于改善梅尔域滤波器在高频处丢失有效特征的局限性。同时,为了捕获语音的瞬变信息和相邻帧语音信息间的联系,求取混合特征的差分导数,将其与初始特征融合得到混合特征。其次,由于传统的时频掩蔽无法根据信噪比的不同自动调节,从而影响了增强语音的可懂度。为使系统在提升语音质量的同时尽可能地减少语音失真,提出一种可以根据信噪比信息自适应调节的软掩模,其可以根据语音信噪比信息的不同进行自动调节,得到相应信噪比条件下的掩蔽值,并在其中融入可提升语音可懂度的相位差信息。最后,对不同噪声背景下的多条语音进行实验。实验结果表明,采用混合特征和自适应软掩模进行语音增强时,保持了语音频谱的完整性,可提升主观语音增强质量和短时客观可懂度,验证了所提算法的有效性。
-
-
尹文兵;
高戈;
曾邦;
王霄;
陈怡
-
-
摘要:
传统基于生成对抗网络的语音增强算法(Speech Enhancement Algorithm Based on Generative Adversarial Networks,SEGAN)在时域上对语音进行增强处理,完全忽略了语音样本在频域上的分布情况。在低信噪比条件下,语音信号会淹没在噪声中,带噪语音的时域分布信息很难捕获,因此,SEGAN的增强性能会急剧下降,其增强语音的语音质量和语音可懂度很低。针对该问题,提出了基于时频域生成对抗网络的语音增强算法(Time-Frequency Domain SEGAN,TFSEGAN)。TFSEGAN采用了时频域双判别器的模型结构和时频域L1损失函数,时域判别器的输入为语音样本的时域特征,频域判别器的输入为语音样本的频域特征。在训练过程中,时域判别器将语音样本的时域分布信息作为判别标准,而频域判别器将语音样本的频域分布信息作为判别标准。在两个判别器的作用下,TFSEGAN的生成器能够同时学习语音样本在时域和频域中的分布规律和信息。实验证明,在低信噪比条件下,与SEGAN相比,TFSEGAN的语音质量与可懂度分别提升了约17.45%和11.75%。
-
-
曾金芳;
张新;
刘雨杏
-
-
摘要:
为减少噪声污染,改善语音质量,语音增强是解决噪声污染的一种有效方法。针对传统语音增强在语音质量和语音可懂度方面的不足,对传统算法进行改进是非常有必要的。研究了将带噪声音基于自适应的完备经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)处理,将带噪语音转化为多个模态分量进行第二阶处理。当带噪语音为低信噪比时,语音采用快速独立成分分析(Fast Independent Component Analysis,Fast ICA)算法进行噪声分离,再通过对数最小均方误差(log Minimum Mean Square Error Estimation,log-MMSE)算法对分离后的带噪分量进一步处理,最后合成语音。当带噪语音处于高信噪比时,不需要对噪声进行剥离,直接采用最小均方误差(Minimum Mean Square Error Estimation,MMSE)算法对带噪分量进行处理,使输出较为清晰的语音。结果表明,改进算法对语音的增强效果明显。
-
-
李思嘉;
赵婧;
蔡树阳
-
-
摘要:
基于小波去噪理论实现了阈值法语音增强算法,传统的软阈值法与硬阈值法在去噪处理上均有不足,经过软阈值法处理的语音信号与原始信号相比存在恒定误差,经过硬阈值法处理的语音信号不够光滑,且附加震荡的存在。在软硬阈值法的基础上提出了一种改进的软硬阈值折衷算法,提出的改进软硬阈值折衷算法和传统的阈值算法相比其适应性更优,克服了硬阈值函数不连续的缺点,减小了软阈值函数中估计小波系数与分解小波系数的恒定偏差,仿真结果说明,根据噪声信号的不同,通过修改式中系数,可得到比传统阈值法去噪更优的结果。
-
-
YU Liang;
余亮;
WU Haijun;
吴海军;
JIANG Weikang;
蒋伟康
- 《第二十八届全国振动与噪声高技术应用学术会议》
| 2018年
-
摘要:
后端滤波处理是多通道语音增强系统中一种比较常用的技术,其目的是为了进一步提高语音增强系统的性能,提高波束形成后的输出信噪比.但是,常用的后滤波方法需要相当繁琐的参数调整过程才能实现噪声抑制和语音质量之间的合理权衡.本文提出一种基于最小方差无畸变(MVDR)波束形成和生成对抗深层神经网络相结合的多通道语音增强算法.前端使用波束形成器对信号进行初步增强;后端滤波处理采用生成对抗深层神经网络,避免了繁琐的参数调整过程.实验系统是通过MATLAB和TensorFlow仿真实现,结果证明了该方法的有效性.
-
-
ZHENG Wan-rong;
郑婉蓉;
XIE Ling-yun;
谢凌云
- 《2018年全国声学大会》
| 2018年
-
摘要:
声音和图像分别是听觉和视觉两种模态接收的输入信息,在数字信号处理领域有着各自不同的处理方法.将图像的处理方法运用到声音上,这种跨模态处理方法为视听交互和融合的相关研究提供分析思路,激发新的数字信号处理方法.已经有不少研究将图像处理的特征用于声音信号的分类.本文则提出了一种基于语谱图图像处理的语音增强方法,通过对带噪语音的语谱图进行灰度变换,可以有效滤除噪声,达到语音增强的目的.
-
-
胡玥;
郑正;
潘翔
- 《浙江省信号处理学会2015学术年会》
| 2015年
-
摘要:
本文介绍了一种宽带语音信号的波束形成方法,针对语音信号在远距离传播上衰减和干扰都较高的特性,对波束形成后的信号在频域上进行维纳滤波,得到一个比较高的信噪比.实验证明,波束形成在语音增强方面有着显著的作用,能提高信噪比,因此可以运用于远距离语音增强技术.
-
-
-
LIU Bin;
刘斌;
TAO Jianhua;
陶建华;
MO Fuyuan;
莫福源
- 《第十三届全国人机语音通讯学术会议》
| 2015年
-
摘要:
本文提出了一种基于分析合成框架的语音增强算法;应用一种改进的基于多带梳状滤波方法计算基音周期并判定各个子带的清浊状态;相对于不同基线方法,改进后的算法具有更低基音周期估计误差和更高的清浊判定准确率;引入深层神经网络模型增强线谱对参数,通过该模型重构的线谱对参数误差低于传统方法;将改进基音周期估计方法和线谱对增强方法应用到基于分析合成框架的语音增强算法中,实验结果表明,这种基于分析合成框架的语音增强算法的性能优于各种基线方法,集外测试具有更高的PESQ得分.此外上述改进的方法可以直接应用到参数化语音编码算法中,尤其可以改善噪声环境下低速率语音编码的音质.
-
-
WANG Xuzhen;
王旭贞;
YING Na;
应娜;
JIAN Zhihua;
简志华
- 《浙江省信号处理学会2014学术年会》
| 2014年
-
摘要:
针对传统的对数域最小均方误差(Minimun mean square error short time log spectral amplitude estimation,MMSE-LSA)算法的噪声功率谱估计不适应实际的非平稳噪声和先验信噪比估计准确度不高的缺点,提出了一种改进的MMSE-LSA的语音增强算法.首先采用能有效追踪非平稳噪声的双向最小值约束递归平均的噪声谱估计方法(Minima controlled recursive averaging,MCRA)算法对噪声进行估计,然后结合对实际语音功率谱估计有较高估计准确度的非因果先验信噪比估计方法,从而改善传统的MMSE-LSA算法,进一步消除噪声.仿真结果表明,在非平稳噪声下,改进算法抑制背景噪声和残留的音乐噪声的效果有较大的改善,提高信噪比,并保持较好的语音质量.
-
-
ZHOU He-feng;
周鹤峰;
ZHAO Yun;
赵云;
TIAN Zhang-fu;
田章福;
GAO Dong-bao;
高东宝;
ZENG Yang;
曾旸
- 《2018年全国声学大会》
| 2018年
-
摘要:
作为语音增强与声源定位领域的一项关键技术,时延估计(Time delay estimation,TDE)就是利用传声器阵列接收目标声源信号,根据不同位置的传声器接收到的声信号之间的时间差来确定目标声源的空间位置.在传声器阵列固定的条件下,TDE的计算精度直接决定了目标的定位精度.TDE算法主要包括广义互相关(Generalized cross cor-relation,GCC)算法、最小均方自适应算法、互功率谱相位法、高阶统计量法等.其中GCC算法原理较为简单,计算量较小,易于实时实现.尽管具备上述优点,针对低信噪比和非稳态的信号,GCC算法的处理效果不佳,相应的声源定位精度较差,而这类信号普遍存在于实际场景中,这就极大限制了GCC算法的应用.
-
-
ZHENG Wan-rong;
郑婉蓉;
XIE Ling-yun;
谢凌云
- 《2017首届文化科技学术会议》
| 2017年
-
摘要:
声音和图像分别是听觉和视觉两种模态接收的输入信息,在数字信号处理领域有着各自不同的处理方法.随着对视听交互的心理感知及其神经机理研究的逐渐兴起,信号处理方法的跨模态应用也开始受到关注,声音(图像)的处理方法被创造性地运用到图像(声音)对象上去.这种声音—图像的跨模态处理方法能够为视听交互和融合的相关研究提供有价值的分析思路,同时也可以激发新的数字信号处理方法.对目前已有的声音—图像跨模态处理方法的研究成果进行了概述,进行了简要分析并指出其特点,同时提出了一种将语谱图图像处理用于语音增强的新方法.
-
-
郑正;
胡玥;
潘翔
- 《浙江省信号处理学会2015学术年会》
| 2015年
-
摘要:
本文介绍了基于抽头延迟线的时域波束形成算法及其自适应算法,并根据语音信号超高斯的特点,设计了基于抽头延迟线的时域最大峰度的广义旁瓣抵消器.最后,使用线性麦克风阵列采集语音信号,应用波束形成算法对低信噪比环境下的语音信号增强,并且对多种波束形成算法进行了比较与分析.基于最大峰度的广义旁瓣抵消器具有最高的信噪比增益,性能最好.
-
-
郑正;
胡玥;
潘翔
- 《浙江省信号处理学会2015学术年会》
| 2015年
-
摘要:
本文介绍了基于抽头延迟线的时域波束形成算法及其自适应算法,并根据语音信号超高斯的特点,设计了基于抽头延迟线的时域最大峰度的广义旁瓣抵消器.最后,使用线性麦克风阵列采集语音信号,应用波束形成算法对低信噪比环境下的语音信号增强,并且对多种波束形成算法进行了比较与分析.基于最大峰度的广义旁瓣抵消器具有最高的信噪比增益,性能最好.