语音分离
语音分离的相关文献在2000年到2022年内共计316篇,主要集中在无线电电子学、电信技术、自动化技术、计算机技术、自然研究、自然历史
等领域,其中期刊论文91篇、会议论文4篇、专利文献282814篇;相关期刊54种,包括中国传媒大学学报(自然科学版)、电子学报、电子与信息学报等;
相关会议3种,包括中国航海学会通信导航专业委员会2004年学术年会、第十三届全国人机语音通讯学术会议、第二届全国信息获取与处理学术会议等;语音分离的相关文献由628位作者贡献,包括俞栋、周琳、苏丹等。
语音分离—发文量
专利文献>
论文:282814篇
占比:99.97%
总计:282909篇
语音分离
-研究学者
- 俞栋
- 周琳
- 苏丹
- 于蒙
- 孙林慧
- 梁志婷
- 陈联武
- 林永业
- 王珺
- 刘峤
- 刘文举
- 史慧宇
- 吕忆蓝
- 徐波
- 李健
- 欧阳鹏
- 蓝天
- 郭海燕
- 钱宇欣
- 陈孝良
- 颜永红
- 关海欣
- 吴镇扬
- 徐浩
- 冯坤
- 冯大航
- 卢晶
- 叶文政
- 吴玺宏
- 庄琰
- 张晓雷
- 彭川
- 彭超
- 徐世超
- 惠国强
- 曲天书
- 李军锋
- 李平安
- 李枭雄
- 李森
- 李楠
- 李萌
- 李鸿燕
- 梁家恩
- 梁山
- 温正棋
- 王天仪
- 王洋
- 范存航
- 许越
-
-
王凯;
李鸣鹤;
黄志华;
黄浩
-
-
摘要:
传统的单通道语音分离方法主要采用混音作为输入,对其进行分离得到目标说话人的语音.最近的研究表明,将预估计的基频信息注入到原始混音信号中能够提高分离效果,但这种方法最初应用于时频域.近年来,基于时域的语音分离方法已经被验证优于早期的时频域分离方法.基于上述出发点,本文提出基于辅助基频的时域语音分离方法.该方法首先将时域信号输入预分离模块生成预分离语音,并从预分离语音中提取基频;然后将提取的基频与原始混音拼接,作为后分离模块的输入进行第二次分离.本文评估了不同的基频提取方法和训练策略.语音分离实验结果表明:在训练后分离模块时,先使用理想基频与混音融合训练一个理想分离网络,然后用RAPT方法对预分离源提取估计基频注入混音,再进行理想分离网络的微调,能够获得最佳的语音分离性能,比Conv-TasNet基线方法提高了0.5 dB.这说明显式地注入辅助基频信息不仅在时频域语音分离中表现出了有效性,同时也适用于时域语音分离.
-
-
徐庆达;
张二华
-
-
摘要:
人耳听觉系统能够从嘈杂的环境中筛选出自己感兴趣的语音,基于计算听觉场景分析的方法,论文采用倒谱法提取语音基音周期轨迹,以连续的基音周期轨迹为线索,按基音频率的整数倍提取各次谐波的频谱,再通过傅里叶逆变换重构分离后的语音。实验表明,在几种典型噪音环境下,该方法能有效将目标语音从背景噪声中分离,信噪比(SNR)和评价意见分(MOS)得到一定的提升,平均增益分别为5.67dB和0.36。
-
-
张新;
付中华
-
-
摘要:
特定人语音分离算法是指从包含多种说话人同时讲话场景的混合语音中,通过一个特征向量的引导来分离出特定说话人的语音。特征向量的获取通常有两种方式,一种是使用一组自定义的正交独热(one-hot)向量,该方法可以在训练过程中达到更好的训练效果,但是无法处理训练过程中未见过的说话人;另一种方法是使用一个分类网络自适应地生成具有说话人特征的嵌入式向量(embedding),该做法会因为分类网络的误差而损失一部分训练效果,但是可以在集外说话人的样本上取得较好的泛化效果。为了解决在特定人语音分离算法用单独使用one-hot或embedding作为特征向量存在的不足之处,提出了一种鲁棒的特定人语音分离方法,通过在训练过程中交替地使用one-hot向量和embedding作为目标说话人的身份特征向量,将one-hot和embedding映射到公共空间中,可以在保证训练效果的同时,增强对集外说话人的泛化能力。实验结果表明,在使用了这种混合训练方法之后,对于测试集中的集外说话人分离效果上SDR提升超过了10 dB。
-
-
王学健;
王杰;
王小亚;
袁旻忞;
桑晋秋;
蔡娟娟
-
-
摘要:
阿尔兹海默症的识别是预防与治疗该疾病的重要环节,目前的识别及进一步的诊断程序需要医疗专家进行全面检查,消耗大量的成本和时间。本文基于阿尔兹海默症早期认知障碍患者和确诊患者与正常人语言能力的差异,及语音分离模型的语言分类能力,在语音分离模型的基础上加入设计的语言障碍情况鉴别器,提出一种轻量化阿尔兹海默症深度学习识别方法,便于实现对这三种人群的识别,帮助医疗人员进行快速筛查。实验结果表明,本文使用的方法在MFCC特征集上的识别正确率可达84%,相比于基线系统提升约20%,且模型参数量仅有0.54M。此外,在频谱特征集合中,本文模型识别正确率提高约1.4%,参数量为0.23M。在梅尔频谱特征集合中,本文模型识别正确率也提升约4.4%,所需参数量仅为0.21M。
-
-
陈瑶
-
-
摘要:
语音交互技术早在20世纪就被研究者视为追捧的对象。生活中方方面面都离不开交流。早期传统机器学习的方法已经无法满足多元化语音交流的需求。针对语音交互技术存在的分离质量低、结果不准确等问题,利用一种带有时序卷积因子的全卷积分离网络来分离语音,通过编码器混合片段语音,解码器重构语音波形,得到分离结果。实验结果表明,该模型计算量小,延迟相对较短,是解决语音分离相对较优的方法。
-
-
兰朝凤;
刘岩;
赵宏运;
刘春东
-
-
摘要:
在利用深度学习方式进行语音分离的领域,常用卷积神经网络(RNN)循环神经网络进行语音分离,但是该网络模型在分离过程中存在梯度下降问题,分离结果不理想。针对该问题,该文利用长短时记忆网络(LSTM)进行信号分离探索,弥补了RNN网络的不足。多路人声信号分离较为复杂,现阶段所使用的分离方式多是基于频谱映射方式,没有有效利用语音信号空间信息。针对此问题,该文结合波束形成算法和LSTM网络提出了一种波束形成LSTM算法,在TIMIT语音库中随机选取3个说话人的声音文件,利用超指向波束形成算法得到3个不同方向上的波束,提取每一波束中频谱幅度特征,并构建神经网络预测掩蔽值,得到待分离语音信号频谱并重构时域信号,进而实现语音分离。该算法充分利用了语音信号空间特征和信号频域特征。通过实验验证了不同方向语音分离效果,在60°方向该算法与IBM-LSTM网络相比,客观语音质量评估(PESQ)提高了0.59,短时客观可懂(STOI)指标提高了0.06,信噪比(SNR)提高了1.13 dB,另外两个方向上,实验结果同样证明了该算法较IBM-LSTM算法和RNN算法具有更好的分离性能。
-
-
温国伟;
苍岩
-
-
摘要:
针对单通道语音分离算法未充分利用语音的相位信息,导致分离的性能不佳,提出了两步单通道语音分离算法。利用特征提取网络作为编码器,波形重构网络作为解码器进行预训练;加入分离模块,利用该模块对提取的声学特征进行操作,估计独立语音信号的掩模。此外,基于TIMIT语音数据集进行仿真实验,与排列不变训练(Permutation invariant training,PIT)算法及其改进的算法进行对比。实验结果表明,提出的方法在信噪失真比(Signal to noise distortion ratio,SDR),信噪伪影比(Signal to noise artifact ratio,SAR),信噪干扰比(Signal to noise interference ratio,SIR)的结果更高,分离性能更优。
-
-
王志强;
王涛;
金志文
-
-
摘要:
随着人工智能物联网(artificial intelligence&internet of things,AIoT)的发展,硬件技术的飞速进步,更多的智能音箱进入人们的生活,人机交互方式也从早期的遥控变成了人声控制.但设备中麦克风采集到的语音信号往往含有大量噪声和干扰人声,为此需对麦克风采集到的语音进行语音分离处理.常用的技术有频域独立成分分析(independent component analysis,ICA),但是频域ICA存在次序不确定性问题,即将分离出的源1分量分类到源2通道,将分离出的源2分量分类到源1通道,从而导致分离性能大大降低.为此,提出一种基于语音能量比来解决频域ICA中次序不确定性问题的算法,有效地提高了分离性能.在SiSEC(Signal Separation Evaluation Campaign)、ChiME(Challenge for Computational Hearing in Multisoure Environments)数据集上对分离性能进行实验,所得结果比已有算法均有提升,且针对强混响环境下的混合信号依然保持良好的分离性能.
-
-
孙林慧;
王灿;
梁文清;
李平安
-
-
摘要:
为了提高单通道语音分离性能,该文提出基于深度学习特征融合和联合约束的单通道语音分离方法。传统基于深度学习的分离算法的损失函数只考虑了预测值和真实值的误差,这使得分离后的语音与纯净语音之间误差较大。该文提出一种新的联合约束损失函数,该损失函数不仅约束了理想比值掩蔽的预测值和真实值的误差,还惩罚了相应幅度谱的误差。另外,为了充分利用多种特征的互补性,提出一种含特征融合层的卷积神经网络(CNN)结构。利用该CNN提取多通道输入特征的深度特征,并在融合层中将深度特征与声学特征融合用来训练分离模型。由于融合构成的特征含有丰富的语音信息,具有强的语音信号表征能力,使得分离模型预测的掩蔽更加准确。实验结果表明,从信号失真比(SDR)、主观语音质量评估(PESQ)和短时客观可懂度(STOI)3个方面评价,相比其他优秀的基于深度学习的语音分离方法,该方法能够更有效地分离目标语音。
-
-
陆炜;
朱定局
-
-
摘要:
语音分离是声学信号处理中的一项基本任务,具有广泛的应用。得益于深度学习的发展,近年来单通道语音分离系统的性能有了显着提升。特别是,随着一种被称为时域音频网络(Time-domain audio separation Network,TasNet)的新语音分离方法被提出,语音分离技术的研究也逐步从基于时-频域的传统方法过渡至基于时域的方法。本文综述基于TasNet的单通道语音分离技术的研究现状与展望。在回顾基于时-频域的语音分离传统方法之后,本文重点介绍基于TasNet的Conv-TasNet模型以及DPRNN模型,并对比针对各模型的改进研究。最后,本文阐述目前基于TasNet的单通道语音分离模型的局限性,并从模型、数据集、说话人数量以及如何解决复杂场景下的语音分离等层面对未来的研究方向进行讨论。
-
-
林静然;
彭启琮;
邵怀宗
- 《第二届全国信息获取与处理学术会议》
| 2004年
-
摘要:
提出了一种新的基于麦克风阵列的近场声源定位和语音分离算法,它结合双束束二维定位和近场最小方差波束形成技术在阵列近场范围内实现声源定位和语音分离.使用双波束进行二维定位能解决2D-Music运算量过大和实现困难的问题.在双波束二维定位的基础上,使用基于麦克风阵列近场模型的最小方差波束形成技术进行语音分离,它比常规最小方差波束形成技术更适用于近场内的语音分离.最后,仿真结果验证了该算法的正确性和可行性.
-
-
-
屠彦辉;
杜俊;
殷兵;
何山;
吴侠
- 《第十三届全国人机语音通讯学术会议》
| 2015年
-
摘要:
语音段检测技术在监听等情形下有着重要应用.传统的说话人分类方法在两人音色较相似以及双边说话人语音时长很不均衡的数据效果不佳,这时候极易出现大类错误.本文提出一种基于深层网络(DNN)分离的改进目标说话人语音段检测方法,通过语音分离技术的引入,有效地解决了语音段检测中大类错误问题,并能够进一步提高检测的准确性.在非平稳噪声和信噪比较低的情况下,标定准确,鲁棒性好.也为语音段检测提供了一种新思路.
-