首页> 中国专利> 基于声纹特征实现静谧通话的方法

基于声纹特征实现静谧通话的方法

摘要

本发明公开了一种基于声纹特征实现静谧通话的方法,具体包括如下步骤:步骤1,对通话者的声音进行声纹特征提取,建立声纹库;步骤2,实时采集正在通话的声音样本,将该声纹样本中的声纹特征与步骤1建立的声纹库中的声纹特征进行点积处理,得到与通话者声音相关的声纹特征;步骤3,对步骤2获取的声纹特征进行重构,获取无任何噪音的目标声音,实现静谧通话。

著录项

  • 公开/公告号CN114974285A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 西安宏硕铭宇科技有限公司;

    申请/专利号CN202210666016.0

  • 发明设计人 左宏;刘启达;郝晓宇;张堰铭;

    申请日2022-06-13

  • 分类号G10L21/0208(2013.01);G10L25/24(2013.01);G10L17/02(2013.01);

  • 代理机构西安弘理专利事务所 61214;

  • 代理人许志蛟

  • 地址 710000 陕西省西安市高新区高新一路18号海归楼4层1896创客空间4136号

  • 入库时间 2023-06-19 16:33:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G10L21/0208 专利申请号:2022106660160 申请日:20220613

    实质审查的生效

说明书

技术领域

本发明属于音频处理与电信通话技术领域,涉及一种基于声纹特征实现静谧通话的方法。

背景技术

每个人都具有独特的声纹特征,音质、音长、语速、韵律等特征都存在差异。因此,声纹特征就像指纹特征一样,具有独特性和可识别性,且声纹特征是更加稳定的生物特征,基于此,可以对不同的声音进行有效区分。

在某些应用场景,例如,语音通话时,在大街上、地铁车厢内、高速行驶的汽车,因复杂的环境噪音不仅导致通话端的声音品质降低,而且受话端无法听清;音乐录制时,为了提高录制质量,降低背景噪音,需要采用价值昂贵的录音棚进行录制,且需要在特定的地点录制。

发明内容

本发明的目的是提供一种基于声纹特征实现静谧通话的方法,该方法能够提取并放大语音输入端的目标声音,滤除背景音及其他人的杂音等,极大的提高通话、会议及录音质量,提升用户体验。

本发明所采用的技术方案是,基于声纹特征实现静谧通话的方法,具体包括如下步骤:

步骤1,对通话者的声音进行声纹特征提取,建立声纹库;

步骤2,实时采集正在通话的声音样本,将该声纹样本中的声纹特征与步骤1建立的声纹库中的声纹特征进行点积处理,得到与通话者声音相关的声纹特征;

步骤3,对步骤2获取的声纹特征进行重构,获取无任何噪音的目标声音,实现静谧通话。

本发明的特点还在于:

步骤1中,采用线性倒谱系数法、梅尔倒谱系数法或感知线性预测系数法中的一种进行声纹特征提取。

步骤2中,将实时采用的声音样本的声纹特征与步骤1建立的声纹库中的声纹特征进行小波变换或傅里叶变换,得到与通话者声音相关的声纹特征。

步骤2中,所述小波变换或快速傅里叶变换处理过程中,当嘈杂声场的声纹特征中包含通话者的目标声纹特征时,嘈杂声场的声纹特征与通话者的目标声纹特征二者的点积结果为非零,而与通话者声纹特征没有关联的其它杂音声纹特征,通过嘈杂声场的声纹特征与通话者的目标声纹特征二者的点积处理,结果均为零。

步骤3中,对步骤2中经过小波变换或者傅里叶变换后所得到得非零部分进行逆变换,由傅里叶逆变换

本发明的有益效果是,可应用于语音通话、高清会议系统及“虚拟录音棚”等场景,能够有效在通话、会议、录音等功能中,提取并放大语音输入端的目标声音,滤除背景及其他人的杂音等,极大的提高通话、会议及录音质量,提升用户体验。

附图说明

图1是本发明基于声纹特征实现静谧通话的方法的流程图;

图2是本发明基于声纹特征实现静谧通话的方法中采用的梅尔频率倒谱系数法进行声纹特征提取的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于声纹特征实现静谧通话的方法,如图1所示,首先需要对通话者的声音(即目标声音)进行声纹特征的提取与存档。获取所述通话者的声音样本,提取其声纹特征,并将其声纹特征存档。所述声纹特征提取的方法可通过录制目标声音任意一段时间的语言样本,利用线性预测倒谱系数、梅尔频率倒谱系数或感知线性预测系数等方法提取所述目标声音的声纹特征,并将声纹特征存档,命名为特征库,后续的所有处理皆基于该特征库。

当通话者处于嘈杂声场环境时,欲实现静谧通话,还需建立实现此功能的软件。所述功能的具体的思路及处理过程为:首先,在通话时,实时采集并提取嘈杂声场各声波的声纹特征;其次,将其与已存储通话者的声纹进行小波变换或快速傅里叶变换,从而滤除通话者以外杂音的声纹;最后,对经过小波变换或快速傅里叶变换后获得的只保留与通话者声纹相关的声纹特征,进行反变换,进而合成为新形成的通话者纯净语音,再经过放大处理等,实现通话者在嘈杂环境中的静谧通话。

具体包括如下步骤:

步骤1,对通话者的声音(即目标声音)进行声纹特征的提取与存档,具体过程为:声纹特征提取的方法为:在相对安静的环境下,通过录制一段或多段目标声音的语言样本,可利用线性倒谱系数、梅尔倒谱系数或感知线性预测系数等方法提取目标声音的声纹特征,并将其存入声纹库。以梅尔频率倒谱系数法为例,如图2所示,将目标声音(语音信号)依次进行预加重、加窗、傅里叶变换、梅尔滤波器组、对数计算、离散余弦变换,得到目标声音的声纹特征,即MFCC特征。

预加重是为了将语音的高频部分进行加重,去除口唇辐射的影响,增强语音的高频分辨率。傅里叶变换要求输入信号是平稳的,但是语音信号从整体上来看是不平稳的,如果将不平稳的信号作为输入,傅里叶变换将会无意义。虽然语音信号具有时变特性,但是在10-30ms范围内认为其特性基本保持不变,因此需要对声音信号进行分帧处理。分帧一般采用交叠分段的方法,是为了使得帧与帧之间平滑过渡,保证连续性。为了增加帧左端和帧右端的连续性,也为了避免频谱泄露,需要对每一帧的信号乘上窗函数,窗函数用的比较多的有矩形窗、汉明窗和汉宁窗。通常情况下都采用汉明窗作为加窗的窗函数,加窗后再进行傅里叶变换就使得全局更加连续,避免出现吉布斯效应,同时也让没有周期性的语音信号呈现出周期函数的部分特征(加窗会导致一帧信号的两端被削弱,因此在分帧的时候,帧与帧需要有重叠)。

下一步进行快速傅里叶变换,通过短时傅里叶变换可以观察到声音信号在不同时间的频率分布。

对上述得到的信号频率取模平方得到功率谱,将功率谱通过一组梅尔尺度的三角带通滤波器。选取三角形是因为它是低频密、高频疏的,这可以模仿人耳在低频处分辨率高的特性;

通过三角带通滤波器可以对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。频谱有包络和精细结构,分别对应音色与音高。对于语音识别来讲,音色是主要的有用信息,音高一般没有用。在每个三角形内积分,就可以消除精细结构,只保留音色的信息。傅里叶变换得到的序列很长(一般为几百到几千个点),把它变换成每个三角形下的能量,可以减少数据量。

对数运算包括取绝对值和log运算。取绝对值是仅使用幅度值,忽略相位的影响,因为相位信息在语音识别中作用不大。log运算是为了分别包络和细节,包络代表音色,细节代表音高,语音识别就是为了识别音色。另外,人的感知与频率的对数成正比,正好使用log模拟。

FFT变换后,卷积变成了乘法,取对数后,乘法变成了加法,把卷积信号转换成加性信号。

在取对数这步中,将基音信息与声道信息变成了加性的。

频谱图中基音信息在频域是快速变化的,声道信息在频域是缓慢变化的。

因此再做一次离散余弦变换可以将其分离称为“倒谱域”。因此倒谱域的低频部分刻画了声道信息,高频部分刻画了基音信息。

步骤2,在进行通话时,实时采集声音样本,利用步骤1中所述提取声纹特征的方法对实时采集的声音样本进行声纹特征分析与提取,并基于已建立的声纹库,将实时声纹特征与库内特征比对,进而将除目标声音之外的其它声音作为噪声进行屏蔽处理。

由于人的声音为非周期的信号,其周期可看做无穷大周期,可以分出不同频率的信号。其中用到了小波变换或者傅里叶变换,当嘈杂声场的声纹特征中包含目标声音的声纹特征时,二者点积的结果非零(即含有目标声音的嘈杂声场的声纹特征与目标声音的声纹特征的点积结果非零);而与所建立声纹库中特征比对后不相符的部分,通过此处理,结果为零,即去除无关声音。以傅里叶变换为例,具体如下:傅里叶变换式为

步骤3,对步骤2中经过小波变换或者傅里叶变换后所得到得非零部分进行重构,即对所述非零部分进行逆变换,由傅里叶逆变换

实施例1:语音通话

语音通话是通过语音并借助传输媒介的沟通方式,常见的有座机通话、手机通话、对讲机通话、网络语音通话等。我们会在各种场景使用语音通话的功能,例如在大街上、地铁中、汽车上接听电话或者进行即时通信时,会掺杂各种环境噪音及其他人声等杂音,使我们在受话端听到的声音混杂、不清晰,往往需要寻找安静的地方接听。本发明所述方法,可集成于一个小程序内置于通讯设备中,通过预设定的通话人声音,在通话时可通过本发明所述方法,滤除环境噪音和其他人声等杂音,以实现静谧通话的功能,此方法可以实现在任何场景、任何时间,极大的提高通话质量,提升用户体验。

参照图1对实施例1做进一步说明:首先可通过通讯设备内置的软件及装置采集常用联系人的声音样本,分别对其进行声纹特征的提取,并将各常用联系人的声纹特征建模,命名保存在声纹特征模型库中;其次,当通讯设备进行通话时,通讯设备内置的软件及装置会实施采集当前环境下通话者、环境噪音等复杂环境下的声音样本并提取其声纹特征,将实时采集声音样本的声纹特征与模型库中预设的声纹特征进行比对,并对其进行小波变换或者傅里叶变换处理,与通话者声纹特征相关联的声纹特征,两者点积的结果为非零,而与通话者声纹特征没有关联的其它杂音声纹特征,通过此点积处理,结果均为零,在完成上述变换后,非零部分,即目标声音的声纹;最后,对非零部分进行语音重构,对所述非零部分进行逆变换后,就可以将目标声音还原,且音源只含有目标人声,其他声音均被滤除,实现了静谧通话。

实施例2:远程会议

高清会议系统是一种在现场端或远程端为提高会议质量的音视频处理系统。本发明所述方法,通过预设定的参会人员的声纹特征,在进行会议时可通过本发明所述方法,滤除除发言人以外的环境噪音和其他人声等杂音,极大的提升会议的质量与效率,实现真正意义的高清会议效果。

参照图1对实施例2做进一步的说明:首先可通过远程会议系统内置的软件及装置采集参会人员的声音样本,分别对其进行声纹特征的提取,并将各参会人员的声纹特征建模,命名保存在声纹特征模型库中;其次,当远程会议进行时,会议系统内置的软件及装置会实施采集当前环境下讲演者、环境噪音等复杂环境下的声音样本并提取其声纹特征,将实时采集声音样本的声纹特征与模型库中预设的声纹特征进行比对,并对其进行小波变换或者傅里叶变换处理,与讲演者声纹特征相关联的声纹特征,两者点积的结果为非零,而与讲演者声纹特征没有关联的其它杂音声纹特征,通过此点积处理,结果均为零,在完成上述变换后,非零部分,即目标声音的声纹;最后,对非零部分进行语音重构,对所述非零部分进行逆变换后,就可以将目标声音还原,且音源只含有目标人声,其他声音均被滤除,实现了静谧远程会议通话。

实施例3:音乐录制

专业的音乐录制需要在录音棚中进行,以提供优质的录音条件,是音乐录制、影视制作必不可少的重要环节。但专业的录音棚造价昂贵,且需在特定地点进行采集,灵活性差。本发明所述方法,通过预设定的音乐人、演员及各种伴奏乐器的声纹特征,在录制时可通过本发明所述方法,滤除环境噪音和其他人声等杂音,以实现高质量录制,此方法可以实现在任何场景、任何时间,提高录制质量,提升便捷性,且极大的降低了录制成本。

参照图1对实施例3做进一步的说明:首先可通过音频录制系统内置的软件及装置采集音乐录制者的声音样本,分别对其进行声纹特征的提取,并将音乐录制者的声纹特征建模,命名保存在声纹特征模型库中;其次,当音乐录制时,音频录制系统内置的软件及装置会实施采集当前环境下音乐录制者、乐器演奏声、环境噪音等复杂环境下的声音样本并提取其声纹特征,将实时采集声音样本的声纹特征与模型库中预设的声纹特征进行比对,并对其进行小波变换或者傅里叶变换处理,与音乐录制者声纹特征相关联的声纹特征,两者点积的结果为非零,而与音乐录制者声纹特征没有关联的其它杂音声纹特征,通过此点积处理,结果均为零,在完成上述变换后,非零部分,即目标声音的声纹;最后,对非零部分进行语音重构,对所述非零部分进行逆变换后,就可以将目标声音还原,且音源只含有目标人声,其他声音均被滤除,实现了静谧音乐录制环境。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号