公开/公告号CN113409796B
专利类型发明专利
公开/公告日2022.09.27
原文格式PDF
申请/专利权人 武汉大晟极科技有限公司;
申请/专利号CN202110510987.1
申请日2021.05.11
分类号G10L17/08(2013.01);G06K9/62(2022.01);
代理机构湖北武汉永嘉专利代理有限公司 42102;
代理人王丹
地址 430223 湖北省武汉市东湖高新大学园路武大科技园兴业楼北楼1-602
入库时间 2022-11-28 17:49:28
法律状态公告日
法律状态信息
法律状态
2022-09-27
授权
发明专利权授予
技术领域
本发明属于语音检测技术领域,具体涉及一种基于长时共振峰测量的语音同一性验证方法。
背景技术
共振峰是声纹鉴定中重要的特征,其不仅为辅音和元音分辨提供了参考,同时还包含了发音人的个性特征。共振峰频率受声道长度的影响,声道变长会导致元音共振峰降低,另外声道各部分之间的比例大小也会影响共振峰的频率。
测量共振峰频率的方法有很多。其中,测量不同元音共振峰中心频率值的方法最经典。然而不同元音的共振峰频率之间以及不同共振峰之间没有充分的相关性,此特性降低了鉴定的准确性。研究共振峰的另一种方法是动态特性分析法,个体发音时会留下其特定运动方式的痕迹,这些痕迹反映了说话人的个性特征,但共振峰的动态性同时还受到音段和韵律语境的影响,该方法还需要进一步研究不同说话语境时的差异问题。
发明内容
本发明要解决的技术问题是:提供一种基于长时共振峰测量的语音同一性验证方法,能够提高验证的精度。
本发明为解决上述技术问题所采取的技术方案为:一种基于长时共振峰测量的语音同一性验证方法,本方法包括:
已知一份来自同一说话人的语音文件,计算已知的语音文件中,任意两段语音的长时共振峰数据之间的距离,获得上限距离
当采集到一份检材语音时,计算该检材语音与所述已知的语音文件的长时共振峰距离D,并进行以下判断:
当
当
当
按上述方法,所述的上限距离
设所述已知的语音文件中,其中2段语音的4个长时共振峰测量数据为X1和Y1,其中,
式中,x
每一个长时共振峰测量数据矩阵的列数据组成一个共振峰矢量x
在x
从所述已知的语音文件中分别对不同段语音按上述方法计算两两之间的距离,取最大值和最小值作为所述的上限距离
按上述方法,所述的计算检材语音的长时共振峰距离D的方法,与所述已知的语音文件中两段语音的长时共振峰距离D
按上述方法,所述的假设检验法为t检验法,具体如下:
设所述检材语音的4个长时共振峰测量数据为Z1,其中
式中,z
设x
其中x
给定信度α,当
则判断该时段检材语音与已知语音文件具有同一性,否则判断该时段检材语音与已知语音文件不具有同一性。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述基于长时共振峰测量的语音同一性验证方法的步骤。
一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述基于长时共振峰测量的语音同一性验证方法的步骤。
本发明的有益效果为:通过获取语音文件的长时共振峰,根据长时共振峰的距离,结合假设检验法,来进行语音同一性验证,能够提高验证的精度。
附图说明
图1为不同说话语境下元音长时共振峰LTF2和LTF3频率。
图2为共振峰语谱图。
图3为共振峰F1-F3频率与时间曲线。
图4为共振峰F1-F3频率分布曲线。
图5为不同说话人长时共振峰LTF2和LTF3分布图。
图6为同一说话人长时共振峰LTF2和LTF3分布图。
图7为t检验置信区间分布图。
图8为本发明一实施例的方法流程图。
具体实施方式
下面结合具体实例和附图对本发明做进一步说明。
图1描述了多名测试人员在自然说话和阅读两种语境中LTF2和LTF3的频率变化情况,从图中可知两种语境中说话人的LTF2和LTF3频率均值变化非常小;LTF4受电话通信带宽的影响较严重,因此本发明选择LTF2和LTF3用于声纹鉴定依据。
如图2所示,针对待鉴定的语音文件利用线性预测分析技术和手动校正相结合确定元音共振峰F1-F4位置,其中按照频率从低到高的曲线依次为F1-F4,由于共振峰F4不稳定所以不作为鉴定依据,共振峰F1-F3频率随时间变化曲线如图3所示,根据各共振峰的频率和出现的概率可以绘制如图4所示长时共振峰F1-F3频率分布曲线。从上述长时共振峰的频率分布特性可知,不同的说话人具有不同的LTF2和LTF3分布,图5描述了2名测试人员的元音LTF2和LTF3分布,其中两条实线分别为两名测试人员的LTF2分布,两条虚线分别为两名测试人员的LTF3分布。从图中可知2人的LTF2和LTF3不仅频率均值不同,且分布曲线所覆盖的区间和曲线形状也具有较大的差异。对于相同说话人在不同的语境中测量得到的元音LTF2和LTF3分布如图6所示,其中两条实线为相同说话人在不同语境中测量得到的元音LTF2分布,两条虚线为相同说话人在不同语境中测量得到的元音LTF3分布,从图可知不同语境下同一个说话人的长时共振峰LTF2和LTF3不仅频率均值变化较小,且分布曲线的区间和形状均非常相近,因此可以利用概率统计的方法对测量得到的长时共振峰LTF2和LTF3数据进行假设检验,判断被检测的语音样本是否为目标说话人。
基于以上原理和研究,本发明提供一种基于长时共振峰测量的语音同一性验证方法,如图8所示,本方法包括:
S1、已知一份来自同一说话人的语音文件,计算已知的语音文件中,任意两段语音的长时共振峰数据之间的距离,获得上限距离
所述的上限距离
设所述已知的语音文件中,其中2段语音的4个长时共振峰测量数据为X1和Y1,其中,
式中,x
每一个长时共振峰测量数据矩阵的列数据组成一个共振峰矢量x
在x
从所述已知的语音文件中分别对不同段语音按上述方法计算两两之间的距离,取最大值和最小值作为所述的上限距离
S2、当采集到一份检材语音时,计算该检材语音与所述已知的语音文件的长时共振峰距离D,所述的计算检材语音的长时共振峰距离D的方法,与所述已知的语音文件中两段语音的长时共振峰距离D
然后进行以下判断:当
所述的假设检验法为t检验法,具体如下:
设所述检材语音的4个长时共振峰测量数据为Z1,其中
式中,z
设x
其中x
存在如下2个假设,H
对H
则判断该时段检材语音与已知语音文件具有同一性,即接受H
如图7所示,当以置信水平为95%的概率认为两种检材是来自同一个说话人时,此时要求被检测的两份文件测量得到的长时共振峰满足如下不等式:
|x
其中
在进行两份检材同一性假设检验时,为了确定β的合理取值范围,可采取与检材自己进行比对的方法来确定β的上下限
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述基于长时共振峰测量的语音同一性验证方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述基于长时共振峰测量的语音同一性验证方法的步骤。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
机译: 通过自发口头语音的语音图和使用一种元音音素类型的共振峰均衡来识别说话者的系统和方法
机译: 基于共振峰均衡的基于随机语音图像的说话人识别方法
机译: 基于共振峰均衡的基于随机语音图像的说话人识别方法