首页> 中国专利> 一种基于自回归模型系数的合成语音检测方法

一种基于自回归模型系数的合成语音检测方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提出一种基于自回归模型系数的合成语音检测方法，涉及语音检测的技术领域，解决了现有直接应用已有的语音特征提取算法在进行语音检测时，无法同时兼顾语音检测的检测效率和检测准确率的问题，首先将数据库中训练集、验证集和测试集的语音片段固定为统一长度，分段后提取每段语音信号的AR系数，组成二维AR语音特征，构建训练特征集、验证特征集和测试特征集，训练卷积神经网络分类器，再将测试特征集通过训练好的卷积神经网络分类器进行分类，确认待测语音信号是否经过语音合成或语音转换篡改操作，不直接应用已有的语音特征提取算法，减少检测过程中的计算量，最后通过融合兼顾了语音检测的检测效率和检测准确率。

著录项

公开/公告号CN112967712A

专利类型发明专利
公开/公告日2021-06-15

原文格式PDF
申请/专利权人中山大学;
展开▼

申请/专利号CN202110212380.5
发明设计人王铮;康显桂;李中华;
展开▼

申请日2021-02-25
分类号G10L15/02(20060101);G10L15/16(20060101);G10L25/60(20130101);G10L25/30(20130101);
代理机构44102 广州粤高专利商标代理有限公司;
代理人林丽明
地址 510275 广东省广州市海珠区新港西路135号
入库时间 2023-06-19 11:26:00

说明书

技术领域

本发明涉及语音检测的技术领域，更具体地，涉及一种基于自回归模型系数的合成语音检测方法。

背景技术

自动扬声器验证(ASV)被部署在越来越多的不同应用和服务中，例如移动电话、智能扬声器和呼叫中心，以便为个人身份验证提供一种低成本和灵活的生物识别解决方案。尽管ASV系统的性能在近年来逐渐提高，但ASV系统易受欺骗攻击。其中，在人们特别关注的音频篡改方面，主要存在两种欺骗攻击：语音合成攻击和语音转换攻击，这两种欺骗攻击对ASV系统构成重大威胁。语音合成(text to speech),简称TTS，是将文字转化为语音的一种技术，类似于人类的嘴巴，通过不同的音色说出想表达的内容，TTS系统可以生成完全人工的语音信号。语音转换(voice conversion)，简称VC，通过输入一条语音，在保持说话内容不变的情况下，让它听起来像是另一个人说的，VC系统在自然语音上运行。SS和VC技术都可以产生高质量的语音信号，模仿特定目标的语音。

目前，在合成语音检测方面的研究大多须先从语音里提取特征，常用的语音特征包括MFCC、CQCC、Spec。其中，MFCC是语音处理中最常用的基于量的特征之一，在Mel尺度上对对数谱进行倒谱分析，适用于区分篡改语音和人类语音；CQCC是一种基于振幅的特征，它使用常数Q变换(CQT)与传统的倒频谱分析相结合；相对于MFCC、CQCC来说，Spec特征是更原始的特征，因为它通过计算汉明窗口上的STFT值，然后计算每个部分的大小来得到。

2018年11月16日，中国专利(CN108831506A)中公开了一种基于GMM-BIC的数字音频篡改点检测方法及系统，也属于语音检测的技术领域，此专利中提出的方法就是在分割出语音信号中的静音帧之后提取静音帧的MFCC特征，然后使用GMM-BIC方法代替了传统的SGM-BIC用于数字音频篡改点检测，数字音频篡改定位的自动化，自适应性好，鲁棒性高，也能保证检测准确率，但实际上，MFCC语音特征在语音检测过程中的计算量大，因此，此技术方案无法同时兼顾语音检测的检测效率和检测准确率。

自回归模型(Autoregressive Model，简称AR)是最常见的平稳时间序列模型之一，在统计上是一种处理时间序列的方法，AR被广泛运用在经济学、信息学、自然现象的预测上，主要对一维数据做时间序列分析。语音也

属于一维数据，可以通过AR线性预测模型评估语音序列之间的关系，因此，研究如何基于AR系数进行语音篡改检测，具有重要意义。

发明内容

为解决现有直接应用已有的语音特征提取算法在进行语音检测时，无法同时兼顾语音检测的检测效率和检测准确率的问题，本发明提出一种基于自回归模型系数的合成语音检测方法，减少检测过程中的计算量，提高检测准确率。

为了达到上述技术效果，本发明的技术方案如下：

一种基于自回归模型系数的合成语音检测方法，至少包括：

S1.将已知数据库的训练集、验证集和测试集的语音片段固定为统一长度a；

S2.将训练集、验证集和测试集的语音均进行分段，提取分段后每段语音的不同阶数的AR系数，再对提取出的AR系数进行排列，组成二维AR语音特征，并构成二维AR语音特征的训练特征集、验证特征集和测试特征集；

S3.利用二维AR语音特征的训练特征集及验证特征集训练一个卷积神经网络分类器，保存卷积神经网络分类器的最优参数；

S4.利用训练好的卷积神经网络分类器对测试特征集进行分类，确认语音是否经过语音合成或语音转换篡改操作；

S5.对不同阶数的二维AR语音特征进行融合，确认语音是否经过语音合成或语音转换篡改操作。

在本技术方案中，已知数据库的训练集、验证集和测试集的语音分段后的每一帧语音信号均提取了AR系数，排列后的AR系数组成二维AR语音特征，然后训练卷积神经网络分类器进行分类，即可确认语音是否经过语音合成或语音转换篡改操作，不直接应用已有的语音特征提取算法，减少检测过程中的计算量，最后通过融合不同阶数的二维AR特征进一步提高可检测精度，兼顾了语音检测的检测效率和检测准确率。

优选地，步骤S1所述将已知数据库的训练集、验证集和测试集的语音片段固定为统一长度a的过程为：

S101.选定已知数据库，分别将已知数据库的训练集、验证集和测试集的语音片段长度固定为a个采样点；

S102.判断训练集、验证集和测试集中的任意一个在固定前的语音长度是否大于等于a，若是，进行截断操作，将语音长度固定为a；否则，通过复制语音对固定前的语音长度进行扩充，再固定语音长度为a。

优选地，步骤S2所述的构成二维AR语音特征的训练特征集、验证特征集和测试特征集的具体过程为：

S201.将训练集、验证集和测试集固定统一长度为a的语音片段均划分为b段；

S202.提取分段后每段语音的阶数为h的AR系数，将提取出的b维AR系数进行排列，组成二维AR语音特征；

S203.分别构成维度为b×h的二维AR语音特征的训练特征集、验证特征集和测试特征集。

优选地，步骤S202中h满足：

8≤h≤150，其中，h表示正整数，保证AR系数在应用时的效果。

优选地，二维AR语音特征的训练特征集中包括原始语音特征和篡改语音特征，步骤S3中，所述的卷积神经网络分类器通过梯度下降法训练得到；将验证特征集准确度指标最好时对应的卷积神经网络分类器的参数作为最优参数，并保存。

优选地，步骤S4中所述利用训练好的卷积神经网络分类器对测试特征集进行分类，确认语音是否经过语音合成或语音转换篡改操作的具体过程为：

S401.将维度为b×h的二维AR语音特征的测试特征集输入训练好的卷积神经网络分类器；

S402.根据语音分数CM的计算公式：

CM(f)＝log(p(bonafide|f；θ))-log(p(spoof|f；θ))

计算每条语音的分数，并保存分数文件，其中，f表示当前送入的语音特征，θ表示保存的最优参数；p(bonafide|f；θ)表示送入特征f为原始语音bonafide特征的概率，p(spoof|f；θ)送入特征f为合成篡改语音spoof特征的概率；

S403.判断CM(f)的值是否大于等于判定阈值T，若是，送入的语音特征为原始语音，否则，送入的语音特征为合成语音或转换篡改语音；

S403.根据保存的分数文件及已知数据库给定的分数文件，进一步确定当前测试特征集的t-DCF指标和等错误概率EER指标。

在此，CM(f)分数的值代表待测语音信号为原始语音的可能性，同时在步骤S403中引入t-DCF指标和等错误概率EER指标进一步评判二维AR语音特征的有效性。

优选地，步骤S5所述对不同阶数的二维AR语音特征进行融合，确认语音是否经过语音合成或语音转换篡改操作的过程为：

S501.将不同阶数的二维AR语音特征的测试特征集分别输入至训练好的卷积神经网络分类器，得到不同的分数文件并保存；

S502.将不同分数文件进行平均，得到融合后的分数文件；

S503.判断融合后的分数值是否大于等于判定阈值T，若是，融合后的语音特征为原始语音，否则，融合后的语音特征为合成语音或转换篡改语音；

S503.根据融合后的分数文件及已知数据库给定的分数文件，进一步确定融合后的t-DCF指标和等错误概率EER指标。

优选地，CM(f)分数越大，当前输入的二维AR语音特征为原始语音的概率越大；CM(f)分数越小，当前输入的二维AR语音特征为原始语音的概率越小。

优选地，t-DCF指标和等错误概率EER指标越小，表示二维AR语音特征越有效。

优选地，已知数据库为ASVspoof 2019语音数据集。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种基于自回归模型系数的合成语音检测方法，首先将已知数据库中训练集、验证集和测试集的语音片段固定为统一长度，分段后提取每段语音信号的AR系数，组成二维AR语音特征，从而构建训练特征集、验证特征集和测试特征集，利用训练特征集和验证特征集训练卷积神经网络分类器，再将测试特征集通过训练好的卷积神经网络分类器进行分类，确认待测语音信号是否经过语音合成或语音转换篡改操作，与现有技术相比，不直接应用已有的语音特征提取算法，减少检测过程中的计算量，最后通过融合不同阶数的二维AR特征进一步提高可检测精度，兼顾了语音检测的检测效率和检测准确率。

附图说明

图1表示本发明实施例中提出的基于自回归模型系数的合成语音检测方法的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好地说明本实施例，附图某些部位会有省略、放大或缩小，并不代表实际尺寸；

对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的。

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示的基于自回归模型系数的合成语音检测方法的流程图，参见图1，所述方法包括：

S1.将已知数据库的训练集、验证集和测试集的语音片段固定为统一长度a；在本实施例中，已知数据库选取ASVspoof 2019语音数据集，统一长度为64000，具体的固定过程为：

S101.选定ASVspoof 2019语音数据集作为已知数据库，分别将已知数据库的训练集、验证集和测试集的语音片段长度固定为64000个采样点；

S102.判断训练集、验证集和测试集中的任意一个在固定前的语音长度是否大于等于64000，若是，进行截断操作，将语音长度固定为64000；否则，通过复制语音对固定前的语音长度进行扩充，再固定语音长度为64000，即训练集、验证集和测试集中的任意一个在固定前的语音长度存在超过64000的情况时，直接通过现有技术进行截断操作，使得语音长度满足64000的统一长度要求，若训练集、验证集和测试集中的任意一个在固定前的语音长度不足64000，则将语音片段进行复制，对原有的语音长度进行扩充，使得语音长度满足64000的统一长度要求；

其中，AR系数的提取可以通过不同的成熟技术手段实现，其它具体过程为：

S201.将训练集、验证集和测试集固定统一长度为64000的语音片段均划分为400段；

S202.提取分段后每段语音的阶数为h的AR系数，将提取出的400维AR系数进行排列，组成二维AR语音特征；

在本实施例中，为保证AR系数在应用时的效果，阶数h满足：8≤h≤150，其中，h表示正整数，即h可以取端点8或150，也可以取8～150之间的任意一个正整数，划分的400段语音片段中每段含有160个采样点；二维AR语音特征的训练特征集中包括原始语音特征和篡改语音特征；

S203.按照每段语音的提取的阶数为h的AR系数与划分的400个片段的排列，分别构成维度为400×h的二维AR语音特征的训练特征集、验证特征集和测试特征集。

S3.利用二维AR语音特征的训练特征集及验证特征集训练一个卷积神经网络分类器，保存卷积神经网络分类器的最优参数；在本实施例中，卷积神经网络分类器通过梯度下降法训练得到，不局限于某一种具体的卷积神经网络分类器，然后将验证特征集准确度指标最好时对应的卷积神经网络分类器的参数作为最优参数，并保存。

S4.利用训练好的卷积神经网络分类器对测试特征集进行分类，确认语音是否经过语音合成或语音转换篡改操作；

具体过程为：

S401.将维度为400×h的二维AR语音特征的测试特征集输入训练好的卷积神经网络分类器；

S402.根据语音分数CM的计算公式：

CM(f)＝log(p(bonafide|f；θ))-log(p(spoof|f；θ))

S403.判断CM(f)的值是否大于等于判定阈值T，若是，送入的语音特征为原始语音，否则，送入的语音特征为合成语音或转换篡改语音；

S403.根据保存的分数文件及已知数据库给定的分数文件，进一步确定当前测试特征集的t-DCF指标和等错误概率EER指标，其中CM(f)分数的值代表待测语音信号为原始语音的可能性，同时在步骤S403中引入t-DCF指标和等错误概率EER指标进一步评判二维AR语音特征的有效性，其中，t-DCF(a tandem detection cost function)是串联代价函数指标，由两个系统(ASV，CM)决定，计算公式如下：

其中，

等错误概率EER是指误拒绝率(False Rejection Rate，FRR)等于误接受率(FalseAcceptance Rate，FAR)的点，此时的FAR与FRR的值称为等错误率。

S5.对不同阶数的二维AR语音特征进行融合，确认语音是否经过语音合成或语音转换篡改操作，过程为：

S501.将不同阶数的二维AR语音特征的测试特征集分别输入至训练好的卷积神经网络分类器，得到不同的分数文件并保存；

S502.将不同分数文件进行平均，得到融合后的分数文件；

S503.判断融合后的分数值是否大于等于判定阈值T，若是，融合后的语音特征为原始语音，否则，融合后的语音特征为合成语音或转换篡改语音；

S503.根据融合后的分数文件及已知数据库给定的分数文件，进一步确定融合后的t-DCF指标和等错误概率EER指标。

在本实施例中，CM(f)分数越大，当前输入的二维AR语音特征为原始语音的概率越大；CM(f)分数越小，当前输入的二维AR语音特征为原始语音的概率越小，t-DCF指标和等错误概率EER指标越小，表示二维AR语音特征越有效。

具体的综合实施的过程如下：

首先固定已知数据库中训练集、验证集和测试集的语音长度为64000，对语音进行分段处理，每段采样点为160，对每段语音进行AR系数的提取，

其中，AR系数在8～150阶之间，选取

8，10，20，30，40，50，60，70，80，90，100，110，120，130，140，150阶的AR系数进行实验；构成的训练特征集和验证特征集训练卷积神经网络分类器，保存最优参数，并用测试特征集进行测试，除此之外，利用t-DCF和EER两个指标来评价特征效果，整体来看，在这些阶数上的效果会有所波动，但是都能体现良好的语音篡改检测的效果，实验结果如表1所示。

表1

其中，Development表示验证集上的结果项，Evaluation表示测试集上的结果项，表1中实验结果表明在10阶[AR(10)]时特征的效果最好，在表1的最后一行，将10阶特征和50阶特征进行融合，更是进一步提高了特征效果。

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等均应包含在本发明权利要求的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于自回归模型系数的合成语音检测方法 [P] . 中国专利： CN112967712A . 2021-06-15
2. 一种基于自适应加权谱内插系数的嵌入式语音合成方法 [P] . 中国专利： CN102214463A . 2011-10-12
3. Speech synthesis apparatus, speech synthesis method and speech synthesis program based on one model speech recognition synthesis [P] . 日本专利： JP5574344B2 . 2014-08-20

机译：基于一种模型的语音识别合成的语音合成装置，语音合成方法和语音合成程序
4. Speech synthesizer based on fomantes using a concatenation of demi-syllables with independent cross fade in the domains of the filter coefficients and sources. [P] . ES2204071T3 . 2004-04-16

机译：基于语音的语音合成器，在滤波器系数和信号源的域中使用具有独立交叉淡入淡出的半音节音级的级联。
5. Voice conversion method for e.g. text-to-speech system, involves transferring set of prediction-live prediction code-coefficients for voice conversion with manipulated stimulation signals of speech synthesis filter during voice synthesis [P] . 德国专利： DE102006041509A1 . 2007-03-15

机译：语音转换方法，例如文本到语音系统，涉及在语音合成过程中，通过语音合成滤波器的受控刺激信号传输用于语音转换的一组预测实时预测代码系数