首页> 中国专利> 一种基于特征融合的数字音频篡改自动检测方法

一种基于特征融合的数字音频篡改自动检测方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供了一种基于特征融合的数字音频篡改自动检测方法，首先对待测信号进行下采样；然后以电网频率(Electric Network Frequency，ENF)标准频率为中心进行带通滤波得到信号中的ENF成分；接着分别提取ENF成分基于DFT0的相位特征，DFT1的相位特征和基于Hilbert变换的瞬时频率特征；经过特征融合，得到特征集；最后使用优化的支持向量机分类器对特征集中的部分数据进行训练，得到训练模型；使用训练模型可以对待测语音信号进行预测。本发明使用ENF信号中具有代表性的相位和瞬时频率特征进行特征融合，并使用支持向量机进行分类，得到分类模型。该模型对于信号的插入和删除情况均可得到很好的检测效果，相较于传统的判别方法更加直观和简单。

著录项

公开/公告号CN107274915A

专利类型发明专利
公开/公告日2017-10-20

原文格式PDF
申请/专利权人华中师范大学;
展开▼

申请/专利号CN201710643739.8
发明设计人王志锋;左明章;闵秋莎;田元;陈迪;夏丹;
展开▼

申请日2017-07-31
分类号G10L25/51(20130101);G10L25/03(20130101);
代理机构42222 武汉科皓知识产权代理事务所(特殊普通合伙);
代理人薛玲
地址 430079 湖北省武汉市洪山区珞瑜路152号
入库时间 2023-06-19 03:33:00

法律信息

法律状态公告日

法律状态信息

法律状态
2020-08-07

授权

授权
2017-11-17

实质审查的生效 IPC(主分类):G10L25/51 申请日:20170731

实质审查的生效
2017-10-20

公开

公开

说明书

技术领域

本发明涉及数字音频信号处理技术领域，特别涉及一种基于特征融合的数字音频篡改自动检测方法。

背景技术

数字音频信号相较于模拟音频信号有着易于传播、复制、存储等优点，但是这些优点在带给人们各种便利的同时也带来了不容忽视的问题。那就是篡改数字音频信号变得同样简单和快捷。数字音频的真实性和完整性受到来自各方面的威胁，且大多数的篡改操作是很难靠人的感官进行判别。数字音频取证技术就是用来验证数字音频信号的真实性和完整性的技术。数字音频被动取证是数字音频取证的一个重要分支，在司法取证、新闻公正和科学发现等领域有着广泛应用。

某一地区的电网频率(Electric Network Frequency，ENF)的波动在相当一段时间内具有稳定性和唯一性。电网频率的非周期性波动，对于接入同一电网的所有设备的影响是相同的，这就使得ENF信号可以作为时间戳来使用。当录音设备采用电网供电时，录制的音频文件中就会残留有ENF成分(ENF component，ENFC)，经过带通滤波可以提取出ENFC。利用ENFC 的稳定性和唯一性进行数字音频被动取证一般有两个研究思路，第一是将提取出的ENFC与供电部门的电网频率数据库中的数据进行比对，确定音频录制时间与所宣称的是否一致，建立和保存大范围的ENF信号数据库难度高、代价高，目前还没有实用价值比较高的ENF数据库；第二是提取ENF信号中的某些特征，进行一致性或者规律性分析。

Grigoras最早提出基于ENF的音频篡改检测算法，主要通过待检测音频中ENF的波动和参考年份的数据进行比对，从而判断音频是否被篡改过。接着Grigoras验证对音频信号加短时窗进行分析，可以与数据库进行更细致、精确的对比。提出建立一个ENF准则，以期可以显示不同信号的供电类型，建议将该准则和传统的检测方法共用，为研究者建立标准化的研究分析方法。Liu等提出一系列方法对ENF数据库中的信号进行进一步处理以方便在语音取证中的使用。Rodríguez等在Grigoras的研究基础上，提出不需要使用ENF标准数据库的方法，使用数字信号处理的方法估计ENF信号相位，将ENF相位变化的一致性作为特征来检测音频篡改，当特征值大小超过某一边界值即判断待测音频信号为篡改信号。Esquef等根据篡改操作会引起篡改点ENF瞬时频率突变，使用Hilbert变换计算瞬时频率，提出TPSW(Two-Pass Split-Window)方法估计ENF背景变化水平，实际瞬时频率变化范围超过背景变化水平的部分的峰值点即为篡改点。

可以看出目前基于ENF进行数字音频被动篡改检测的研究存在一些问题：1)没有权威的 ENF对比数据库。使用待测信号中的ENF成分与ENF数据库中进行对比来判断语音信号是否经过篡改没有可靠的结果2)部分检测方法是人从直观视觉上判断语音信号是否经过篡改，不能实现自动化。3)目前大多数的检测方法比较简略，没有囊括更多实际检测情况，不能达到数字音频被动检测的要求。

发明内容

本发明的目的在于提出一种基于特征融合的数字音频篡改自动检测方法。该方法通过融合信号中的ENF成分基于DFT0的相位特征、基于DFT1的相位特征和基于Hilbert变换的瞬时频率特征，来分辨原始信号和编辑信号，实现了数字音频插入、删除操作的自动检测。该方法通过融合ENF成分中具有代表性的相位和瞬时频率特征，并使用支持向量机进行分类，得到可以进行自动检测模型，提高了检测效率，实现了数字音频篡改检测的自动化。

本发明所采用的技术方案是：一种基于特征融合的数字音频篡改自动检测方法，包括以下步骤：

步骤1，对待测信号进行预处理，获得待测信号中的ENF成分；

步骤2，对待测信号中的ENF成分进行特征提取，包括以下子步骤，

步骤2.1，对ENF成分进行基于DFT⁰的相位估计，提取相位波动特征F1；

步骤2.2，对ENF成分进行基于DFT¹的相位估计，提取相位波动特征F2；

步骤2.3，对ENF成分进行基于Hilbert的瞬时频率估计,提取相位波动特征F3；

步骤3，对提取出的特征进行特征融合，得到特征集，将特征集进行归一化处理；

步骤4，利用优化的支持向量机对特征集进行分类，得到分类准确率。

进一步的所述步骤1的实现方式如下，

步骤1.1，将待测音频信号读入计算机得到离散的时间序列x[n]，其中fs 是待测信号采样频率，i代表连续时间序列，N代表离散时间序列；对x[n]进行预处理，包括下采样、去直流分量，得到x_d[n]，设下采样频率f_d为1000HZ或者1200HZ；

步骤1.2，将步骤1.1中得到的x_d[n]进行零填充，通过中心频率在ENF标准频率处的带通滤波器，得到待测信号中的ENF成分x_ENFG[n]。

进一步的，所述步骤2.1的实现方式如下，

首先，对x_ENFG[n]进行相位估计：对x_ENFG[n]信号进行分帧、加窗，分帧的长度是N_c个标准ENF频率周期，帧移为一个标准ENF周期长度；应用一个平滑窗w(n)，得到加窗后的信号为x_N[n]＝x_ENFG[n]w(n)；对x_N[n]每帧进行N点的DFT变换，得到x_ENFG[n]每帧加窗后的频域分布X(k)；对每帧信号进行DFT变换后，令k_peak作为每帧的|X(k)|最大值的整数索引，则每帧ENF信号的估计频率为其中N_DFT是DFT变换的点数，f_d是下采样频率，得到ENF信号的相位序列

然后，使用特征量F1对基于DFT⁰得到的ENFC相位变化进行描述：设为相应第n_b帧的估计相位，表示第n_b帧|X(k)|对应最大值的整数索引，令设共有N_Block帧，则相位波动特征F1的计算公式为，

其中，2≤n_b≤N_Block，表示从n_b＝2到N_Block的平均值。

进一步的，所述步骤2.2的实现方式如下，

首先，对x_ENFG[n]进行相位估计：计算ENF信号x_ENFC[n]在点n处的近似一阶导数，

x′_ENFC[n]＝f_d(x_ENFC[n]-x_ENFC[n-1])；

对一阶导数信号加窗，x′_N[n]＝x′_ENFC[n]w(n)；对每帧x′_N[n]进行N点的DFT变换，得到每帧加窗后的频域分布X′(k)，找到|X′(k)|的峰值所在点k'_peak，将|X′(k)|乘以一个尺度系数>这样可以得到，

DFT⁰[k]＝|X(k)|和DFT¹[k]＝F(k)|X′(k)|；

则每帧ENF信号的估计频率值为得到ENF信号的相位序列

其中k_low和k_high分别定义为floor[a]代表小于a的最大整数，ceil[b]代表大于b的最小整数，θ_low＝arg[X′(k_low)]，θ_high＝arg[X′(k_high)]

然后，使用特征量F2对基于DFT¹得到的ENFC相位变化进行描述：设为相应第n_b帧的估计相位，表示第n_b帧|X′(k)|对应最大值的整数索引，令设共有N_Block帧，则相位波动特征F2的计算公式为，

其中，2≤n_b≤N_Block，表示从n_b＝2到N_Block的平均值。

进一步的，所述步骤2.3的实现方式如下，

首先，对信号x_ENFC[n]进行离散Hilbert变换，估计ENF信号的瞬时频率f[n]：先利用离散Hilbert变换得到x_ENFC[n]的解析函数x^(a)_ENFC[x]＝x_ENFC[x]+i*H{x_ENFC[x]}，其中H 代表Hilbert变换算子，瞬时频率是H{x_ENFC[n]}相角的变化率，设为f[n]，使用五阶椭圆滤波器IIR滤波器对f[n]进行低通滤波去除寄生振荡，同时去掉f[n]头尾各2000采样点，最后得到的即为ENFC的瞬时频率估计；

然后，使用特征量F3对ENFC的瞬时频率波动进行描述：令len为x_ENFC[n]的长度，len＝length(x_ENFC[n])，为第n个采样点的瞬时频率，其中 2≤n≤len，则相位波动特征F3的计算公式为，

其中，表示从n＝2到len的平均值。

进一步的，步骤4中通过交叉验证和网格搜索法选择优化的支持向量机参数，包括惩罚因子c和径向基函数参数g；

其中交叉验证和网格搜索法结合获得支持向量机参数的基本步骤是：首先输入c值的可能区间[cmin,cmax]和步进cstep，g值的可能区间[gmin,gmax]和步进gstep，并令最优的c 值等于cmin，最优的g值等于gmin，最好预测准确率为零；接着使c值在[cmin,cmax]区间内以cstep为步进进行循环；在c值的循环内部，使g值在区间[gmin,gmax]内以gstep为步进进行循环；在g值循环内部，对每一组(c,g)进行支持向量机十折交叉验证，若所得最优分类准确率大于预测准确率则更新最优c值、g值和最优分类准确率；直到c值收敛，算法结束。

与现有技术相比，本发明的优点和有益效果：

(1)本发明融合了ENF信号中对信号截断敏感的相位和瞬时频率特征，提高了数字音频被动篡改检测的准确率；

(2)本发明提出基于ENF成分一致性的数字音频被动篡改检测的一般框架和ENFC特征提取的一般框架，可以应用到其他基于ENF信号的篡改检测方法中；

(3)本发明针对复杂环境录音和含噪语音稳定性高，具有很强的鲁棒性。

(4)本发明为数字音频被动篡改检测的准确性和自动化提出了一种广泛性的算法。

附图说明

图1是本发明实施例的流程图；

图2是本发明实施例的DFT⁰相位特征提取流程图；

图3是本发明实施例的DFT¹相位特征提取流程图；

图4是本发明实施例的Hilbert变换瞬时频率特征提取流程图；

图5是本发明实施例的SVM参数优化流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于特征融合的数字音频篡改自动检测方法，包括以下步骤：

步骤1：对待测信号进行预处理，获得待测信号中的ENF成分；

具体实施包括以下子步骤：

步骤1.1：将待测音频信号读入计算机得到离散的时间序列x[n](fs是待测信号采样频率，i代表连续时间序列，N代表离散时间序列)，对x[n]进行预处理，包括下采样、去直流分量，得到x_d[n]；

本实施例中考虑到频率混叠效应、信号信息损失和信号的信噪比(过采样可以提高信号的信噪比)的平衡，将信号的下采样频率f_d定为1000HZ或者1200HZ，将标准的ENF频率放在ω₀＝π/10rad/sample。

步骤1.2：将步骤1.1中经过下采样的信号x_d[n]进行零填充，通过中心频率在ENF标准频率处的带通滤波器，得到信号中的ENF成分x_ENFG[n]；

使用10000阶的线性零相位FIR滤波器进行窄带滤波防止相位延时。中心频率在ENF标准频率处，带宽为0.6HZ，通带波纹为0.5dB，阻带衰减为100dB。使用高阶滤波器是为了得到理想的窄带信号。零填充(zero padding)是指在时域信号的末端加上零点以增加信号长度的做法，在DFT之前使用零填充可以提高频率分辨率，帮助更加准确地找到频谱上的峰值点。

步骤2：对待测信号中的ENF成分进行特征提取；

具体实现包括以下子步骤：

步骤A1：对x_ENFG[n]进行基于DFT⁰的相位估计，提取相位波动特征F1；

如图2，本实施例中基于DFT⁰对x_ENFG[n]相位进行估计。对滤波后的x_ENFG[n]进行相位估计，首先对x_ENFG[n]信号进行分帧、加窗，分帧的长度是N_c个标准ENF频率周期，帧移为一个标准ENF周期长度。应用一个平滑窗w(n)，得到加窗后的信号为x_N[n]＝x_ENFG[n]w(n)，对x_N[n]每帧进行N点的DFT变换(N_DFT，DFT点数大于ENF信号的长度)，得到x_ENFG[n]每帧加窗后的频域分布X(k)。对每帧信号进行DFT变换后，令k_peak作为每帧|X(k)|最大值的整数索引。所以每帧ENF信号的估计频率为(N_DFT是DFT变换的点数，f_d是下采样频率)，得到ENF信号的相位序列

使用特征量F1对基于DFT⁰得到的ENFC相位变化进行描述。令为相应第n_b帧的估计相位，表示第n_b帧|X(k)|对应最大值的整数索引，设共有N_Block帧，则有2≤n_b≤N_Block，表示从n_b＝2到N_Block的平均值，下式则为相位波动特征F1的计算公式：

步骤A2：对x_ENFC[n]进行基于DFT¹的相位估计，提取相位波动特征F2；

如图3，本实施例中基于DFT¹对x_ENFC[n]相位进行估计。计算ENF信号x_ENFC[n]在点n处的近似一阶导数：

x′_ENFC[n]＝f_d(x_ENFC[n]-x_ENFC[n-1])

对一阶导数信号加窗：x′_N[n]＝x′_ENFC[n]w(n)。对每帧x′_N[n]进行N点的DFT变换，得到每帧加窗后的频域分布X′(k)。同样找到|X′(k)|的峰值所在点k'_peak(此处的k'_peak与前面的k_peak不一定相同)。将|X′(k)|乘以一个尺度系数F(k)，

这样可以得到，

DFT⁰[k]＝|X(k)|和DFT¹[k]＝F(k)|X′(k)|

估计频率值为(分子中的k'_peak和分母中的k_peak是各自的峰值点)。理想的情况下基于DFT⁰得到的k_peak和DFT¹得到的k'_peak应该是相等的，且k'_peak应该是最接近的整数，这样才是一个合理的频率值(valid solution)。为了得到一个合理的频率，需要满足以下式子：

如果定义验证条件也可以写作：

下面使用DFT¹方法来估计ENF信号的相位。考虑一个单频信号的模型>tone(n)＝a(n)cos(ω₀n+φ₀)，n指离散时间变量，ω₀是信号的角频率。信号的相位等于φ(n)＝ω₀n+φ₀，φ₀是信号的初相。对于这个值的估计将限制在-π到π之间，φ(n)×n的图形将是一个锯齿状曲线(包裹相位wrapped>tone(n)将是一个窄带信号。在实践中，假定a(n)随着时间缓慢发展，因此可以认为a(n)>ENFC[n]＝acos(ω₀n+φ₀)，其中ω₀＝2πf_ENFC/f_d，而f_ENFC是ENF是实际频率。依据前面计算一阶导数的公式>ENFC[n]＝f_s(x_ENFC[n]-x_ENFC[n-1])可得：

另外一个余弦信号的一阶导数实际上是另一个具有相同频率的正弦信号，上述公式可以表示为：

C是一个常数，θ是x′_ENFC的相位。比较上述两个式子可以得出：

Ccos(θ)＝cos(φ₀)-cos(φ₀-ω)

Csin(θ)＝sin(φ₀)-sin(φ₀-ω)

由上等式可以推导出：

上下同除以cos(φ₀)，可以得到：

φ₀代表x_ENFC的初始相位，可以使用DFT¹方法估计出相位序列，即为：

其中对于θ的值，我们对X′(k)进行线性插值，令k_low和k_high定义为floor[a]代表小于a的最大整数，ceil[b]代表大于b的最小整数。

由在(k_low,θ_low＝arg[X′(k_low)])和(k_high,θ_high＝arg[X′(k_high)])进行线性插值可以逼近点求出的值与上式中θ的值保持一致：

对于上述他具有两个可能的值，如果是一个正值，可能在一个二维笛卡尔坐标系的第一或者第三象限，如果是个负值，可能在第二或者第四象限。可以使用作为一个参考，选择中最接近的值。

同样使用步骤A1中的方法计算出基于DFT¹估计相位的波动特征。

使用特征量F2对基于DFT¹得到的ENFC相位变化进行描述。令为相应第n_b帧的估计相位，表示第n_b帧|X′(k)|对应最大值的整数索引，设共有N_Block帧，则有2≤n_b≤N_Block，表示从 n_b＝2到N_Block的平均值，下式则为相位波动特征F2的计算公式：

步骤A3：对x_ENFC[n]进行基于Hilbert的瞬时频率估计，提取相位波动特征F3；

对信号x_ENFC[n]进行离散Hilbert变换。首先得到x_ENFC[n]的解析函数：>(a)_ENFC[x]＝x_ENFC[x]+i*H{x_ENFC[x]}，其中H代表Hilbert变换算子。Hilbert变换用于计算时域序列的瞬时属性是非常有用的，特别是振幅和频率，瞬时振幅是H{x_ENFC[n]}(即>ENFC[n]}相角的变化率。估计ENF信号的瞬时频率>即为ENFC的瞬时频率估计。

计算特征量F3对ENFC的瞬时频率波动进行描述。令len为x_ENFC[n]的长度，>ENFC[n])。为第n个采样点的瞬时频率，其中 2≤n≤len，表示从n＝2到len的平均值，下式则为相位波动特征F3的计算公式：

步骤3：对提取出的特征进行特征融合，得到特征集，将特征集进行归一化处理；

将步骤2中得到的3个特征进行特征融合，得到特征集。将特征集进行归一化处理，对特征集中的特征向量进行标记，分为原始信号和编辑信号。

步骤4：使用本发明优化支持向量机方法对特征集进行分类，得到分类准确率。

本发明实施例使用交叉验证和网格搜索法选择最佳支持向量机参数，包括惩罚因子c和径向基函数参数g，使用优化的支持向量机对特征集进行分类；

交叉验证是指将数据集平均分为k份，每次将其中k-1份数据作为训练数据，而另外一份数据作为测试数据。这样重复k次，根据k次迭代的平均值估计分类准确度。网格搜索是来确定两个参数即惩罚因子c与径向基函数参数g，基于网格法将c∈[cmin,cmax]，变化步长为cstep，而g∈[gmin,gmax]，变化步长为gstep。这样，针对每对参数(c,g)进行训练，取效果最好的一对参数作为模型参数。

交叉验证和网格搜索法结合获得支持向量机参数的基本步骤是：首先输入c值的可能区间[cmin,cmax]和步进cstep，g值的可能区间[cmin,cmax]和步进gstep。并令最优的c值等于cmin，最优的g值等于gmin，预测准确率为零；接着使c值在[cmin,cmax]区间内以cstep 为步进进行循环；在c值的循环内部，使g值在区间[gmin,gmax]内以gstep为步进进行循环；在g值循环内部，对每一组(c,g)进行支持向量机十折交叉验证，若所得最优分类准确率大预测准确率则更新最优c值、g值和最优分类准确率；算法直到c值收敛循环结束，算法结束。算法流程图如图5所示，其中bestc是最优的c值，bestg是最优的g值，acc是预测准确率， bestacc是最优分类准确率。

本发明的实验结果，与进行特征融合之前的单个特征得到的实验结果进行对比，所得到的结果如下表1所示：

表1本发明实施例的融合特征与单个特征或者组合特征的检测结果对比表

本发明的实验结果，使用多个分类器与本发明所使用的优化SVM进行对比，所得实验结果如下表2所示：

表2本发明实施例的优化SVM分类器与其他分类器检测结果对比表

本发明的实验结果，从表1、2中可以看出，本方法所选用的特征和优化分类器可以达到更好的识别率。且本方法的实验数据来自于三个不同的数据库，因此可以认为本方法在大多数录音条件下都具有较好的检测效果。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于特征融合的数字音频篡改自动检测方法 [P] . 中国专利： CN107274915B . 2020.08.07
2. 一种基于特征融合的数字音频篡改自动检测方法 [P] . 中国专利： CN107274915A . 2017-10-20
3. Feature fusion and dense connection-based method for infrared plane object detection [P] . US11055574B2 . 2021-07-06

机译：基于特征融合和基于密集的连接的红外线对象检测方法
4. FEATURE FUSION AND DENSE CONNECTION-BASED METHOD FOR INFRARED PLANE OBJECT DETECTION [P] . US2021174149A1 . 2021-06-10

机译：基于特征融合和基于密集的连接的红外线对象检测方法
5. FEATURE FUSION AND DENSE CONNECTION BASED INFRARED PLANE TARGET DETECTION METHOD [P] . 世界知识产权组织专利： WO2020102988A1 . 2020-05-28

机译：基于特征融合和密集连接的红外平面目标检测方法