首页> 中文学位 >基于深度学习的合成语音检测算法研究
【6h】

基于深度学习的合成语音检测算法研究

代理获取

目录

声明

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 合成语音检测特征

1.2.2 合成语音检测分类器

1.3 论文主要内容及结构安排

第2章 合成语音检测技术概述

2.1 引言

2.2 合成语音方法简介

2.3 合成语音检测方法

2.3.1 预处理

2.3.2 特征提取

2.3.3 分类器训练

2.4 语音数据库

2.5 合成语音检测评价指标

2.6 本章小结

第3章 基于GRU-SVM模型的合成语音检测算法

3.1 引言

3.2 算法描述

3.2.1 GRU网络模型

3.2.2 SVM分类模型

3.2.3 提出的GRU-SVM模型

3.2.4 GRU-SVM检测过程

3.3 实验结果与性能分析

3.3.1 实验设置

3.3.2 性能比较

3.4 本章小结

第4章 基于LSTM-MFCC特征的合成语音检测算法

4.1 引言

4.2 算法描述

4.2.1 LSTM原理

4.2.2 MFCC原理

4.2.3 改进后的LSTM-MFCC特征参数

4.2.4 GMM系统检测过程

4.3 实验与性能分析

4.3.1 实验参数

4.3.2 性能比较

4.4 本章小结

总结与展望

总结

展望

致谢

参考文献

攻读硕士期间科研成果

展开▼

摘要

随着数字多媒体技术的快速发展,语音信号凭借自身占用空间小、易于编辑和传输等优点成为人们日常生活沟通的一种重要方式。由于语音具有易编辑特性,这导致语音很容易被篡改而被滥用于犯罪活动。因此,研究语音检测技术非常有必要。近些年来,合成语音技术在深度学习的背景下不断有新的突破和发展,以语音合成、语音转换和录音重放等形式的攻击使得自动说话人验证(Automatic Speaker Verification, ASV)系统表现较为脆弱,现有检测技术很难有效区分出高质量的合成语音和自然语音。因此,合成语音检测技术逐渐受到相关研究人员的广泛关注。  本文针对基于人工智能的合成语音检测算法进行了研究,主要工作总结如下:  (1)针对合成语音检测分类器设计还不够成熟的问题,本章提出了一种基于门控循环单元(Gate Recurrent Unit, GRU)与支持向量机SVM(Support Vector Machine, SVM)的合成语音检测算法,新提出的GRU-SVM模型是一种专门针对合成语音检测的分类器。GRU对于语音时序数据具有较好的处理能力,再通过SVM回归GRU的隐藏层输出使得检测效果更佳。我们使用了ASVspoof2019数据库以及通过Waveglow算法合成的自建语音库进行实验。同时,检测过程使用了梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCC)特征参数作为检测特征。实验探究了不同维数的MFCC特征对检测结果的影响,从而选出了合适的特征维数进行后续实验。GRU-SVM与其他同类型的分类器相比,检测率在两个数据库中分别可达到99.99%和99.34%。另外,等错误概率(Equal Error Rate, EER)也能达到0.03%和0.15%。实验结果表明,该模型能够有效区分自然语音与合成语音。  (2)针对传统MFCC特征在合成语音检测中存在语音高频成分利用不足,语音信息表征不完整等问题。本章通过研究传统倒谱系数特征提取过程,设计了一种针对合成语音检测的专用特征。算法使用循环神经网络的另一个变体结构长短时记忆网络(Long Short Time Memory, LSTM)作为改进特征的工具。LSTM网络结构并不直接参与MFCC特征的训练,而是通过学习能量谱特征得到一组权值,再使用这组权值对Mel滤波器组进行改进增强,形成一个新的特征LSTM-MFCC。本章实验使用高斯混合模型(Gaussian Mixture Model, GMM)训练特征,并采用GMM打分系统在两个数据集上进行验证。LSTM-MFCC相比于其他特征,检测率可达99.84%和99.19%,EER达到0.18%和0.89%。综合其他性能比较,提出的LSTM-MFCC特征检测算法明显优于其他合成语音检测算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号