基于深度学习的合成语音检测算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着数字多媒体技术的快速发展，语音信号凭借自身占用空间小、易于编辑和传输等优点成为人们日常生活沟通的一种重要方式。由于语音具有易编辑特性，这导致语音很容易被篡改而被滥用于犯罪活动。因此，研究语音检测技术非常有必要。近些年来，合成语音技术在深度学习的背景下不断有新的突破和发展，以语音合成、语音转换和录音重放等形式的攻击使得自动说话人验证(Automatic Speaker Verification, ASV)系统表现较为脆弱，现有检测技术很难有效区分出高质量的合成语音和自然语音。因此，合成语音检测技术逐渐受到相关研究人员的广泛关注。　　本文针对基于人工智能的合成语音检测算法进行了研究，主要工作总结如下：　　(1)针对合成语音检测分类器设计还不够成熟的问题，本章提出了一种基于门控循环单元(Gate Recurrent Unit, GRU)与支持向量机SVM(Support Vector Machine, SVM)的合成语音检测算法，新提出的GRU-SVM模型是一种专门针对合成语音检测的分类器。GRU对于语音时序数据具有较好的处理能力，再通过SVM回归GRU的隐藏层输出使得检测效果更佳。我们使用了ASVspoof2019数据库以及通过Waveglow算法合成的自建语音库进行实验。同时，检测过程使用了梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCC)特征参数作为检测特征。实验探究了不同维数的MFCC特征对检测结果的影响，从而选出了合适的特征维数进行后续实验。GRU-SVM与其他同类型的分类器相比，检测率在两个数据库中分别可达到99.99%和99.34%。另外，等错误概率(Equal Error Rate, EER)也能达到0.03%和0.15%。实验结果表明，该模型能够有效区分自然语音与合成语音。　　(2)针对传统MFCC特征在合成语音检测中存在语音高频成分利用不足，语音信息表征不完整等问题。本章通过研究传统倒谱系数特征提取过程，设计了一种针对合成语音检测的专用特征。算法使用循环神经网络的另一个变体结构长短时记忆网络(Long Short Time Memory, LSTM)作为改进特征的工具。LSTM网络结构并不直接参与MFCC特征的训练，而是通过学习能量谱特征得到一组权值，再使用这组权值对Mel滤波器组进行改进增强，形成一个新的特征LSTM-MFCC。本章实验使用高斯混合模型(Gaussian Mixture Model, GMM)训练特征，并采用GMM打分系统在两个数据集上进行验证。LSTM-MFCC相比于其他特征，检测率可达99.84%和99.19%，EER达到0.18%和0.89%。综合其他性能比较，提出的LSTM-MFCC特征检测算法明显优于其他合成语音检测算法。

著录项

作者
黄婷;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科信息与通信工程
授予学位硕士
导师姓名郭伟,王宏霞;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
合成语音检测,循环神经网络,支持向量机,梅尔频率倒谱系数,特征提取,深度学习;

相似文献

中文文献
外文文献
专利

1. 基于短时相位谱补偿的非接触语音检测增强算法研究 [J] . 薛慧君 ,王健琪 ,李盛 . 中国医疗设备 . 2013,第011期
2. 基于TMS320C6678的合成语音检测系统的设计与实现 [J] . 况鹏 ,黄海 ,毛少帅 . 电子设计工程 . 2016,第019期
3. 抗噪声语音检测算法研究 [J] . 梅云 . 移动通信 . 2004,第S3期
4. 用于回波抵消的最大长度序列相关近端语音检测算法研究 [J] . 李茂全 ,徐正全 ,胡瑞敏 . 计算机与数字工程 . 2002,第004期
5. 合成语音检测方法的研究现状及展望 [J] . 魏为民 ,刘畅 ,才智 . 上海电力大学学报 . 2022,第1期
6. 基于SVM的合成语音检测 [C] . YANG Shuo ,杨朔 ,JI Zhe . 中国声学学会2017年全国声学学术会议 . -1
7. 基于机器学习的婴儿语音检测算法研究 [A] . 陈燕斌 . 2019

基于深度学习的合成语音检测算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅