首页> 中文学位 >网络环境下实时音频解码与鲁棒说话人识别系统研究
【6h】

网络环境下实时音频解码与鲁棒说话人识别系统研究

代理获取

目录

网络环境下实时音频解码与鲁棒说话人识别系统研究

Research on Real-time Audio Decoding and Robust Speaker Recognition System in Network Environment

摘 要

Abstract

第1章 绪 论

1.1 研究目的和意义

1.2 国内外研究现状

1.3 本文的研究内容

第2章 基于协处理器的实时音频解码分析与实现

2.1 引言

2.2 协处理器实现实时音频解码的必要性

2.3 不同协处理器实时音频解码实现分析

2.4 众核在实时音频解码方面的优势

2.5 基于众核的实时音频解码设计与实现

2.6 实验与讨论

2.7 本章小结

第3章 语音非语音分类及通用说话人识别系统

3.1 引言

3.2 语音非语音分类方法

3.3 通用说话人识别系统

3.4 实验与讨论

3.5 本章小结

第4章 基于说话人确认的鲁棒提高方法

4.1 引言

4.2 基于高阶语义窗的确认方法

4.3 基于音素级对比的确认方法

4.4 实验和讨论

4.5 本章小结

结 论

参考文献

哈尔滨工业大学学位论文原创性声明及使用授权说明

致 谢

展开▼

摘要

网络环境下说话人识别是指在互联网音频信息中查找出目标说话人的一种技术,在安全、刑侦等领域具有重要的实际应用价值。本文以搭建工程化的网络环境下说话人识别系统为目的,开展相关的研究工作。
  进行网络环境下说话人识别,首先要将互联网中各种编码格式的音视频实时解码成统一规格的非压缩音频。本文在实验室现有的实时音频解码系统基础上,分析了不同协处理器(Coprocessor)实现实时音频解码的优劣,并将实际网络中占有量最大的MP3(MPEG Audio Layer3)解码过程移植到众核芯片 TILE64上,以解决实时音频解码系统占有CPU(Central Processing Unit)资源较高、解码速度较低的问题。含有 TILE64实时解码MP3功能的新实时音频解码系统平均解码速度达到200Mbps,比原来提高了1倍,而功耗并未增加。
  其次,利用新实时音频解码系统采集实际网络中的大批音视频数据,并实时地解码成8KHz采样率、16bits采样位数、单声道且时长为10秒的标准处理单元,然后通过VAD(Voice Activity Detection)和基于高斯核函数的SVM(Support Vector Machine)方法进行语音/非语音分类,过滤出约占总量七分之一的语音标准处理单元集合,并以此语音标准处理单元集合为基础,整理出用于说话人识别测试的真实网络语料库。接下来,搭建基于GMM-UBM(Gaussian Mixture Model-Universal Background Model)的文本无关的通用说话人辨认系统,通过实验表明,通用说话人识别系统能够在实验环境下表现良好,但在真实网络语料库中,由于非目标说话人的海量语音数据影响,虚警数远超过正确识别数,无法满足实际工程需求。
  最后,针对上述通用说话人识别系统不能胜任网络环境下工程需求的问题,设计并实现了两种说话人识别确认方法——高阶语义窗和音素级对比方法,通过实验表明,这两种方法在提高通用说话人识别系统的鲁棒性上都表现良好。其中,两种方法的融合改进系统鲁棒性更加明显,虚警率在0.1‰时,召回率达到50%,与通用说话人识别系统相比提高了6.25倍,基本达到实际工程的需求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号