网络环境下实时音频解码与鲁棒说话人识别系统研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

网络环境下说话人识别是指在互联网音频信息中查找出目标说话人的一种技术，在安全、刑侦等领域具有重要的实际应用价值。本文以搭建工程化的网络环境下说话人识别系统为目的，开展相关的研究工作。
　　进行网络环境下说话人识别，首先要将互联网中各种编码格式的音视频实时解码成统一规格的非压缩音频。本文在实验室现有的实时音频解码系统基础上，分析了不同协处理器（Coprocessor）实现实时音频解码的优劣，并将实际网络中占有量最大的MP3（MPEG Audio Layer3）解码过程移植到众核芯片 TILE64上，以解决实时音频解码系统占有CPU（Central Processing Unit）资源较高、解码速度较低的问题。含有 TILE64实时解码MP3功能的新实时音频解码系统平均解码速度达到200Mbps，比原来提高了1倍，而功耗并未增加。
　　其次，利用新实时音频解码系统采集实际网络中的大批音视频数据，并实时地解码成8KHz采样率、16bits采样位数、单声道且时长为10秒的标准处理单元，然后通过VAD（Voice Activity Detection）和基于高斯核函数的SVM（Support Vector Machine）方法进行语音/非语音分类，过滤出约占总量七分之一的语音标准处理单元集合，并以此语音标准处理单元集合为基础，整理出用于说话人识别测试的真实网络语料库。接下来，搭建基于GMM-UBM（Gaussian Mixture Model-Universal Background Model）的文本无关的通用说话人辨认系统，通过实验表明，通用说话人识别系统能够在实验环境下表现良好，但在真实网络语料库中，由于非目标说话人的海量语音数据影响，虚警数远超过正确识别数，无法满足实际工程需求。
　　最后，针对上述通用说话人识别系统不能胜任网络环境下工程需求的问题，设计并实现了两种说话人识别确认方法——高阶语义窗和音素级对比方法，通过实验表明，这两种方法在提高通用说话人识别系统的鲁棒性上都表现良好。其中，两种方法的融合改进系统鲁棒性更加明显，虚警率在0.1‰时，召回率达到50％，与通用说话人识别系统相比提高了6.25倍，基本达到实际工程的需求。

著录项

作者
孟昕;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名韩纪庆;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;
关键词
网络环境; 实时音频解码; 高斯核函数; 说话人识别系统; 鲁棒性;

相似文献

中文文献
外文文献
专利

1. 信道失配环境下鲁棒说话人识别 [J] . 冉国敬 ,夏秀渝 ,张凤仪 . 计算机系统应用 . 2015,第003期
2. 多声源环境下的鲁棒说话人识别 [J] . 张凤仪 ,夏秀渝 ,冉国敬 . 计算机系统应用 . 2015,第004期
3. 网络环境下航天器交会对接系统的鲁棒H∞滤波 [J] . 李艳辉 ,刘畅 . 中国惯性技术学报 . 2015,第004期
4. 网络环境下企业实时成本系统研究 [J] . 吴强 ,刘存葆 . 集团经济研究 . 2006,第002期
5. 网络环境下企业实时成本系统研究 [J] . 吴强 ,刘存葆 . 集团经济研究 . 2006,第01X期
6. 网络环境下的不确定离散时滞系统鲁棒H∞控制 [C] . 张文安 ,俞立 . 中国自动化学会第20届青年学术会议 . 2005
7. 噪声条件下鲁棒说话人识别研究 [A] . 王明合 . 2018

网络环境下实时音频解码与鲁棒说话人识别系统研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅