首页> 中文学位 >面向语料采集系统的非并发说话人分离技术研究
【6h】

面向语料采集系统的非并发说话人分离技术研究

代理获取

目录

声明

摘要

1绪论

1.1研究背景与意义

1.2国内外研究现状

1.3论文工作及结构安排

2语料采集系统

2.1基于Hadoop的语料采集框架

2.1.1 Hadoop分布式系统概述

2.1.2网络爬虫结构

2.2不同性别说话人分离子系统

2.2.1语音信号的线性可分离模型

2.2.2说话人性别相关特征

2.2.3子系统结构及关键步骤

2.3本章小结

3说话入分割方法

3.1基于BIC距离度量的说话入分割算法

3.1.1贝叶斯信息准则简介

3.1.2说话人转折点检测方法

3.2基于GMM-UBM模型的说话人分割算法

3.2.1 UBM模型训练

3.2.2基于GMM模型的说话人分割

3.3改进的二步判决说话人分割方法

3.4本章小结

4基于深度神经网络的说话人性别识别

4.1深度神经网络框架

4.2深度神经网络训练算法

4.3网络模型的性能评价

4.4本章小结

5实验结果与分析

5.1实验数据与系统说明

5.2说话人分割

5.3说话人性别识别

5.4本章小结

6总结与展望

致谢

参考文献

附录

展开▼

摘要

人工智能技术发展到今天,数据资源成为了各大研究机构在人工智能领域能否取得领先地位的关键。研究如何从互联网上海量数据资源中获取感兴趣的音频数据,已成为很多大学和研究机构的研究热点之一。现有的一些开源语料采集系统大多基于分布式爬虫结构,在爬取网页中非并发的说话人音频资源时,缺乏一个有效的按性别区分的说话人分离方案,而不经分离处理的语料资源实际应用价值损失很大。 针对上述问题,本学位论文依托实习单位“语音叫车”项目,利用互联网中非并发的说话人音频资源,研究了一种基于性别的说话人分离方法。在基于Hadoop的语料采集系统中,上述方法是说话人分离子系统的核心。采集系统中由爬虫网络爬取的非并发说话人音频数据,经过说话人分离子系统处理,输出两类带性别标记的语料。本文所研说话人分离方法包含了两个关键步骤:基于贝叶斯信息准则与通用背景模型(BIC-UBM)混合方法的说话人分割以及基于深度神经网络(DNN)的说话人性别识别。基于BIC-UBM的说话人分割以找出音频中说话人性别发生转换的位置为目的,并按照这种说话人转折点对音频进行分割,是一种先进行说话人转折点检测再进行转折点真伪鉴别的二步判决方法;基于DNN的性别识别网络对分割得到的语音片段进行性别识别,根据识别结果输出两类语音信号。本文以实习单位提供的客服通话语音作为实验语料库,实验结果表明,本文所研说话人分割方法对包含多个说话人转折点的语音分割准确度达到了94.2%,转折点检测的漏警率为5.8%、虚警率为15.5%。基于DNN的说话人性别识别方法对语音片段的性别识别准确度最高可达96%,其中男性样本识别查全率为94%,女性样本识别查全率为98%。 本文所研基于性别的说话人分离方法满足了相关语料采集系统的要求,为“语音叫车”项目后续的模型训练工作提供了良好的语料基础。

著录项

  • 作者

    何云亚;

  • 作者单位

    南京理工大学;

  • 授予单位 南京理工大学;
  • 学科 电子与通信工程
  • 授予学位 硕士
  • 导师姓名 赵兆,苏丹;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    语料; 采集系统; 说话人;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号