首页> 中文学位 >对话语音中的目标说话人检测和定位
【6h】

对话语音中的目标说话人检测和定位

代理获取

目录

文摘

英文文摘

第1章引言

1.1研究背景

1.2研究现状

1.3研究内容

第2章特征表示与提取

2.1 预处理

2.1.1采样与量化

2.1.2预加重处理

2.1.3加窗以及窗移

2.2端点检测

2.2.1 TF参数

2.2.2端点检测算法

2.3特征提取

2.3.1线性预测系数

2.3.2倒谱特征系数

2.3.3特征增强

第3章目标模型和背景模型的建立

3.1高斯混合模型

3.2目标说话人GMM模型训练

3.2.1 EM算法

3.2.2 GMM模型训练算法

3.2.3迭代初始参数设置

3.2.4模型混合数设置

3.2.5迭代收敛阈值设置

3.3背景模型训练

3.4模型自适应

第4章目标说话人检测和定位

4.1硬分割方法

4.1.1硬分割原理

4.1.2说话人跳变点检测

4.1.3说话人聚类

4.1.4说话人验证

4.2软分割方法

4.2.1软分割原理

4.2.2目标说话人检测算法

4.2.3目标说话人定位算法

4.3性能评价方法

4.3.1目标说话人检测

4.3.2目标说话人定位

第5章系统设计

5.1系统结构

5.2系统设计

5.2.1系统设计目标

5.2.2系统总体设计

5.2.3系统类模块设计

第6章实验结果分析

6.1实验数据

6.2实验结果

6.2.1目标说话人检测

6.2.2目标说话人定位

6.3结论

6.4需要进一步探讨的问题

参考文献

致谢

原创性声明

展开▼

摘要

本文主要研究在对话语音中检测目标说话人,并定位目标说话人语音的问题。目标说话人检测,是指在一段多个人连续说话的对话语音中判断目标说话人是否出现;目标说话人定位,是指在目标说话人检测的基础上,当检测到目标说话人在对话语音中出现时,对目标说话人在对话语音中出现的具体的时间段进行估计。本文的研究基于事先已经知道目标说话人这样一个前提。  目前,对话语音中的目标说话人检测和定位问题,主要是采用以下方法来解决。首先,检测出对话语音中的说话人跳变点,将不同说话人的语音分割开来;然后,对分割后的语音段进行说话人聚类处理;最后,使用单个说话人识别技术在对话语音中识别出目标说话人的语音,从而达到在对话语音中检测和定位目标说话人的目的。我们将这种基于说话人的语音分割、聚类以及说话人识别的方法称为硬分割。本文在研究和总结前人成果的基础上,针对硬分割的缺陷,结合实际情况,提出了单帧对数似然比算法。相对于硬分割,本文将这种基于单帧对数似然比算法进行对话语音中的目标说话人检测和定位的方法称为软分割。  与硬分割相比,软分割主要有以下几个优点:第一,充分利用了已知目标说话人这个先验知识,将目标说话人检测问题作为解决目标说话人定位问题的前提和基础,只有在对话语音中检测到目标说话人的情况下才进行目标说话人定位。因此,软分割方法更为简洁、高效。第二,在参与对话的说话人个数未知的情况下,由于不需要对对话语音进行基于说话人跳变点的细致分割,因此在这种情况下软分割仍然适用;而硬分割在这种情况下因无法进行准确的说话人聚类而不再适用。  实验表明,从总体上来说,软分割的性能要好于硬分割。而且,软分割的实用性、实时性以及鲁棒性均要好于硬分割。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号