首页> 中文学位 >基于大词汇量连续语音识别的语音检索技术的研究
【6h】

基于大词汇量连续语音识别的语音检索技术的研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 语音检索的研究背景

1.2 语音检索技术的国内外研究现状

1.3 语音检索系统的框架

1.4 语音检索系统的性能评价指标

1.5 论文的研究内容

1.6 论文的结构安排

第2章 大词汇量连续语音识别系统的建立

2.1 连续语音识别的原理

2.1.1 特征提取

2.1.2 特征规整

2.1.3 模型的建立

2.1.4 解码器

2.2 语音识别中声学模型的研究

2.2.1 基于最大似然估计的声学模型

2.2.2 基于区分性训练的声学模型

2.2.3 基于TANDEM的声学模型

2.3 语音识别的数据库和评价标准

2.3.1 数据库

2.3.2 语音识别系统的性能评价指标

2.4 实验结果及分析

2.5 本章小结

第3章 基于混淆网络的语音检索技术

3.1 混淆网络的概念

3.2 网格的定义

3.3 传统的混淆网络生成算法

3.4 快速的混淆网络生成算法

3.5 基于混淆网络的语音检索系统

3.6 实验结果及分析

3.7 本章小结

第4章 基于系统融合的语音检索技术

4.1 系统融合概述

4.2 基于直接串联的系统融合

4.3 识别器输出结果投票融合法

4.3.1 多识别结果动态对齐

4.3.2 投票准则

4.4 混淆网络融合法

4.5 索引融合法

4.6 实验结果及分析

4.7 本章小结

第5章 语音检索中置信度策略的研究

5.1 置信度的概念和意义

5.2 基于后验概率的置信度

5.3 基于伪相关反馈的置信度

5.3.1 伪相关反馈的概念

5.3.2 动态时间规划的基本原理

5.3.3 相似度得分

5.4 基于模板匹配的置信度

5.4.1 多模板的建立

5.4.2 高斯混合-通用背景模型

5.4.3 模板匹配得分

5.5 实验结果及分析

5.6 本章小结

第6章 总结与展望

6.1 论文总结

6.2 研究展望

参考文献

致谢

在读期间发表的学术论文

展开▼

摘要

基于大词汇量连续语音识别(LVCSR)的语音检索是音频信息检索的重要研究方向。本论文针对该方向的三个重要技术问题进行研究:第一,从多途径来提高语音识别结果的准确性;第二,针对检索问题改进语音识别输出内容的结构形式;第三,改进检索结果的置信度以提高可靠性。
   语音识别系统的输出包含的正确结果越多,相应检索结果的正确性和召回率越高。针对这一问题,本文一方面采用多种算法提高识别系统的识别率,另一方面将不同语音识别系统进行融合来提升检索性能。本文分别采用基于最小音素错误(MPE)准则的区分性训练方法和基于特征拼接的TANDEM方法提高识别系统的识别率,得到了两个改进的LVCSR系统,之后利用系统融合的方法将二者进行融合,再应用到语音检索系统之中。
   在语音检索系统中,LVCSR输出的多候选内容通常被保存为网格结构,但网格中包含很多无用和重复的信息,使得检索性能不太理想,需要对其进行剪枝和规整。本文在传统的基于网格的语音检索基础上,采用了混淆网络结构来优化网格,建立了基于混淆网络的语音检索系统,并给出了传统聚类算法和快速生成算法这两种混淆网络的生成方法。
   考虑到语音识别存在错误,检索系统需要对识别阶段给出的候选词进行置信度打分,以提高检索结果的正确性。本文在语音识别的词后验概率置信度的基础上,提出了用与LVCSR无关的置信度来补充语音识别过程中的置信度的思想。通过计算候选结果基于模板语音的动态时间规划匹配得分,将其作为一种置信度与词后验概率相融合,提高了关键词判决的准确性。
   本文提出的改进算法在标准的NIST关键词检测数据库上进行了实验,从实验结果上验证了这些算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号