基于大词汇量连续语音识别的语音检索技术的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

基于大词汇量连续语音识别(LVCSR)的语音检索是音频信息检索的重要研究方向。本论文针对该方向的三个重要技术问题进行研究:第一，从多途径来提高语音识别结果的准确性;第二，针对检索问题改进语音识别输出内容的结构形式;第三，改进检索结果的置信度以提高可靠性。
　　语音识别系统的输出包含的正确结果越多，相应检索结果的正确性和召回率越高。针对这一问题，本文一方面采用多种算法提高识别系统的识别率，另一方面将不同语音识别系统进行融合来提升检索性能。本文分别采用基于最小音素错误(MPE)准则的区分性训练方法和基于特征拼接的TANDEM方法提高识别系统的识别率，得到了两个改进的LVCSR系统，之后利用系统融合的方法将二者进行融合，再应用到语音检索系统之中。
　　在语音检索系统中，LVCSR输出的多候选内容通常被保存为网格结构，但网格中包含很多无用和重复的信息，使得检索性能不太理想，需要对其进行剪枝和规整。本文在传统的基于网格的语音检索基础上，采用了混淆网络结构来优化网格，建立了基于混淆网络的语音检索系统，并给出了传统聚类算法和快速生成算法这两种混淆网络的生成方法。
　　考虑到语音识别存在错误，检索系统需要对识别阶段给出的候选词进行置信度打分，以提高检索结果的正确性。本文在语音识别的词后验概率置信度的基础上，提出了用与LVCSR无关的置信度来补充语音识别过程中的置信度的思想。通过计算候选结果基于模板语音的动态时间规划匹配得分，将其作为一种置信度与词后验概率相融合，提高了关键词判决的准确性。
　　本文提出的改进算法在标准的NIST关键词检测数据库上进行了实验，从实验结果上验证了这些算法的有效性。

著录项

作者
苏姗;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科信号与信息处理
授予学位硕士
导师姓名戴礼荣;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;
关键词
语音检索技术; 混淆网络; 置信度; 动态时间规划; 最小音素错误;

相似文献

中文文献
外文文献
专利

1. 基于动态贝叶斯网络的大词汇量连续语音识别和音素切分研究 [J] . 吕国云 ,蒋冬梅 ,张艳宁 . 西北工业大学学报 . 2008,第002期
2. 基于混合DBNN-BLSTM模型的大词汇量连续语音识别 [J] . 李云红 ,王成 ,王延年 . 纺织高校基础科学学报 . 2018,第001期
3. 基于加权音节混淆矩阵的候选扩展算法在中文大词汇量连续语音识别中的应用(英文) [J] . 常凤香 ,李宝祥 ,刘刚 . 中国通信：英文版 . 2013,第7期
4. 基于三音素动态贝叶斯网络模型的大词汇量连续语音识别 [J] . 吕国云 ,赵荣椿 ,张艳宁 . 数据采集与处理 . 2009,第001期
5. 汉语大词汇量连续语音识别系统研究进展 [J] . 倪崇嘉 ,刘文举 ,徐波 . 中文信息学报 . 2009,第001期
6. 维吾尔语大词汇量连续语音识别研究──语音语料库的建立 [C] . 那斯尔江·吐尔逊 ,吾守尔·斯拉木 ,麦麦提艾力 . 第十一届全国民族语言文字信息学术研讨会 . 2007
7. 会议语音的混响消除及其大词汇量连续语音识别的研究 [A] . 崔文迪 . 2008

基于大词汇量连续语音识别的语音检索技术的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅