基于统计和潜在语义分析的混合语言模型的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

语言模型在语音识别中占据着重要的地位，它担负着把拼音转化成汉字的重任，语言模型性能的好坏直接影响到语音识别的结果好坏。当前应用最广泛的语言模型是基于统计的语言模型。数据稀疏问题是统计语言模型所面临的主要问题之一。同时，由于统计语言模型只考虑了语言的局部信息，因此在统计语言模型中融入全局信息是很有意义的。当前应用于统计语言模型中的平滑技术有很多种，在语音识别中常用的有Katz平滑和Church-Gale平滑。为了在统计语言模型中加入全局信息，本文引用了Bellegarda提出的基于潜在语义分析的语言模型。该模型从文本全局内容的角度出发来预测词的出现概率，很好地弥补了统计语言模型的局部性，是统计语言模型很好的补充。通过对词—文档矩阵进行奇异值分解，所有文档和词都用相同维数的向量来表示，文档对词的预测能力就用它们所对应的向量的相似度来衡量。在统计语言模型和潜在语义分析语言模型的基础上构建了一种混合的语言模型，该模型同时包括了文本的局部信息和全局信息。为了比较混合模型和统计模型的性能优劣，采用了衡量语言模型性能的主要方法—困惑度。在实验中，采用Katz平滑方法构造了二元统计语言模型，并采用直接建模方法构造了潜在语义分析语言模型，将这两种不同类型的语言模型相结合得到一种新的混合的语言模型。实验结果表明，相对于单纯的二元统计语言模型，这种混合的语言模型困惑度有所下降，性能有所提高。

著录项

作者
甄天桥;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名韩纪庆;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
统计语言模型; 潜在语义分析语言模型; 困惑度;

相似文献

中文文献
外文文献
专利

1. 基于统计语言模型改进的Word2Vec优化策略研究 [J] . 张克君 ,史泰猛 ,李伟男 . 中文信息学报 . 2019,第007期
2. 基于统计语言模型的英语易读性研究 [J] . 邢富坤 ,程东元 . 解放军外国语学院学报 . 2010,第006期
3. 基于字统计语言模型的汉语语音识别研究 [J] . 吴应良 ,韦岗 ,李海洲 . 计算机应用研究 . 2000,第005期
4. 基于一种混合语言模型的自动文本分类技术研究 [J] . 郑德权 ,李生 ,赵铁军 . 电子与信息学报 . 2007,第003期
5. 基于混合语言模型的盲汉机器翻译系统的研究与实现 [J] . 周春耕 ,张秉权 ,黄河燕 . 计算机工程与应用 . 2003,第004期
6. 基于统计语言模型蒙古文词汇分析校正器的设计与实现 [C] . 赵军 ,敖其尔 ,吉仁尼格 . 第十一届全国民族语言文字信息学术研讨会 . 2007
7. 基于统计语言模型的搜索引擎输入纠错技术研究 [A] . 钱柯 . 2017

基于统计和潜在语义分析的混合语言模型的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅