首页> 中文学位 >基于统计和潜在语义分析的混合语言模型的研究
【6h】

基于统计和潜在语义分析的混合语言模型的研究

代理获取

目录

摘要

Abstract

第1章 绪论

1.1 课题背景及研究意义

1.1.1 课题背景

1.1.2 研究的意义

1.2 国内外研究现状

1.3 本文的主要内容

第2章 统计语言模型及平滑技术

2.1 统计语言模型

2.1.1 N-gram语言模型

2.1.2 语言模型的性能评价标准

2.2 统计语言模型的数据平滑技术

2.2.1 Good-Turing估计

2.2.2 Jelinek-Mercer平滑

2.2.3 Katz平滑

2.2.4 Church-Gale平滑

2.2.5 Average-count平滑

2.2.6 基于二项式后验分布的回退方法

2.3 本章小结

第3章 潜在语义与统计相结合的语言模型

3.1 概述

3.2 潜在语义分析原理

3.2.1 特征表示

3.2.2 奇异值分解

3.2.3 伪文档的表示

3.3 聚类

3.3.1 词聚类

3.3.2 文档聚类

3.4 潜在语义分析语言模型的建立

3.4.1 直接建模

3.4.2 词聚类建模

3.4.3 文档聚类建模

3.4.4 联合聚类建模

3.5 潜在语义分析模型和统计模型的结合

3.6 本章小结

第4章 实验方法和结果分析

4.1 语料准备工作

4.1.1 语料来源

4.1.2 语料预处理

4.2 统计语言模型的建立

4.3 潜在语义分析语言模型的建立

4.4 两种形式语言模型的结合

4.5 实验结果及分析

4.6 本章小结

结论

参考文献

致谢

展开▼

摘要

语言模型在语音识别中占据着重要的地位,它担负着把拼音转化成汉字的重任,语言模型性能的好坏直接影响到语音识别的结果好坏。当前应用最广泛的语言模型是基于统计的语言模型。数据稀疏问题是统计语言模型所面临的主要问题之一。同时,由于统计语言模型只考虑了语言的局部信息,因此在统计语言模型中融入全局信息是很有意义的。当前应用于统计语言模型中的平滑技术有很多种,在语音识别中常用的有Katz平滑和Church-Gale平滑。为了在统计语言模型中加入全局信息,本文引用了Bellegarda提出的基于潜在语义分析的语言模型。该模型从文本全局内容的角度出发来预测词的出现概率,很好地弥补了统计语言模型的局部性,是统计语言模型很好的补充。通过对词—文档矩阵进行奇异值分解,所有文档和词都用相同维数的向量来表示,文档对词的预测能力就用它们所对应的向量的相似度来衡量。在统计语言模型和潜在语义分析语言模型的基础上构建了一种混合的语言模型,该模型同时包括了文本的局部信息和全局信息。为了比较混合模型和统计模型的性能优劣,采用了衡量语言模型性能的主要方法—困惑度。在实验中,采用Katz平滑方法构造了二元统计语言模型,并采用直接建模方法构造了潜在语义分析语言模型,将这两种不同类型的语言模型相结合得到一种新的混合的语言模型。实验结果表明,相对于单纯的二元统计语言模型,这种混合的语言模型困惑度有所下降,性能有所提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号