首页> 中文学位 >统计语言模型平滑技术和压缩技术的研究与实现
【6h】

统计语言模型平滑技术和压缩技术的研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 选题的背景和研究意义

1.2 国内外研究现状

1.3 本文的主要工作

1.4 本文的章节安排

第二章 N-Gram 统计语言模型

2.1 N-Gram 统计语言模型概述

2.2 N-Gram 统计语言模型的存储

2.3 N-Gram 统计语言模型的建立

2.4 N-Gram 统计语言模型的评价标准

2.5 本章小结

第三章 N-Gram 统计语言模型的平滑技术和压缩技术

3.1 现有的模型平滑技术

3.2 现有的模型压缩技术

3.3 本章小结

第四章 改进的平滑技术和压缩技术

4.1 改进的 average-count 平滑

4.2 基于次数和条件概率想结合的剪枝方法

4.3 改进的基于相对熵的规则剪枝方法

4.4 基于方差的分组方法

4.5 基于相对熵剪枝和基于方差分组相结合的压缩方法

4.6 本章小结

第五章 实验方法及结果分析

5.1 改进的 average-count 平滑方法性能验证

5.2 语言模型在中文整句拼音输入法中的应用

5.3 压缩技术实验分析

5.3.5 小结

5.4 实验平台的搭建

5.5 本章小结

第六章 结束语

6.1 主要结论

6.2 后续研究工作的展望

致谢

参考文献

展开▼

摘要

随着全社会信息化进程的迅速发展,使用计算机处理语言文字的重要性与紧迫性日益显现出来,自然语言处理系统得到迅速发展。而目前根据计算机语言学经验主义的研究办法得到的自然语言处理系统的核心就是统计语言模型。统计语言模型是利用统计的方法描述自然语言内在规律的数学模型。
  统计语言模型的发展目前面临的两个主要问题是数据稀疏问题和规模过大问题,为此模型建立以后要对模型进行平滑和压缩。本论文主要针对目前正得到广泛推广与应用的统计语言模型,研究了模型的平滑技术和压缩技术,重点研究了模型的压缩技术。在介绍当前已有的统计语言模型平滑技术和压缩技术基础上,本文针对 average-count平滑方法,提出了一种改进方法;针对基于相对熵的剪枝方法优化了其计算方法;针对分组方法提出了一种基于方差的分组方法,然后将改进后的基于相对熵的剪枝方法和基于方差的分组方法相结合,作为本文最终的压缩方法。
  论文的最后通过统计语言模型性能测试实验平台来测试本文提出的这些改进技术的性能,平台通过测试模型的困惑度大小来测试平滑方法的优劣,通过中文整句拼音输入法的错误率大小来证明压缩方法的好坏。实验表明,本文提出的这些改进技术要好于原有方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号