首页> 中文学位 >基于trigger对的长距离蒙古语语言模型的研究
【6h】

基于trigger对的长距离蒙古语语言模型的研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第一章绪论

1.1语言模型研究的目的和意义

1.1.1语言模型的简介

1.1.2研究蒙古语语言模型的意义

1.2相关领域研究工作与发展动态

1.2.1语料库建设与加工

1.2.2基于语言单位的上下文统计语言模型

1.2.3数据稀疏问题

1.3本文的主要工作及论文的组织结构

第二章语言模型相关理论与技术

2.1常见语言模型构建方法

2.1.1 Markov模型和状态转移矩阵

2.1.2隐Markov模型

2.1.3向量空间模型VSM

2.1.4严格匹配模型、概率模型

2.1.5基于分布理论的独立检验模型

2.1.6基于规则的语言模型

2.1.7 N元模型

2.2各模型间的关系

2.2.1 N-gram,Markov,隐Markov模型间的关系

2.2.2 VSM和布尔模型的关系

2.2.3基于分布理论的各检验模型间的关系

2.2.4统计模型与规则模型之间的关系

2.3统计语言模型

2.3.1统计语言模型建模方法

2.3.2 N-gram模型特点

2.3.3 N-gram模型中的关键问题

第三章蒙古语及其语言模型的研究

3.1蒙古语语言特点

3.2蒙古语N-gram语言模型建立

3.3蒙古语N-gram语言模型与汉英等其它语言的区别

第四章基于trigger对的长距离蒙古语语言模型的建立与研究

4.1 trigger对概念

4.2 trigger对的应用

4.3基于trigger对的长距离蒙古语语言模型

4.3.1蒙古语统计语言模型中语料库的构建

4.3.2基于trigger对的长距离蒙古语语言模型建立及相应得分

4.3.3基于trigger对的长距离蒙古语语言模型的句长补偿

4.3.4机器翻译模型建立及得分

4.3.5基于trigger对的长距离蒙古语语言模型特点

第五章基于trigger对的长距离蒙古语语言模型的改进Katz平滑技术

5.1语言模型的平滑

5.2常见平滑技术

5.2。1添加平滑技术(Additive Smoothing)

5.2.2 Good-Tuting估计(Good-Turing Estimate)

5.2.3线性插值平滑

5.2.4 Katz平滑技术

5.2.5绝对折扣平滑法(Absolute Discounting)

5.2.6 Kneser-Ney平滑技术

5.3数据平滑技术的评价标准

5.4 Katz应用于2-gram

5.5基于trigger对的改进Katz平滑技术

第六章实验

6.1实验环境

6.1.1提取语料库中的trigger对、平滑参数获取

6.1.2改进已有的汉-蒙机器翻译系统并使之测试基于trigger对的长距离蒙古语语言模型性能

6.2实验数据说明

6.2.1训练数据

6.2.2测试数据

6.2.3评价数据

6.3翻译结果的评价标准

6.3.1 BLEU评价标准

6.3.2 NIST评价标准

6.4进行基于trigger对的改进Katz平滑的必要性实验

6.5基于trigger对的长距离蒙古语语言模型测试比较实验

6.5.1最大值相乘法

6.5.2取和相乘法

6.5.3取和平均值相乘法

6.5.4测试小结

第七章结论与未来研究方向

7.1总结

7.2工作展望

致谢

参考文献

展开▼

摘要

语言模型(Language Model)是描述自然语言内在规律的数学模型,在机器翻译、语音识别、文字处理、信息检索等领域中占据着十分重要的地位。-个可靠的语言模型对于提高机器翻译系统的识别率起重要的作用。 蒙古语是世界范围内有影响的民族语言,在中国许多地区广为使用。蒙古语语言模型技术在蒙古文信息处理系统中的集成和应用技术虽有了定的发展,但主要是使用汉语、英语等语言的技术,而没有针对蒙古语本身进行大量的研究。本文结合语言模型技术方面的研究成果,将进一步探索蒙古语特点,通过增强蒙古语语言模型的性能来提高汉.蒙机器翻译系统的识别率。 本文对语言模型的相关技术进行了探讨;对蒙古语语言特点进行了分析;对trigger对特点进行了分析;针对蒙古语特点结合trigger对进行长距离蒙古语语言模型设计;对平滑技术进行了分析;针对trigger的特点设计相应的KATZ平滑算法;将以上理论部分在汉-蒙机器翻译系统中进行实验。从实验结果看,基于trigger对的长距离蒙古语语言模型有较好的性能,得到了令人满意的翻译结果:在翻译节点数为300情况下bleu得分从原来的0.1761提高到0.2234;在翻译节点数为1000情况下bleu得分从原来的0.1873提高到0.2325。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号