首页> 中文学位 >基于统计的蒙古文自动词性标注的研究与实现
【6h】

基于统计的蒙古文自动词性标注的研究与实现

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景和选题意义

1.2词性标注方法介绍

1.3词性标注研究历史和现状

1.3.1国外研究

1.3.2国内研究

1.4研究内容及研究方法

1.4.1研究内容

1.4.2研究方法

1.5论文的组织结构

第二章词性标注统计模型

2.1统计语言模型

2.2隐马尔可夫模型

2.2.1隐马尔可夫模型概述

2.2.2隐马尔可夫模型需要解决的问题

2.3模型参数的获取

2.4隐马尔可夫模型的参数平滑

2.4.1词性概率的平滑

2.4.2词汇概率的求解

2.5标准VITERBI算法

2.5.1 VITERBI算法的三重循环

2.5.2 VITERBI算法的基本过程

第三章词性标注系统的设计与实现

3.1词性标记集的选择

3.2训练语料库的选择

3.3系统的设计

3.3.1系统的开发环境

3.3.2系统的功能

3.3.3系统的整体框架

3.4蒙古文切分模块的实现

3.4.1句子的切分

3.4.2附加成分的切分

3.4.3阿拉伯数字的切分

3.5词性自动标注模块的实现

3.5.1打开训练语料库模块的实现

3.5.2获得模型参数模块的实现

3.5.3平滑参数模块的实现

3.5.4基于VITERBE算法进行词性标注模块的实现

3.5.5解决生词模块的实现

3.5.6输出标注结果模块的实现

第四章实验结果及分析

4.1切分之前的实验结果及结果分析

4.1.1实验结果

4.1.2实验结果分析

4.2切分之后的实验结果及结果分析

4.2.1实验结果

4.2.2实验结果分析

第五章结论与展望

5.1研究工作结论

5.2进一步工作展望

参考文献

附录 面向信息处理的蒙古语标记集

攻读硕士学位期间发表的学术论文

致谢

展开▼

摘要

随着计算机技术,特别是网络技术的迅速发展和普及,人们越来越迫切地希望用自然语言与计算机交流。因此自然语言信息处理得到了前所未有的重视,受到了国内外许多研究者的关注。词性标注是自然语言信息处理的基础,词性标注的准确率直接影响到后续的研究。目前关于汉语自动词性标注方面一些人士做了许多相关研究,并取得了一定的成果。而有关蒙古文自动词性标注方面的研究还欠缺。
   本文主要研究并实现了基于统计的蒙古文自动词性标注系统。该系统通过隐马尔可夫模型对训练语料库进行训练,获得两种重要的模型参数,即词性转移概率矩阵和词汇概率分布矩阵。得到模型参数之后采用VITERBI算法进行自动词性标注。本文采用了词语切分和线性插值法解决了隐马尔可夫模型的数据稀疏问题,从而在一定程度上避免了由于数据稀疏而导致的自动词性标注准确率下降问题。
   最后本文对该系统对蒙古文进行切分之前和切分之后的自动词性标注分别作了以下的实验。先在不同规模的语料下分别做了一级封闭测试和一级开放测试。然后当词性标记集为二级和三级标记集时分别做了封闭测试和开放测试。测试评价标准分别采用了词性标注准确率和兼类词排歧准确率。以规模为95万词的语料库作为训练语料,对5万词的测试语料进行测试之后得到的封闭测试标注准确率和排歧准确率分别约为97.9%和85.9%,开放测试标注准确率和排歧准确率分别约为97.6%和85.5%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号