基于统计的蒙古文自动词性标注的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机技术，特别是网络技术的迅速发展和普及，人们越来越迫切地希望用自然语言与计算机交流。因此自然语言信息处理得到了前所未有的重视，受到了国内外许多研究者的关注。词性标注是自然语言信息处理的基础，词性标注的准确率直接影响到后续的研究。目前关于汉语自动词性标注方面一些人士做了许多相关研究，并取得了一定的成果。而有关蒙古文自动词性标注方面的研究还欠缺。
　　本文主要研究并实现了基于统计的蒙古文自动词性标注系统。该系统通过隐马尔可夫模型对训练语料库进行训练，获得两种重要的模型参数，即词性转移概率矩阵和词汇概率分布矩阵。得到模型参数之后采用VITERBI算法进行自动词性标注。本文采用了词语切分和线性插值法解决了隐马尔可夫模型的数据稀疏问题，从而在一定程度上避免了由于数据稀疏而导致的自动词性标注准确率下降问题。
　　最后本文对该系统对蒙古文进行切分之前和切分之后的自动词性标注分别作了以下的实验。先在不同规模的语料下分别做了一级封闭测试和一级开放测试。然后当词性标记集为二级和三级标记集时分别做了封闭测试和开放测试。测试评价标准分别采用了词性标注准确率和兼类词排歧准确率。以规模为95万词的语料库作为训练语料，对5万词的测试语料进行测试之后得到的封闭测试标注准确率和排歧准确率分别约为97.9％和85.9％，开放测试标注准确率和排歧准确率分别约为97.6％和85.5％。

著录项

作者
艳红;
展开▼
作者单位

内蒙古师范大学;

展开▼
授予单位内蒙古师范大学;
学科计算机应用技术
授予学位硕士
导师姓名王斯日古楞;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
自然语言信息处理; 蒙古文自动词性标注; 词语切分; 线性插值; 隐马尔可夫模型;

相似文献

中文文献
外文文献
专利

1. 基于历史模型的蒙古文自动词性标注研究 [J] . 赵建东 ,高光来 ,飞龙 . 中文信息学报 . 2013,第005期
2. 基于HMM的蒙古文自动词性标注研究 [J] . 艳红 ,王斯日古楞 . 内蒙古师范大学学报（自然科学汉文版） . 2010,第002期
3. 蒙古文词性标注及融合词性因子的蒙汉统计机器翻译 [J] . 玉霞 ,王斯日古楞 . 内蒙古师范大学学报（自然科学汉文版） . 2015,第003期
4. 基于统计翻译框架的蒙古文自动拼写校对方法 [J] . 苏传捷 ,侯宏旭 ,杨萍 . 中文信息学报 . 2013,第006期
5. 基于规则和统计相结合的西里尔蒙古文到传统蒙古文转换方法 [J] . 飞龙 ,高光来 ,王洪伟 . 中文信息学报 . 2017,第003期
6. 蒙古文词语切分在自动词性标注中的应用 [C] . 艳红 ,王斯日古楞 . 第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会 . 2010
7. 规则与统计相结合的英语词性标注系统的研究与实现 [A] . 滑朋杰 . 2007

基于统计的蒙古文自动词性标注的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅