首页> 中文学位 >基于CRF的蒙古文人名自动识别
【6h】

基于CRF的蒙古文人名自动识别

代理获取

目录

声明

摘要

图表目录

第一章 绪论

1.1 研究背景及意义

1.2 研究现状

1.3 本文研究内容

1.4 论文组织安排

第二章 蒙古文人名识别

2.1 蒙古文人名特点

2.1.1 蒙古族姓氏简述

2.1.2 蒙古族名字分析

2.2 蒙古文人名识别

2.2.1 人名识别基本流程

2.2.2 蒙古文人名识别难点

2.2.3 蒙古文人名识别解决方案

2.3 小结

第三章 相关方法介绍

3.1 简介

3.2 相关方法

3.2.1 朴素贝叶斯

3.2.2 隐马尔科夫模型

3.2.3 最大熵模型

3.2.4 条件随机场

3.3 小结

第四章 基于CRF模型的蒙古文人名识别系统

4.1 蒙古文人名识别系统整体结构

4.2 语料预处理

4.3 蒙古文人名识别CRF模型参数训练

4.3.1 CRF模型训练过程

4.3.2 设计CRF模型特征模板

4.4 小结

第五章 蒙古文人名识别实验与结论

5.1 实验数据及工具简介

5.2 蒙古文人名识别的评测标准

5.3 实验设计

5.3.1 特征模板对比实验

5.3.2 语料预处理对比实验

5.3.3 特征选择对比实验

5.3.4 集内人名与集外人名对比实验

5.3.5 CRF模型与最大熵模型比较实验

5.4 小结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

展开▼

摘要

蒙古文命名实体识别是蒙古文自然语言处理的基础课题,被广泛地应用于蒙古文信息抽取、机器翻译、文本聚类、信息检索等领域。而在蒙古文命名实体识别中人名所占的比例最大,其识别难度也较大。所以,蒙古文人名识别的研究对蒙古文信息处理具有非常重要的意义。
  为了能够正确的从蒙古文文本中识别出人名,结合蒙古文人名的特点和蒙古文人名的识别难点,本文最终使用条件随机场(CRF, Conditional Random Field)模型实现蒙古文人名识别系统。基于CRF模型的蒙古文人名识别系统由语料预处理、CRF模型训练、CRF模型蒙古文人名预测和系统评测四部分组成。其中CRF特征模板的设计和特征选择是影响CRF模型人名预测效果的主要因素。
  本文使用文中设计的6种CRF特征模板分析哪些特征利于提升蒙古文人名识别系统的性能。通过测试特征模板发现引入上下文信息和特征组合可以提升蒙古文人名的识别性能。并通过6种特征模板的对比实验发现在设计特征模板时不能过于复杂,以避免因数据稀疏而降低人名的识别效果。
  此外,为了进一步提升蒙古文人名的识别性能,本文在特征选择部分一共选取了7种特征,分别为拉丁特征、中间码特征、地名特征、边界特征、拼音特征、动词特征和格特征,其中边界特征由称谓特征、职位特征和职业特征组合而成。通过对比实验发现每种特征对蒙古文人名识别效果都有一定的提升。最终,融合7种特征设计出最优的CRF特征模板,使得基于CRF的蒙古文人名识别结果的F值达到92.64%,比最大熵模型高了近2个百分点。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号