首页> 中文学位 >基于隐马尔科夫模型的中文命名实体识别研究
【6h】

基于隐马尔科夫模型的中文命名实体识别研究

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

1.1研究背景及意义

1.2国内外研究现状

1.3本文的研究内容

第二章命名实体识别相关基础知识

2.1命名实体识别的概念

2.2命名实体识别的过程

2.3命名实体识别存在的问题

2.4命名实体识别的评测标准

2.5命名实体识别相关模型及算法

2.5.1人工组织规则的方法

2.5.2基于统计的方法

2.5.3基于混合的方法

2.5.4数据平滑算法

第三章基于改进HMM的中文命名实体识别

3.1改进HMM模型的原理

3.2一种特殊的参数训练算法

3.2.1 K均值算法

3.2.2匹配系统实现原理

3.3参数平滑方法

3.3.1平滑评价方法

3.3.2参数结果平滑方法

3.4改进HMM模型中的Viterbi算法

3.4.1 Viterbi算法参量的描述

3.4.2改进Viterbi算法的实现

3.4.3 Viterbi算法的复杂度

3.5实体词识别

3.5.1 Viterbi算法框架中的语言知识

3.5.2状态空间和最佳路径搜索

第四章实验和结果分析

4.1中文命名实体识别系统设计

4.1.1开发及运行环境

4.1.2系统框架

4.2实验结果及分析

第五章总结与展望

5.1总结

5.2展望

致谢

参考文献

附录

研究成果

展开▼

摘要

随着信息时代的到来和Internet的发展,用自然语言作为人机交互已是必然趋势,这对自然语言处理的深度和广度提出了越来越高的要求。自命名实体识别技术在1995年的MUC-6(Message Understanding Conference)会议上提出以来,越来越受到自然语言处理研究者的关注,并成为很多应用中的关键技术。 本文对命名实体识别的方法进行了研究,分析了基于规则的方法和基于统计的方法的优缺点。由于获取上下文信息的多少和数据平滑的程度是评价识别性能的两个重要参数,而以前的统计模型获取上下文信息有限,本文提出了一种基于三阶隐马尔科夫模型的命名实体识别方法,该方法使用语言知识进行约束,兼顾了准确率和召回率,取得了较好的识别效果。自动分词和词性标注直接影响命名实体的识别,本文采用了海量智能分词系统对文本进行分词和标注。在统计词频方面,本文使用了改进的K均值方法对参数进行估计,并采用线性差值法对参数结果进行平滑处理。在命名实体识别方面,本文采用改进的Viterbi算法对初始观察序列重新标注,并求出最佳的状态序列。本文识别的主要内容为实体词,即人名、地名和机构名。目前,中文命名实体识别实验仍处于初期阶段,还有不少工作有待进一步完善。今后的工作将进一步研究规则的制定和数据平滑技术,以期进一步提高命名实体的识别率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号