首页> 中文学位 >面向信息抽取的命名实体识别与模块获取技术研究
【6h】

面向信息抽取的命名实体识别与模块获取技术研究

代理获取

目录

文摘

英文文摘

独创性声明及学位论文版权使用授权书

第一章前言

1.1信息抽取概述

1.2本文研究背景与意义

1.3本文研究工作概述及论文结构

第二章统计和规则相结合的人名识别

2.1人名及其前后缀引导词的统计分析

2.1.1定义

2.1.2统计分析

2.2识别方法

2.2.1人名识别的预处理

2.2.2算法

2.2.3统计的方法

2.2.4规则的方法

2.2.5不带姓氏的人名的识别和外国人名的识别

2.3实验结果及分析

2.3.1实验结果

2.3.2分析

2.4本章小结

第三章机构名的识别与CO-TRAINING机器学习方法的应用

3.1机构名分类及其特征分析

3.2采用Co-TRAINING的方法构造机构名知识库

3.2.1机构名知识库

3.2.2 Co-Training方法

3.2.3基于Co-Training的中文机构名资源自动获取方法

3.3.统计和规则相结合的中文机构名识别方法

3.3.1统计和规则相结合的机构名识别模型

3.3.2算法描述

3.4实验结果与分析

3.5本章小结

第四章基于相似计算的模板自动获取

4.1基于相似计算的模板自动获取方法

4.1.1相关定义

4.1.2模板的表示与同义词资源的建立

4.1.3预处理

4.1.4获取候选模板

4.1.5模板相似计算模型

4.1.6模板筛选

4.1.7算法

4.2实验与分析

4.2.1实验1

4.2.2实验2

4.2.3实验3

4.2.4讨论

4.3本章小结

第五章中文信息抽取系统的设计

5.1信息抽取系统简介

5.2中文信息抽取系统的设计

5.3中文信息抽取系统的实现技术

5.3.1文本预处理

5.3.2命名实体识别

5.3.3模板解析

5.3.4数据存储

5.4本章小结

第六章结束语

6.1研究工作总结

6.2研究工作的前景

6.3未来的研究工作

参考文献

致谢

攻读硕士学位期间发表的论文

展开▼

摘要

本文主要对信息抽取中的命名实体识别和模板自动获取两个技术进行了研究,并提出了一套有效的解决方案.在命名实体识别方面本文重点研究了中文人名的识别和机构名的识别.本文在对大规模语料统计的基础上,建立了一个人名识别的知识库,提出了一种统计和规则相结合的人名识别方法.该方法兼顾了准确率和召回率,获得了较好的识别效果.经测试,召回率达到了91.35%,准确率达到了92.23%.在机构名的识别中,本文采用了Co-Training的机器学习方法自动构造机构名用词、机构名前导词、机构名后导词、机构名后缀、机构名用词等造机构名识别知识库,并且充分运用了机构名的组成概率,机构名的用词的同现概率等统计信息,还有机构名的内部组成结构和机构名前导词后导词等信息,提出了一种统计和规则相结合的机构名识别算法.实验系统封闭测试准确率和召回率分别达到了90.2%和81.7%,开放测试准确率和召回率分别达到了88.5%和75.5%.本文另外一个主要的研究工作是面向信息抽取的模板自动获取技术的研究.本文创新性地提出了一种基于相似计算模板自动获取方法.本文还在中文信息抽取系统的设计上作了尝试.利用实验室现有的技术和本文研究的相关技术设计了一个中文信息自动抽取系统.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号