首页> 中文学位 >面向特定领域的命名实体识别技术研究
【6h】

面向特定领域的命名实体识别技术研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 课题背景

1.2 研究目的和本文主要工作

1.3 论文组织结构

1.4 本章小结

第2章 国内外研究现状

2.1 传统命名实体识别方法

2.1.1 特征选择

2.1.2 实体识别模型

2.2 基于深度学习的命名实体识别方法

2.2.1 特征工程

2.2.2 标注模型

2.3 命名实体识别研究现状小结

2.4 其他相关技术

2.4.1 归纳学习

2.4.2 多示例学习

2.4.3 多任务学习

2.4.4 对抗训练

2.5 本章小结

第3章 基于归纳学习的命名实体识别学习框架

3.1 引言

3.2 相关理论与技术

3.2.1 归纳学习

3.2.2 多示例学习

3.2.3 模型选择与融合

3.3 实验设计与结果分析

3.3.1 数据集预处理

3.3.2 评测指标

3.3.3 模型训练设定

3.3.4 实验结果与分析

3.4 本章小结

第4章 基于对抗训练的多任务命名实体识别方法

4.1 引言

4.2 相关理论与技术

4.2.1 多任务学习

4.2.2 对抗训练

4.2.3 基于对抗训练的多任务模型融合

4.3 实验设计与结果分析

4.3.1 数据集介绍

4.3.2 实验设计与结果分析

4.4 本章小结

第5章 实体识别系统应用

5.1 实体识别在知识库构建中的应用

5.1.1 KBP 2016 EDL任务要求

5.1.2 KBP 2016 EDL任务结果

5.2.1 工程知识中心项目与知识计算平台引擎介绍

5.2.2 在知识计算引擎平台中的应用

5.2.3 以Web API形式提供的服务

5.3 本章小结

第6章 总结与展望

6.1 全文总结

6.2 未来研究方向

参考文献

攻读硕士学位期间主要的研究成果

致谢

展开▼

摘要

知识库的出现使得互联网海量的知识能够被搜索、智能问答、阅读理解等系统高效地利用,而知识库的构建则需要将海量的非结构化文本数据转变为结构化数据并存储,在这个构建过程中,最基础且重要的步骤为命名实体识别,即识别出非结构化文本中所有的专有名词并对其进行实体分类。
  基于深度学习的命名实体识别模型已经成功地运用在新闻、论坛等通用领域,而在特定领域中,由于缺少标注训练语句,深度学习模型往往表现较差。针对上述问题,本文从两个不同角度分别提出了两种方法,来解决深度学习在面向特定领域实体识别过程中的问题:
  (1)基于归纳学习的命名实体识别学习框架。该框架能够向已有特定领域命名实体识别模型(老师)学习,并将所学知识迁移到任意深度神经网络模型(学生)中。该框架使用归纳学习和多示例学习技术,使得学生模型从老师模型学得知识同时免受数据噪声干扰。该框架能够在小领域内帮助深度学习模型有效地利用现有资源(模型、标注数据和未标注数据)。在疾病领域上的实验也证明,在没有任何标注数据的情况下,该框架能够有效地提升深度命名实体识别模型的识别准确率。
  (2)基于对抗训练的多任务命名实体识别学习方法。该方法提出一种“共享-私有”模型,综合特定领域内多个相关但不相同的子领域任务数据集信息,在对抗训练的帮助下,共同提升各个子领域内实体识别准确率。该方法在生物医学领域内的实验也证明了其能同时提升多个子领域命名实体识别准确率。
  本文所提出的两种方法均能在一定程度上缓解命名实体识别任务在特定领域内标注数据少且昂贵的难题。本文的研究成果应用于973计划“中国工程科技知识中心建设”项目中,相关成果发表于2017年自然语言处理重要国际会议EMNLP。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号