首页> 中文学位 >中文命名实体及实体关系的自动抽取研究
【6h】

中文命名实体及实体关系的自动抽取研究

代理获取

目录

声明

1 引言

1.1 研究背景

1.2 研究意义

1.3 论文研究内容

1.4 论文结构安排

2 相关工作

2.1 基于管道方式的研究现状

2.1.1 中文命名实体识别现状

2.1.2 中文实体关系抽取现状

2.2 基于联合方式的研究现状

3 数据集及神经网络基础知识

3.1 数据集

3.1.1 ACE 2005中文数据集

3.1.2 军事领域数据集

3.1.3 数据集统计分析

3.2 神经网络基础知识

3.2.1 词向量表示

3.2.2 LSTM网络

3.2.3 卷积神经网络

4 基于管道方式的中文命名实体识别和实体关系抽取研究

4.1基于Lattice LSTM的中文命名实体识别

4.1.1 嵌入层

4.1.2Lattice LSTM编码层

4.1.3 CRF层

4.1.4 参数学习过程

4.1.5 Dropout

4.2 基于PCNN网络的中文实体关系抽取

4.2.1 位置特征向量

4.2.2 PCNN网络层

4.2.3 SoftMax层

4.3 实验与结果分析

4.3.1 评价标准

4.3.2 实验方案设计

4.3.3 实验设置

4.3.4 实验结果与分析

5 基于联合方式的中文命名实体识别和实体关系抽取研究

5.1 状态转移网络整体结构

5.2 编码模块

5.2.1Lattice LSTM表示

5.2.2 动作映射及嵌套实体识别

5.3 状态转移模块

5.3.1 转移动作设计

5.3.2Stack LSTM

5.3.3 状态转移表示

5.4 动作决策模块

5.5 实验及结果分析

5.5.1 实验方案设计

5.5.2 超参数设置

5.5.3 实验结果与分析

6 总结与展望

6.1 总结

6.2 展望

参考文献

个人履历、在校期间发表的学术论文及参与项目

个人履历

在校期间发表的学术论文

参与项目

致谢

展开▼

摘要

命名实体识别和实体关系抽取是信息抽取的两个重要任务。本文根据军事文本特点,结合ACE2005中文数据集的命名实体类型和实体关系类型,定义军事领域文本中命名实体和实体关系的类型,进行人工标注,构建了军事领域标注数据集,并提出两种不同的抽取方法,包括基于管道方式的抽取方法和基于联合方式的抽取方法。本文的主要研究内容如下: (1)基于管道方式的抽取方法。将两个任务看成分离的子任务,独立进行处理。本文采用Lattice LSTM(Lattice Long Short Term Memory)模型对输入文本进行编码表示,融入词表匹配的词语信息,采用CRF(Conditional Random Field)层进行解码,实现中文命名实体识别。在此基础上,将关系抽取问题看作分类任务,采用PCNN(Piecewise Convolutional Neural Networks)网络模型,实现实体关系抽取。 (2)基于联合方式的抽取方法。将两个任务看成一个统一的任务,任务之间信息融合,同时抽取中文命名实体和实体关系。本文提出基于状态转移网络的联合抽取方法,设计并定义转移动作,将联合抽取任务转换为转移动作序列的生成过程。该方法首先利用Lattice LSTM网络对输入文本进行编码表示,采用Stack LSTM(Stack Long Short Term Memory)实现栈的记忆功能,然后根据当前栈的状态,利用SoftMax层决定下一步转移动作,一直达到终结状态。基于状态转移网络的联合抽取方法能够识别中文嵌套实体,并实现命名实体和实体关系的联合抽取。 本文在ACE2005中文数据集和军事领域标注数据集上进行实验,根据实验结果评估管道方式和联合方式的模型性能。在ACE2005中文数据集上,基于状态转移网络的联合抽取方法在中文命名实体识别结果上,F1值达到75.26%,实体关系抽取F1值达41.28%。相比于管道方式,命名实体识别结果提升8.45%,实体关系抽取结果提升12.41%。实验结果表明基于状态转移网络的中文命名实体和关系联合抽取方法优于基于管道方式的抽取方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号