首页> 中文学位 >面向医学领域的语料库构建及实体关系抽取研究
【6h】

面向医学领域的语料库构建及实体关系抽取研究

代理获取

目录

声明

第 1 章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 命名实体识别研究现状

1.2.2 命名实体标注系统研究现状

1.2.3 医学文本语料库

1.2.4 实体关系联合抽取研究现状

1.3 本论文研究内容及章节安排

1.3.1 本论文研究内容

1.3.2 本论文章节安排

1.4 本章小结

第 2 章 预备知识

2.1 相关理论介绍

2.1.1激活函数

2.1.2 损失函数

2.1.3 特征抽取网络

2.2 相关技术介绍

2.2.1 Scrapy 与XPath

2.2.2 MongoDB

2.2.3 Tkinter

2.3 本章小结

第 3 章 基于神经网络的多角色命名实体预标注系统

3.1 系统概述

3.1.1 系统架构

3.1.2 开发环境

3.2 系统特点

3.2.1 实体预标注

3.2.2 多角色标注

3.3 系统实现及功能展示

3.3.1 标注系统

3.3.2 监督系统

3.3.3 管理系统

3.4 实验设计与结果分析

3.4.1 数据集

3.4.2 评价指标

3.4.3 实验设置

3.4.4 实验结果分析

3.5 本章小结

第 4 章 面向中文医学文本的命名实体语料库构建

4.1 命名实体标注体系建立

4.2 中文医学百科文本标注规范制定和语料构建

4.2.1 数据准备

4.2.2 规范制定和标注过程

4.2.3 语料库一致性评价分析与统计

4.3 本章小结

第 5 章 面向医学文本的实体关系联合抽取

5.1 任务介绍

5.2 基于两阶段识别的联合实体关系抽取

5.2.1 任务定义

5.2.2 文本嵌入表示

5.2.3 参数共享层

5.2.4 联合解码层

5.2.5 联合训练

5.3 实验设置

5.3.1 数据集

5.3.2 评价指标

5.3.3 参数设置

5.3.4 基线模型

5.3.5 实验环境

5.4 实验结果分析

5.4.1 模型整体性能对比

5.4.2 消融实验

5.5 本章小结

第 6 章 总结与展望

致 谢

参考文献

攻读硕士学位期间发表的论文及科研成果

展开▼

摘要

医疗服务信息化的高速发展产生了海量规模的医疗文本,从文本中抽取结构化知识是生物医学信息挖掘的重要内容,也是实现医疗智慧化的重要一步。神经网络技术的日趋成熟,使得以命名实体识别和关系抽取为代表的信息抽取技术在文本结构化中取得较好的表现。然而,这些方法大部分属于有监督学习,其性能表现依赖于大规模的有标签语料库。  针对实体语料库构建需要花费大量人力、物力的难点,特别是垂直领域下具有专业背景知识的标注人员稀缺问题。本文设计开发了一种基于神经网络的多角色命名实体预标注系统,其将基于神经网络的命名实体模型嵌入至标注系统中,为标注者提供预标注实体,能够在降低标注时间和漏标率的同时提高标注的准确性。此外,多角色协同标注较大程度地提高了专业人员的使用效率。实验表明该标注系统能够大幅度缩短标注时间,并且在标注质量上提升了12.7%。  基于上述标注系统,提出了一套中文医学命名实体语料库构建流程,包含了标注体系建立、标注规范的制定与完善、多轮标注者不一致性标注培训等。为验证所提流程的有效性,以两个在线中文医学百科网站为数据来源,构建了拥有七个实体类别共计1.5万个实体的医学语料库。  除命名实体识别外,针对医学文本中关系分布密度大、多对关系共享头实体的特点,本文提出一种基于两阶段识别的实体关系联合抽取模型TSR,采用参数共享以及联合解码机制,分阶段抽取头实体和关系-尾实体,并使用联合Loss同时优化两阶段子模型。实验证明该模型在电子病历公开评测集I2B2上,联合抽取效果取得当前最优表现。  本文的研究覆盖医学领域信息抽取的全过程,从语料库构建到实体关系自动联合抽取,这将产生三个方面的积极影响。首先,开源的医学实体语料库可被当作金标准,有助于后续实体识别算法的研究;其次,提供一个构建医学领域语料库的范式,特别是标注规范,有助于更多医学领域以及其他垂直领域的语料库建立;最后,该研究有助于其他人工智能技术在医学领域的落地应用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号