首页> 中文学位 >基于远程监督的医学文献关系抽取研究
【6h】

基于远程监督的医学文献关系抽取研究

代理获取

目录

声明

第1 章绪论

1.1研究背景与意义

1.2 国内外研究现状

1.2.1 关系抽取研究现状

1.2.2 远程监督关系抽取研究现状

1.2.3 医学领域关系抽取研究现状

1.3 本文研究内容概述

1.4 本文组织架构

第2 章相关理论知识介绍

2.1 远程监督技术

2.2 命名实体识别技术

2.2.1 基于规则与字典的命名实体识别

2.2.2 基于统计的命名实体识别

2.2.3 基于混合方法的命名实体识别

2.3关系抽取技术

2.3.1 有监督关系抽取

2.3.2 无监督关系抽取

2.3.3 半监督关系抽取

2.3.4 多示例学习

2.4 本章小结

第3 章基于远程监督的关系抽取方法研究

3.1 任务概述

3.2 领域知识库构建

3.2.1 创建医学术语词典

3.2.2 获取PubMed摘要

3.2.3 创建先验知识库

3.3 基于统计共现生成基础语料

3.4 实体校正

3.4.1 基于BioBERT的实体识别校正

3.4.2 基于规则的实体链接校正

3.5关系标志词过滤

3.5.1 关系标志词定义

3.5.2 关系标志词获取

3.5.3 关系标志词过滤

3.6 关系抽取

3.7 实验与分析

3.7.1 实验方案

3.7.2 结果分析

3.8 本章小结

第4 章医学关系标志词聚类方法研究

4.1 任务概述

4.2 疾病-基因本体类别分析

4.3 基于TransE的关系标志词特征表示

4.3.1训练语料预处理

4.3.2关系标志词特征表示

4.4 基于Word2Vec的关系标志词特征表示

4.4.1训练语料预处理

4.4.2关系标志词特征表示

4.5 关系标志词聚类研究

4.6 实验结果与分析

4.6.1 评价指标

4.6.2 结果分析

4.7 本章小结

第5 章肺癌领域信息检索分析与可视化展示系统

5.1 任务概述

5.2 图谱存储与信息统计

5.2.1 存储方案

5.2.2 知识图谱信息统计

5.3 系统需求分析

5.4 系统设计与实现

5.4.1 系统总体架构

5.4.2 数据采集与检索模块

5.4.3 数据流处理模块

5.4.4 系统应用模块

5.5 系统展示与分析

5.6 本章小结

总结与展望

本文工作总结

未来工作展望

参考文献

致谢

攻读硕士学位期间发表的论文及其它成果

展开▼

摘要

随着生物医学信息学的不断发展,医学文献呈现日益增长的趋势,从这些文献中可以挖掘大量医学知识,例如疾病基因、疾病药品等关系,通过这些关系医生可以掌握疾病特性、预测疾病变异、研发新型药品。关系抽取可以完成这些知识的自动化抽取,其作为信息抽取中最重要的任务,也是知识图谱建立的关键步骤。传统关系抽取需要大量已标注的高精度语料库,手动标注过程既费时又费力。利用远程监督方法构建训练语料是常用的半监督方法,但该方法会存在错误标注的问题,尤其是对于精准医学领域,这种错误是不可容忍的。针对以上问题,本文设计了面向医学文献进行关系抽取的方法,其中包括关系抽取研究、关系的分类研究以及可视化系统的构建。本文从以下几个方面进行研究:  (1)针对医学领域缺少训练语料的现状,提出基于远程监督的训练语料自动构建方法。首先构建了肺癌医学领域知识库,利用远程监督的方法进行预标注,并优化了预标注结果。针对远程监督方法产生的错误标注问题,提出了关系标志词的获取方法,过滤了大量错误标注。经实验验证,该方法获得的自动标注语料在传统关系抽取模型效果都有提升,较原始语料精度有所提高。  (2)针对疾病-基因关系分类问题,提出基于关系标志词的聚类方法。对疾病-基因关系进行更细致的分类,从关系标志词入手,使用Word2vec、TransE等对关系标志词进行特征表示,利用聚类方法对关系标志词进行更详细的分类,选取了最优特征表示方法与聚类方法,判定关系标志词的最优聚类簇数,最终结合疾病-基因本体层结构进行验证。  (3)针对抽取知识的应用问题,构建肺癌领域信息检索分析与可视化展示系统。利用关系抽取获得的疾病-基因关系等知识作为数据源,提出一种基于Neo4j图形数据库的存储方案,并构建领域知识图谱。设计并实现了系统的各个模块分工与安排,最终通过该系统为研究人员提供肺癌领域知识的检索分析与可视化功能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号