首页> 中文学位 >基于词表示和深度学习的生物医学关系抽取
【6h】

基于词表示和深度学习的生物医学关系抽取

代理获取

目录

声明

摘要

主要符号表

1 绪论

1.1 研究背景与意义

1.2 生物医学文本挖掘研究进展

1.2.1 信息检索

1.2.2 实体识别

1.2.3 指代消解

1.3 生物医学关系抽取的研究现状和存在的问题

1.3.1 蛋白质关系抽取

1.3.2 化合物疾病关系抽取

1.3.3 药物关系抽取

1.3.4 事件抽取

1.3.5 关系抽取任务中目前存在的问题

1.4 词表示和深度学习技术的研究进展

1.4.1 词表示

1.4.2 文本挖掘领域的深度学习

1.5 本文主要研究思路与内容

2 融合丰富信息的词表示模型

2.1 引言

2.1.1 分布式词表示

2.1.2 神经网络语言模型

2.1.3 RNNLM

2.1.4 Skip-gram和CBOW模型

2.1.5 GloVe模型

2.2 融合丰富信息的分布式词表示模型

2.2.1 生物医学文本的获取

2.2.2 切词

2.2.3 生物医学文本解析

2.2.4 词向量的训练

2.2.5 扩展目标

2.3 实验及分析

2.3.1 词向量训练设置

2.3.2 蛋白质关系抽取的语料与方法

2.3.3 性能度量

2.3.4 不同领域词向量的比较

2.3.5 同领域不同规模背景语料对词向量的影响

2.3.6 与其他蛋白质关系抽取方法的比较

2.4 本章小结

3 针对蛋白质关系抽取的二分类实例表示模型

3.1 引言

3.1.1 逻辑回归

3.1.2 支持向量机

3.1.3 神经网络

3.2 基于实例表示的蛋白质间二分类关系抽取模型

3.2.1 预处理

3.2.2 蛋白质关系实例表示

3.2.3 分类器

3.3 实验与分析

3.3.1 任务及评价方法介绍

3.3.2 蛋白质关系抽取任务上的实验

3.3.3 化合物疾病关系抽取任务上的评价

3.3.4 药物关系抽取任务上的评价

3.4 本章小结

4 针对药物关系抽取的两阶段方法

4.1 引言

4.1.1 LSTM

4.1.2 双向LSTM

4.1.3 Dropout

4.1.4 Maxout

4.1.5 Highway

4.2 基于LR-LSTM的两阶段药物关系抽取

4.2.1 第一阶段:基于LR的二类分类

4.2.2 第二阶段:基于LSTM的多类分类

4.3 实验与分析

4.3.1 任务介绍

4.3.2 评价方法

4.3.3 基线系统

4.3.4 LSTM层数和词性向量的影响

4.3.5 双向LSTM的影响

4.3.6 过采样和两阶段的影响

4.3.7 多层双向LSTM和Dropout的影响

4.3.8 与其他方法的比较

4.4 本章小节

5 结论与展望

5.1 结论

5.2 创新点

5.3 展望

参考文献

攻读博士学位期间科研项目及科研成果

致谢

作者简介

展开▼

摘要

蛋白质关系抽取和药物关系抽取对于生物医学领域相关数据库的构建、生命科学研究、药物开发和疾病的防治都具有重要意义。目前,大量生物医学关系抽取方法的研究重点在于特征集合的选取和核函数的设计,经过十余年的发展,基于特征和核函数的方法已经相对成熟,提升空间变得有限。为了进一步提升性能,本文研究基于词表示和深度学习的抽取方法。深度学习能够建立更深层的关系抽取模型以提升抽取效果,而词表示将语义信息融合到词向量中,是深度学习的前提。本文主要贡献包括:
  针对生物医学领域文本的特点设计词表示模型,在传统词表示模型基础上,融合词形、词性、词干、句法块、生物医学命名实体这五类重要信息,增强词向量的语义表示能力,并在蛋白质关系抽取、药物关系抽取等任务上取得了较好的效果,验证了在词表示中融入词性、实体等丰富信息的有效性,为基于深度学习的关系抽取方法提供了良好的词表示基础。
  针对蛋白质二类关系抽取问题,克服传统方法依赖于特征和核函数的局限性,提出一种基于实例表示的抽取模型,该模型包含词向量、骨架特征、特征组合三个部分,在规模较大的语料上抽取效果达到了目前先进水平,从而验证了基于词表示和深度学习方法在蛋白质关系抽取问题上的有效性。该模型考虑了蛋白质关系实例的特点,以词向量作为输入,配合骨架特征和向量组合,从而在实例表示中融合丰富的语义信息。
  针对药物多类关系抽取问题,提出一种两阶段方法:在第一阶段,采用实例表示与句法特征相结合的方法,利用逻辑回归分类器,识别出药物关系正例;在第二阶段,利用长短期记忆网络将正例分成四种药物关系类型。为了提升第二阶段性能,从重要度、实现代价和计算代价这三个方面考虑了多种相关要素对长短期记忆网络的影响,通过实验发现,词向量、距离向量、词性向量和双层双向长短期记忆网络对于第二阶段分类的性能具有提升作用,也是本文两阶段药物关系抽取方法能够取得较好效果的重要因素。
  综上所述,本文针对蛋白质间二分类关系抽取和药物间多分类关系抽取,利用表示和深度学习等技术提出相应的抽取方法,在一定程度上克服了基于特征和核函数方法的局限性,取得了较好的效果。词表示和深度学习技术是近年来的研究热点,在生物医学文本挖掘领域的起步较晚,本文所提出的方法在生物医学关系抽取任务上取得了一定成果,验证了其有效性,并揭示了基于词表示和深度学习方法在生物医学文本挖掘领域具有广阔的研究空间,值得在未来工作中继续探索。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号