首页> 中文学位 >基于半监督和深度学习的生物实体关系抽取
【6h】

基于半监督和深度学习的生物实体关系抽取

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景

1.2 研究现状

1.2.1 半监督学习在关系抽取中的应用

1.2.2 深度学习在关系抽取中的应用

1.3 本文工作

1.4 本文结构

2 相关资源与技术

2.1 相关概念和工具

2.1.1 关系抽取

2.1.2 句法分析器

2.1.3 词的表示

2.2 相关技术

2.2.1 支持向量机

2.2.2 神经网络

2.3 评测指标

3 基于半监督学习的疾病-病症和病症-治疗物质的关系抽取

3.1 实验方法

3.1.1 特征核

3.1.2 树核

3.1.3 图核

3.1.4 Co-Training

3.1.5 Tri-Training

3.2 实验设计

3.2.1 语料介绍

3.2.2 实验设置

3.3 疾病-病症模型

3.3.1 Co-Training实验结果与分析

3.3.2 Tri-Training实验结果与分析

3.4 疾病与治疗物质模型

3.4.1 Co-Training实验结果与分析

3.4.2 Tri-Training实验结果与分析

3.5 实验结果与分析

3.6 本章小结

4 基于卷积神经网络的疾病-病症和病症-治疗物质的关系抽取

4.1 特征选择

4.1.1 句子特征

4.1.2 语义特征

4.2 实验方法

4.3 实验结果及分析

4.3.1 语料介绍

4.3.2 实验设置

4.3.3 疾病-病症模型

4.3.4 病症-治疗物质模型

4.3.5 结果分析

4.4 本章小结

5 基于改进Tri-Training方法的蛋白质关系抽取

5.1 特征选择

5.2 算法设计

5.3 实验结果及分析

5.3.1 语料介绍

5.3.2 实验流程

5.3.3 结果分析

5.3.4 与其他方法的性能对比

5.4 本章小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

近年来,随着生物医学文献的快速增长,生物文献中的信息抽取技术已经得到广泛的研究,目前为止,生物医学文献信息抽取中的大部分工作都涉及到关系抽取。生物领域中的关系抽取主要集中于从生物医学文本中识别出生物医学实体名称(蛋白质、药物、疾病、基因等),进而提取生物实体之间的语义关系。本文主要研究疾病-病症、病症-治疗物质和蛋白质关系抽取,提出了基于半监督学习和深度学习的方法分别解决实体抽取过程中存在的缺少标注语料集和人工特征构建的问题。
  本文采用Co-Training和Tri-Training两个半监督学习的方法构建疾病-病症模型和病症-治疗物质模型。在训练过程中使用特征核、图核和树核作为Co-Training和Tri-Training方法的输入视图。在Tri-Training的训练过程中采用组合学习的方法将分类器集成在一起。实验结果表明,Co-Training和Tri-Training方法都可以利用未标注语料集在初始语料集少的情况下提升训练性能。并且在实验中Tri-Training方法的性能要优于Co-Training方法。使用半监督学习方法进行疾病-病症和病症-治疗物质关系抽取时,需要构建大量的人工特征,这些特征的质量直接影响实验结果。而且大量人工特征的构建既费时又费力。针对这个问题,本文提出了基于卷积神经网络的疾病-病症和病症-治疗物质关系抽取的方法。该方法可以从输入语料中自动学习特征,获取特征的层次结构,降低人工构造特征的成本。同时本文使用Tri-Training的方法扩充语料集。实验表明与Tri-Training方法相比卷积神经网络的方法可以获得更好的实验结果。使用半监督学习方法进行关系抽取时存在两个方面的问题,一方面,半监督学习方法在未标注语料选取时选用分类器标注一致的样本,这将损失掉一部分信息。另一方面,在未标注样本加入训练集的过程中,这些样本可能会被标注错误。为了解决这两个问题,本文提出了基于改进的Tri-Training进行蛋白质关系抽取的方法。该方法在对未标注语料选取时选用三个分类器标注最不一致的样本。并使用主动学习的方法对所选取的样本进行标注。在AIMED语料集上实验取得了68.80%的F值,实验结果表明该方法和其他方法相比具有较好的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号