首页> 中文学位 >生物医学文本中实体关系抽取的研究
【6h】

生物医学文本中实体关系抽取的研究

代理获取

目录

声明

1 绪论

1.1 研究背景

1.2 研究意义

1.3 国内外研究现状

1.4 本文主要研究内容

1.5 本文的组织结构

2 相关表示、模型及算法介绍

2.1 生物医学信息抽取

2.2 词表示

2.3 Gdep解析器

2.4 支持向量机

2.5 人工神经网络

2.6 递归神经网络

2.7 布朗聚类

2.8 本章小结

3 基于丰富特征的实体关系抽取系统

3.1 实验语料和评价方法

3.2 系统框架介绍及预处理

3.3 特征介绍

3.4 实验结果与分析

3.5 本章小结

4 基于LSTM的递归神经网络进行生物医学关系抽取的研究

4.1 基于LSTM的递归神经网络

4.2 构建基于双向DET-LSTM的生物关系抽取的研究

4.3 实验结果与分析

4.4 本章小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

作为生物医学信息抽取领域的重要分支,实体关系抽取的作用举足轻重。其中,细菌与其生存环境之间的交互关系抽取可以进一步发现生物之间的关联机制,对微生物学的发展,如食品加工和安全、健康科学和废物处理等领域有着非常重要的意义。然而目前现有的抽取方法性能并不是十分理想,因此如何提高细菌与其生存环境的交互关系抽取的性能是本文研究的重点。
  在采用基本特征的基础上,加入词向量、布朗聚类特征、外部资源特征、实体类型特征进行关系抽取,构建了一个基于SVM的简单高效的关系抽取系统。首先,考虑到生物医学特点,采用面向生物医学文本的词向量作为特征,从背景语料中学习潜在的语义信息;然后,通过布朗聚类方法将相近的实体对聚为一类,并将聚类结果表示为特征;接下来,将物种和术语信息作为外部资源特征加入到特征集合中;最后,由于实体在句子中出现在不同的位置往往有不同的含义,例如,出现在标题和正文的实体重要程度是不同的,因此将此信息作为特征。在2016年 BioNLP-ST的 BB任务测试集上获得了49.11%的F-值。
  虽然SVM方法可以利用领域专家总结的一些特征,但这种方式不能学习到深层的语义信息,而深度学习方法可以通过迭代训练获得深层的语义信息。因此,本文采用深度学习的方法进行关系抽取,提出了一个基于动态拓展树的双向 LSTM框架(DET-BLSTM),首先,利用解析器解析获取最短路径树,针对语料进行分析,将路径长度过短的树进行动态拓展。然后,将词向量、词性向量和距离向量拼接后的结果作为输入。接下来,构建双向 LSTM分别从动态拓展树的前向和后向获取信息,并使用Softmax进行分类。最后,综合考虑到浅层、深层两种方法的优缺点,将两者进行结合,即利用SVM系统的预测结果进行后处理,在测试集上获得58.15%的结果,获得了目前在该数据集上最好的结果。
  综上,本文分别采用了浅层和深层两种不同的方法进行关系抽取,最后为了利用领域专家经验提供的知识,将浅层方法的预测结果对 DET-BLSTM的预测结果进行后处理。最终结果比目前最好系统的F-值提高了2.35%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号