首页> 中文学位 >基于生物医学文献挖掘的化合物与疾病关系识别
【6h】

基于生物医学文献挖掘的化合物与疾病关系识别

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景与意义

1.2 研究现状

1.2.1.生物医学命名实体归—化研究现状

1.2.2.化合物与疾病关系提取研究现状

1.2.3.待改进之处

1.3 本文研究内容

1.3.1.基于语义匹配的生物医学命名实体归—化

1.4 论文组织

第2章 相关技术与知识

2.1 自然语言处理中单词的表示方法

2.1.1.基于符号的独热表示法

2.1.2.蕴含语义的分布式词向量

2.2 自然语言处理中的神经网络方法

2.2.1.全连接前向神经网络

2.2.2.线性递归神经网络

2.2.3.树形递归神经网络

2.2.4.卷积神经网络

2.3 文本相似度模型

2.3.1.基于符号的文本相似度

2.3.2.基于语义的文本相似度

2.4 本章小结

第3章 生物医学命名实体归一化

3.1 问题定义

3.1.1.问题描述

3.1.2.解决思路

3.2 关键点分析

3.2.2.语义刻画的准确性

3.3 算法设计

3.3.1.语义词向量的学习

3.3.2.生物医学命名实体的语义刻画

3.3.3.生物医学命名实体间的语义匹配

3.3.4.算法流程

3.4 实验

3.4.1.NCBI数据集上的实验

3.4.2.CDR数据集上的实验

3.5 本章小结

第4章 化合物与疾病关系提取

4.1.2.解决思路

4.2 关键点分析

4.2.1.单词特征的刻画

4.2.2.局部关键信息的捕获

4.3 算法设计

4.3.1.刻画单词特征

4.3.2.利用卷积神经网络捕获局部关键信息

4.3.3.优化目标

4.3.4.算法流程

4.4 实验

4.4.1.卷积核尺寸、数量调整实验

4.4.2.不同方法对比实验

4.5 本章小结

第5章 总结

参考文献

附录

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

化合物与疾病关系识别是生物医学文献挖掘中的一项重要任务,化合物与疾病关系有助于改善生物医学搜索引擎的搜索结果,缩短药物研发周期,减少药物研发成本。化合物与疾病关系识别,具体来说分为两个子任务——生物医学命名实体(以下简称为生物名称)归一化和化合物与疾病关系提取。归一化主要是为了解决生物医学文献中的生物名称形式多样、难以确认和归类的问题,任务主要目标是将文本中出现的生物名称匹配到生物医学标准概念上,现有解决方法包括字符匹配和关联矩阵学习,其中字符匹配的方法受限于归一化词典的覆盖范围,而关联矩阵学习的方法对陌生单词的刻画能力不足。化合物与疾病关系提取则需要根据上下文内容提取出文本中存在引发关系的化合物与疾病,现有方法包括共现频率统计、规则匹配和统计机器学习,其中共现频率统计方法准确率较低,而规则匹配和统计学习方法则需要人为设计规则或特征,耗费人工的同时也可能存在遗漏和偏颇。针对以上任务,本文的主要工作和贡献如下:
  1.基于语义匹配的生物医学命名实体归一化
  本文提出了基于语义匹配的归一化算法,其主要是依据上下文相似性来挖掘单词语义相似性并通过衡量语义相似性来进行匹配。本文首先收集大量无标记的、与生物名称相关的上下文并构造语义空间的词向量,然后采用深度学习网络来度量生物名称在语义空间中的距离,设计了基于排序思想的损失函数,并使用随机梯度下降算法对模型进行训练。计算实验表明,提出方法在NCBI测试集上取得了85.3%的正确率,优于传统方法。
  2.基于卷积神经网络的化合物与疾病关系提取
  本文提出了基于卷积神经网络的化合物与疾病关系提取算法,主要是依据上下文中的关键性短语信息(局部关键信息)来提取化合物与疾病关系。本文将无监督训练的语义向量和相对位置信息组成单词的特征向量,拼接单词特征向量组成句子的特征图,卷积神经网络在特征图上进行卷积操作和池化操作来捕获局部关键信息。计算实验表明,提出方法在CDR测试集上取得了50.67%的F值,较传统方法人工参与少、覆盖能力强。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号