基于词表示和深度学习的生物医学关系抽取

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

蛋白质关系抽取和药物关系抽取对于生物医学领域相关数据库的构建、生命科学研究、药物开发和疾病的防治都具有重要意义。目前，大量生物医学关系抽取方法的研究重点在于特征集合的选取和核函数的设计，经过十余年的发展，基于特征和核函数的方法已经相对成熟，提升空间变得有限。为了进一步提升性能，本文研究基于词表示和深度学习的抽取方法。深度学习能够建立更深层的关系抽取模型以提升抽取效果，而词表示将语义信息融合到词向量中，是深度学习的前提。本文主要贡献包括:
　　针对生物医学领域文本的特点设计词表示模型，在传统词表示模型基础上，融合词形、词性、词干、句法块、生物医学命名实体这五类重要信息，增强词向量的语义表示能力，并在蛋白质关系抽取、药物关系抽取等任务上取得了较好的效果，验证了在词表示中融入词性、实体等丰富信息的有效性，为基于深度学习的关系抽取方法提供了良好的词表示基础。
　　针对蛋白质二类关系抽取问题，克服传统方法依赖于特征和核函数的局限性，提出一种基于实例表示的抽取模型，该模型包含词向量、骨架特征、特征组合三个部分，在规模较大的语料上抽取效果达到了目前先进水平，从而验证了基于词表示和深度学习方法在蛋白质关系抽取问题上的有效性。该模型考虑了蛋白质关系实例的特点，以词向量作为输入，配合骨架特征和向量组合，从而在实例表示中融合丰富的语义信息。
　　针对药物多类关系抽取问题，提出一种两阶段方法:在第一阶段，采用实例表示与句法特征相结合的方法，利用逻辑回归分类器，识别出药物关系正例;在第二阶段，利用长短期记忆网络将正例分成四种药物关系类型。为了提升第二阶段性能，从重要度、实现代价和计算代价这三个方面考虑了多种相关要素对长短期记忆网络的影响，通过实验发现，词向量、距离向量、词性向量和双层双向长短期记忆网络对于第二阶段分类的性能具有提升作用，也是本文两阶段药物关系抽取方法能够取得较好效果的重要因素。
　　综上所述，本文针对蛋白质间二分类关系抽取和药物间多分类关系抽取，利用表示和深度学习等技术提出相应的抽取方法，在一定程度上克服了基于特征和核函数方法的局限性，取得了较好的效果。词表示和深度学习技术是近年来的研究热点，在生物医学文本挖掘领域的起步较晚，本文所提出的方法在生物医学关系抽取任务上取得了一定成果，验证了其有效性，并揭示了基于词表示和深度学习方法在生物医学文本挖掘领域具有广阔的研究空间，值得在未来工作中继续探索。

著录项

作者
蒋振超;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机应用技术
授予学位博士
导师姓名黄德根,李丽双;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工） ;
关键词
生物医学; 关系抽取; 词表示; 深度学习;

相似文献

中文文献
外文文献
专利

1. 基于深度学习的中文生物医学实体关系抽取系统 [J] . 丁泽源 ,杨志豪 ,罗凌 . 中文信息学报 . 2021 ,第005期
2. 深度学习生物医学实体关系抽取研究综述 [J] . 隗昊 ,周爱 ,张益嘉 . 计算机工程与应用 . 2021 ,第021期
3. 融合关系发现词与深度学习的诊疗关系抽取 [J] . 高峰 ,杨佳欣 ,顾进广 . 计算机应用与软件 . 2021 ,第012期
4. 基于同义词词林和规则的中文远程监督人物关系抽取方法 [J] . 谢明鸿 ,冉强 ,王红斌 . 计算机工程与科学 . 2021 ,第009期
5. 基于联合学习的生物医学因果关系抽取 [J] . 刘苏文 ,邵一帆 ,钱龙华 . 中文信息学报 . 2020 ,第004期
6. 基于推理规则和表示学习的弱指导关系抽取研究(摘要) [C] . 姜廷松 . 第五届海外中国语言学者论坛 . 2015
7. 基于深度学习的生物医学实体关系抽取算法研究 [A] . 张浩 . 2020

基于词表示和深度学习的生物医学关系抽取

目录

摘要

著录项

相似文献

相关主题

期刊订阅