首页> 中文学位 >生物医学文本中蛋白质相互作用关系抽取关键技术研究
【6h】

生物医学文本中蛋白质相互作用关系抽取关键技术研究

代理获取

目录

摘 要

Abstract

第1章 绪 论

1.1 课题背景与意义

1.2 研究现状及分析

1.3 本文的研究内容及章节安排

第2章 生物医学命名实体识别

2.1 引言

2.2 基于Sequence Memoizer的命名实体识别

2.3 基于最大熵模型的命名实体识别

2.4 本章小结

第3章 自动规则学习的蛋白质相互作用关系抽取

3.1 引言

3.2 蛋白质相互作用关系抽取任务定义

3.3 自动规则学习的蛋白质相互作用关系抽取方法

3.4 自动规则学习的蛋白质相互作用关系抽取实验

3.5 本章小结

第4章 基于广义期望准则的蛋白质相互作用关系抽取

4.1 引言

4.2 广义期望准则

4.3 基于广义期望准则的蛋白质相互作用关系抽取实验

4.4 本章小结

第5章 基于MEDLINE的生物医学文献检索系统

5.1 引言

5.2 相关平台简介

5.3 InsunBioSearch系统

5.4 本章小结

结 论

参考文献

攻读学位期间发表的论文

哈尔滨工业大学学位论文原创性声明及使用授权说明

致 谢

展开▼

摘要

随着生物医学领域研究的飞速发展,生物医学文献的数目急剧增长,为了从生物医学文献中挖掘知识,蛋白质相互作用关系抽取成为了近年来的研究热点。本文的研究内容为蛋白质相互作用关系抽取的关键技术,具体包括生物医学命名实体识别和关系抽取,其中实体识别是关系抽取的基础。本文针对上述两个问题,主要进行了3个方面的研究,并在此基础上实现了一个面向蛋白质相互作用关系抽取的生物医学文献检索系统。
  首先,本文分别采用了产生式模型与判别式模型对生物医学命名实体识别问题进行研究。为了获取句子中的长距离依赖以及利用自然语言的幂律分布特征,本文提出了一个基于 Sequence Memoizer的产生式模型,其中Sequence Memoizer是一个非参数贝叶斯模型。本文在JNLPBA2004数据集上对该模型进行了测试,实验结果表明本文提出的基于 Sequence Memoizer的产生式模型优于隐马尔科夫模型,且与最大熵模型取得的结果相当。为了利用丰富的特征集和大规模的训练数据,本文利用最大熵模型进行了实体识别任务,最大熵模型的优点是易于利用各种有效的特征,且训练时间短,适用于大规模的数据集。在CALBC2011国际生物医学命名实体识别评测任务中验证了本文提出的方法在面对大规模低质量训练数据的有效性。
  其次,本文提出了基于自动规则学习的蛋白质相互作用关系抽取方法,规则的产生主要利用依存句法分析。该方法利用依存句法分析的结果自动学习规则并建立规则库,预测的过程即规则匹配的过程。在AIMed数据集上的实验结果验证了本文所提出方法的有效性。
  另外,本文为了利用大规模未标注数据进行蛋白质相互作用关系抽取,提出了基于广义期望准则的半监督方法。该方法利用广义期望准则训练最大熵模型。通过在AIMed语料上的实验,验证了基于广义期望准则的方法可以有效的利用少量的标注样本与大量的未标注样本,非常适用于严重缺乏标注语料的生物医学领域。
  最后,本文搭建了一个基于MEDLINE数据库的生物医学文献检索系统,该系统除了具备常规的检索功能之外,还集成了生物医学命名实体识别与蛋白质相互作用关系抽取的功能,具有一定的实用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号