首页> 中文学位 >基于文本挖掘的蛋白质相互作用对抽取方法的研究
【6h】

基于文本挖掘的蛋白质相互作用对抽取方法的研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪 论

1.1 课题研究背景及研究的目的和意义

1.2 国内外研究现状及分析

1.3 本文的主要研究内容

第2章 基本概念和核心技术介绍

2.1 条件随机场

2.2 实体识别

2.3 蛋白质实体标准化

2.4 本章小结

第3章 蛋白质相互作用对自动抽取的方法研究和系统实现

3.1 简介

3.2构建自动抽取蛋白质相互作用关系系统

3.3 蛋白质相互作用网络系统的实现

3.4 本章小结

第4章 系统评测及改进

4.1 系统评测方法简介

4.2 蛋白质相互作用对自动抽取系统评测

4.3 蛋白质相互作用网络在线系统评测以及改进

4.4 本章小结

结论

参考文献

攻读硕士学位期间发表的论文

声明

致谢

展开▼

摘要

在生物信息学上,蛋白质相互作用的研究是重点之一,其对于理解各种生物学过程以及在疾病治疗、诊断中起着非常大的作用。在生物医学文本挖掘中,从MEDLINE摘要或者相关研究文献的全文中挖掘出蛋白质相互作用关系是一个我们急需解决并且最具有挑战性的工作。而大量有关蛋白质相互作用的生物医学文献保存在NCBI PubMed数据库中,提出一种自动抽取相互作用蛋白质的方法尤其重要。
  首先,根据蛋白质相互作用对与其相互作用词共同出现的抽取原则,本文提出了一种从文献中自动抽取蛋白质相互作用对的方法。主要分三个阶段实现自动抽取蛋白质相互作用对。在实体识别中,本文使用条件随机场算法并结合规则识别出蛋白质实体。然后,建立蛋白质基因标准库,并设计算法将识别出的蛋白质实体转换为对应的标准官方基因名称。在蛋白质相互作用对抽取模块中,先使用Stanford Parser将标准化后的句子解析成语法树,再使用Tregex结合关系词并使用所设计的四条规则抽取出候选蛋白质相互作用对,并通过否定词等常用语法知识排除候选蛋白质作用对中的错误蛋白质。在从单个文献中自动抽取蛋白质相互作用对的基础上,进一步分析了NCBI中最新下载的2000余万条PubMed数据,构建了蛋白质相互作用网络。
  其次,课题主要部分在于实现自动抽取蛋白质相互作用对,为了验证自动抽取的准确率,本文使用国际评测机构提供的Biocreative-II中识别、标准化、自动抽取部分数据进行评测。在识别模块中,准确率达到87.18%,标准化准确率达到65.84%,蛋白质相互作用对抽取的准确率达到68.78%,和最新的软件对比,证明本文的抽取方法是有效的。
  最后,我们对得到的蛋白质相互作用对网络构建了在线网站,分别从三个方面呈现我们设计的蛋白质相互作用网络:对单个PubMed ID文本摘要进行分析、找出两个存在相互作用关系的蛋白质网络、并对提出的四种蛋白质相互作用类型分别构建蛋白质相互作用网络。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号