首页> 中文学位 >基于自由词的基因功能注释和分子网络构建
【6h】

基于自由词的基因功能注释和分子网络构建

代理获取

目录

摘要

前言

第一章 文献挖掘人基因功能和分子相互作用

一、人基因相关文献的识别

1 材料和方法

2 结果

二、人基因功能注释的文献挖掘

1 材料和方法

2 结果

三、人分子相互作用的文献挖掘

1 材料和方法

2 结果

四、讨论

第二章 GenCLiP 2-0的开发及应用

一、开发环境简介

二、后台数据库搭建

三、功能模块开发

四、应用案例

五、讨论

全文小结

参考文献

攻读硕士期间发表论文

致谢

声明

统计学审稿证明

展开▼

摘要

背景:
   当前高通量分析方法(例如,基因芯片、蛋白质组学和RNA测序等)已成为生物医学研究的常规手段。通过高通量方法筛选出的一组标签基因(或其产物),人们需要解析生物学含义、功能、参与的调控通路和分子网络,进一步识别网络中新的疾病基因和网络的关键节点(或者调控通路)等。
   随着生物信息学的兴起,文献挖掘已逐步成为生物医学研究的常规辅助手段,同时也成为大规模获取原始数据的重要途经之一;为助推疾病的诊断、预防和治疗研究起到了重要作用。文献挖掘在很多重要的生物信息研究领域(例如,获取蛋白质相互作用、基因功能注释和生物通路等)发挥着重要作用。
   目前许多基因功能、通路和分子相互作用等数据主要由人工从文献中提取并建成数据库,如GO数据库注释基因的功能、KEGG数据库注释代谢通路、HPRD数据库注释蛋白-蛋白相互作用等。但是人工注释由于人力、物力有限,只能注释一小部分的基因功能、通路和分子相互作用而且注释的形式是固化的不能随意变更。以GO数据库为例,大量与基因功能密切相关的注释仍然没有被GO收录,例如在胚胎干细胞中特异表达的基因和与特定病毒相关的基因等。因此,本研究开发网络版文献挖掘软件GenCLiP2.0,注释基因的功能和分子相互作用。软件的主要特色是:1)通过机器自动挖掘自由词并允许用户以人工编辑自由词的方式注释基因功能;2)从Pubmed摘要中识别并整合最全面的分子相互作用,构建分子相互作用网络及与任意自由词相关的子网络。
   材料与方法:
   1、文献挖掘人基因功能和分子网络。
   (1)数据库下载:将PubMed文献数据库、Entrezgene基因名称数据库和HUGO基因名称数据库下载到本地并定期更新。
   (2)基因相关文献识别:整合Entrezgene基因名称数据库和HUGO基因名称数据库,建立人基因名称数据库;根据人基因名称(包括缩写、别名、全称和产物名称等),制定基因名称的识别规则,识别PubMed中的基因相关文献,建成数据库。
   我们采用基于词典和基于规则的混合方法识别基因相关文献。首先,提取人基因名称(包括缩写、别名、全称和产物名称等)和Entrezgene的基因简介。对基因名称作相应的扩展、删减和修正,以提高基因名称识别查全率。同时,根据基因全称和基因简介制定辅助检索词,提高基因名称识别准确率。然后,在BiocreativeⅡGN训练集上总结归纳复杂的基因名称识别规则,进一步提高基因名称识别查全率和准确率。
   (3)基因功能注释识别:识别至少在两个基因的相关文献中高频率出现的非公共词汇的单词和词组为基因的功能注释(即关键词),建成数据库。
   我们通过两种方法识别基因的关键词。一、识别基因相关文献中高频率出现的非公共词汇为基因的候选关键词。二、识别基因相关文献中高频率出现的词组(包括GO数据库的生物学过程和分子功能注释,以及文献中出现简写形式的词组)为基因的候选关键词。进一步筛选至少两个基因共有的候选关键词作为基因的关键词。
   (4)分子相互作用识别:从基因相关文献中提取分子相互作用对(包括蛋白-蛋白相互作用和蛋白-基因相互作用),建成数据库。
   我们收集广泛使用的描述分子相互作用的调控词汇。在五个蛋白质-蛋白质相互作用(PPI)文献测试集(corpus)上总结归纳各个调控词的用法,从而制定识别规则。将基因相关文献分割为句子,根据制定的规则识别句子中相互作用的基因/蛋白对。
   (5)整合已有的分子相互作用数据库。
   我们收集四个已有的基于人工文献注释的分子相互作用数据库(HPRD、BioGRID、CORUM、IntAct),提取其中人的分子相互作用对。如果该分子对在同一篇摘要的同一句子出现,则将其整合至上述建立的分子相互作用数据库。
   (6)词相关基因识别:根据用户提交的单词(组合),从基因相关文献中,识别包含该单词(组合)并且与基因名称出现在同一句子的文献,由此报告识别到的单词(组合)相关基因。
   (7)基因功能检索和聚类:根据用户提交的单个基因或者基因列表,从基因功能注释数据库中,识别单个基因的功能注释或者基因列表富集的功能注释并进行模糊聚类。允许用户人工添加或者删除基因功能注释,使得聚类结果更加与用户的研究目的密切相关。
   (8)分子网络构建:根据用户提交的单个基因或者基因列表,从分子相互作用对数据库中,识别单个基因所在的分子网络或基因列表所构成的分子网络。进一步地,根据用户提交的单词(组合),从分子网络中,识别基因对所在的文献包含该单词(组合)并与其出现在同一句子的基因对,由此构建特定关键词相关的分子网络。
   2、数据库挖掘人基因功能与通路。
   (1)下载人的GO数据库和通路数据库(包括代谢通路)到本地。
   (2)根据用户提交的单个基因(或基因列表),检索(或富集分析)其GO注释和调控通路。
   (3)对所提交基因列表的功能富集分析结果进行模糊聚类和显示。
   3、GenCLiP2.0网络平台的开发。
   在浪潮高性能计算集群服务器上,使用LAMP组合(Linux+Apache+MySQL+PHP/Perl),即整个系统工作在Linux平台,以Apache作为Web服务器,使用MySQL作为数据库系统,并使用PHP/Perl脚本语言结合HTML语言和JavaScript进行开发。最大限度地设计一个稳定且易扩展的网络系统,以及一个简单易操作的网页界面。
   4、GenCLiP2.0网络平台的测试和应用。
   (1)我们分别用BiocreativeⅡGN测试集和iHOP测试集检验基因名称识别模块的查全率和准确率,并与参加BiocreativeⅡ竞赛的同类软件以及iHOP软件进行比较。
   (2)我们随机提取200个句子(包含442对分子相互作用),进行人工阅读验证,确定分子相互作用识别准确率。
   (3)我们将文献挖掘识别到的所有分子相互作用对与已有的四个PPI数据库进行比较,确定新发现的分子相互作用对数量。
   (4)我们在词相关基因模块中输入cancer

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号