基于自由词的基因功能注释和分子网络构建

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

背景:
　　当前高通量分析方法(例如，基因芯片、蛋白质组学和RNA测序等)已成为生物医学研究的常规手段。通过高通量方法筛选出的一组标签基因(或其产物)，人们需要解析生物学含义、功能、参与的调控通路和分子网络，进一步识别网络中新的疾病基因和网络的关键节点(或者调控通路)等。
　　随着生物信息学的兴起，文献挖掘已逐步成为生物医学研究的常规辅助手段，同时也成为大规模获取原始数据的重要途经之一;为助推疾病的诊断、预防和治疗研究起到了重要作用。文献挖掘在很多重要的生物信息研究领域(例如，获取蛋白质相互作用、基因功能注释和生物通路等)发挥着重要作用。
　　目前许多基因功能、通路和分子相互作用等数据主要由人工从文献中提取并建成数据库，如GO数据库注释基因的功能、KEGG数据库注释代谢通路、HPRD数据库注释蛋白-蛋白相互作用等。但是人工注释由于人力、物力有限，只能注释一小部分的基因功能、通路和分子相互作用而且注释的形式是固化的不能随意变更。以GO数据库为例，大量与基因功能密切相关的注释仍然没有被GO收录，例如在胚胎干细胞中特异表达的基因和与特定病毒相关的基因等。因此，本研究开发网络版文献挖掘软件GenCLiP2.0，注释基因的功能和分子相互作用。软件的主要特色是:1)通过机器自动挖掘自由词并允许用户以人工编辑自由词的方式注释基因功能;2)从Pubmed摘要中识别并整合最全面的分子相互作用，构建分子相互作用网络及与任意自由词相关的子网络。
　　材料与方法:
　　 1、文献挖掘人基因功能和分子网络。
　　 (1)数据库下载:将PubMed文献数据库、Entrezgene基因名称数据库和HUGO基因名称数据库下载到本地并定期更新。
　　 (2)基因相关文献识别:整合Entrezgene基因名称数据库和HUGO基因名称数据库，建立人基因名称数据库;根据人基因名称(包括缩写、别名、全称和产物名称等)，制定基因名称的识别规则，识别PubMed中的基因相关文献，建成数据库。
　　我们采用基于词典和基于规则的混合方法识别基因相关文献。首先，提取人基因名称(包括缩写、别名、全称和产物名称等)和Entrezgene的基因简介。对基因名称作相应的扩展、删减和修正，以提高基因名称识别查全率。同时，根据基因全称和基因简介制定辅助检索词，提高基因名称识别准确率。然后，在BiocreativeⅡGN训练集上总结归纳复杂的基因名称识别规则，进一步提高基因名称识别查全率和准确率。
　　 (3)基因功能注释识别:识别至少在两个基因的相关文献中高频率出现的非公共词汇的单词和词组为基因的功能注释(即关键词)，建成数据库。
　　我们通过两种方法识别基因的关键词。一、识别基因相关文献中高频率出现的非公共词汇为基因的候选关键词。二、识别基因相关文献中高频率出现的词组(包括GO数据库的生物学过程和分子功能注释，以及文献中出现简写形式的词组)为基因的候选关键词。进一步筛选至少两个基因共有的候选关键词作为基因的关键词。
　　 (4)分子相互作用识别:从基因相关文献中提取分子相互作用对(包括蛋白-蛋白相互作用和蛋白-基因相互作用)，建成数据库。
　　我们收集广泛使用的描述分子相互作用的调控词汇。在五个蛋白质-蛋白质相互作用(PPI)文献测试集(corpus)上总结归纳各个调控词的用法，从而制定识别规则。将基因相关文献分割为句子，根据制定的规则识别句子中相互作用的基因/蛋白对。
　　 (5)整合已有的分子相互作用数据库。
　　我们收集四个已有的基于人工文献注释的分子相互作用数据库(HPRD、BioGRID、CORUM、IntAct)，提取其中人的分子相互作用对。如果该分子对在同一篇摘要的同一句子出现，则将其整合至上述建立的分子相互作用数据库。
　　 (6)词相关基因识别:根据用户提交的单词(组合)，从基因相关文献中，识别包含该单词(组合)并且与基因名称出现在同一句子的文献，由此报告识别到的单词(组合)相关基因。
　　 (7)基因功能检索和聚类:根据用户提交的单个基因或者基因列表，从基因功能注释数据库中，识别单个基因的功能注释或者基因列表富集的功能注释并进行模糊聚类。允许用户人工添加或者删除基因功能注释，使得聚类结果更加与用户的研究目的密切相关。
　　 (8)分子网络构建:根据用户提交的单个基因或者基因列表，从分子相互作用对数据库中，识别单个基因所在的分子网络或基因列表所构成的分子网络。进一步地，根据用户提交的单词(组合)，从分子网络中，识别基因对所在的文献包含该单词(组合)并与其出现在同一句子的基因对，由此构建特定关键词相关的分子网络。
　　 2、数据库挖掘人基因功能与通路。
　　 (1)下载人的GO数据库和通路数据库(包括代谢通路)到本地。
　　 (2)根据用户提交的单个基因(或基因列表)，检索(或富集分析)其GO注释和调控通路。
　　 (3)对所提交基因列表的功能富集分析结果进行模糊聚类和显示。
　　 3、GenCLiP2.0网络平台的开发。
　　在浪潮高性能计算集群服务器上，使用LAMP组合(Linux+Apache+MySQL+PHP/Perl)，即整个系统工作在Linux平台，以Apache作为Web服务器，使用MySQL作为数据库系统，并使用PHP/Perl脚本语言结合HTML语言和JavaScript进行开发。最大限度地设计一个稳定且易扩展的网络系统，以及一个简单易操作的网页界面。
　　 4、GenCLiP2.0网络平台的测试和应用。
　　 (1)我们分别用BiocreativeⅡGN测试集和iHOP测试集检验基因名称识别模块的查全率和准确率，并与参加BiocreativeⅡ竞赛的同类软件以及iHOP软件进行比较。
　　 (2)我们随机提取200个句子(包含442对分子相互作用)，进行人工阅读验证，确定分子相互作用识别准确率。
　　 (3)我们将文献挖掘识别到的所有分子相互作用对与已有的四个PPI数据库进行比较，确定新发现的分子相互作用对数量。
　　 (4)我们在词相关基因模块中输入cancer

著录项

作者
汪佳宏;
展开▼
作者单位

南方医科大学;

展开▼
授予单位南方医科大学;
学科遗传学
授予学位硕士
导师姓名黄仲曦;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类遗传的调节控制（遗传代谢的调节控制）;
关键词
文献挖掘; 数据库; 网络平台; 自由词; 功能注释; 分子网络;

相似文献

中文文献
外文文献
专利

1. 基于高通量测序的青花菜早期发育小孢子转录组分析与基因功能注释 [J] . 张振超 ,姚悦梅 ,毛忠良 . 核农学报 . 2018,第5期
2. 功能RNA分子的构建、表达及其在基因功能鉴定中的应用 [J] . 范圣此 ,杨致荣 ,仲伟方 . 生命科学研究 . 2004,第S2期
3. 基于基因功能相似性预测小分子药物与lncRNA的相关关系 [J] . 吕莹丽 ,王世缘 ,闫琰 . 哈尔滨医科大学学报 . 2017,第5期
4. 美国构建可快速确认基因功能的基因网络模型 [J] . . 中国生物工程杂志 . 2008,第3期
5. 中药网络药理学研究:蛋白互作网络构建与功能注释 [J] . 刘志强 ,王博龙 . 湖北民族学院学报：医学版 . 2018,第3期
6. 半枫荷茎转录组测序及基因功能注释 [C] . Tian Xiaoming ,田晓明 ,Zeng Lingzhen . 2018年中国植物园学术年会 . 2018
7. 基于功能基因网络的杨树基因功能注释平台PoplarGene及其应用 [A] . 刘琦 . 2017

基于自由词的基因功能注释和分子网络构建

目录

摘要

著录项

相似文献

相关主题

期刊订阅