首页> 中文学位 >基因本体术语相似度计算和扩展方法研究
【6h】

基因本体术语相似度计算和扩展方法研究

代理获取

目录

第 1章 绪 论

1 .1课题背景和意义

1 .2相关背景知识

1 .3国内外研究现状

1 .4存在的主要问题

1 .5本文的主要研究内容

第2章基于基因网络的基因本体同分支术语相似度计算方法

2 .1 引言

2 .2同分支术语相似度计算方法研究

2 .3同分支术语相似度算法性能测试与分析

2 .4本章小结

第3章基因本体中跨分支术语相似度计算方法

3 .1引言

3 .2跨分支术语相似度计算方法研究

3 .3跨分支术语相似度算法性能测试与分析

3 .4本章小结

第4章基于多方法整合的基因功能相似度计算方法

4 .1引言

4 .2多方法整合基因相似度计算方法研究

4 .3多方法整合的基因功能相似度算法性能测试与分析

4 .4本章小结

第5章基于基因关联网络的基因本体术语扩展方法

5.1 引言

5 .2基因本体术语扩展放法研究

5 .3基因本体术语扩展算法性能测试与分析

5 .4本章小结

结论

参考文献

攻读博士学位期间发表的论文及其它成果

声明

致谢

个人筒历

展开▼

摘要

基因本体主要用于描述基因和基因产物的属性,包括分子功能、生物过程和细胞组件三个方面。基因本体的术语相似度计算及术语扩展对基因功能分析、比较和预测等生物学研究热门领域具有非常重要的意义。现有相似度算法只考虑了基因本体中的部分信息或者受基因本体自身不完整性的影响,并不能够准确地衡量基因本体术语之间的相似度以及进一步衡量基因之间的相似度。此外,针对基因本体的不完整性,急需一个能够准确、自动地扩展基因本体术语的算法,来完善基因本体,从而满足生物数据爆炸式增长带来的构建和更新本体的需求。本文针对基因本体的术语相似度计算和术语扩展问题进行深入研究,主要内容如下:
  (1)基因本体是由领域科学家通过收集实验数据、文献资料等手工构建而成,基因本体本身并不完整,只包含已发现的部分基因功能注释信息,导致基因本体同分支中术语相似度计算的不准确。针对这一问题,本文提出了基于基因功能网络的基因本体同分支术语相似度算法NETSIM,在考虑基因本体所包含的信息的基础上,利用基因功能网络中包含的基因互作信息来弥补基因本体不完整性对术语相似度计算造成的影响。为了测试NETSIM算法的性能并同已有的同类算法进行比较,本文使用酵母、拟南芥和人类代谢反应网络三个数据集进行测试。结果表明,与现有的同类算法相比,NETSIM算法在具有不同基因本体注释密度的物种上都具有较高的准确性和鲁棒性。
  (2)基因本体包括分子功能、生物过程和细胞组件三个分支,不同分支术语之间的的关联关系不但能够为基因注释提供非常有用的证据,而且能够帮助解释生物学现象和提出生物学假设。目前的大部分术语相似度算法解决的是同分支术语相似度问题而忽略了跨分支术语相似度问题。仅有的跨分支术语相似度算法也只是简单地考虑术语名称之间的文本相似性或术语注释基因的重合度,并不能准确地计算跨分支术语之间的相似度。针对这一问题,本文提出了基因本体跨分支术语相似度算法CroGO,利用具有物种特异性的基因功能网络发现基因本体跨分支术语之间的关联关系,同时利用向上传递的方法衡量跨分支术语对的信息量解决了术语对层次定位的问题。本文在标准数据集上比较CroGO和同类算法的跨分支相似度计算结果。结果表明CroGO算法的相似度计算准确性最高。本文还基于CroGO算法建立了具有物种特异性的酵母和人类术语关联网络。富集分析测试表明,基于CroGO算法建立的网络的准确性和覆盖率远远优于基于其他方法建立的网络。
  (3)基于基因本体的术语相似度,进一步计算基因之间的功能相似度是当前基因本体相关研究的热点领域,即利用基因本体中包含的丰富信息(包括注释信息,结构信息,最低公共祖先等)来比较基因之间的功能相似度。尽管目前已经有数十个基于基因本体衡量基因功能相似度的算法,但是这些算法一般都仅考虑了基因本体中某一种或几种类型的关系而忽略了其他有意义的信息,因此只能准确的衡量部分基因之间的功能相似度。针对上述问题,本文提出了基于多方法整合的基因功能相似度算法InteGO2,旨在全面利用基因本体中包含的各种信息。InteGO2算法能够自动选择合适的候选方法,然后基于启发式搜索方法整合这些候选方法。在基因本体分子功能分支和生物过程分支中的实验结果表明,InteGO2算法的性能显著优于现有的基于基因本体的基因功能相似度算法。同时,InteGO2算法对于不同输入的待整合算法集具有较好的鲁棒性,逐一去掉所有被整合算法中性能最好的4个算法,InteGO2算法仍然具有较好的性能;加入一个基因相似度为随机生成的算法,InteGO2算法仍然具有较好的性能。
  (4)目前的基因本体主要依赖于领域专家手工构建,但是由于生物知识和数据的爆炸式增长,领域专家很难将其充分转化为基因本体中的术语和注释信息。为了提高基因本体术语扩展的效率,迫切需要自动化扩展基因本体术语的方法,辅助领域专家扩展基因本体术语。针对这一需求,本文提出了基于基因网络聚类分析的基因本体术语扩展算法GOExtender,该算法能够通过整合与分析多个生物网络数据,从已有基因本体中选取可扩展术语,通过预测选取术语的子孙节点术语扩展现有基因本体。本文选取了4个不同版本(2007、2009、2011和2013)的基因本体数据,分别在生物过程和分子组件分支中进行了性能测试实验。和同类算法相比,GOExtender能够更加准确的扩展基因本体,生成新的基因本体术语。在此基础上,本文进一步选择了部分扩展术语在文献中进行了校验,结果表明发现的新术语能够在文献中找到有力的证据支持,极大地完善了基因本体。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号