首页> 中文学位 >基于内存计算的基因型-表型关联技术研究
【6h】

基于内存计算的基因型-表型关联技术研究

代理获取

目录

第1章 绪论

1.1 课题研究背景及意义

1.2 国内外研究现状

1.3 主要研究内容及组织结构

第2章 疾病-基因关联算法概述

2.1疾病-基因关联算法定义

2.2 现有预测方法

2.3 本章小结

第3章 疾病-基因预测算法

3.1 构建异构网络

3.2 重启的随机游走算法

3.3 改进TrustRank算法

3.4 本章总结

第4章 实验与结果分析

4.1 实验数据

4.2 实验验证

4.3 实验结果分析

4.4 本章总结

第5章 YSearch系统实现

5.1 相关技术介绍

5.2 系统介绍

5.3 本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其它成果

声明

致谢

展开▼

摘要

伴随生物医学数据得到爆炸式增长,快速发展的生物信息学也在不断剖析这些数据背后隐藏的信息,相关研究已成为热点。识别致病基因是人类健康研究的根本挑战,针对识别致病基因就要通过生物网络了解基因型与疾病表型的关联关系。海量生物数据存储在各种没有统一标准化的数据库中,生物网络都是以这些数据为基础构建起来,而且研究生物网络也是在对探索复杂生命活动。疾病表型与基因型的关联关系对于致病基因的预测和寻找基因导致的疾病都具有深远意义。
  根据疾病的模块性表明,功能相关的蛋白质会导致相似疾病。由此,研究疾病基因关联方法大多集中于基于计算网络,整合了蛋白质相互作用网络、疾病表型相似性网络和疾病-基因二分网络。在线孟德尔遗传(OMIM)是人类遗传疾病和相关基因的数据库,基于 OMIM数据我们计算形成了疾病表型相似性网络和疾病基因对应网络,再加上蛋白质相互作用网络,整合构建复杂的异构网络。本文介绍了相关的重启游走算法,通过改进网页排序算法 TrustRank后形成YSearch方法。算法首先根据构建网络选择查询疾病(基因)的先验知识(种子集),通过全局网络的随机游走策略迭代处理得到TR分数,然后对候选基因与疾病进行优先级排序,实现预测功能。并且针对算法效果进行留一交叉验证,采用ROC曲线与其他方法比较实验结果,证明算法的良好性能。以此,我们设计并开发了基因疾病的搜索引擎平台YSearch,整个系统是搭建在基于内存计算的spark大数据平台,数据存储在HBase中,并对系统进行相关介绍与优化。本文的算法与平台都可以对疾病诊断与治疗等临床研究提供新思路。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号