首页> 中文学位 >细菌必需基因自训练算法的研究及实现
【6h】

细菌必需基因自训练算法的研究及实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景

1.2 必需基因的识别

1.3 本论文的结构安排

第二章 基于蛋白质结构域的必需基因预测算法

2.1 引言

2.2 蛋白质结构域知识

2.3 基于蛋白质结构域的必需基因预测算法

2.4 基于物种亲缘性及蛋白质结构域的必需基因预测算法

第三章 对Geptop软件的改进

3.1 引言

3.2 Geptop的改进

3.3 阈值的选择

3.4小结

第四章 Geptop与蛋白质结构域的结合预测方法

4.1 引言

4.2 Geptop与蛋白质结构域结合预测算法

4.3 小结

第五章 全文总结及展望

致谢

参考文献

攻读硕士学位期间取得的成果

展开▼

摘要

必需基因是生物体中非常重要的一类基因,如果缺少这种基因,生物将无法存活。对于必需基因的确认,现在主要有两种方法,一种就是使用实验方法进行确认,但是这种方法耗时长,并且消耗巨大,由于实验方法的缺陷与局限性,至今也只有很少的细菌必需基因被大规模实验确定;另一种方法是利用计算机进行必需基因预测,这种方法解决了实验方法的缺陷,现今的预测方法大部分使用的是整合方法,但是这种方法非常依赖实验数据,在缺乏实验数据的时候很难对细菌必需基因进行预测。为了摆脱实验数据的限制,我们决定开发基于基因本身特征的必需基因预测算法。
  首先我们选择了蛋白质结构域作为预测必需基因的特征,通过实验验证,我们发现蛋白质结构域在必需基因的预测中起到了非常大的作用。之后,我们选择了25个物种作为实验物种,通过物种间的亲缘距离将不同物种间的结构域联系起来,设计了基于蛋白质结构域的必需基因预测算法。通过对25个实验物种进行多重交叉检验并计算结果AUC值,最终结果有5个物种超过了0.9;而在0.75到0.9之间的物种,也有14个;低于0.75的物种只有6个,最低的也有0.66,说明了我们的这种算法效果非常的好。
  然后,对于同样基于基因序列特征的必需基因预测工具Geptop,我们对其进行了改进。改进的地方如下:(1)对参考集由最初的19个物种扩充到25个;(2)对不易让人理解的评分公式进行了简化,使之简单易懂同时不降低必需基因预测准确度;(3)对预测程序进行了优化,使之效率提升。通过这三面的改进过后,Geptop的预测准确度得到了一定的提升,通过和之前的版本进行比较,19个物种中,有12个物种的结果均有所提高。同时,以大肠杆菌为例,程序的运行速度从107分钟缩减到了26分钟,效率提高了接近4倍。
  最后,我们尝试将基于蛋白质结构域的必需基因预测方法和Geptop结合起来,期望得到更好的预测结果。由于时间关系,我们没能找到提高预测结果的结合方式,但是我们已探索的结合方式也能给继续研究这方面的学者提供经验。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号