首页> 中文学位 >基于字符间隔距离的生物序列模型及其应用
【6h】

基于字符间隔距离的生物序列模型及其应用

代理获取

目录

声明

第1章 绪 论

1.1 课题背景及研究的目的和意义

1.2 物种的系统发育分析

1.3 非编码RNA预测

1.4 论文的主要研究内容

第2章 基于字符间隔距离的生物序列模型

2.1基于碱基间隔距离的DNA序列模型

2.2基于氨基酸间隔距离的蛋白质序列模型

2.3 本章小结

第3章 基于字符间隔距离的生物序列相似性分析

3.1 DNA序列的相似性分析

3.2 非编码RNA序列相似性分析

3.3 蛋白质序列相似性分析

3.4 本章小结

第4章 基于碱基间隔距离的必需基因识别

4.1 支持向量机和AUC面积

4.2 机器学习中的评价指标

4.3五类细菌的必需基因识别

4.4 本章小结

结论

参考文献

攻读硕士学位期间承担的科研任务与主要成果

致谢

展开▼

摘要

“面对生物大数据,如何建立数学模型进行大数据的快速处理与有效分析,从而最大程度地发现隐藏在数据中的重要信息”是当今生物数学领域的重要研究课题。本文从生物序列出发,以序列的基本构成元素——字符(分别表示碱基或氨基酸)的间隔距离为切入点,利用统计方法和机器学习方法建立数学模型,并将其应用于生物序列的分析和必需基因的识别中。
  一方面,借助已有的字符间隔距离序列,提出了新的碱基(氨基酸)间隔距离序列,它可以轻松地实现原始生物序列的重构而不需要任何其它辅助条件;在此基础上进一步提出了(有序的)精准间隔距离序列,抽取其五个基本统计量组成特征向量来表征原始生物序列;然后利用向量之间的欧氏距离计算生物序列之间的相似性程度;最后将该方法应用于三组实验:DNA组,即18种真哺乳亚纲哺乳动物,23物种的线粒体基因组和11物种外显子序列的相似性分析;非编码RNA组,即19物种的非编码RNA序列的相似性分析;蛋白质组,即9条ND5序列、20条FG序列和24种脊椎动物的转铁蛋白序列的相似性分析。通过MEGA,Phylip、Treeview软件得到各组实验的生物系统发生树与已知结论一致,表明文中所提方法是进行序列分析和比较的有效工具。
  另一方面,鉴于必需基因的识别有助于对生命起源及进化的探索,并且可为药物靶点的设计、疾病的治疗以及合成生物学最小基因组的研究提供重要的基础,本文利用碱基间隔距离序列构造的特征向量,结合支持向量机方法,设置实验集和训练集,对5类细菌物种的必需基因和非必需基因的特征向量做10倍交叉验证,得到最优参数,计算AUC值(接受者操作特性曲线下面积)来评价模型的有效性。文中所得AUC值高于一些公认的已知结果,证实了文中所提方法是识别必需基因的可选择性工具。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号