首页> 中文学位 >基于贝叶斯统计的基因非编码区与模体识别问题研究
【6h】

基于贝叶斯统计的基因非编码区与模体识别问题研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1.1 研究背景和意义

1.2 生物信息学的一些基础知识

1.3 基因非编码区与模体识别问题的研究现状

1.4 本文的研究内容及其结构安排

第二章 贝叶斯统计

2.1 贝叶斯统计与生物信息学的关系

2.2 贝叶斯统计原理

2.3 先验分布与超参数

2.4 贝叶斯假设检验

2.5 拟合优度检验

2.6 小结

第三章 非编码DNA背景序列建模

3.1 引言

3.2 高阶马尔可夫背景模型的贝叶斯假设检验

3.3 十组酵母非编码数据分析

3.4 小结

第四章 生物序列中已识别模体的统计显著性分析

4.1 引言

4.2 模体的贝叶斯假设检验

4.3 结果与讨论

4.4 小结

第五章 模体的相似性统计分析

5.1 引言

5.2 相似模体的贝叶斯假设检验

5.3 结果与讨论

5.4 小结

第六章 位置相关模体的建模与识别

6.1 引言

6.2 基于贝叶斯得分函数的Gibbs抽样算法

6.3 结果与讨论

6.4 小结

结束语

附录A

附录B

致谢

参考文献

攻读博士学位期间的研究成果

展开▼

摘要

近年来,基因组计划的实施,使得DNA序列数据激增,对产生的海量序列进行有效地分析成为生物信息学的首要任务之一.其中,基因非编码区的解读已经成为科学家面临的挑战,对模体的研究是此领域一个重要的问题,因为识别模体是理解基因转录机制和表达模式的关键.对于此领域大量的DNA数据,将贝叶斯统计方法中的先验信息和后验分布的思想引入到序列分析当中,成为国内外学者讨论的热点问题.
  本论文采用贝叶斯统计方法对基因非编码区进行序列分析,并且对模体识别问题进行了研究.具体工作包括以下几个方面:
  1.针对非编码 DNA背景序列建模问题,提出了一种基于贝叶斯假设检验的序列相关性的分析方法.选择 Dirichlet分布作为多项分布的先验分布并且应用Jeffery先验超参数,对序列的马尔可夫性进行检验.该方法指出了马尔可夫模型模拟序列背景分布的优点并给出了确定马尔可夫模型阶数的方法.利用酿酒酵母中10类基因的上游序列集验证所得模型,可以得到序列集至少具有一阶以上的相关性,实验结果表明用高阶马尔可夫模型来建模背景序列比单碱基模型更合理.
  2.针对生物序列中已识别模体的统计显著性检验问题,提出了一种改进的贝叶斯假设检验方法.将模体的显著性检验转化为多项分布的拟合优度检验问题,应用贝叶斯定理得到贝叶斯因子进行模型选择.这种方法克服了传统多项分布检验中构造检验统计量及计算其在零假设下确切分布的困难.针对多项分布的Dirichlet先验分布中的超参数估计问题,提出了两种参数估计方法:一种基于极大似然准则,采用Newton-Raphson迭代算法估计Dirichlet分布的超参数,使得数据的预测分布达到最大;另一种是基于矩估计得到Dirichlet分布的超参数.采用皮尔逊积矩相关系数作为评价检验质量的一个标准,实验结果均优于传统的一些模体检验的方法.
  3.针对生物序列中已识别模体的相似性统计分析问题,采用位置频数矩阵描述序列模体,基于贝叶斯假设检验,提出了一种位置频数矩阵的识别和聚类方法.利用贝叶斯因子和原模型的后验概率,建立了一个基于列与列比较的相似性度量方法.其中,原模型是指进行比较的模体的两列相互独立并且服从同一个多项分布.通过对真实数据和模拟数据的实验分析,表明可以得到更加准确的分类结果.
  4.针对位置相关模体的识别问题,提出了一种新的基于贝叶斯得分函数的Gibbs抽样识别算法.现存的很多模体识别算法都假设模体内部各个位置之间相互独立,但是最近的生物实验已经证实部分模体的位置之间存在明显的相关性.为了探索这种相关性,算法首先推广模体的位置权重矩阵模型,构建碱基二联体位置频数矩阵描述模体内部成对碱基的相关性;其次,基于该模体模型,构建新的贝叶斯得分函数,并利用JASPAR数据库中的模体对该得分函数中的超参数进行极大似然估计;最后,通过贪婪选择模体的初始位点并进行位点抽样,搜索具有最大得分函数的模体.通过真实数据和模拟数据评价新的贝叶斯得分函数,实验结果表明算法能够有效的对每条序列包含一个模体实例的未知模体进行识别,结果优于没有考虑位置相关性的一些模体识别算法.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号