首页> 中文学位 >基于质心估计的模体发现算法及其在ChIP-seq数据上的应用
【6h】

基于质心估计的模体发现算法及其在ChIP-seq数据上的应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究意义及其背景

1.2 国内外研究历史及现状

1.3 本文的主要内容及组织结构

第二章 模体发现算法的统计学模型

2.1 贝叶斯统计学

2.2 共轭先验

2.3 数据缺失模型

2.4 模体发现模型实例

2.5 本章小结

第三章 基于统计分析的模体发现算法基本结构

3.1 模体表示

3.2 基于统计分析的模体发现算法基本结构

3.3 模体模型

3.4 背景模型

3.5 模体评价策略

3.6 求解策略

3.7 本章小结

第四章 基于质心估计的模体发现算法

4.1 质心估计

4.2 基于质心估计的模体发现算法介绍

4.3 本章小结

第五章 面向ChIP-seq数据的应用

5.1. ChIP-seq实验及ChIP-seq数据特征

5.2 面向ChIP-seq数据的应用

5.3 本章小结

第六章 算法测试与实验结果分析

6.1 模体准确性评价标准

6.2 在同源基因序列上的测试

6.3 在ChIP-seq数据上的测试

6.4 本章小结

第七章 总结

致谢

参考文献

展开▼

摘要

模体发现是生物信息学领域中的重要问题,模体中蕴含着重要的遗传信息,在研究基因转录和调控机制方面有着重要的意义。通过计算类方法来寻找联合调控基因片段中包含的模体已经成为了一种普遍的模体发现方式,计算类的模体发现算法和工具目前已经超过了100种。
  为了描述模体发现中模体数量不确定,实例间存在不确定性变异的特征,本文采用统计学模型来更好的表示模体,并分为两步来求解模体发现问题。第一步,通过给定的模体碱基构成矩阵得到模体起始位点集的后验概率,并通过质心估计选取最具代表性的起始位点;第二步通过给定模体起始位点集来更新模体碱基构成矩阵。随后,算法将以上两步整合到吉布斯采样的框架中,通过多次迭代,使最终的结果趋于收敛。ChIP-seq上的序列数据数据量庞大,序列非常短,这样的数据很难直接用于传统的模体发现算法。为了解决这个问题,本文设计了基于k-均值聚类的聚类方法对ChIP-seq数据进行预处理,在精简序列数量的同时最大程度保留了模体相关信息,随后将处理后的数据作为基于质心估计的模体发现算法的输入,得到了预期的效果。
  本文同时在Tompa标准测试集和ChIP-seq数据上对算法的有效性进行了验证。在Tompa测试集上采用性能系数对算法的结果进行了评价,并对比了算法在不同物种基因序列上的效果,发现在酵母上可以获得比其他物种更好的效果;使用转录因子Oct4在老鼠胚胎干细胞上的ChIP-seq数据作为输入,成功的找到了Oct4的模体。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号