基于质心估计的模体发现算法及其在ChIP-seq数据上的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

模体发现是生物信息学领域中的重要问题,模体中蕴含着重要的遗传信息,在研究基因转录和调控机制方面有着重要的意义。通过计算类方法来寻找联合调控基因片段中包含的模体已经成为了一种普遍的模体发现方式,计算类的模体发现算法和工具目前已经超过了100种。
　　为了描述模体发现中模体数量不确定,实例间存在不确定性变异的特征,本文采用统计学模型来更好的表示模体,并分为两步来求解模体发现问题。第一步,通过给定的模体碱基构成矩阵得到模体起始位点集的后验概率,并通过质心估计选取最具代表性的起始位点;第二步通过给定模体起始位点集来更新模体碱基构成矩阵。随后,算法将以上两步整合到吉布斯采样的框架中,通过多次迭代,使最终的结果趋于收敛。ChIP-seq上的序列数据数据量庞大,序列非常短,这样的数据很难直接用于传统的模体发现算法。为了解决这个问题,本文设计了基于k-均值聚类的聚类方法对ChIP-seq数据进行预处理,在精简序列数量的同时最大程度保留了模体相关信息,随后将处理后的数据作为基于质心估计的模体发现算法的输入,得到了预期的效果。
　　本文同时在Tompa标准测试集和ChIP-seq数据上对算法的有效性进行了验证。在Tompa测试集上采用性能系数对算法的结果进行了评价,并对比了算法在不同物种基因序列上的效果,发现在酵母上可以获得比其他物种更好的效果;使用转录因子Oct4在老鼠胚胎干细胞上的ChIP-seq数据作为输入,成功的找到了Oct4的模体。

著录项

作者
刘源;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科计算机软件与理论
授予学位硕士
导师姓名霍红卫;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类生物信息论;线性代数的计算方法;
关键词
模体发现; 质心估计; ChIP-seq数据; k-均值聚类; 性能系数;

相似文献

中文文献
外文文献
专利

1. 基于纳米计算结构上的生物序列模体发现算法 [J] . 沈一飞 ,陈国良 ,张强峰 . 小型微型计算机系统 . 2007,第004期
2. 基于染色质免疫共沉淀的高通量测序数据集的顺式调控模体发现算法 [J] . 冯艳霞 ,张志红 ,张少强 . 计算机应用 . 2018,第006期
3. 基于共轭分布和参数估计算法的文本大数据主题分析应用综述 [J] . 朱颖奇 ,李艳玲 ,林民 . 内蒙古师范大学学报（自然科学汉文版） . 2021,第006期
4. 基于信道估计的Turbo均衡算法在数据链中应用 [J] . 陈绍银 ,周金荣 ,游行远 . 指挥信息系统与技术 . 2017,第006期
5. 基于信道估计的Turbo均衡算法在数据链中应用 [J] . 陈绍银 ,周金荣 ,游行远 . 指挥信息系统与技术 . 2017,第006期
6. 基于分群策略的机群系统上Motif发现并行算法 [C] . . 2008年全国理论计算机科学学术年会 . 2008
7. 基于ChIP-Seq数据模体发现算法的CUDA并行设计研究 [A] . 时仲祎 . 2020

基于质心估计的模体发现算法及其在ChIP-seq数据上的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅