首页> 中文学位 >小鼠基因组中CGI序列对k-mer的使用偏好性与CGI的鉴别
【6h】

小鼠基因组中CGI序列对k-mer的使用偏好性与CGI的鉴别

代理获取

目录

第一个书签之前

展开▼

摘要

CGI(CpG Island,CpG岛)在基因的表达调控中扮演者重要的角色,在小鼠基因组中几乎所有的管家基因和40%的组织特异性基因的启动子区都存在CGI。在本文中我们探索了k-mer(k-polymers,k聚体)与CGI之间的相关性,并通过这种相关性建立了一个分类模型,最后将分类模型应用于小鼠全基因组中用于鉴别CGI序列。
  k-mer是长度为k的核苷酸多聚体,k的选择对计算量有着重要的影响。为了选择一个合适的k值,我们在小鼠基因组中统计了不同长度k-mer的频次分布。我们发现,小鼠k-mer的分布开始在k大于6时呈现出三个峰,但当k大于11以后三峰分布现象开始逐步减弱。根据k-mer的分布图谱,我们认为k-mer的长度在8和9之间是比较合理的。之后我们将8/9-mer按照其中所含的某一二核苷数目的不同将其分为三个子集,分别是1XY、2XY、3XY。我们发现只有在CG二核苷分类下小鼠基因组8/9-mer频次分布所呈现的三个峰是可以被独立分开,基于此我们认为含有CG二核苷数目相同的8/9-mer在生物学功能上应该会有一定的相似性。
  为了探求含有CG二核苷数目相同的k-mer的生物学功能,我们定义了一个参数Ktri,这一参数可以表征序列对某一k-mer子集的偏好性。通过这种方法我们发现,CGI序列在8/9-mer中更加的偏好2CG模体,即2CG模体是构成CGI序列的核心模体。
  最后我们应用机器学习的方法,以不同子集计算的Ktri为序列的特征,建立了一个可以鉴别CGI的分类模型,并将模型应用与小鼠基因组中。我们在小鼠基因组中共鉴别出的CGI序列为52761条,是数据库中给出的16009条的3.3倍。在我们寻找到的片段中,包含了数据库中的15945条CGI序列,占数据库中总CGI的99.6%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号