首页> 中文学位 >基因组序列k-mer频次分析及核小体结合模体的理论预测和验证
【6h】

基因组序列k-mer频次分析及核小体结合模体的理论预测和验证

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景

1.1.1 DNA序列的k-mer频数研究现状

1.1.2 核小体定位研究现状

1.2 论文结构

第二章 酵母核小体核心序列与连接序列的差异分析

2.1 数据集

2.2 研究方法

2.2.1 k-mer相对使用频率

2.2.2 相对使用频率比值的对数

2.3 结果与分析

2.3.1 k-mer相对使用频率差异

2.3.2 相对频率比值的对数(LRF)分布

2.3.3 LRF与RF-C的关系

2.3.4 k-mer模体按RF-C排列后LRF的分布

2.3.5 LRF分布的局部特征

2.3.6 抽样点附近8-mer的序列特征

第三章 核小体结合模体集合的理论预测和验证

3.1 数据集

3.1.1 人类基因转录起始序列

3.1.2 人类DNA序列核小体占据率分布

3.2 研究方法

3.2.1 m核甘的相对频数

3.2.2 核小体特征量

3.3 核小体结合模体的预测理论

3.4 结果与讨论

3.4.1 TSS序列上核小体特征量分布

3.4.2 核小体特征量的可靠性分析

3.4.3 TSS区域核小体占据情况的统计

第四章 总结与展望

4.1 工作总结

4.2 工作展望

参考文献

致谢

作者攻读博士学位期间发表和完成的论文目录

展开▼

摘要

基因组序列k-mer出现的频次存在进化分离现象。基于这一现象,我们分析了酵母基因组核小体核心序列与核小体连接序列中k-mer(k≤8)使用频次的差异。分析了人类1号染色体基因间序列8-mer使用频次的三峰分布及在XY二核苷分类下的分布特征,给出了理论预测的核小体结合模体集合,并与核小体占据率实验结果进行了比较。具体内容如下。
  基于Brogaard等人在实验上给出的酵母基因组序列上单碱基精度的核小体定位标注,获得全部的核小体中心序列和核小体连接序列。分析了k-mer(k取4、5、6和8)在两类序列中相对使用频率(RF)的差异,发现当k≥6时,少数高频k-mer使用差异明显。引入两类序列k-mer相对使用频率比的对数㈣参数值,并按照该值增序的方式排列模体,结果显示模体长度越长两类序列的使用差异越明显,当k>7以后差异分布逐渐稳定。按照核心序列8-mer相对使用频率增序的方式排列模体,发现在相对使用频率小于0.5的区域,两类序列的8-mer使用差异更加显著。分别计算了7个抽样点附近核心序列偏好的8-mer和连接序列偏好8-mer的G+C含量和二核苷含量。结果显示当8-mer相对频率逐步减小时,对应模体的G+C含量逐步增大,连接序列偏好GG和CC二核苷的使用,核心序列明显偏好CG和GC二核苷的使用。总之,除了少数极偏好的模体外,两类序列k-mer使用的差异多数出现在k-mer相对频率很低的模体上,这些模体具有较高的G+C含量。
  核小体结合模体集合的理论预测对于全面了解核小体的定位和染色质重塑以及DNA序列的结构和进化具有重要的意义。为了解释人类基因组序列8-mer相对模体数随频次的分布的三峰现象。将8-mer集合按照8-mer中包含CG二核苷的含量分类,发现三个8-mer子集(0CG,1CG和2CG)各自形成独立的单峰分布,而依照其它15类二核苷分类则没有此现象,总体8-mer的三个峰正是这三个CG8-mer子集分布的叠加。分析了DNA序列中8-mer使用的这一独特的性质,结合对核小体结合序列的实验研究结论,我们提出了1CG模体集合就是核小体结合模体的理论猜想。为了验证我们的猜想,计算了1CG8-mer集合中偏好和稀有的三核苷相对频率,分别构建了核小体特征参数ktri(O)和Ktri(R),得到它们在1177个基因转录起始序列(TSS)上的分布,然后与实验给出的核小体占据率分布比较。线性拟合的统计结果表明,置信度大于95%的序列占到总数的89.2%,置信度大于99%的序列占到总数的81.6%。比较的结果印证了1CG模体集合就是核小体结合模体的理论猜想。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号