首页> 中文学位 >基于高通量测序的大肠杆菌自发突变热点的研究
【6h】

基于高通量测序的大肠杆菌自发突变热点的研究

代理获取

目录

声明

摘要

前言

1.材料

2.方法

1.传统NGS错误率

2.DS方法改进

3.二项式分布的使用

4.自发突变热点

5.热点基因注释

讨论

结论

参考文献

综述 基于测序方法的自发突变检测

致谢

展开▼

摘要

目的:自发突变是生物进化的源驱动力,因此在生物学研究中有着极其重要的地位。由于自发突变在生物进化和病理过程中有着非常基础作用,因此近些年来吸引了很多基于二代测序的自发突变的研究。然而这些研究大多是基于突变累积实验(Mutation Accumulation Experiment)和长期进化实验(Long-term Evolution Experiment),获得的多是由菌株经过长期培养而被累积下来的突变,从而无法研究真实自发突变在全基因组的分布情况。本课题希望利用一种分子标签的深度测序策略和二项式分布的算法来获得高可信度的自发突变,从而可以研究大肠杆菌自发突变热点在全基因组上的分布。  方法:本课题分别使用了15个样本的Tp53基因exon4-10的Duplex Sequencing(DS)数据和15个样本的大肠杆菌全基因组Improved Duplex Sequencing(IDS)数据,均是基于Illumina Hiseq2500测序平台的双端150bp测序数据。首先处理了Tp53基因的exon4-10的DS数据,通过分子标签将来自同一DNA片段的reads归为一个Family Group中,然后通过构建一致性序列来计算12种错误类型的测序错误率。开发了IDS技术,它采用了4种长度不同的随机碱基作为分子标签,用以提高碱基平衡性和测序质量。采用IDS技术建库,获得了15个样本的大肠杆菌全基因组测序数据,并通过二项式分布的方法获得高可信度的(P<0.01)自发突变。最后利用RLE(游程编码)算法来提取基因组上自发突变形成的突变热点区域,并将15个样本共有的热点区域内的基因进行注释,研究突变在这些基因中的分布。  结果:通过对Tp53基因exon4-10的Duplex Sequencing数据的处理,发现NGS技术错误率与Illumma提供的0.001十分接近,但不同错误类型差异明显,需要分别考虑。通过对原始Duplex Sequencing方法的改进,使不仅能够解决传统NGS在去除PCR重复上的问题,而且能够提高测序数据的碱基平衡性和测序质量。通过二项式分布的方法使获得了高可信性(P<0.01)的自发突变,然后利用RLE算法使获得了3个显著的自发突变热点,且在15个样本中都得到了验证。最后对这3个热点区域内的基因进行注释,发现绝大多数突变都存在于基因的重复序列或者是非功能域中。  结论:在本课题中,发现传统NGS是不适合进行短基因序列的高深度测序。另外,通过15个样本突变热点的一致性,也可以说明基于二项式分布的突变位点的过滤方法是行之有效的。而自发突变在热点区域基因中的分布也可以为研究生物进化提供依据。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号