首页> 中文学位 >基于二代测序数据的拷贝数变异集成检测
【6h】

基于二代测序数据的拷贝数变异集成检测

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题的研究背景

1.2 课题的研究意义

1.3 国内外研究现状

1.3.1 双末端映射策略

1.3.2 分裂序列比对策略

1.3.3 序列深度策略

1.3.4 序列拼接策略

1.3.5 多策略集成

1.4 主流序列拼接算法

1.4.1 贪心图拼接

1.4.2 OLC图拼接

1.4.3 De Bruijn图拼接

1.4.4 拼接算法的比较

1.5 本文的主要研究内容及创新点

1.6 本文的结构安排

第二章 数据预处理及工具准备

2.1 引言

2.2 真实测序数据库

2.3 基因组数据及预处理

2.3.1 测序数据格式

2.3.2 比对数据格式

2.3.3 变异数据格式

2.3.4 数据预处理

2.4 模拟测序数据生成

2.5 实验工具准备

2.6 本章小结

第三章 局部序列拼接方法

3.1 引言

3.2 局部序列过滤

3.3 构建OLC有向图

3.3.1 序列问重复度的计算

3.3.2 获取后继序列

3.3.3 构建有向图

3.4 路径相容性策略

3.5 局部序列拼接

3.6 本章小结

第四章 拷贝数变异的集成检测

4.1 引言

4.2 集成检测方法

4.2.1 获取高质量软切位点

4.2.2 集成序列深度策略

4.3 真实测序数据实验

4.3.1 低覆盖度实验

4.3.2 高覆盖度实验

4.4 模拟测序数据实验

4.5 本章小结

第五章 总结和展望

5.1 本文主要工作总结

5.2 未来工作展望

参考文献

致谢

研究成果及发表的学术论文

作者及导师简介

展开▼

摘要

二代测序技术测得的序列长度虽然不及三代测序的长,但它有着测序精度更高、测序成本更低等优点,因此目前大多数的基因组研究还是基于二代测序数据。而千人基因组项目更是为广大研究人员提供了丰富的人类二代测序数据以及基准变异数据。目前已有较多方法根据不同策略进行基因组结构变异的检测,也出现了很多基于序列深度的统计模型检测拷贝数变异,但因为拷贝数变异有着多种子类型、变异长度较长等特点,常规方法进行拷贝数变异的检测有着较大的局限性,精确性和灵敏性较低、断点准确度不够高。因此利用二代测序数据,考虑长度大于等于50bp的插入、缺失、重复这三种拷贝数变异子类型,本文集成序列拼接和序列深度策略提出了一种新的拷贝数变异检测方法。序列拼接是为了能检测较长长度的拷贝数变异,再结合序列深度信息不仅可以有效检测缺失和重复变异,还能对插入变异断点进行有效识别。主要工作如下:
  1.获取真实测序数据和对应的基准变异数据并预先分析和处理,根据真实测序基准数据特点生成多组多类型的拷贝数变异模拟数据,并在这些数据集上利用多款目前较为主流的工具检测拷贝数变异的多种子类型,分析检测结果,用于比较和评估各检测工具以及获取候选变异断点。
  2.为了检测较长长度的拷贝数变异,本文利用容错OLC拼接算法和路径相容性策略提出了一种局部序列拼接方法。首先将候选变异断点范围内的高质量序列切分,并基于一定百分比容错的OLC算法进行拼接,然后结合路径相容性策略对构建好的有向图进行路径选择,最后保留符合条件的序列作为拼接结果。
  3.为了有效检测拷贝数变异的多种子类型,本文集成局部拼接结果和序列深度信息进行拷贝数变异的检测。从拼接序列的比对文件中获取高质量软切位点,再结合原始数据的序列深度信息进行拷贝数变异子类型的检测。实验结果表明,本文提出的集成方法,在低、高覆盖度的真实和模拟测序数据上,对拷贝数变异多种子类型的检测精确性和灵敏性都处于较高水平,并且在多组实验中保证了断点准确度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号