首页> 中文学位 >基于特征挖掘与SVM集成的基因组缺失变异检测
【6h】

基于特征挖掘与SVM集成的基因组缺失变异检测

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题背景及研究意义

1.1.1 课题背景

1.1.2 课题研究意义

1.2 国内外研究现状

1.2.1 双末端测序片段映射分析

1.2.2 测序片段分裂比对

1.2.3 测序片段映射深度分布分析

1.2.4 序列拼接

1.3 课题主要研究内容

1.4 论文结构及内容安排

1.5 本文的创新点

第二章 真实测序数据的获取和预处理

2.1 引言

2.2 数据库分析

2.2.1 测序序列数据库

2.2.2 基因组变异数据库

2.2.3 千人基因组计划数据

2.3 数据格式分析和预处理

2.3.1 测序片段数据

2.3.2 比对信息数据

2.3.3 基因组变异数据

2.4 本章小结

第三章 缺失变异的特征研究和提取

3.1 引言

3.2 符号说明

3.3 双末端测序片段映射距离

3.3.1 特征的提取

3.3.2 特征的标准化

3.4 测序片段分裂比对

3.4.1 特征的提取

3.4.2 特征的标准化

3.5 测序片段映射深度

3.5.1 特征的提取

3.5.2 特征的标准化

3.6 其他特征

3.6.1 特征的提取

3.6.2 特征的标准化

3.7 本章小结

第四章 基于SVM的缺失变异集成检测

4.1 引言

4.2 集成检测方法

4.3 低覆盖深度测序数据实验

4.3.1 数据来源

4.3.2 缺失变异初始检测

4.3.3 集成检测与结果分析

4.4 高覆盖深度测序数据实验

4.4.1 数据来源

4.4.2 缺失变异初始检测

4.4.3 集成检测与结果分析

4.5 本章小结

第五章 结论与展望

5.1 主要研究成果

5.2 工作展望

参考文献

致谢

研究成果及发表的学术论文

作者及导师简介

展开▼

摘要

随着高通量测序技术的快速发展,基于测序的结构变异检测技术大量涌现。由于高通量测序本身的局限性,如读长较短,测序误差偏大等因素,单一检测方法仍存在适用的局限性,以及检测精度和敏感度不足的问题。针对于此,本文围绕缺失变异,提出一种基于特征挖掘与SVM集成的基因组缺失变异检测方法。本文的主要内容如下:
  (1)为了对该集成检测方法进行有效评估,首先对当前真实测序数据库和基因变异数据库的组织架构、存储形态、检索和下载方式等进行研究,从而可以根据实验需求下载真实测序数据和变异基准数据,为本文奠定了数据基础;此外,一方面对不同类型数据的存储格式进行研究,另一方面对不同阶段的数据处理流程及所需工具进行研究,完成了变异检测之前的数据预处理工作。为后续缺失变异的检测打下了数据预处理方法的基础。
  (2)融合双末端测序片段映射分析、测序片段分裂比对、映射深度分布分析三种检测理论,详细深入的研究缺失变异的综合表征。以此为基础,多角度挖掘和提取缺失变异相关的序列特征,最终,从比对信息数据中挖掘了49个关于缺失变异的序列特征,并用C++编写工具完成了从BAM文件中对缺失变异的序列特征提取,为缺失变异检测奠定了理论基础。
  (3)缺失变异集成检测方法的研究。“集成”的含义包括两个方面,其一是使用多种前沿工具进行缺失变异初始检测,集成不同的检测结果作为初始集,达到最大化检测敏感度的目的;另一方面,将检测工具与SVM相集成。首先,基于缺失变异的特征研究工作,分别对初始集中的每一个缺失变异从比对信息数据中提取特征,然后利用SVM根据所提取的特征对初始集中的缺失变异进行“真假”判别,剔除假阳性的变异,得到集成检测的最终结果。实验结果表明,该方法比单个工具在检测精度和敏感度上更有优势;相比于多个检测工具结果的简单组合,该方法能在只损失少量检测敏感度的基础上,大幅提高检测精度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号