基于二代测序数据的拷贝数变异集成检测

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

二代测序技术测得的序列长度虽然不及三代测序的长，但它有着测序精度更高、测序成本更低等优点，因此目前大多数的基因组研究还是基于二代测序数据。而千人基因组项目更是为广大研究人员提供了丰富的人类二代测序数据以及基准变异数据。目前已有较多方法根据不同策略进行基因组结构变异的检测，也出现了很多基于序列深度的统计模型检测拷贝数变异，但因为拷贝数变异有着多种子类型、变异长度较长等特点，常规方法进行拷贝数变异的检测有着较大的局限性，精确性和灵敏性较低、断点准确度不够高。因此利用二代测序数据，考虑长度大于等于50bp的插入、缺失、重复这三种拷贝数变异子类型，本文集成序列拼接和序列深度策略提出了一种新的拷贝数变异检测方法。序列拼接是为了能检测较长长度的拷贝数变异，再结合序列深度信息不仅可以有效检测缺失和重复变异，还能对插入变异断点进行有效识别。主要工作如下:
　　1.获取真实测序数据和对应的基准变异数据并预先分析和处理，根据真实测序基准数据特点生成多组多类型的拷贝数变异模拟数据，并在这些数据集上利用多款目前较为主流的工具检测拷贝数变异的多种子类型，分析检测结果，用于比较和评估各检测工具以及获取候选变异断点。
　　2.为了检测较长长度的拷贝数变异，本文利用容错OLC拼接算法和路径相容性策略提出了一种局部序列拼接方法。首先将候选变异断点范围内的高质量序列切分，并基于一定百分比容错的OLC算法进行拼接，然后结合路径相容性策略对构建好的有向图进行路径选择，最后保留符合条件的序列作为拼接结果。
　　3.为了有效检测拷贝数变异的多种子类型，本文集成局部拼接结果和序列深度信息进行拷贝数变异的检测。从拼接序列的比对文件中获取高质量软切位点，再结合原始数据的序列深度信息进行拷贝数变异子类型的检测。实验结果表明，本文提出的集成方法，在低、高覆盖度的真实和模拟测序数据上，对拷贝数变异多种子类型的检测精确性和灵敏性都处于较高水平，并且在多组实验中保证了断点准确度。

著录项

作者
刘魏魏;
展开▼
作者单位

北京化工大学;

展开▼
授予单位北京化工大学;
学科软件工程
授予学位硕士
导师姓名高敬阳;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类数据处理、数据处理系统;
关键词
拷贝数; 变异检测; 二代测序; 序列拼接; 序列深度;

相似文献

中文文献
外文文献
专利

1. 基于深度集成学习的类极度不均衡数据信用欺诈检测算法 [J] . 刘颖 ,杨轲 . 计算机研究与发展 . 2021,第003期
2. 基于集成SVM数据流分类算法的公司微博金融事件检测方法 [J] . 夏千姿 ,倪丽萍 ,倪志伟 . 计算机应用与软件 . 2021,第008期
3. 基于集成学习的电费数据异常检测方法 [J] . 康峰 ,冼文祥 ,伍广斌 . 电力设备管理 . 2021,第013期
4. 基于概念漂移检测的数据流集成分类 [J] . 张宝菊 ,陈一迪 ,薛磊 . 天津师范大学学报（自然科学版） . 2019,第001期
5. 集成基于EP的分类器用于数据流入侵检测 [J] . 陈猛 . 河南科技 . 2019,第019期
6. 基于服务器及业务系统性能检测的数据中心集成监控系统分析和研究 [C] . 张晓华 ,林红 ,张至柔 . 中国高等教育学会教育信息化分会第十次学术年会 . 2010
7. 基于第二代测序数据的散在倍增插入变异检测方法研究 [A] . 谢文路 . 2020

基于二代测序数据的拷贝数变异集成检测

目录

摘要

著录项

相似文献

相关主题

期刊订阅