基于短序列比对的InDel检测算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着下一代测序技术即高通量测序技术的诞生和迅猛发展，测序成本越来越低，通量越来越大，极大地促进了对生物信息学的研究。基于序列比对，对插入和删除（Insertion and Deletion，InDel）的检测和分析有助于找到与疾病相关的一些位点，为后续的疾病病理确定，治疗方案探索有重要意义。但是海量的高通量数据以及对检测结果的准确性要求使得InDel检测面临着巨大的挑战。因此本课题基于DNA短序列比对，并针对InDel检测算法研究存在的困难进行了探讨和研究。
　　若直接将短序列比对到参考序列上会出现两个问题，一个是映射过程中计算复杂度高，另一个是如果read在参考序列上存在匹配，则该read将会映射到其在参考序列的第一个匹配，这一般不是最优的匹配。为了解决以上两个问题，本课题先对滑窗方法产生的参考序列的seed集合进行构建哈希表，然后在比对过程中便可利用哈希表对read进行定位。值得注意的是，由于参考序列长度比较长，而哈希表构建比较耗内存，因此本课题在构建哈希表的同时对序列进行了二进制压缩，使得内存占用减少至四分之一。
　　在InDel检测过程中存在同样存在两个问题，一个是高通量测序技术产生的read的长度很短，更不用说作为read的子序列的种子（seed），因此一个seed在定位时往往会定位到参考序列的多个位置上，另一个是InDel在read上的分布是随机的，可能出现seed覆盖了InDel的位置，而使得seed错误地定位到参考序列上的某个位点。为了提升InDel检测的正确性，本课题提出先对read采用滑窗方法选出多个子序列分别比对到参考序列上得到各自的候选位点，并且为了降低候选位点的假阳性，本课题引入supportNum，在后续的评估过程中基于supportNum设定阈值，缩小了最终InDel候选集的范围。
　　在比对方法的选择上，由于本课题针对的InDel很小，只有1-2bp，故只要截取参考序列上从定位位点开始的一段比长2bp的连续序列就可以完成比对，比较适合用全局比对方法进行比对，因此本课题中使用基于Needleman-Wunsch的比对方法。为了进一步提升算法的性能，本课题提出了对优秀检测结果求交集，并对交集进行二次评估。最后的实验结果证明，本文提出的算法对InDel检测效果良好。

著录项

作者
汪晓丹;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名徐勇;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 Q523.8;
关键词
脱氧核糖核酸; 短序列比对; 基因测序; InDel检测算法; 位点定位;

相似文献

中文文献
外文文献
专利

1. 基于Spark的基因短序列比对模型 [J] . 冯晓龙 ,高静 . 计算机仿真 . 2020 ,第002期
2. 基于区域过滤的测序序列比对算法研究 [J] . 丁胜楠 ,吴鸣 ,徐云 . 微型机与应用 . 2018 ,第004期
3. 基于区域过滤的测序序列比对算法研究 [J] . 丁胜楠1 ,吴鸣23 ,徐云23 . 信息技术与网络安全 . 2018 ,第004期
4. 基于动态规划的序列比对的并行算法研究 [J] . 李大卫 . 井冈山大学学报 . 2011 ,第003期
5. 基于动态规划的序列比对的并行算法研究 [J] . 李大卫 . 井冈山大学学报（自然科学版） . 2011 ,第003期
6. 生物DNA序列比对算法研究 [C] . 许龙飞 ,段敏 ,陈孝卫 . 第二十一届中国数据库学术会议 . 2004
7. 基于汉明距离的DNA短序列比对算法研究 [A] . 杨学森 . 2013

基于短序列比对的InDel检测算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅