高效的分布式大规模基因组序列组装

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在基因组序列组装算法中，一个最基本的问题就是如何合适的选择上下游的短序列用于组装成一个长序列。当单独从一个种子序列进行扩展的时候，大量的重复的区域将会导致非常多的扩展的候选，从而导致序列组装问题非常的复杂。目前通用的方法就是选择一个基于短序列（双端序列）之间的重叠信息然后进行组装的。然而当所组装的基因组序列是非常高重复的复杂数据的时候，这种方法将面临巨大的挑战，尤其是序列数据中还包含有错误、高重复的序列以及不均衡的测序深度导致基因组中某些区域只有少量的序列覆盖或者大量的序列覆盖。所有的这些原因导致了现在的组装程序得不到最完美的组装基因组数据。
　　本文提出了通过原始读长信息寻找基于多个无参考序列的拼接算法产生的重叠群之间的重叠信息，来进行再组装。算法通过首先将重叠群建立k-mer位置索引，然后进行读长映射、潜在重叠群聚类、可组装重叠群聚类等步骤进行搭支架。整个算法流程能高效率便捷的运行，将整个算法流程设计为基于Hadoop的分布式平台，并在多个部分使用MapReduce算法，且在较小的内存机器上就可以运行。在大肠杆菌的基因组数据集上运行结果表明，本文提出的算法在组装的多项指标上据表现出良好的性能，在N50指标上有将近46％的提高，整体的组装覆盖度更加接近参考序列，并且算法能在Hadoop平台上高效的运行。

著录项

作者
徐魁;
展开▼
作者单位

天津工业大学;

展开▼
授予单位天津工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名陈科;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
基因组序列; 组装算法; 分布式系统基础构架; 流程设计;

相似文献

中文文献
外文文献
专利

1. 基于解耦概要图的大规模图数据高效分布式挖掘算法 [J] . 李玲 ,印莹 ,赵宇海 . 计算机学报 . 2020,第007期
2. 大规模RDF图数据上高效率分布式查询处理 [J] . 王鑫 ,徐强 ,柴乐乐 . 软件学报 . 2019,第003期
3. 用实时定量PCR解决基因组序列组装中的重复序列问题 [J] . 徐晓蒙 ,康怀兴 ,张志毅 . 生物技术通讯 . 2015,第003期
4. 中国科学家公布日本血吸虫基因天书"首次通过国内生物信息平台向全世界发布大规模基因组序列数据 [J] . 黄辛 . 浙江大学学报：农业与生命科学版 . 2006,第3期
5. 基于分布式信源编码的微生物基因组序列压缩算法 [J] . 陈旻 ,王开云 . 昆明学院学报 . 2015,第006期
6. 基于构件组装的大规模分布式仿真集成研究 [C] . 龚立 ,张晓锋 ,宋继忠 . 第十届中国系统建模与仿真技术高层论坛 . 2015
7. 面向大规模动态规划应用的通用与高效分布式系统 [A] . 王辰 . 2016

高效的分布式大规模基因组序列组装

目录

摘要

著录项

相似文献

相关主题

期刊订阅