声明
摘要
第一章 绪论
1.1 研究背景
1.1.1 基于生物大数据分布式平台的研究现状
1.1.2 大规模基因组组装的研究现状
1.2 研究内容、目的和意义
1.2.1 研究内容
1.2.2 研究目的和意义
1.3 本文贡献
1.4 本文结构安排
第二章 分布式计算和序列组装
2.1 分布式计算
2.1.1 分布式开源平台Hadoop
2.1.2 并行计算框架MapReduce
2.2 基因组测序技术与组装
2.2.1 基因测序技术
2.2.2 基因组拼接与组装
2.2.3 基因组序列de novo组装算法
2.3 布隆过滤器Bloom Filter
2.4 本章小结
第三章 基于MapReduce的组装算法
3.1 基本原理
3.2 数据预处理
3.3 k-mer位置索引
3.4 读长拆分与映射
3.5 可组装重叠群聚类
3.5.1 重叠群相似度
3.5.2 重叠群精确匹配
3.6 类内重叠群组装
3.7 本章小结
第四章 实验设计与结果分析
4.1 数据集和数据预处理
4.1.1 数据集准备
4.1.2 读长纠错
4.1.3 重叠群拼接
4.2 组装质量
4.3 组装可视化
4.4 本章小结
第五章 结论和展望
参考文献
发表论文和参加科研情况
致谢
天津工业大学;