首页> 中文学位 >DNA序列比对结果的存储与压缩
【6h】

DNA序列比对结果的存储与压缩

代理获取

目录

摘要

第一章 绪论

1.1.选题背景和意义

1.1.1.生物信息学

1.1.2.DNA序列数据的管理

1.1.3.DNA序列比对

1.2.项目背景

1.3.论文研究内容

1.4.本文组织结构

第二章 基本知识与相关术语

2.1.DNA

2.1.1.DNA概念

2.1.2.DNA序列数据特性

2.2.基本术语

2.3.DNA序列比对

2.3.1.比对的概念

2.3.2.比对工具

2.3.3.比对结果的存储格式

第三章 相关研究与产品

3.1.DNA序列压缩算法

3.1.1.压缩算法概述

3.1.2.压缩算法分类

3.1.3.典型压缩算法

3.2.相关产品

3.2.1.SAMtools的概况

3.2.2.SAMTools的典型命令

第四章 功能模块解析

4.1.软件体系结构

4.2.文件输入模块

4.3.基于位点的存储模块

4.3.1.存储的基本思想

4.3.2.Read重编码

4.3.3.表头索引机制

4.4.区间合并压缩模块

4.4.1.区间合并的主要思路

4.4.2.确定ACGT顺序的种类

4.4.3.压缩过程

4.4.4.目标文件格式

4.4.5.压缩后的随机访问

4.4.6.存储空间对比

4.5.字母长度压缩模块

4.5.1.字母长度压缩的主要思路

4.5.2.字母长度压缩的优点

4.5.3.压缩过程

4.5.4.目标文件格式

4.5.5.压缩后的随机访问

4.5.6.存储空间对比

4.6.存储结果显示模块

第五章 软件操作方式及实验结果介绍

5.1.软件运行环境

5.1.1.介绍

5.1.2.安装配置

5.2.界面介绍

5.2.1.文件输入

5.2.2.基于位点的存储

5.2.3.压缩

5.2.4.存储结果

第六章 结束语

6.1.总结

6.2.展望

参考文献

致谢

声明

展开▼

摘要

随着生物信息学、分子生物学等学科研究的深入,以及人类基因计划的完成,越来越多的人类基因和其他模式生命体的基因被测序。序列比对是处理测序结果的方法,可以发现生物序列之间存在的结构、功能和进化的关系,是生物信息学的基础。
  随着这些测序项目的展开,每天都有海量的DNA序列数据产生[1],DNA序列数据经过序列比对处理,比对结果数据也随之出现。虽然存储设备的快速发展已经在一定程度上缓解了相关数据量急剧膨胀的问题。然而随着比对研究的深入,单纯依靠增加硬件设备已经无法满足DNA比对结果数据量快速增长的需求,存储和使用这些数据的成本也终将增加至无法承担的规模。
  下一代测序技术平台(NGS)在很大程度上减少了测序的成本开销,使得基因序列分析在实践医疗场景之中的应用成为可能。因此,不论是从存储方面,还是应用方面考虑,序列比对结果的压缩在DNA数据的存储、管理和传输中起到了重要作用。DNA序列数据的压缩目前已经引起了国内外学术界的广泛关注,然而,很少有学者研究如何在实际医疗场景下压缩比对结果。基因比对结果的存储在未来的发展中仍面临着巨大挑战。
  在本文中,我们从医疗场景的应用角度出发,设计出满足需求的存储结构,并在此基础上设计出两种不同的压缩策略,以降低空间存储代价。实验数据表明,当覆盖率提升时,我们的压缩方案略微优于RAR标准压缩和ZIP标准压缩。基于以上方法完成了“DNA序列比对结果存储与压缩系统”,系统实现了对海量DNA比对结果的存储,并提供了图形化界面。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号