首页> 中文学位 >基于Hbase生物数据存储和DNA序列分析
【6h】

基于Hbase生物数据存储和DNA序列分析

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景

1.2 国内外研究现状

1.3 本文主要研究工作

1.4 本文的组织结构

第二章 相关知识

2.1 引言

2.2 相关概念

2.2.1 Hadoop及Hbase平台介绍

2.2.2 生物数据

2.2.3 生物数据库

2.3 存在的不足

2.4 本章小结

第三章 生物数据库建设及序列存储模式应用

3.1 引言

3.2 Hbase介绍

3.3 生物数据类图模型及Hbase表结构设计

3.4 生物序列数据比对

3.4.1 Overlapping模式应用

3.4.2 Non-overlapping存储模式应用

3.4.3 窗口大小为1的讨论

3.5 小结

第四章 相空间与DNA序列分析

4.1 引言

4.2 相空间介绍

4.3 K-words介绍

4.4 结果和讨论

4.5 小结

第五章 分形与DNA序列分析

5.1 引言

5.2 数据和映射规则

5.3 计算方法

5.4 结果与讨论

5.5 小结

第六章 总结和展望

6.1 总结

6.2 展望

参考文献

致谢

攻读硕士学位期刊参与科研项目

攻读硕士学位期间发表的学术论文

展开▼

摘要

随着生物数据量指数增长,亟待解决的存储和处理生物数据问题比较突出,在建设生物数据库过程中,利用Hadoop平台,搭建Hbase存储模型,实现云存储生物数据,并利用其它学科知识对序列数据进行分析。
  本文针对在建设生物数据库过程中,生物数据量呈现指数增长,生物大数据处理的问题,利用Hadoop平台下的Hbase数据库存储生物数据。首先,本文选择UML类图表示基因组数据和GenBank文件数据类图模型,设计出基于Hbase数据库模式的基因组数据和GenBank文件数据的存储模式,特别是对序列数据在Hbase上的存储模式进行了讨论。利用存储在Hbase数据库下的DNA序列模式,进行序列比对分析,提出最佳选择比对的短序列,并提出相应函数,给出相应函数的代表意义和利用价值,在一定程度上在本文提出的存储模式上提高序列比对的效率。
  本文利用非线性学科中的相空间知识,利用相空间构造不同序列的图形,在构造过程中,利用K-words和本文提出的指数,计算出最小K值获得最短序列来区分不同序列,最后利用相空间技术,把序列映射到图形上,从图形上观察序列之间的差异。
  本文利用非线性学科中的随机漫步知识和分形知识,计算出不同DNA分子序列映射后的数字序列的随机漫步图形,并比较不同DNA数字序列的不同,计算赫斯特指数,在分阶段上求出两个赫斯特指数,把结果映射到二维空间上,并比较不同物种之间的区别。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号