首页> 中文会议>2017年全国高性能计算学术年会 >海量数据全基因组关联分析并行数据框架

海量数据全基因组关联分析并行数据框架

摘要

随着高通量测序技术的广泛应用,基因数据不断增长,十万人,甚至百万人规模的全基因组关联研究也从理论进入实验阶段.然而,要并行访问这些接近PB级的基因数据,却存在着严重的性能瓶颈,包括数据存放和访问方式的矛盾,海量文件读写带来的元数据拥堵等,本文提出基于HDF5的数据并行处理框架,通过数据分片,将数据片作为矩阵元素实现转置,解决数据局部性矛盾,改善了数据访问的连续性,同时结合基因关联分析这类计算的特点,采取数据过滤、类型转换、列存储压缩等方法进一步减少开销,最终将数据访问性能提升了10倍以上,计算扩展性也得到极大提升.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号