基于Spark的转录组大数据并行处理方法

于建涛; 刘圣东; 赖灵伟; 吕同轩; 王嘉浩; 高小雨; 惠毅翔; 侯君瑶; 殷童; 郭茂祖

首页> 中文期刊>计算机应用研究 >基于Spark的转录组大数据并行处理方法

基于Spark的转录组大数据并行处理方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

转录组大数据RNA-seq是考察基因表达、研究生命规律的重要来源。分析转录组的序列比对软件TopHat及统计分析软件Cufflinks常见于在单机上以串行方式运行,或者基于分布式计算框架MapReduce在Hadoop集群上以并行方式运行,尚未见其部署于Spark大数据集群上以内存计算的方式并行执行。将TopHat、Cufflinks与Spark相结合,提出了一种转录组大数据的并行处理方案。在模式生物拟南芥RNA-seq上的实验结果表明,较之单机运行模式,使用2~10个工作节点并行运行模式能够获得2.08~7.43倍的加速比;其中文件的分区数以及串行软件的线程数对于并行处理效率有一定影响,给出了优化效率的参数设置;所提出的方案取得了与串行运行基本一致的结果,具有可靠性与高效性;通过MapReduce与Spark上的性能比较分析了串行软件并行化所存在的瓶颈问题。

著录项

来源
《计算机应用研究》|2020年第S02期|176-180|共5页
作者
于建涛; 刘圣东; 赖灵伟; 吕同轩; 王嘉浩; 高小雨; 惠毅翔; 侯君瑶; 殷童; 郭茂祖;
展开▼
作者单位

西北农林科技大学信息工程学院,陕西杨陵712100;

华东交通大学信息工程学院,南昌330013;

北京建筑大学电气与信息工程学院,北京102616;

展开▼
原文格式 PDF
正文语种 chi
中图分类 TP311.13;
关键词
Spark集群; 并行处理; 转录组; 序列比对; 差异表达;
入库时间 2022-08-20 22:39:28

相似文献

中文文献
外文文献
专利

1. 基于Spark Streaming的视频大数据并行处理方法 [J] . 张元鸣 ,虞家睿 ,陆佳炜 . 计算机工程与科学 . 2021,第010期
2. 基于Spark大数据计算模型的多种群并行进化遗传算法 [J] . 任刚 ,吴长茂 ,魏勇 . 河南机电高等专科学校学报 . 2021,第003期
3. 基于Spark大数据计算模型的多种群并行进化遗传算法 [J] . 任刚 ,吴长茂 ,魏勇 . 河南工学院学报 . 2021,第003期
4. 基于Spark的分布式大数据并行化聚类方法研究 [J] . 陶婧 . 湖北第二师范学院学报 . 2019,第008期
5. 基于SPARK并行框架下大数据分析的食品安全追溯平台体系研究 [J] . 何子聪 ,郭靖雯 . 数码设计．CG WORLD . 2019,第015期
6. 基于Spark的基因组数据分析流程的并行加速 [C] . Wang Bingchen ,王炳琛 ,Li Xueqi . 2017年全国高性能计算学术年会 . 2017
7. 基于Spark的海量遥感图像并行镶嵌处理方法研究 [A] . 霍帅起 . 2018

基于Spark的转录组大数据并行处理方法

摘要

著录项

相似文献

相关主题

期刊订阅