多模态医疗数据中海量小文件存储优化方法

曾梦; 邹北骥; 张文生; 杨雪冰; 朱承璋

首页> 中文期刊> 《软件学报》 >多模态医疗数据中海量小文件存储优化方法

多模态医疗数据中海量小文件存储优化方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O(1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及HPF小文件合并方法相比,文件读取时间更短,能够提高HDFS在处理多模态医疗数据中海量小文件时的整体性能.

著录项

来源
《软件学报》 |2023年第3期|1451-1469|共19页
作者
曾梦; 邹北骥; 张文生; 杨雪冰; 朱承璋;
展开▼
作者单位

中南大学计算机学院;

中国科学院自动化研究所;

中南大学文学与新闻传播学院;

湖南省机器视觉与智慧医疗工程技术研究中心(中南大学);

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
多模态医疗数据; HDFS; HBASE; 小文件; 存储性能优化;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop的海量小文件存储优化方法 [J] . 刘君 . 厦门理工学院学报 . 2017,第3期
2. 基于时间线优化医疗海量小文件数据集成技术 [J] . 林德南 ,朱远燕 ,王浩 . 中国数字医学 . 2014,第008期
3. 基于Redis的海量智慧医疗小文件存储架构设计 [J] . 程晗 ,汪学明 . 计算机应用与软件 . 2018,第004期
4. 海量小文件元数据的分布式存储与检索 [J] . 周国安 ,李强 ,陈新 . 空军预警学院学报 . 2014,第006期
5. 海量小文件元数据的分布式存储与检索 [J] . 周国安 ,李强 ,陈新 . 空军预警学院学报 . 2014,第006期
6. 基于数据库的海量小文件的实时存储优化方案 [C] . XIE Jun ,谢骏 ,SONG Bao-Quan . 2014全国高性能计算学术年会 . 2014
7. 海量数据小文件分布式存储系统的设计与实现 [A] . 刘伯睿 . 2013

多模态医疗数据中海量小文件存储优化方法

摘要

著录项

相似文献

相关主题

期刊订阅