【24h】

On distributed file tree walk of parallel file systems

机译:在并行文件系统的分布式文件树遍历中

获取原文
获取原文并翻译 | 示例

摘要

Supercomputers generate vast amounts of data, typically organized into large directory hierarchies on parallel file systems. While the supercomputing applications are parallel, the tools used to process them requiring complete directory traversais, are typically serial. We present an algorithm framework and three fully distributed algorithms for traversing large parallel file systems, and performing file operations in parallel. The first algorithm introduces a randomized work-stealing scheduler; the second improves the first with proximity-awareness; and the third improves upon the second by using a hybrid approach. We have tested our implementation on Cielo, a 1.37 petaflop supercomputer at the Los Alamos National Laboratory and its 7 petabyte file system. Test results show that our algorithms execute orders of magnitude faster than state-of-the-art algorithms while achieving ideal load balancing and low communication cost. We present performance insights from the use of our algorithms in production systems at LANL, performing daily file system operations.
机译:超级计算机生成大量数据,通常在并行文件系统上将其组织成大型目录层次结构。尽管超级计算应用程序是并行的,但用于处理它们的工具(需要完整的目录traversais)通常是串行的。我们提出了一种算法框架和三种完全分布式的算法,用于遍历大型并行文件系统并并行执行文件操作。第一种算法引入了随机的工作窃取调度器;第二个改进了第一个具有邻近感知的功能;第三种通过使用混合方法对第二种进行了改进。我们已经在洛斯阿拉莫斯国家实验室的1.37 petaflop超级计算机Cielo及其7 PB文件系统上测试了我们的实现。测试结果表明,我们的算法执行速度比最新算法快几个数量级,同时实现了理想的负载平衡和较低的通信成本。我们通过在LANL的生产系统中使用我们的算法,执行日常文件系统操作,提供性能见解。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号