基于磁盘的单机大规模图计算引擎性能的改进方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

本文研究图计算引擎性能问题。现实世界的许多对象都能够被转化成图格式，并且运用各种图处理工具进行高效处理。GraphChi是最先提出能够在单机上高效处理十亿规模节点的基于磁盘的图计算引擎，在性能上能够接近甚至超越那些主流的分布式图计算引擎。
　　本文针对图计算引擎其中的两个方面进行了改进，主要包括两部分：1）图计算引擎的内存管理制度以及2）图计算引擎的算法。
　　在图计算引擎的内存管理制度的问题上，本文受到TurboGraph的“pin”的概念以及GraphLab中“ghost”的概念的启发，提出了一种新的内存管理制度来提高GraphChi引擎的性能。这种模式的主要思想是在整个计算过程中将一部分数据固定在内存里。此改进在原始的GraphChi引擎上仅增添了40行左右的代码，却收获了最高达60％性能的提高。分别运用不同大小的内存、点数据集、边数据集以及放入内存数据比例进行了相应的实验，证明了这种优化模式的通用性及有效性；并且在实验过程中我们发现在整个数据集无法完全放入内存的情况下，存在一个最优的固定到内存的数据比例，此时能够获得最优的性能。
　　在针对图计算引擎处理的算法进行优化上，受到著名的六度空间理论的启发：当某些节点迭代过程中值的变化满足一定条件时，可以停止对这部分相对次要的节点进行计算，这并不会对那部分重要节点造成影响。在大数据集上进行了相关实验，验证了本文提出的优化算法的有效性（最高24%性能的提高）以及准确性；同时通过对节点收敛值以及过滤不同比例的次要节点进行了研究，揭示了它们与图计算引擎性能的密切联系。

著录项

作者
蒋亦方;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科计算机技术
授予学位硕士
导师姓名黄征;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类磁存贮器及其驱动器;
关键词
图计算引擎; 内存管理; 节点迭代; 磁盘;

相似文献

中文文献
外文文献
专利

1. 基于图查询系统的图计算引擎 [J] . 柯学翰 ,陈榕 . 大数据 . 2019,第004期
2. 基于图查询系统的图计算引擎 [J] . 柯学翰1 ,陈榕1 . 大数据 . 2019,第004期
3. 基于组合学的大规模磁盘队列轮换休息机制的编码设计 [J] . 何安元 ,袁家斌 . 福建电脑 . 2007,第005期
4. 单机虚拟环境下磁盘阵列的实现 [J] . 朱启家 . 电脑知识与技术 . 2008,第033期
5. 基于并行图计算框架大规模图最大流加速算法 [J] . 张如青 ,魏蔚 ,张永新 . 计算机仿真 . 2021,第002期
6. 基于平面图覆盖的大规模图可达查询处理 [C] . DING Lin-Lin ,丁琳琳 ,LI Xue-Cheng . 2014全国高性能计算学术年会 . 2014
7. 分布式图计算引擎设计与实现 [A] . 胡逸芃 . 2020

基于磁盘的单机大规模图计算引擎性能的改进方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅