分布式存储系统
分布式存储系统的相关文献在2001年到2023年内共计1292篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、数学
等领域,其中期刊论文138篇、会议论文22篇、专利文献6477789篇;相关期刊83种,包括计算机工程、计算机工程与应用、计算机科学等;
相关会议18种,包括2017第十九届中国科协年会、2015年全国开放式分布与并行计算学术年会、NCIS2015第21届全国信息存储技术学术会议等;分布式存储系统的相关文献由2034位作者贡献,包括孟祥瑞、林起芊、王豪迈等。
分布式存储系统—发文量
专利文献>
论文:6477789篇
占比:100.00%
总计:6477949篇
分布式存储系统
-研究学者
- 孟祥瑞
- 林起芊
- 王豪迈
- 胥昕
- 夏伟强
- 张旭明
- 刘颖
- 李佳颖
- 李婷婷
- 李玲侠
- 魏明昌
- P·孙雄
- 宋昭
- 张朝潞
- 张海勇
- 徐君
- 董小社
- 韩银俊
- 奥姆里·帕尔蒙
- 姚文辉
- 文刘飞
- 李杰
- 樊云龙
- 王伟
- 王元钢
- 甄天桥
- 肖永玲
- 郭斌
- 饶蓉
- 黄睿
- R·希弗
- S·R·希里帕
- S·奎因兰
- 不公告发明人
- 刘善阳
- 利兰·兹维贝
- 卡纳尔·阿迪蒂
- 圷弘明
- 张兴军
- 李小勇
- 李林
- 李舒
- 段翰聪
- 汪渭春
- 王利朋
- 王道辉
- 王静
- 石超
- 胡永刚
- 詹文翰
-
-
田松涛
-
-
摘要:
为了满足分布式存储系统的动态存储和异构存储,本文提出一种基于节点共边的异构部分重复码(heterogeneous fractional repetition codes based on node common edge,HFRC-NCE)的构造算法.具体地,将MDS码编码后的数据块分为冷数据块和热数据块,结合节点共边的特性,分别将冷数据块和热数据块复制不同的倍数存储到各个节点中,构造的异构部分重复码更加简单直观,可实现故障节点的精确无编码修复.理论分析表明,与基于完全图和部分正则图构造的部分重复码相比,基于节点共边的异构部分重复码虽然存储开销和修复带宽开销略大,但其节点修复选择度更高,节点存储数据容量更多样化,重构度更小.
-
-
沈佳杰;
卢修文;
向望;
赵泽宇;
王新
-
-
摘要:
读写一致性算法被广泛部署到分布式存储系统,以保证读写数据的正确性。然而,读写一致性算法通常需要使用一个复杂的通信协议来保证多个节点读写数据的正确性,会带来较大网络传输开销和读写时延。由于各种读写一致性算法实现机制存在较大差异,特定的读写一致性算法往往需要部署到特定的存储应用场景,才能高效地执行数据读写操作,保障对其上应用的服务质量。因此,实际的存储系统开发过程中,开发人员往往需要根据存储应用场景选择读写一致性算法,从而减少数据读写操作带来的系统开销。为了明确各种读写一致性算法适合的应用场景,介绍了分布式存储系统中存在的读写一致性问题,并综述了当前读写一致性算法的实现机制。总结了在副本和纠删码2种存储机制下主流的读写一致性算法,比较了这些读写一致性算法在实现机制、网络开销和数据存储开销等方面的特性。在此基础上,结合了单数据中心分布式存储系统和跨数据中心云际存储系统2种经典的应用场景,总结了开发人员在实际存储系统中部署读写一致性算法过程中需要注意的要点,分析了亟需解决的问题和提升数据读写操作性能的可能途径,展望了读写一致性算法未来的发展方向。
-
-
杨振宇;
吕敏;
李永坤
-
-
摘要:
随着互联网数据的爆发式增长,越来越多的分布式存储系统开始引入纠删码存储机制,以在提供数据可靠性的同时降低存储开销。但纠删码机制的引入改变了数据放置模式,从而影响分布式系统上层业务的数据访问和运行效率。在异构Hadoop集群环境中,一类典型的离线批处理作业——MapReduce应用在条带式纠删码存储模式下需要从多个节点访问数据,该“一对多”的数据访问模式由于节点性能差异造成应用执行效率下降。对此,该文提出了一种基于异构环境的数据放置和任务分配策略。通过对异构集群中各节点的硬件参数和历史负载进行分析,将同一纠删码条带的数据块尽可能分布在性能相近的节点上;在系统进行任务分配时,针对各节点当前负载和运算能力确定节点的任务并发度,以平衡各节点计算资源的占用情况,从而避免因数据访问或计算过程中的资源竞争产生极端缓慢任务以致降低整个MapReduce应用的运行效率。实验结果表明,相比当前Hadoop默认的随机数据放置和任务分配策略,该文提出的异构感知数据放置策略和动态任务分配策略能够在不同类型的MapReduce应用中有效削弱任务的长尾效应,使得作业整体运行时间节约10.5%~42%,验证了该方案的有效性。
-
-
冷镇宇;
蒋德钧;
熊劲
-
-
摘要:
对于分布式存储系统来说,保证多租户尾延迟服务质量目标(SLO)同时获得较高的资源利用率十分重要。现有租户负载建模方法忽略了突发流量的密集程度,采用间接方法来预测尾延迟,导致系统的资源利用率较低。为了解决上述问题,本文基于密度聚类算法(DBScan),从强度、概率及密集程度3个维度对租户负载突发流量进行建模,直接预测连续突发流量期间请求延迟超限的概率。结合固定速率分配方法,本文设计了尾延迟SLO保证框架AccGecko。相比于已有的工作,AccGecko可以使系统平均多承载66%的租户。
-
-
-
王静;
何亚锦;
雷珂;
刘向阳
-
-
摘要:
针对最小带宽再生码的有效修复问题,该文提出一种基于差集矩阵的部分重复(FR)码的构造算法。利用差集矩阵和克罗内克(Kronecker)和来构造正交排列,根据正交排列每一列取相同元素所在行作为节点的编码块,得到相应的FR码。构造的FR码可以划分成多个平行类,同时还能调整数据块的重复度和节点的存储容量。仿真结果表明,与传统的里德-所罗门(RS)码和简单再生码(SRC)相比,构造的FR码在修复复杂度、修复带宽开销和修复局部性方面具有更好的性能,修复选择度上虽然是基于表格的修复方案,但选择度依旧可以达到很高。
-
-
李乾;
胡玉鹏;
叶振宇;
肖叶;
秦拯
-
-
摘要:
由于纠删码具备高可用性和高存储空间有效性的特点,采用纠删码为大规模分布式存储系统提供数据持久性已成为事实标准.然而,纠删码的密集型更新操作将导致大量的数据传输和I/O开销.如何减少数据传输量,优化现有网络资源的利用率,以提高纠删码的更新效率,成为纠删码存储系统面临的重要挑战.然而,在多重服务质量(quality of service,QoS)指标下,目前对纠删码更新效率的优化研究很少.针对此问题,提出一种基于蚁群优化算法的多数据节点更新方案(ant colony optimization algorithm based multiple data nodes update scheme,ACOUS),采用2阶段数据更新方式以优化多数据节点更新过程.具体而言,基于多目标蚁群优化更新路由算法(multi-objective ant colony optimization update routing algorithm,MACOU)所构建的多目标更新树,2阶段数据更新方式能有效地进行数据增量收集和校验增量分发.大量的实验结果表明,在典型的数据中心网络拓扑结构下,与TA-Update方案相比,所提方案能够在保证算法收敛的前提下,以可忽略的计算开销为代价,将更新时延降低26%~37%.
-
-
李乾;
胡玉鹏;
叶振宇;
肖叶;
秦拯
-
-
摘要:
由于纠删码具备高可用性和高存储空间有效性的特点,采用纠删码为大规模分布式存储系统提供数据持久性已成为事实标准然而,纠删码的密集型更新操作将导致大量的数据传输和I/O开销.如何减少数据传输量,优化现有网络资源的利用率,以提高纠删码的更新效率,成为纠删码存储系统面临的重要挑战.然而,在多重服务质量(quality of service,QoS)指标下,目前对纠删码更新效率的优化研究很少.针对此问题,提出一种基于蚁群优化算法的多数据节点更新方案(ant colony optimization algorithm based multiple data nodes update scheme,ACOUS),采用2阶段数据更新方式以优化多数据节点更新过程.具体而言,基于多目标蚁群优化更新路由算法(multi-objective ant colony optimization update routing algorithm,MACOU)所构建的多目标更新树,2阶段数据更新方式能有效地进行数据增量收集和校验增量分发大量的实验结果表明,在典型的数据中心网络拓扑结构下,与TA-Update方案相比,所提方案能够在保证算法收敛的前提下,以可忽略的计算开销为代价,将更新时延降低26%~37%.
-
-
何亚锦;
孙伟;
沈克勤;
张鑫楠;
刘向阳
-
-
摘要:
分布式存储系统采用冗余策略来确保数据的可靠性和可用性,局部修复码(locally repairable codes,LRC)引起了广泛的关注,极大地减少了数据修复过程中所连接的节点数,在数据存储中作用极大.每个信息码元可以从其他t个不相交的集合中修复,且每个集合大小为r,称此类码具有(r,t)局部度.从校验矩阵入手,提出两种构造具有(r,t)局部度的LRC的方法.方法一利用λ=1的非循环相对差集(relative difference sets,RDS)构造关联矩阵,方法二提出了利用酉设计构造关联矩阵,均在关联矩阵的右侧添加单位矩阵,构造LRC的校验矩阵.两种方法构造的LRC均是一个修复集中包含一个校验节点,并且可以达到任意(r,t)局部度.理论分析表明,构造的两种码的最小距离均满足最小距离界,证明了两种码均是最优的LRC.非循环相对差集构造的码的信息率为1/2,酉设计构造的码的码率在一定条件下高于1/2,码率为rr+t.
-
-
李玥
-
-
摘要:
城市监控视频数量呈现出爆炸式增长,为应对快速增长的存储压力,Hadoop分布式文件系统(HDFS)已被许多视频服务网站广泛使用,但其负载平衡工具并未考虑视频文件在线播放的带宽消耗特性和NameNode异构性能差异.基于此,本文提出一种基于HDFS的动态负载均衡方法.此方法建立了新的负载评估模型,通过对元数据的多副本异构节点进行动态自适应备份,实现了元数据的动态分配,并保证了元数据服务器集群的性能.实验结果表明,本方法可以有效避免高带宽消耗数据块的聚集,在90%的场景中优于原有的负载均衡方法,可以将数据节点集群中瓶颈节点的带宽峰值降低20%.
-
-
Hou Hanxu;
侯韩旭;
Li Hui;
李挥;
Zhang Huayu;
张华宇;
Zhu Bing;
朱兵
- 《中国计算机学会第一届CCF大数据学术会议》
| 2013年
-
摘要:
分布式存储系统以其高效的可扩展性和高可用性成为存储大数据的主要系统.为了提高可靠性,需要在分布式存储系统中引入冗余.因此如何最优化存储空间、最小化修复带宽和最小化计算复杂度是衡量冗余存储系统效率的关键问题.再生码存储是一类可以达到存储空间与网络修复带宽最佳折中的存储方法,但现有的再生码的构造方法有大量有限域的乘法运算,其高昂的计算复杂度成为用于分布式存储系统中的主要瓶颈.实验结果表明,在保留再生码优势的前提下,采用移位和异或运算取代有限域的乘法运算可以大幅度地降低计算复杂度.创新之处在于提出了二元再生码(binary regenerating codes,BRGC),并给出了构造二元再生码的两类最佳再生码,即最小带宽二元再生码和最小存储二元再生码的方法.通过评估和对比主流的RS码和基于矩阵乘法的再生码,发现BRGC在计算复杂度方面有着明显的优势,在实际海量数据的分布式存储系统中具备更好的应用价值.BRGC在修复和解码性能均优于柯西(Cauchy Reed-Solomon)码.
-
-
曲珊
- 《2017第十九届中国科协年会》
| 2017年
-
摘要:
随着大数据时代的到来,全球数据量呈指数式增长,大规模的海量数据在推动实现巨大经济效益的同时,也对大规模数据的存储提出了更高的要求.现如今,传统的集中式存储系统已经不能满足时代发展的需求,通过网络进行数据的分布式存储成为必然趋势.如何在复杂网络环境中保证分布式存储的可靠性和高效性成为近几年的研究热点.rn 在不对称再生码的模型中,将所有节点按照修复条件划分为多种类型,每种类型的节点在修复时连接的节点数以及从每个连接的现存节点下载的数据量都相等。由于所有节点都处在同一个网络环境中,因此它们可用的网络带宽一致,不妨考虑所有节点的修复带宽都相等的情形。由此建立了非对称网络结构下的信息流图,以描述信息在网络中的流通以及系统中节点不断演进的过程。通过分析信息流图的最小割约束,根据最大流最小割定理,得到了不对称再生码存储和修复带宽的折衷曲线。这条曲线上的两个极值点,分别对应着最小的存储空间和修复带宽,对应的编码分别叫做最小存储不对称再生码(MSMR)和最小修复带宽不对称再生码(MBMR)。发现,特别地,当系统中只有一种类型的节点时,不对称再生码就变成了现有再生码的情形,也就是说,模型给出了更为一般性的结果,对于再生码的实际应用具有重要意义。rn 进一步,通过分析编码有限域的大小.证明了不对称再生码的存在性,并且结合Jaggi之前提出的多项式时间算法,给出了不对称再生码的具体构建方法。最后,通过对再生码和不对称再生码的性能进行比较分析,进一步说明了不对称再生码的优越性,即在满足一定的条件下,不对称再生码能够达到更小的存储空间或者修复带宽。
-
-
-
LI Yong;
李勇;
WU Lihu;
吴立慧;
HUANG Ning;
黄宁;
WU Weigang;
吴维刚
- 《2015年全国开放式分布与并行计算学术年会》
| 2015年
-
摘要:
针对分布式存储系统中数据通常在多个数据中心有冗余的副本进行备份,需要健壮的机制维护各个副本的一致性,对分布式系统的副本复制理论作了深入研究后,提出了一套管理地理分布副本的算法.微软研究院提出服务等级协议,把用户对一致性的要求分成若干级别,每个级别与用户可容忍的延迟有关.系统保证在可容忍的延迟范围内,用户能拥有较高的服务等级.Tuba系统拓展了Pileus,允许系统根据所有用户发送的统计信息动态地改变主从副本存放的位置,以提高系统的平均性能,但Tuba系统的复制只是基于单个目标单位进行.对Tuba系统中的方法作出改进,提出了一套改变主从副本存放位置的算法,并在Hbase分布式系统的副本复制中实现了该机制.系统完成后,通过实验验证了在改变主从副本存放位置时综合考虑两个region的相关性可以提高系统整体的效用.
-
-
Qi Fenglin;
齐凤林;
Gong Qingyuan;
宫庆媛;
Zhou Yangfan;
周扬帆;
Wang Xin
- 《NCIS2015第21届全国信息存储技术学术会议》
| 2015年
-
摘要:
随着海量存储数据的剧增,分布式存储系统逐渐得到广泛使用.分布式存储系统中存储节点数目的增加使得节点失效的机率增大.使用副本作为冗余的方式会带来很大的存储开销.为了减少存储开销,使用纠删码产生冗余是存储系统中一种主要的冗余策略.基于纠删码的数据修复过程中,需要在幸存节点中选择供应节点向新生节点传送数据,这就面临着修复节点的选择问题,需要设计一个节点选择机制来使得修复过程较快,提升存储系统的可靠性.结合实际数据修复过程中参与修复的节点对数据的计算速度不同,即存储节点存在计算能力异构的场景下,提出节点选择机制:星形拓扑修复算法S-SPAC和树形拓扑修复算法T-SPA-C,以加快失效节点的修复速度,从而减少整个修复过程中的修复时间.仿真结果表明,相对传统的随机节点选择策略,本文提出的选择机制可以有效减少数据修复时间.
-
-
-
-
-