公开/公告号CN106708653A
专利类型发明专利
公开/公告日2017-05-24
原文格式PDF
申请/专利权人 广州中国科学院软件应用技术研究所;
申请/专利号CN201611252092.8
申请日2016-12-29
分类号G06F11/10(20060101);G06F11/14(20060101);G06F21/62(20130101);
代理机构广州番禺容大专利代理事务所(普通合伙);
代理人刘新年
地址 511458 广东省广州市南沙区海滨路1121号A栋701室
入库时间 2023-06-19 02:14:58
法律状态公告日
法律状态信息
法律状态
2020-06-30
授权
授权
2017-06-16
实质审查的生效 IPC(主分类):G06F11/10 申请日:20161229
实质审查的生效
2017-05-24
公开
公开
技术领域
本发明涉及计算机数据管理技术领域,具体涉及一种基于纠删码与多副本的混合税务大数据安全保护方法。
背景技术
随着经济全球化和我国经济的不断深入发展,我国纳税人数量迅猛增长、税种越发丰富,面对越来越庞大的税务数据,分布式存储是一个主流的存储方案,具有很高的性价比和扩展性。对于税务数据而言,其在分布式存储环境中的数据安全问题是值得研究的关键点。分布式存储系统包含大量节点,节点失效或者外部入侵都有可能导致数据不完整。为了避免数据丢失,通常采用基于冗余数据的容错方法,冗余容错主要有两种:一种是多副本容错,通过复制冗余数据进行容错;另一种是纠删码容错,通过编码生成冗余数据进行容错。
目前被广泛运用的容错方法是基于复制的多副本容错:将原数据复制成c个副本,然后将c个数据副本分发到c个不同的存储节点,这样任意c-1个节点失效时,每个数据至少还有1个副本存在。多副本容错具有简单易实现、计算开销少、数据访问性能好的优点。但是多副本容错也具有非常突出的缺点:存储开销很大。对于税务数据这种本身很庞大,且一直保持高速增长的数据而言,基于复制的多副本容错并不适用。
随着数据爆炸式的增长,纠删码容错因其能够以低得多的存储开销提供相同甚至更高的数据可靠性,近年来也开始成为研究热点。纠删码的容错策略是:将一个数据分成c个数据块,然后将c个数据块编码成n(n>c)个编码块分发到n个不同磁盘中,这样当节点失效时,只要该数据还有c个编码块存在,就能够将原数据解码出来。与被广泛使用的三副本容错方案相比,RS纠删码既可以将存储空间消耗降低53%,也同时可以将容错能力提高一倍。但是纠删码的缺陷在于数据重建时性能低下,尤其是在分布式存储中,由于数据重建需要多个节点相 互协作,不可避免地带来大量的网络资源消耗和计算资源消耗。对于税务数据这种分布式数据而言,这将成为整个系统性能的关键瓶颈。
发明内容
有鉴于此,为了解决现有技术中的上述问题,本发明提出一种基于纠删码与多副本的混合税务大数据安全保护方法。
本发明通过以下技术手段解决上述问题:
一种基于纠删码与多副本的混合税务大数据安全保护方法,当税务数据分布式存储系统的税务数据正常时,启动税务数据的多副本与纠删码存储方式存储流程;
当税务数据分布式存储系统的税务数据失效时,启动税务数据容错处理流程;
所述多副本与纠删码存储方式存储流程包括如下步骤:
步骤S11,将税务数据按时间划分为历史数据和近期数据,所述近期数据包括多个不同的近期数据包;
步骤S12,将所述近期数据按照多副本存储方式存储在多副本存储模块,将所述历史数据按照纠删码存储方式存储在纠删码存储模块;
步骤S13,当一近期数据包被标记为已完成状态,则将该近期数据包转存到纠删码存储模块从而形成历史数据;
所述税务数据容错处理流程包括如下步骤:
步骤S21,根据多副本存储模块数据管理节点,判断失效税务数据存储在多副本存储模块中还是纠删码存储模块中;
步骤S22,如果失效的税务数据存储在多副本存储模块,按照多副本管理节点的记录向相关多副本存储节点发送测试报文,根据测试报文反馈时延选择与失效税务数据对应的副本,并将副本恢复成有效的税务数据;
步骤S23,如果失效的税务数据存储在纠删码存储模块,需进一步查找纠删 码管理节点的记录,向相关纠删码存储节点发送测试报文,然后根据测试报文反馈时延依次选择相应编码块,获得足够数量编码块后,即可还原恢复税务数据;
所述税务数据分布式存储系统,用于提供针对税务数据的存储及容错服务;
所述税务数据为税务数据分布式存储系统的客户端输入的数据;
所述历史数据为税务数据分布式存储系统时间划分点之前的数据,存储在纠删码存储模块;
所述近期数据,为税务数据分布式存储系统时间划分点之后的数据,存储在多副本存储模块;
所述多副本存储模块,用于存储与处理近期数据,包括一个多副本存储模块数据管理节点与至少一个多副本存储节点;
所述多副本管理节点,用于管理多副本存储模块内数据的复制、分发和存储,并对数据信息进行记录;
所述多副本存储节点,用于存储近期数据;
所述纠删码存储模块,用于存储与处理历史数据,包括一个纠删码管理节点与至少一个纠删码存储节点;
所述纠删码管理节点,用于管理纠删码存储模块内数据的编码、分发和存储,并对数据信息进行记录;
所述纠删码存储节点,用于存储历史数据;
所述多副本存储方式,用于通过税务数据分布式存储系统来读取、存储、记录和恢复近期数据;
所述纠删码存储方式,用于通过税务数据分布式存储系统来转存、读取、记录和恢复历史数据;
所述编码块为待转存的近期数据被分包并编码后形成的编码块,存储在纠删码存储节点,用于在税务数据容错处理过程中还原恢复成税务数据。
进一步地,步骤S12中所述的纠删码存储方式包括以下步骤:
步骤S1221,由纠删码管理节点判断外部对纠删码存储模块的访问频度是否低于访问频度阈值,从而判断当前纠删码存储模块是否处于空闲状态,如果是则激活全部纠删码存储节点;
步骤S1222,对每一个被激活的纠删码存储节点进行如下判断:该纠删码存储节点的存储负载是否超过存储满载阈值,以及该纠删码存储节点的网络负载是否超过网络满载阈值,如果均不超过,则向多副本管理节点请求待转存数据;
步骤S1223,将待转存数据编码后,分发并保存在纠删码存储节点,并将分发信息记录在纠删码管理节点;
步骤S1224,确认数据转存成功后,将多副本存储模块中已转存的税务数据及其副本全部删除;
所述待转存数据为多副本管理节点记录中被申请转存数据的某一个副本数据,该副本数据的选择原则需符合负载均衡,该副本数据用于编码后分发并保存在纠删码存储节点;
所述分发信息为多个编码块分发到多个纠删码存储节点的记录信息,用于指引多个编码块还原恢复成税务数据。
进一步地,步骤S12中所述的多副本存储方式中,写入近期数据的处理流程包括如下步骤:
步骤S1231,当客户端发出近期数据请求写入时,多副本管理节点进行响应;
步骤S1232,对写入的税务数据进行复制形成副本,并将写入的税务数据及其副本分开存放在不同的多副本存储节点中;
步骤S1233,将写入的税务数据的存储信息记录在多副本管理节点。
进一步地,步骤S12中所述的多副本存储方式中,读取近期数据的处理流程包括如下步骤:
步骤S1241,当客户端发出近期数据读取请求时,多副本管理节点进行响应并根据记录向相关多副本存储节点发送测试报文并请求计算负载;
步骤S1242,通过测试报文反馈的时延和相关多副本存储节点的计算负载来综合选择对应的多副本存储节点;
步骤S1243,根据多副本管理节点的分发让对应的多副本存储节点内的税务数据直接发送到客户端中;
所述客户端为分布式存储系统的客户端,用于写入与读取税务数据。
进一步地,步骤S1232中,写入的税务数据及其副本的存放方式是将同一税务数据的不同副本进行物理隔离,选择不同的机柜或机房存储。
进一步地,所述编码块形成的过程包括以下步骤:
步骤61,待转存的近期数据被分包成C个数据块;
步骤62,将C个数据块编码成N个编码块,所述N的数目大于C;
步骤63,N个编码块分发到N个不同的纠删码存储模块;
步骤64,将N个编码块分发信息记录在编码块所在的纠删码管理节点。
本发明利用不同时间的税务数据特点进行分模式存储,综合提高了整个税务数据的安全性和数据修复性能。由于税务数据的访问频度具有阶段性变化的特点,近期的数据访问频度是最高的,历史数据的访问频度则相对较低。在访问频度低的数据上使用纠删码,可以提高存储空间使用率,在访问频度高的数据上使用多副本,提高了数据修复性能。
其次,本发明将纠删编码任务分发在不同的节点上,且选择节点时充分考虑节点的负载情况,将计算负载和网络传输负载分担在多个节点中,提高系统整体的编码性能。
再次,本发明采用先副本后纠删码的模式,能够保证在纠删编码完成之前数据的安全性,弥补了单纯使用纠删码容错时容易遇到的编码中数据丢失的情况。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种基于纠删码与多副本的混合税务大数据安全保护方法的工作流程图;
图2是本发明的多副本存储模块的结构示意图;
图3是本发明的纠删码存储模块的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于纠删码与多副本的混合税务大数据安全保护方法,当税务数据分布式存储系统的税务数据正常时,启动税务数据的多副本与纠删码存储方式存储流程;
当税务数据分布式存储系统的税务数据失效时,启动税务数据容错处理流程;
所述多副本与纠删码存储方式存储流程包括如下步骤:
步骤S11,将税务数据按时间划分为历史数据和近期数据,所述近期数据包括多个不同的近期数据包;
步骤S12,将所述近期数据按照多副本存储方式存储在多副本存储模块,将所述历史数据按照纠删码存储方式存储在纠删码存储模块;
步骤S13,当一近期数据包被标记为已完成状态,则将该近期数据包转存到 纠删码存储模块从而形成历史数据;
所述税务数据容错处理流程包括如下步骤:
步骤S21,根据多副本存储模块数据管理节点,判断失效税务数据存储在多副本存储模块中还是纠删码存储模块中;
步骤S22,如果失效的税务数据存储在多副本存储模块,按照多副本管理节点的记录向相关多副本存储节点发送测试报文,根据测试报文反馈时延选择与失效税务数据对应的副本,并将副本恢复成有效的税务数据;
步骤S23,如果失效的税务数据存储在纠删码存储模块,需进一步查找纠删码管理节点的记录,向相关纠删码存储节点发送测试报文,然后根据测试报文反馈时延依次选择相应编码块,获得足够数量编码块后,即可还原恢复税务数据;
所述税务数据分布式存储系统,用于提供针对税务数据的存储及容错服务;
所述税务数据为税务数据分布式存储系统的客户端输入的数据;
所述历史数据为税务数据分布式存储系统时间划分点之前的数据,存储在纠删码存储模块;
所述近期数据,为税务数据分布式存储系统时间划分点之后的数据,存储在多副本存储模块。
如图2所示,所述多副本存储模块,用于存储与处理近期数据,包括一个多副本存储模块数据管理节点与至少一个多副本存储节点;
所述多副本管理节点,用于管理多副本存储模块内数据的复制、分发和存储,并对数据信息进行记录;
所述多副本存储节点,用于存储近期数据。
如图3所示,所述纠删码存储模块,用于存储与处理历史数据,包括一个纠删码管理节点与至少一个纠删码存储节点;
所述纠删码管理节点,用于管理纠删码存储模块内数据的编码、分发和存储,并对数据信息进行记录;
所述纠删码存储节点,用于存储历史数据。
所述多副本存储方式,用于通过税务数据分布式存储系统来读取、存储、记录和恢复近期数据;
所述纠删码存储方式,用于通过税务数据分布式存储系统来转存、读取、记录和恢复历史数据;
所述编码块为待转存的近期数据被分包并编码后形成的编码块,存储在纠删码存储节点,用于在税务数据容错处理过程中还原恢复成税务数据。
步骤S12中所述的纠删码存储方式包括以下步骤:
步骤S1221,由纠删码管理节点判断外部对纠删码存储模块的访问频度是否低于访问频度阈值,从而判断当前纠删码存储模块是否处于空闲状态,如果是则激活全部纠删码存储节点;
步骤S1222,对每一个被激活的纠删码存储节点进行如下判断:该纠删码存储节点的存储负载是否超过存储满载阈值,以及该纠删码存储节点的网络负载是否超过网络满载阈值,如果均不超过,则向多副本管理节点请求待转存数据;
步骤S1223,将待转存数据编码后,分发并保存在纠删码存储节点,并将分发信息记录在纠删码管理节点;
步骤S1224,确认数据转存成功后,将多副本存储模块中已转存的税务数据及其副本全部删除;
所述待转存数据为多副本管理节点记录中被申请转存数据的某一个副本数据,该副本数据的选择原则需符合负载均衡,该副本数据用于编码后分发并保存在纠删码存储节点;
所述分发信息为多个编码块分发到多个纠删码存储节点的记录信息,用于指引多个编码块还原恢复成税务数据。
步骤S12中所述的多副本存储方式中,写入近期数据的处理流程包括如下步骤:
步骤S1231,当客户端发出近期数据请求写入时,多副本管理节点进行响应;
步骤S1232,对写入的税务数据进行复制形成副本,并将写入的税务数据及其副本分开存放在不同的多副本存储节点中;
步骤S1233,将写入的税务数据的存储信息记录在多副本管理节点。
步骤S12中所述的多副本存储方式中,读取近期数据的处理流程包括如下步骤:
步骤S1241,当客户端发出近期数据读取请求时,多副本管理节点进行响应并根据记录向相关多副本存储节点发送测试报文并请求计算负载;
步骤S1242,通过测试报文反馈的时延和相关多副本存储节点的计算负载来综合选择对应的多副本存储节点;
步骤S1243,根据多副本管理节点的分发让对应的多副本存储节点内的税务数据直接发送到客户端中;
所述客户端为分布式存储系统的客户端,用于写入与读取税务数据。
步骤S1232中,写入的税务数据及其副本的存放方式是将同一税务数据的不同副本进行物理隔离,选择不同的机柜或机房存储。
所述编码块形成的过程包括以下步骤:
步骤61,待转存的近期数据被分包成C个数据块;
步骤62,将C个数据块编码成N个编码块,所述N的数目大于C;
步骤63,N个编码块分发到N个不同的纠删码存储模块;
步骤64,将N个编码块分发信息记录在编码块所在的纠删码管理节点。
本发明利用不同时间的税务数据特点进行分模式存储,综合提高了整个税务数据的安全性和数据修复性能。由于税务数据的访问频度具有阶段性变化的特点,近期的数据访问频度是最高的,历史数据的访问频度则相对较低。在访问频度低的数据上使用纠删码,可以提高存储空间使用率,在访问频度高的数据上使用多副本,提高了数据修复性能。
其次,本发明将纠删编码任务分发在不同的节点上,且选择节点时充分考虑节点的负载情况,将计算负载和网络传输负载分担在多个节点中, 提高系统整体的编码性能。
再次,本发明采用先副本后纠删码的模式,能够保证在纠删编码完成之前数据的安全性,弥补了单纯使用纠删码容错时容易遇到的编码中数据丢失的情况。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
机译: 文件/产品,例如银行卡,一种保护方法,涉及通过改变单元格的外观来表示信息,以及通过应用打印条件来打印表格,其中表格检测到修改单元格外观的文档副本
机译: 在基于纠删码的数据传输中,基于数据包的哈希图像对数据包进行身份验证
机译: 基于澳大利亚税务局综合计划系统的澳大利亚税务局业务设计流程,该系统包括两个相互关联的部分1.公司战略声明2.公司和部门业务声明