首页> 中国专利> 一种数据清洗的方法及用于数据清洗的装置

一种数据清洗的方法及用于数据清洗的装置

摘要

本发明公开了一种数据清洗的方法及用于数据清洗的装置,该数据清洗的方法包括:依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,并将第一清洗数据和/或第一清洗数据摘要发送给服务端;接收服务端依据第一清洗数据和/或第一清洗数据摘要调整更新后的第二清洗策略;依据补偿清洗策略对第一清洗数据和/或对应第一清洗数据的源数据进行处理得到第一处理数据;依据第二清洗策略对未清洗的数据进行清洗得到第二清洗数据和/或第二清洗数据摘要。该数据清洗的方法由客户端进行数据清洗,将清洗之后的数据发送给服务端,减轻了服务端的数据处理压力,提高了数据清洗的效率。

著录项

  • 公开/公告号CN109144989A

    专利类型发明专利

  • 公开/公告日2019-01-04

    原文格式PDF

  • 申请/专利权人 武汉达梦数据库有限公司;

    申请/专利号CN201810977767.8

  • 发明设计人 张勇;高东升;付铨;梅纲;

    申请日2018-08-27

  • 分类号G06F16/215(20190101);

  • 代理机构44372 深圳市六加知识产权代理有限公司;

  • 代理人向彬

  • 地址 430000 湖北省武汉市东湖新技术开发区高新大道999号未来科技大厦C3栋16-19层

  • 入库时间 2024-02-19 08:07:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-08

    专利权的转移 IPC(主分类):G06F16/215 专利号:ZL2018109777678 登记生效日:20230726 变更事项:专利权人 变更前权利人:武汉达梦数据库股份有限公司 变更后权利人:武汉达梦数据库股份有限公司 变更事项:地址 变更前权利人:430073 湖北省武汉市东湖新技术开发区高新大道999号未来科技大厦C3栋16-19层 变更后权利人:430206 湖北省武汉市东湖新技术开发区高新大道999号未来科技大厦C3栋16-19层 变更事项:专利权人 变更前权利人:华中科技大学 变更后权利人:

    专利申请权、专利权的转移

  • 2022-09-27

    专利权的转移 IPC(主分类):G06F16/215 专利号:ZL2018109777678 登记生效日:20220915 变更事项:专利权人 变更前权利人:武汉达梦数据库股份有限公司 变更后权利人:武汉达梦数据库股份有限公司 变更事项:地址 变更前权利人:430000 湖北省武汉市东湖新技术开发区高新大道999号未来科技大厦C3栋16-19层 变更后权利人:430073 湖北省武汉市东湖新技术开发区高新大道999号未来科技大厦C3栋16-19层 变更事项:专利权人 变更前权利人: 变更后权利人:华中科技大学

    专利申请权、专利权的转移

  • 2020-05-19

    授权

    授权

  • 2019-01-29

    实质审查的生效 IPC(主分类):G06F16/215 申请日:20180827

    实质审查的生效

  • 2019-01-04

    公开

    公开

说明书

技术领域

本发明属于数据处理技术领域,更具体地,涉及一种数据清洗的方法及用于数据清洗的装置。

背景技术

随着企业信息化系统的广泛应用,信息化系统已经成为企业维持业务运转的关键,企业多样化的业务类型导致数据访问需求日趋复杂化,同时数据量的急剧攀升也导致数据库服务端不堪重负。

因此,需要建立数据中心以提高信息系统的可用性和访问查询效率。但是由于信息系统的建设差异,在建立数据中心的过程中,经常需要对来自各信息系统的源数据进行清洗整合。目前,数据中心服务端从客户端获取到源数据后,再对源数据进行清洗整合,造成传输数据量大。尤其是在数据中心服务端与多个客户端连接,会造成数据中心服务端执行压力大、执行效率低的问题。

鉴于此,克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种数据清洗的方法及用于数据清洗的装置,其目的在于由客户端进行数据清洗,将清洗之后的数据发送给服务端,减轻了服务端的数据处理压力;同时,客户端可以依据服务端发送的清洗策略之间的关联关系确定补偿清洗策略,并依据补偿清洗策略对已清洗的数据进行再次清洗,节省了数据清洗的时间,提高了数据清洗的效率,由此解决目前服务端从客户端获取到源数据后,再对源数据进行清洗整合,造成传输数据量大、数据处理压力大、执行效率低的问题的技术问题。

为实现上述目的,本发明实施例采用如下技术方案:

第一方面,提供一种数据清洗的方法,所述数据清洗的方法包括:

客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,并将所述第一清洗数据和/或所述第一清洗数据摘要发送给服务端;

接收所述服务端依据所述第一清洗数据和/或所述第一清洗数据摘要调整更新后的第二清洗策略;

依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略,依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将所述第一处理数据发送给所述服务端;

依据所述第二清洗策略对未清洗的数据进行清洗得到第二清洗数据和/或第二清洗数据摘要,并将所述第二清洗数据和/或所述第二清洗数据摘要发送给所述服务端。

优选地,所述依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略,依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将所述第一处理数据发送给所述服务端包括:

判断确定所述第一清洗策略得到的清洗结果和所述第二清洗策略得到的清洗结果是否可复用;

若所述第一清洗策略得到的清洗结果和所述第二清洗策略得到的清洗结果可复用,则对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行补偿清洗策略的数据清洗;

若所述第一清洗策略得到的清洗结果和所述第二清洗策略得到的清洗结果不可复用,则对所述对应所述第一清洗数据的源数据按照所述第二清清洗策略进行数据清洗。

优选地,所述依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略,依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将所述第一处理数据发送给所述服务端包括:

判断确定所述第二清洗策略是否为所述第一清洗策略的子集;

若所述第二清洗策略为所述第一清洗策略的子集,则对所述第一清洗数据按照所述第二清洗策略再次进行清洗得到第一处理数据;

将所述第一处理数据发送给所述服务端。

优选地,所述依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略,依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将所述第一处理数据发送给所述服务端包括:

判断确定所述第一清洗策略是否为所述第二清洗策略的子集;

若所述第一清洗策略为所述第二清洗策略的子集,依据所述补偿清洗策略对所述第一清洗数据对应的源数据进行清洗得到补偿清洗数据;

将所述补偿清洗数据与所述第一清洗数据进行整合得到第一处理数据;

将所述第一处理数据发送给所述服务端。

优选地,所述第一清洗策略中携带有预设的清洗速率阈值;

所述客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,并将所述第一清洗数据和/或所述第一清洗数据摘要发送给服务端包括:

客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要;

客户端判断确定其实际清洗速率是否小于所述预设的清洗速率阈值;

若所述实际清洗速率小于所述预设的清洗速率阈值,则客户端获取当前清洗进度,将所述第一清洗数据和/或所述第一清洗数据摘要以及所述当前清洗进度发送给服务端,以使所述服务端依据所述当前清洗进度调整清洗策略。

优选地,所述客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,并将所述第一清洗数据和/或所述第一清洗数据摘要发送给服务端包括:

客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要;

将所述第一清洗数据和/或所述第一清洗数据摘要以及所述客户端的标识码发送给服务端,以使所述服务端依据所述标识码进行分区管理。

优选地,所述依据所述第二清洗策略对未清洗的数据进行清洗得到第二清洗数据和/或第二清洗数据摘要,并将所述第二清洗数据和/或所述第二清洗数据摘要发送给服务端包括:

依据所述第二清洗策略对未清洗的数据进行清洗得到第二清洗数据和/或第二清洗数据摘要;

将所述第二清洗数据和/或所述第二清洗数据摘要以及所述客户端的标识码发送给所述服务端,以使所述服务端依据所述标识码进行分区管理。

第二方面,提供了一种数据清洗的方法,所述数据清洗的方法包括:服务端向客户端发送第一清洗策略,并接收所述客户端依据所述第一清洗策略对源数据进行清洗之后的第一清洗数据和/或第一清洗数据的摘要;

对所述第一清洗数据和/或所述第一清洗数据的摘要进行解析,并依据所述第一清洗数据和/或所述第一清洗数据的摘要调整清洗策略得到第二清洗策略,依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略;

将所述第二清洗策略和所述补偿清洗策略发送给所述客户端,以使所述客户端依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理,依据所述第二清洗策略对未清洗的数据进行清洗;

接收所述客户端依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理而得到的第一处理数据以及所述客户端依据所述第二清洗策略对所述未清洗的数据进行清洗而得到的第二清洗数据和/或第二清洗数据摘要。

优选地,所述第一清洗数据中携带有当前清洗进度;

所述对所述第一清洗数据和/或所述第一清洗数据的摘要进行解析,并依据所述第一清洗数据和/或所述第一清洗数据的摘要调整清洗策略得到第二清洗策略,依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略包括:

对所述第一清洗数据和/或所述第一清洗数据的摘要进行解析得到当前清洗进度;

依据所述当前清洗进度获取客户端的清洗速率,判断确定所述客户端的清洗速率是否小于预设的清洗速率;

若所述客户端的清洗速率小于所述预设的清洗速率,依据所述第一清洗数据和/或所述第一清洗数据的摘要调整清洗策略得到第二清洗策略,并依据所述第一清洗策略和所述第二清洗策略之间的关系得到补偿清洗策略。

第三方面,本发明提供一种用于数据清洗的装置,包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被程序设置为执行第一方面和/或第二方面所述的数据清洗的方法。

第四方面,本发明还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,用于完成第一方面和/或第二方面所述的数据清洗的方法。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:本发明的数据清洗的方法由客户端进行数据清洗,将清洗之后的数据发送给服务端,减轻了服务端的数据清洗压力。同时,客户端可以依据服务端发送的清洗策略之间的关联关系确定补偿清洗策略,并依据补偿清洗策略对已清洗的数据进行再次清洗。由于已清洗的数据中所包含的数据信息小于源数据中的数据信息,因此,通过补偿清洗策略对已清洗的数据进行清洗,可以大大减少数据清洗量,节省了数据清洗的时间,提高了数据清洗的效率。

附图说明

图1是本发明实施例提供的一种数据清洗的方法的流程示意图;

图2是本发明实施例提供的另一种数据清洗的方法的流程示意图;

图3是本发明实施例提供的一种用于数据清洗的装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1:

目前,数据中心服务端从客户端获取到源数据后,再对源数据进行清洗整合得到目标数据。由于源数据中可能会存在大量无效的或者需要被清洗的数据信息,如此会造成传输数据量大。尤其是在数据中心服务端与多个客户端连接时,会造成数据中心服务端执行压力大、执行效率低的问题。为了解决该问题,本发明提供一种数据清洗的方法,将数据的清洗整合从服务端移到客户端,充分利用了客户端的计算资源,减少了网络传输量,降低了服务端的处理压力,扩大了数据清洗整合系统的整体吞吐量,提高了系统的整体运行效率。另一方面,本发明的数据清洗的方法可以依据服务端发送的清洗策略之间的关联关系确定补偿清洗策略,并依据补偿清洗策略对已清洗的数据进行再次清洗,进一步减少了数据的处理量,节省了数据清洗的时间,提高了数据清洗的效率。下面参阅图1,本发明数据清洗的方法具体包括如下步骤:

步骤10:客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,并将所述第一清洗数据和/或所述第一清洗数据摘要发送给服务端。

在本实施例中,客户端与服务端建立连接,客户端依据服务端的数据请求指令采集获取与该数据请求指令相匹配的源数据。由于源数据中可能存在服务端不需要的数据,客户端需要从源数据中筛选出有用的数据之后再将数据发送给服务端。因此,客户端需要对源数据进行清洗之后,再将已清洗的数据发送给服务端。

具体而言,客户端接收服务端所发送的第一清洗策略,并依据所述第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,并将所述第一清洗数据和/或第一清洗数据摘要发送给服务端。在实际应用场景中,由于服务端一般与多个客户端建立连接,为了便于服务端区分不同的客户端所发送的清洗数据。在本实施例中,客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,将所述第一清洗数据和/或第一清洗数据摘要以及所述客户端的标识码发送给服务端,以使所述服务端依据所述标识码进行分区管理。

在此,需要说明的是,第一清洗数据摘要记录的是第一清洗数据的概要、内容提要,可以提取第一清洗数据的关键字段信息而得到。故虽然第一清洗数据摘要所包含的信息比第一清洗数据要少,但第一清洗数据摘要的数据量较小,便于数据传输。

客户端向服务端发送的清洗数据有如下三种可选的方案:

第一种方案:客户端向服务端发送第一清洗数据;

第二种方案:客户端向服务端发送第一清洗数据摘要;

第三种方案:客户端同时向服务端发送第一清洗数据和第一清洗数据摘要。

其中,第二种方案相对于第一种方案传输的数据量较小,可以有效提高数据传输的速度;但第一种方案相对于第二种方案数据信息更全面,便于服务端掌握更全面的数据信息。在第三种方案中,服务端可以依据第一清洗数据掌握全面的数据信息,依据第一清洗数据摘要提取确定第一清洗数据的关键信息,可以提高数据解析的速度。前述三种向服务端发送的数据源各有优劣,可以依据实际情况选择性的选择其中的一个方案,在此不做具体限定。

在实际应用场景中,服务端希望能够在预设的时间内得到清洗之后的源数据,为了能够调控客户端清洗数据的时间,服务端向客户端发送的第一清洗策略中包含预设的清洗速率阈值,以控制数据清洗的时间。其中,预设的清洗速率阈值由服务端依据实际情况而设定,在此不做具体限定。

当客户端检测到其实际清洗速率小于预设的清洗速率阈值时,说明数据清洗的速率较慢,无法在预设的时间内完成数据清洗。此时,客户端需向服务端上报警示信息,以使服务端调整更新清洗策略,进而保证在预设的时间内能够完成源数据的清洗。

具体而言,客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据摘要,与此同时,客户端还判断确定其实际清洗速率是否小于所述预设的清洗速率阈值,若所述实际清洗速率小于所述预设的清洗速率阈值,则客户端获取当前清洗进度,将所述第一清洗数据和/或第一清洗数据摘要以及所述当前清洗进度发送给服务端,以使所述服务端依据所述当前清洗进度调整清洗策略。

例如,服务端需要2010年~2017年客户端中用户身份信息的数据,经过一段时间T后,服务端仅接收到客户端所发送了20%已清洗的数据,若客户端一直按照第一清洗策略对源数据进行清洗,则无法在预设的时间内完成数据清洗,为了提高客户端清洗的速率,服务端需要调整清洗策略,并将调整之后的第二清洗策略发送给客户端,以使客户端依据第二清洗策略对数据进行清洗,以期提高数据清洗的速率。

在其他实施例中,若服务端所需要获取的数据发生改变时(例如,统计需求、分析需求发生改变),服务端也会调整清洗策略,并将第二清洗策略发送给客户端。

步骤11:接收所述服务端依据所述第一清洗数据和/或所述第一清洗数据摘要调整更新后的第二清洗策略。

在本实施例中,客户端接收所述服务端调整更新后的第二清洗策略。其中,第二清洗策略是按照如下方式获得的:服务端对所述第一清洗数据和/或所述第一清洗数据摘要进行解析得到当前清洗进度,依据所述当前清洗进度获取客户端的清洗速率,服务端依据客户端的清洗速率与预设的清洗速率之间的速率差值以及所述第一清洗数据调整清洗策略,从而得到第二清洗策略,并将所述第二清洗策略发送给客户端。

步骤12:依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略,依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将所述第一处理数据发送给所述服务端。

在本实施例中,客户端依据第一清洗策略与第二清洗策略之间的关联关系获取补偿清洗策略,依据补偿清洗策略对第一清洗数据和/或对应所述第一清洗数据的源数据进行处理得到第一处理数据,并将第一处理数据发送给服务端。

基于第一清洗策略与第二清洗策略之间的关联关系存在不同的补偿清洗策略,客户端依据补偿清洗策略的类型存在如下至少三种不同的补偿清洗操作:

第一种补偿清洗操作:

客户端判断确定所述第一清洗策略得到的清洗结果和所述第二清洗策略得到的清洗结果是否可复用,若所述第一清洗策略得到的清洗结果和所述第二清洗策略得到的清洗结果可复用,则对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行补偿清洗策略的数据清洗。若所述第一清洗策略得到的清洗结果和所述第二清洗策略得到的清洗结果不可复用,则对所述对应所述第一清洗数据的源数据按照所述第二清清洗策略进行数据清洗。

例如,服务端解析客户端所发送的第一清洗数据时,发现第一清洗数据中存在重复的数据,则服务端生成第二清洗策略,其中第二清洗策略为删除重复的数据之后再按照第一清洗策略对数据进行清洗。虽然,第一清洗数据中存在重复的数据,但不影响清洗的整体结果,即第一清洗策略得到的清洗结果和第二清洗策略得到的清洗结果可复用,则对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行补偿清洗策略的数据清洗。直接用第二清洗策略对未清洗的数据进行清洗即可。

例如,由于统计需求的改变,服务端调整了清洗策略,并将调整之后的第二清洗策略发送给客户端。其中,第一清洗策略和第二清洗策略所需要的数据项完全不同(或者基本不相同),则所述第一清洗策略得到的清洗结果和所述第二清洗策略得到的清洗结果不可复用,则对所述对应所述第一清洗数据的源数据按照所述第二清清洗策略进行数据清洗以得到的第一处理数据。

第二种补偿清洗操作:

客户端判断确定所述第二清洗策略是否为所述第一清洗策略的子集;若所述第二清洗策略为所述第一清洗策略的子集,则对所述第一清洗数据按照所述第二清洗策略再次进行清洗得到第一处理数据;将所述第一处理数据发送给服务端。

例如,源数据中包括多个数据对象,每个数据对象包括数据项A、数据项B、数据项C、数据项D以及数据项E等多个数据项。第一清洗策略为筛选出每个数据对象的数据项A、数据项B以及数据项C对源数据进行清洗。第二清洗策略为筛选出每个数据对象的数据项A以及数据项B对源数据进行清洗。可以看出,第一清洗策略包含第二清洗策略中所包含的所有数据项,则定义第二清洗策略为第一清洗策略的子集,按照第二清洗策略对第一清洗数据再次进行清洗得到第一处理数据。即从数据项A、数据项B以及数据项C中筛选出数据项A、数据项B即可。

在本实施例中,由于第一清洗数据中所包含的数据信息小于源数据中的数据信息,因此,通过第二清洗策略对第一清洗数据中进行清洗,可以大大减少数据处理量,节省了数据清洗的时间,提高了数据清洗的效率。

第三种补偿清洗操作:

客户端判断确定所述第一清洗策略是否为所述第二清洗策略的子集;若所述第一清洗策略为所述第二清洗策略的子集,依据所述补偿清洗策略对所述第一清洗数据对应的源数据进行清洗得到补偿清洗数据;将所述补偿清洗数据与所述第一清洗数据进行整合得到第一处理数据;将所述第一处理数据发送给所述服务端。

例如,源数据中包括多个数据对象,每个数据对象包括数据项A、数据项B、数据项C、数据项D以及数据项E等多个数据项。第一清洗策略为筛选出每个数据对象的数据项A以及数据项B对源数据进行清洗。第二清洗策略为筛选出每个数据对象的数据项A、数据项B以及数据项D对源数据进行清洗。可以看出,第二清洗策略包含第一清洗策略中所包含的所有数据项,则定义第一清洗策略为第二清洗策略的子集,则第一清洗策略和第二清洗策略补偿清洗策略为数据项D,依据补偿清洗策略对第一清洗数据对应的源数据进行清洗得到补偿清洗数据,将补偿清洗数据与第一清洗数据进行整合得到第一处理数据,将第一处理数据发送给服务端。即,从第一清洗数据对应的源数据中获取数据项D,然后将数据项D与第一清洗数据进行整合得到第一处理数据,将第一处理数据发送给所述服务端。

在本实施例中,依据第一清洗策略和第二清洗策略之间的差异获取补偿清洗策略,依据补偿清洗策略进行数据筛选时,需要筛选的数据项较少,可以有大大减少数据处理量,节省了数据清洗的时间,提高了数据清洗的效率。

步骤13:依据所述第二清洗策略对未清洗的数据进行清洗得到第二清洗数据和/或第二清洗数据摘要,并将所述第二清洗数据和/或所述第二清洗数据摘要发送给所述服务端。

在本实施例中,客户端依据第二清洗策略对未清洗的数据进行清洗得到第二清洗数据和/或第二清洗数据摘要,并将第二清洗数据和/或第二清洗数据摘要发送给服务端。

其中,未清洗的数据为除对应清洗得到所述第一清洗数据之外的剩余源数据。

在此,需要说明的是,第二清洗数据摘要记录的是第二清洗数据的概要、内容提要,可以提取第二清洗数据的关键字段信息而得到。

客户端向服务端发送的清洗数据有如下三种可选的方案:

第一种方案:客户端向服务端发送第二清洗数据;

第二种方案:客户端向服务端发送第二清洗数据摘要;

第三种方案:客户端同时向服务端发送第二清洗数据和第二清洗数据摘要。

关于每种方案的优劣请参照上述步骤10中的分析说明。前述三种向服务端发送的数据源各有优劣,可以依据实际情况选择性的选择其中的一个方案,在此不做具体限定。

区别于现有技术,本发明的数据清洗的方法由客户端进行数据清洗,将清洗之后的数据发送给服务端,减轻了服务端的数据处理压力。同时,客户端可以依据服务端发送的清洗策略之间的关联关系确定补偿清洗策略,并依据补偿清洗策略对已清洗的数据进行再次清洗。由于已清洗的数据中所包含的数据信息小于源数据中的数据信息,因此,通过补偿清洗策略对已清洗的数据进行清洗,可以大大减少数据处理量,节省了数据清洗的时间,提高了数据清洗的效率。

实施例2:

图1所示的数据清洗的方法是从客户端来进行说明的,下面参阅图2,从服务端解释说明本发明数据清洗的方法,该数据清洗的方法具体包括如下步骤:

步骤20:服务端向客户端发送第一清洗策略,并接收所述客户端依据所述第一清洗策略对源数据进行清洗之后的第一清洗数据和/或第一清洗数据的摘要。

在本实施例中,服务端向客户端发送第一清洗策略,其中,第一清洗策略中包含预设的清洗速率阈值,以控制数据清洗的时间。其中,预设的清洗速率阈值由服务端依据实际情况而设定,在此不做具体限定。

客户端依据第一清洗策略对源数据进行清洗得到第一清洗数据和/或第一清洗数据的摘要,与此同时,客户端在将第一清洗数据和/或第一清洗数据的摘要发送给服务端时,携带有当前清洗进度。服务端依据客户端当前清洗进度获取客户端依据第一清洗策略对数据清洗的清洗速率。

步骤21:对所述第一清洗数据和/或所述第一清洗数据的摘要进行解析,并依据所述第一清洗数据和/或所述第一清洗数据的摘要调整清洗策略得到第二清洗策略,依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略。

在本实施例中,对所述第一清洗数据和/或所述第一清洗数据的摘要进行解析,并依据所述第一清洗数据或所述第一清洗数据的摘要调整清洗策略得到第二清洗策略,依据所述第一清洗策略和所述第二清洗策略之间的关联关系得到补偿清洗策略。

服务端对第一清洗数据和/或所述第一清洗数据的摘要进行解析得到当前清洗进度,依据当前清洗进度获取客户端的清洗速率,判断确定客户端的清洗速率是否小于预设的清洗速率,若客户端的清洗速率小于预设的清洗速率,依据第一清洗数据调整清洗策略得到第二清洗策略,并依据第一清洗策略和第二清洗策略之间的关系得到补偿清洗策略。

步骤22:将所述第二清洗策略和所述补偿清洗策略发送给所述客户端,以使所述客户端依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理,依据所述第二清洗策略对未清洗的数据进行清洗。

在本实施例中,将所述第二清洗策略和所述补偿清洗策略发送给客户端,以使客户端依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理,依据所述第二清洗策略对所述未清洗的数据进行清洗。

区别于图1所示的数据清洗的方法,在本实施例中,补偿清洗策略的确定过程是由服务端侧完成的,以减轻客户端数据处理的压力。即,服务端依据第一清洗策略和第二清洗策略之间的关联关系获取补偿清洗策略。关于客户端依据补偿清洗策略进行数据清洗的操作具体请参阅图1中的步骤12及相关的文字描述,在此不再赘述。

在此,需要说明的是,关于补偿策略获取的过程可以由服务端来执行,也可以由客户端来来执行,可依据实际情况而定。

步骤23:接收所述客户端依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理而得到的第一处理数据以及所述客户端依据所述第二清洗策略对所述未清洗的数据进行清洗而得到的第二清洗数据和/或第二清洗数据摘要。

在本实施例中,服务端接收所述客户端依据所述补偿清洗策略对所述第一清洗数据和/或对应所述第一清洗数据的源数据进行处理而得到的第一处理数据以及所述客户端依据所述第一清洗策略对所述未清洗的数据进行清洗而得到的第二清洗数据和/或第二清洗数据摘要。

在实际应用场景中,服务端与多个客户端建立连接,为了区分不同的客户端所发送的数据,每个客户端均对应一个唯一的标识码,客户端在向服务端发送清洗之后的数据时会携带客户端的标识码,以便于服务端对数据进行分区管理。具体而言,服务端维护的总数据中,每一区块对应一张表,该表记录着所包含数据对应的终端标识以及相应的清洗数据,从而对数据进行分区管理。

区别于现有技术,本发明的数据清洗的方法由客户端进行数据清洗,将清洗之后的数据发送给服务端,减轻了服务端的数据处理压力。同时,客户端可以依据补偿清洗策略对已清洗的数据进行再次清洗。由于已清洗的数据中所包含的数据信息小于源数据中的数据信息,因此,通过补偿清洗策略对已清洗的数据进行清洗,可以大大减少数据处理量,节省了数据清洗的时间,提高了数据清洗的效率。

实施例3:

请参阅图3,图3是本发明实施例提供的一种用于数据清洗的装置的结构示意图。本实施例的用于数据清洗的装置括一个或多个处理器31以及存储器32。其中,图3中以一个处理器31为例。

处理器31和存储器32可以通过总线或者其他方式连接,图3中以通过总线连接为例。

存储器32作为一种基于数据清洗的非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如实施例1和/或实施例2中的数据清洗的方法以及对应的程序指令。处理器31通过运行存储在存储器32中的非易失性软件程序、指令以及模块,从而执行数据清洗的方法的各种功能应用以及数据处理,实现实施例1和/或实施例2的数据清洗的方法的功能。

其中,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至处理器31。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

关于数据清洗的方法请参照图1~图2及相关的文字描述在此,不再赘述。

值得说明的是,上述装置和系统内的模块、单元之间的信息交互、执行过程等内容,由于与本发明的处理方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(Read Only Memory,简写为ROM)、随机存取存储器(Random AccessMemory,简写为RAM)、磁盘或光盘等。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号