首页> 中国专利> 表数据同步工具评测方法与表述数据同步方法

表数据同步工具评测方法与表述数据同步方法

摘要

本申请涉及一种同步工具同步效率评测方法、装置、计算机设备、存储介质和计算机程序产品,获取不同同步工具对表数据的同步处理效率指标,所述同步处理效率指标包括同步耗时、内存占用率以及CPU使用率;基于不同同步处理效率指标对应的指标区间,将所述效率指标分别进行区间归一化和绝对值归一化,得到区间归一化值和绝对值归一化值;读取预设不同同步处理效率指标对应的加权系数;根据所述加权系数以及所述区间归一化值以及所述绝对值归一化值,得到同步工具对应的效率评分。另外,本申请还提供一种表数据同步方法、装置、计算机设备、存储介质和计算机程序产品,其可以实现高效的表数据同步。

著录项

  • 公开/公告号CN114780368A

    专利类型发明专利

  • 公开/公告日2022-07-22

    原文格式PDF

  • 申请/专利号CN202210491919.X

  • 申请日2022-05-05

  • 分类号G06F11/34;G06F16/27;

  • 代理机构华进联合专利商标代理有限公司;

  • 代理人黄恕

  • 地址 410013 湖南省长沙市岳麓区滨江路188号基金小镇第11、12栋

  • 入库时间 2023-06-19 16:06:26

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-22

    公开

    发明专利申请公布

说明书

技术领域

本申请涉及计算机技术领域,特别是涉及一种表数据同步工具评测方法、装置、计算机设备、存储介质和计算机程序产品以及与表述数据同步方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展,出现了大数据技术,大数据技术能够集中对庞大数量的数据进行处理,提高了数据处理效率。在大数据处理中针对不同表数据的同步处理是非常重要的部分。

传统技术中,表数据同步一般基于同步工具来实现的,同步工具包括MySql-Cli、DataX、Sqoop、Kettle等。MySql-Cli、Kettle对小表同步耗时短,MySql-Cli、DataX对中表同步耗时短,Sqoop对大表同步耗时短。将MySql数据库的表同步到Hive表,主流是使用一种同步工具便于维护。无论大表还是小表均采用一种同步工具,同步工具无法兼顾同步效率。

可见,目前急需一种表数据同步工具效率测评方案,筛选出适用于当前表数据同步的同步工具,以支持表数据高效同步。

发明内容

基于此,有必要针对上述技术问题,提供一种支持表数据高效同步的表数据同步工具评测方法、装置、计算机设备、存储介质和计算机程序产品以及可以是实现高效同步的表述数据同步方法、装置、计算机设备、存储介质和计算机程序产品。

第一方面,本申请提供了一种同步工具同步效率评测方法。所述方法包括:

获取不同同步工具对表数据的同步处理效率指标,所述同步处理效率指标包括同步耗时、内存占用率以及CPU使用率;

基于不同同步处理效率指标对应的指标区间,将所述效率指标分别进行区间归一化和绝对值归一化,得到区间归一化值和绝对值归一化值;

读取预设不同同步处理效率指标对应的加权系数;

根据所述加权系数以及所述区间归一化值以及所述绝对值归一化值,得到同步工具对应的效率评分。

在其中一个实施例中,所述根据所述加权系数以及所述区间归一化值以及所述绝对值归一化值,得到同步工具对应的效率评分包括:

根据所述加权系数以及所述区间归一化值得到效率综合评分,并根据所述加权系数以及所述绝对值归一化值得到效率辅助评分;

结合所述效率综合评分和所述效率辅助评分,得到同步工具对应的效率评分。

在其中一个实施例中,所述结合所述效率综合评分和所述效率辅助评分,得到同步工具对应的效率评分之后,还包括:

基于所述效率综合评分以及预设顺序,对不同同步工具进行排序,得到初始序列;

确定所述初始序列中并列的同步工具;

根据所述效率辅助评分以及所述预设顺序,对所述并列的同步工具进行排序,以更新所述初始序列,得到目标序列;

根据所述目标序列,筛选同步工具。

在其中一个实施例中,所述读取预设不同同步处理效率指标对应的加权系数之前,还包括:

获取不同同步工具对样本表数据同步处理的训练数据;

根据所述训练数据,提取不同同步工具对应的同步耗时、内存占用率以及CPU使用率;

对提取的数据进行主成分分析,得到同步耗时、内存占用率以及CPU使用率的加权系数。

在其中一个实施例中,所述根据所述加权系数以及所述区间归一化值以及所述绝对值归一化值,得到同步工具对应的效率评分之后,还包括:

更新表数据,返回所述获取不同同步工具对表数据的同步处理效率指标的步骤;

记录不同表数据对应的不同同步工具的效率评分。

第二方面,本申请还提供了一种同步工具同步效率评测装置。所述装置包括:

指标获取模块,用于获取不同同步工具对表数据的同步处理效率指标,所述同步处理效率指标包括同步耗时、内存占用率以及CPU使用率;

归一化处理模块,用于基于不同同步处理效率指标对应的指标区间,将所述效率指标分别进行区间归一化和绝对值归一化,得到区间归一化值和绝对值归一化值;

预设数据读取模块,用于读取预设不同同步处理效率指标对应的加权系数;

评分模块,用于根据所述加权系数以及所述区间归一化值以及所述绝对值归一化值,得到同步工具对应的效率评分。

第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取不同同步工具对表数据的同步处理效率指标,所述同步处理效率指标包括同步耗时、内存占用率以及CPU使用率;

基于不同同步处理效率指标对应的指标区间,将所述效率指标分别进行区间归一化和绝对值归一化,得到区间归一化值和绝对值归一化值;

读取预设不同同步处理效率指标对应的加权系数;

根据所述加权系数以及所述区间归一化值以及所述绝对值归一化值,得到同步工具对应的效率评分。

在其中一个实施例中,所述根据所述加权系数以及所述区间归一化值以及所述绝对值归一化值,得到同步工具对应的效率评分包括:

根据所述加权系数以及所述区间归一化值得到效率综合评分,并根据所述加权系数以及所述绝对值归一化值得到效率辅助评分;

结合所述效率综合评分和所述效率辅助评分,得到同步工具对应的效率评分。

第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取不同同步工具对表数据的同步处理效率指标,所述同步处理效率指标包括同步耗时、内存占用率以及CPU使用率;

基于不同同步处理效率指标对应的指标区间,将所述效率指标分别进行区间归一化和绝对值归一化,得到区间归一化值和绝对值归一化值;

读取预设不同同步处理效率指标对应的加权系数;

根据所述加权系数以及所述区间归一化值以及所述绝对值归一化值,得到同步工具对应的效率评分。

在其中一个实施例中,所述根据所述加权系数以及所述区间归一化值以及所述绝对值归一化值,得到同步工具对应的效率评分包括:

根据所述加权系数以及所述区间归一化值得到效率综合评分,并根据所述加权系数以及所述绝对值归一化值得到效率辅助评分;

结合所述效率综合评分和所述效率辅助评分,得到同步工具对应的效率评分。

第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

获取不同同步工具对表数据的同步处理效率指标,所述同步处理效率指标包括同步耗时、内存占用率以及CPU使用率;

基于不同同步处理效率指标对应的指标区间,将所述效率指标分别进行区间归一化和绝对值归一化,得到区间归一化值和绝对值归一化值;

读取预设不同同步处理效率指标对应的加权系数;

根据所述加权系数以及所述区间归一化值以及所述绝对值归一化值,得到同步工具对应的效率评分。

在其中一个实施例中,所述根据所述加权系数以及所述区间归一化值以及所述绝对值归一化值,得到同步工具对应的效率评分包括:

根据所述加权系数以及所述区间归一化值得到效率综合评分,并根据所述加权系数以及所述绝对值归一化值得到效率辅助评分;

结合所述效率综合评分和所述效率辅助评分,得到同步工具对应的效率评分。

上述同步工具同步效率评测方法、装置、计算机设备、存储介质和计算机程序产品,获取不同同步工具对表数据的同步处理效率指标,所述同步处理效率指标包括同步耗时、内存占用率以及CPU使用率;基于不同同步处理效率指标对应的指标区间,将所述效率指标分别进行区间归一化和绝对值归一化,得到区间归一化值和绝对值归一化值;读取预设不同同步处理效率指标对应的加权系数;根据所述加权系数以及所述区间归一化值以及所述绝对值归一化值,得到同步工具对应的效率评分。整个过程中,针对不同同步工具分别评测其同步耗时、内存占用率以及CPU使用率三个维度数据、采用区间归一化和绝对值归一化的方式减小数据偏差并采用加权处理方式综合考虑,因此可以得到准确的同步工具同步效率评测结果。

第六方面,本申请提供一种表数据同步方法。所述方法包括:

获取待同步表数据,并提取所述待同步表数据对应的特征数据;

根据所述特征数据在预设数据库中匹配,得到不同同步工具对所述待同步表数据的同步处理效率指标;

根据所述同步处理效率指标,采用如上述同步工具同步效率评测方法,得到不同同步工具对所述待同步表数据的同步效率评分;

根据所述同步效率评分,筛选目标同步工具;

调用所述目标同步工具对所述待同步表数据执行表数据同步。

在其中一个实施例中,所述获取待同步表数据,并提取所述待同步表数据对应的特征数据包括:

获取待同步表数据以及所述待同步表数据的同步配置参数;

根据所述同步配置参数,提取所述待同步表数据对应的特征数据。

在其中一个实施例中,所述根据所述同步配置参数,提取所述待同步表数据对应的特征数据包括:

根据所述同步配置参数,提取所述待同步表数据对应的行数、列数以及索引度;

基于所述待同步表数据对应的行数、列数以及索引度,计算所述待同步表数据对应的行数区间、列数区间以及索引度区间。

第七方面,本申请还提供一种表数据同步装置,所述装置包括:

数据获取模块,用于获取待同步表数据,并提取所述待同步表数据对应的特征数据;

指标提取模块,用于根据所述特征数据在预设数据库中匹配,得到不同同步工具对所述待同步表数据的同步处理效率指标;

评分模块,用于根据所述同步处理效率指标,采用上述同步工具同步效率评测方法,得到不同同步工具对所述待同步表数据的同步效率评分;

工具筛选模块,用于根据所述同步效率评分,筛选目标同步工具;

同步模块,用于调用所述目标同步工具对所述待同步表数据执行表数据同步。

第八方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取待同步表数据,并提取所述待同步表数据对应的特征数据;

根据所述特征数据在预设数据库中匹配,得到不同同步工具对所述待同步表数据的同步处理效率指标;

根据所述同步处理效率指标,采用如上述同步工具同步效率评测方法,得到不同同步工具对所述待同步表数据的同步效率评分;

根据所述同步效率评分,筛选目标同步工具;

调用所述目标同步工具对所述待同步表数据执行表数据同步。

第九方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取待同步表数据,并提取所述待同步表数据对应的特征数据;

根据所述特征数据在预设数据库中匹配,得到不同同步工具对所述待同步表数据的同步处理效率指标;

根据所述同步处理效率指标,采用如上述同步工具同步效率评测方法,得到不同同步工具对所述待同步表数据的同步效率评分;

根据所述同步效率评分,筛选目标同步工具;

调用所述目标同步工具对所述待同步表数据执行表数据同步。

第十方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

获取待同步表数据,并提取所述待同步表数据对应的特征数据;

根据所述特征数据在预设数据库中匹配,得到不同同步工具对所述待同步表数据的同步处理效率指标;

根据所述同步处理效率指标,采用如上述同步工具同步效率评测方法,得到不同同步工具对所述待同步表数据的同步效率评分;

根据所述同步效率评分,筛选目标同步工具;

调用所述目标同步工具对所述待同步表数据执行表数据同步。

上述表数据同步方法、装置、计算机设备、存储介质和计算机程序产品,获取待同步表数据,并提取所述待同步表数据对应的特征数据;根据所述特征数据在预设数据库中匹配,得到不同同步工具对所述待同步表数据的同步处理效率指标;根据所述同步处理效率指标,采用如上述同步工具同步效率评测方法,得到不同同步工具对所述待同步表数据的同步效率评分;根据所述同步效率评分,筛选目标同步工具;调用所述目标同步工具对所述待同步表数据执行表数据同步。整个过程中,针对待同步表数据,采用上述的同步工具同步效率评测方法,筛选出效率最高的目标同步工具,因此,可以实现高效的表数据同步。

附图说明

图1为一个实施例中表数据同步方法的应用环境图;

图2为一个实施例中同步工具同步效率评测方法的流程示意图;

图3为另一个实施例中同步工具同步效率评测方法的流程示意图;

图4为一个实施例中同步工具同步效率评测装置的结构框图;

图5为一个实施例中表数据同步方法的流程示意图;

图6为另一个实施例中表数据同步方法的流程示意图;

图7为一个实施例中表数据同步装置的结构框图;

图8为一个应用实例中表数据同步方法的流程示意图;

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请实施例提供的表数据同步方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104具体执行过程包括同步工具评测阶段以及表数据同步阶段。在同步工具评测阶段,服务器104获取不同同步工具对表数据的同步处理效率指标,同步处理效率指标包括同步耗时、内存占用率以及CPU使用率;基于不同同步处理效率指标对应的指标区间,将效率指标分别进行区间归一化和绝对值归一化,得到区间归一化值和绝对值归一化值;读取预设不同同步处理效率指标对应的加权系数;根据加权系数以及区间归一化值以及绝对值归一化值,得到同步工具对应的效率评分。在需要进行表数据同步时,终端102发送表数据同步请求至服务器104,服务器104获取待同步表数据,并提取待同步表数据对应的特征数据;根据特征数据在预设数据库中匹配,得到不同同步工具对待同步表数据的同步处理效率指标;根据同步处理效率指标,采用如上述同步工具同步效率评测方法,得到不同同步工具对待同步表数据的同步效率评分;根据同步效率评分,筛选目标同步工具;调用目标同步工具对待同步表数据执行表数据同步。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种表数据同步方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:

S220:获取不同同步工具对表数据的同步处理效率指标,同步处理效率指标包括同步耗时、内存占用率以及CPU使用率。

不同同步工具是指不同的表数据同步工具,例如MySql-Cli、DataX、Sqoop、Kettle等。在这里针对相同的表数据,分别调用不同的同步工具来进行表数据同步,获取不同同步工具对应的同步处理效率指标,具体包括同步耗时、内存占用率以及CPU使用率三个维度的数据。

S240:基于不同同步处理效率指标对应的指标区间,将效率指标分别进行区间归一化和绝对值归一化,得到区间归一化值和绝对值归一化值。

不同同步处理效率指标对应有不同的指标区间。在实际应用中,我们知道在同一个区间的值在效率上无明显的偏差,例如耗时在121秒跟在125秒,可以认为耗时接近的,效率上无明显偏差,此时应该再考虑其它因子的偏差。在这里划分区间的意义在于避免效率值公式过拟合,在于不追求绝对的效率优先,而是整体的效率优先。更具体来说,同步耗时按5秒一个区间分1800个区间,内存占用率按10M区间分2个区间,CPU使用率按5%一个区间分20个区间。更进一步来说,针对上述区间划分的依据与考量如下:a)、耗时5秒的偏差,在整体调度中,这种偏差是可以接受的,可以认为无偏差。特别是在小表的同步上,不同工具耗时偏差可能仅仅在1秒内,避免了过拟合。另外在大表同步的时候,耗时接近的情况下,更需要考虑内存、CPU等资源占用情况。b)、内存占用率10M的区间划分,是综合衡量了同步工具对内存资源的占用效率。大多数的同步工具都是采用流式消费数据、流式释放数据的方式同步数据,这样整体的内存占用应该不会过高。举个例子,同步1G的数据,同步工具每5M的批量循环同步,那么一个小批次同步结束后,同步工具应该及时的释放这个小批次的内存资源,占用的资源应该最多不超过10M(两个批次,一个消费,一个释放)+同步工具自身的内存,即使是分布式多批次同时同步,占用的内存应该也会远远低于1G。c)、CPU使用率按5%划分区间是基于经验设定的。

区间归一化值是指按照指标区间划设后得到的归一化值,例如耗时8秒,5秒一个区间,总区间数是1800,归属区间为2,归一化后的值为2/1800。绝对值归一化值=绝对值/(区间间隔*总区间数),例如耗时8秒,5秒一个区间,总区间数是1800,则耗时绝对值的归一化值是8/(5*1800)。

S260:读取预设不同同步处理效率指标对应的加权系数。

不同的效率指标对应有不同的加权系数,在这里直接读取预设的加权系数。具体来说,预设的加权系数是体现同步耗时、内存使用率以及CPU占用率三个维度数据对同步工具整体效率的影响程度。进一步的,可以通过主成分分析法对同步工具的训练数据进行分析,得到同步耗时、内存使用率以及CPU占用率的加权系数。

S280:根据加权系数以及区间归一化值以及绝对值归一化值,得到同步工具对应的效率评分。

根据确定的加权系数以及区间归一化值和绝对值归一化值来确定同步工具对应的效率评分。具体来说,这是加权计算的过程,针对同步耗时、内存占用率以及CPU使用率分别基于对应的权值系数进行加权,得到最终的效率评分。进一步的,针对区间归一化值和绝对值归一化值分别进行加权计算,分别得到两个不同的评分分值,即效率评分包括两个分值。

上述同步工具同步效率评测方法,获取不同同步工具对表数据的同步处理效率指标,同步处理效率指标包括同步耗时、内存占用率以及CPU使用率;基于不同同步处理效率指标对应的指标区间,将效率指标分别进行区间归一化和绝对值归一化,得到区间归一化值和绝对值归一化值;读取预设不同同步处理效率指标对应的加权系数;根据加权系数以及区间归一化值以及绝对值归一化值,得到同步工具对应的效率评分。整个过程中,针对不同同步工具分别评测其同步耗时、内存占用率以及CPU使用率三个维度数据、采用区间归一化和绝对值归一化的方式减小数据偏差并采用加权处理方式综合考虑,因此可以得到准确的同步工具同步效率评测结果。

如图3所示,在其中一个实施例中,S280包括:

S282:根据加权系数以及区间归一化值得到效率综合评分,并根据加权系数以及绝对值归一化值得到效率辅助评分;

S284:结合效率综合评分和效率辅助评分,得到同步工具对应的效率评分。

在本实施例中,针对区间归一化值和绝对值归一化值分别进行加权计算,其中区间归一化值加权计算得到效率综合评分,绝对值归一化值加权计算得到效率辅助评分。再基于效率综合评分和效率辅助评分,得到同步工具对应的效率评分。例如W1、W2、W3分别表示耗时、内存、CPU各个因子的权重,R1、R2、R3分别表示耗时区间归一值、内存区间归一值、CPU区间归一值,则A=W1*R1+W2*R2+W3*R3。考虑到可能存在相同的综合评分(如三个因子区间值均相同),此时增加一个辅助分B,取值为各个因子权重系数*因子绝对值归一化值的累加和。举个例子,X1、X2、X3分别表示耗时、内存、CPU绝对值的归一化值,那么B=W1*X1+W2*X2+W3*X3。其中绝对值的归一化值是绝对值/(区间间隔*总区间数)。举个例子,耗时8秒,5秒一个区间,总区间数是1800,则耗时绝对值的归一化值是8/(5*1800)。最终的效率评分由组成。

下面将采用具体实例详细说明上述效率评分过程。例如同步耗时Cost是8秒,内存Mem是25M,CPU使用率Cpu是36%。整个效率评分处理步骤如下:

1、耗时按0-5算区间1、5-10算区间2等等,直到1795-1800算区间1800。那么8秒对应区间2,R1取2/1800,X1取8/(5*1800)。

2、内存同上,25M对应区间3,R2取3/200,X2取25/(10*200)。

3、CPU同上,36%对应区间8,R3取8/20,X3取36/(5*20)。

4、假定根据匹配出来的记录做数据源,计算机按照主成分分析法算出来的权重系数分别是0.6、0.2、0.1,那么W1取0.6,W2取0.2,W3取0.1。

5、具体计算公式如下:

A=W1*R1+W2*R2+W3*R3=0.6*2/1800+0.2*3/200+0.1*8/20=0.043667;

B=W1*X1+W2*X2+W3*X3=0.6*8/(5*1800)+0.2*25/(10*200)+0.1*36/(5*20)=0.039033。

6、如上,得到效率值=<0.043667,0.039033>。对比判断时,优先断A的值是否最小,相同情况下,再取B值最小的记录。

在其中一个实施例中,结合效率综合评分和效率辅助评分,得到同步工具对应的效率评分之后,还包括:基于效率综合评分以及预设顺序,对不同同步工具进行排序,得到初始序列;确定初始序列中并列的同步工具;根据效率辅助评分以及预设顺序,对并列的同步工具进行排序,以更新初始序列,得到目标序列;根据目标序列,筛选同步工具。

预设顺序是指按照效率综合评分从高到低的顺序、或者按照效率综合评分从低到高的顺序。在基于效率综合评分排序之后,可能存在两个不同的同步工具其对应的效率综合评分相等的情况,即在初始序列中某两个同步工具由于对应的效率综合评分相同时,其处于并列的顺序,此时需要基于效率辅助评分来对两个并列的同步工具进行二次排序,更新初始序列,得到目标序列,由于目标序列中已经按照效率综合评分以及效率辅助评分排列,因此,可以直接根据目标序列,筛选出效率最高的同步工具,即得到的目标同步工具。

在实际应用中,效率评分由组成。同步工具筛选过程包括:优先比较效率值A,在A相同的情况下,再比较效率值B。也就是先按A顺序排,再按B顺序排,取第一条训练记录。这样的筛选过程,既考虑了因子区间段不同下的效率优先,同时也考虑到了相同区间段下因子绝对值的效率优先。

在其中一个实施例中,读取预设不同同步处理效率指标对应的加权系数之前,还包括:

获取不同同步工具对样本表数据同步处理的训练数据;根据训练数据,提取不同同步工具对应的同步耗时、内存占用率以及CPU使用率;对提取的数据进行主成分分析,得到同步耗时、内存占用率以及CPU使用率的加权系数。

在本实施例中,针对不同同步工具,采取对样本数据同步处理的方式得到训练数据,基于该训练数据提取到不同同步工具对应的同步耗时、内存占用率以及CPU使用率,对提取的这些数据进行主成分分析,分别得到同步耗时、内存占用率以及CPU使用率的加权系数。在这里,通过主成分分析的方式来分析同步耗时、内存占用率以及CPU使用率对同步工具整体效率的影响程度,可以得到准确的加权系数。

在其中一个实施例中,根据加权系数以及区间归一化值以及绝对值归一化值,得到同步工具对应的效率评分之后,还包括:更新表数据,返回获取不同同步工具对表数据的同步处理效率指标的步骤;记录不同表数据对应的不同同步工具的效率评分。

在得到不同工具对应的效率评分之后,可以更新表数据,返回获取不同同步工具对表数据的同步处理效率指标的步骤,即测试针对新的表数据对应的不同同步工具的效率评分,并且记录下不同表数据与不同同步工具的效率评分对应关系。进一步的,可以将这些数据存储到数据库中以便后续调用。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的同步工具同步效率评测方法的同步工具同步效率评测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个同步工具同步效率评测装置实施例中的具体限定可以参见上文中对于同步工具同步效率评测方法的限定,在此不再赘述。

如图4所示,本申请还提供了一种同步工具同步效率评测装置。装置包括:

指标获取模块420,用于获取不同同步工具对表数据的同步处理效率指标,同步处理效率指标包括同步耗时、内存占用率以及CPU使用率;

归一化处理模块440,用于基于不同同步处理效率指标对应的指标区间,将效率指标分别进行区间归一化和绝对值归一化,得到区间归一化值和绝对值归一化值;

预设数据读取模块460,用于读取预设不同同步处理效率指标对应的加权系数;

评分模块480,用于根据加权系数以及区间归一化值以及绝对值归一化值,得到同步工具对应的效率评分。

上述同步工具同步效率评测装置,获取不同同步工具对表数据的同步处理效率指标,同步处理效率指标包括同步耗时、内存占用率以及CPU使用率;基于不同同步处理效率指标对应的指标区间,将效率指标分别进行区间归一化和绝对值归一化,得到区间归一化值和绝对值归一化值;读取预设不同同步处理效率指标对应的加权系数;根据加权系数以及区间归一化值以及绝对值归一化值,得到同步工具对应的效率评分。整个过程中,针对不同同步工具分别评测其同步耗时、内存占用率以及CPU使用率三个维度数据、采用区间归一化和绝对值归一化的方式减小数据偏差并采用加权处理方式综合考虑,因此可以得到准确的同步工具同步效率评测结果。

在其中一个实施例中,评分模块480还用于根据加权系数以及区间归一化值得到效率综合评分,并根据加权系数以及绝对值归一化值得到效率辅助评分;结合效率综合评分和效率辅助评分,得到同步工具对应的效率评分。

在其中一个实施例中,上述同步工具同步效率评测装置还包括筛选模块,用于基于效率综合评分以及预设顺序,对不同同步工具进行排序,得到初始序列;确定初始序列中并列的同步工具;根据效率辅助评分以及预设顺序,对并列的同步工具进行排序,以更新初始序列,得到目标序列;根据目标序列,筛选同步工具。

在其中一个实施例中,上述同步工具同步效率评测装置还包括主成分分析模块,用于获取不同同步工具对样本表数据同步处理的训练数据;根据训练数据,提取不同同步工具对应的同步耗时、内存占用率以及CPU使用率;对提取的数据进行主成分分析,得到同步耗时、内存占用率以及CPU使用率的加权系数。

在其中一个实施例中,上述同步工具同步效率评测装置还包括记录模块,用于更新表数据,返回获取不同同步工具对表数据的同步处理效率指标的步骤;记录不同表数据对应的不同同步工具的效率评分。

如图5所示,本申请提供一种表数据同步方法。方法包括:

S510:获取待同步表数据,并提取待同步表数据对应的特征数据。

特征数据是用于表征、体现待同步表数据特征的数据。一般来说,表数据是采用数据表格式的数据,因此,特征数据包括表数据的行数、列数以及索引度。

S520:根据特征数据在预设数据库中匹配,得到不同同步工具对待同步表数据的同步处理效率指标。

在预设数据库中存储有不同类型表数据对应的训练数据,这些训练数据是不同同步工具对该类型表数据同步处理的效率指标数据。例如在预设数据库中可以存储有表数据1-同步处理效率指标A;表数据2-同步处理效率指标B;表数据3-同步处理效率指标C的关联数据,根据特征数据在预设数据库中匹配,匹配得到与待同步表数据相似的表数据,进而读取到其对应的同步处理效率指标,将该同步处理效率指标作为不同同步工具对待同步表数据的同步处理效率指标。

S530根据同步处理效率指标,采用如上述同步工具同步效率评测方法,得到不同同步工具对待同步表数据的同步效率评分。

根据已经得到同步处理效率指标,采用上述同步工具同步效率评测方法,得到不同同步工具对待同步表数据的同步效率评分。同步工具同步效率评测方法的具体处理过程已经详细描述,在此不再赘述。

S540:根据同步效率评分,筛选目标同步工具。

基于得到的同步效率评分,筛选出效率最高的同步工具,得到目标同步工具。

S550:调用目标同步工具对待同步表数据执行表数据同步。

采用效率最高的目标同步工具对待同步表数据执行表数据同步,可以实现高效的表数据同步。

上述表数据同步方法,获取待同步表数据,并提取待同步表数据对应的特征数据;根据特征数据在预设数据库中匹配,得到不同同步工具对待同步表数据的同步处理效率指标;根据同步处理效率指标,采用如上述同步工具同步效率评测方法,得到不同同步工具对待同步表数据的同步效率评分;根据同步效率评分,筛选目标同步工具;调用目标同步工具对待同步表数据执行表数据同步。整个过程中,针对待同步表数据,采用上述的同步工具同步效率评测方法,筛选出效率最高的目标同步工具,因此,可以实现高效的表数据同步。

如图6所示,在其中一个实施例中,S510包括:

S512:获取待同步表数据以及待同步表数据的同步配置参数;

S514:根据同步配置参数,提取待同步表数据对应的特征数据。

同步配置数据中记录了表数据的行数、列数以及索引度等参数,因此,可以根据同步配置参数,提取待同步表数据对应的特征数据。进一步,针对提取特征数据采取区间划分的方式,计算待同步表数据对应的行数区间、列数区间以及索引度区间。以上述区间划分类似,针对待同步表数据对应的行数、列数以及索引度采取区间划分的方式,这样可以减小后续匹配过程中的计算量,提高效率。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的表数据同步方法的表数据同步装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个表数据同步装置实施例中的具体限定可以参见上文中对于表数据同步方法的限定,在此不再赘述。

如图7所示,本申请还提供一种表数据同步装置,装置包括:

数据获取模块710,用于获取待同步表数据,并提取待同步表数据对应的特征数据;

指标提取模块720,用于根据特征数据在预设数据库中匹配,得到不同同步工具对待同步表数据的同步处理效率指标;

评分模块730,用于根据同步处理效率指标,采用上述同步工具同步效率评测方法,得到不同同步工具对待同步表数据的同步效率评分;

工具筛选模块740,用于根据同步效率评分,筛选目标同步工具;

同步模块750,用于调用目标同步工具对待同步表数据执行表数据同步。

上述表数据同步装置,获取待同步表数据,并提取待同步表数据对应的特征数据;根据特征数据在预设数据库中匹配,得到不同同步工具对待同步表数据的同步处理效率指标;根据同步处理效率指标,采用如上述同步工具同步效率评测方法,得到不同同步工具对待同步表数据的同步效率评分;根据同步效率评分,筛选目标同步工具;调用目标同步工具对待同步表数据执行表数据同步。整个过程中,针对待同步表数据,采用上述的同步工具同步效率评测方法,筛选出效率最高的目标同步工具,因此,可以实现高效的表数据同步。

在其中一个实施例中,数据获取模块710还用于获取待同步表数据以及待同步表数据的同步配置参数;根据同步配置参数,提取待同步表数据对应的特征数据。

在其中一个实施例中,数据获取模块710还用于根据同步配置参数,提取待同步表数据对应的行数、列数以及索引度;基于待同步表数据对应的行数、列数以及索引度,计算待同步表数据对应的行数区间、列数区间以及索引度区间。

为详细说明本申请表数据同步方法的技术方案,下面将采用具体应用实例展开说明。

如图8所示,本申请表数据同步方法具体包括以下步骤:

1、读取表数据同步配置;

2、连接数据库,读取行数、列数以及索引度;

3、计算行数区间、列数区间以及索引度区间;

4、匹配出相似已记录表数据,并获取该相似已记录表数据对应的同步工具训练集记录;

5、按照主成分分析法生成效率评分公式;

6、逐个计算出不同同步工具对应的效率评分值;

7、取出效率评分值最优对应的目标同步工具;

8、调用目标同步工具,生成并配置同步任务;

9、执行同步任务,执行完后将同步记录加入到训练集中。

应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设训练数据以及历史表数据处理等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种同步工具同步效率评测方法或表数据同步方法。

本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述同步工具同步效率评测方法或表数据同步方法。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述同步工具同步效率评测方法或表数据同步方法。

在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述同步工具同步效率评测方法或表数据同步方法。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号