首页> 中国专利> 东数西算热数据预测方法、装置及电子设备

东数西算热数据预测方法、装置及电子设备

摘要

本发明提供一种东数西算热数据预测方法、装置及电子设备,涉及东数西算和大数据技术领域,应用于东部算力中心,所述方法包括:接收西部算力中心发送的第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的;将待预测的热数据输入第一业务预测模型进行预测,获取所述待预测的热数据对应的预测结果。本发明通过东部算力中心接收西部算力中心发送的业务预测模型,业务预测模型是基于过滤掉冷数据样本中偏差较大的冷数据训练得到的,实现业务预测模型在热数据上的良好适用性。

著录项

  • 公开/公告号CN114925939A

    专利类型发明专利

  • 公开/公告日2022-08-19

    原文格式PDF

  • 申请/专利权人 浪潮通信信息系统有限公司;

    申请/专利号CN202210845186.5

  • 发明设计人 崔超;沈林江;张笑笑;

    申请日2022-07-19

  • 分类号G06Q10/04(2012.01);G06Q50/30(2012.01);G06F30/27(2020.01);G06K9/62(2022.01);

  • 代理机构北京路浩知识产权代理有限公司 11002;

  • 代理人吴斌

  • 地址 250101 山东省济南市高新区浪潮路1036号浪潮科技园S06号楼

  • 入库时间 2023-06-19 16:26:56

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-21

    授权

    发明专利权授予

  • 2022-09-06

    实质审查的生效 IPC(主分类):G06Q10/04 专利申请号:2022108451865 申请日:20220719

    实质审查的生效

说明书

技术领域

本发明涉及东数西算和大数据技术领域,尤其涉及一种东数西算热数据预测方法、装置及电子设备。

背景技术

随着全国一体化算力网络体系的正式启动,迫切需要通过“东数西算”的手段降低数字化转型成本和能耗。在“东数西算”场景下,东部算力中心将物联网、人工智能等产生的海量数据按照使用频次和时间等分级为冷数据和热数据,将冷数据以增量形式传输到西部数据中心进行存储。在人工智能及数据挖掘需求中,首先在西部算力中心对累积的历史样本冷数据进行分析与挖掘,生成模型训练结果,随后将模型部署到东部算力中心,支撑模型在东部算力中心的在线应用。

然而,在很多场景下,冷数据样本的分布与热数据的样本分布存在明显差异,导致西部算力中心通过训练冷数据得到的模型在东部的热数据上的应用效果发送较大退化。

当前,针对上述问题的解决方案包括:1、横向联邦学习:通过东部算力中心与西部算力中心间构建联邦学习平台,通过横向联邦学习方式,实现冷热数据共同参与模型建设;2、预训练-微调方案:在西部算力中心利用大量冷数据样本构建神经网络,将模型发送到东部算力中心,东部算力中心根据热数据对神经网络进行微调。

然而,上述方案均存在一定的局限性,方案1中,横向联邦学习考虑了东部算力中心的最新热数据样本特征,但是西部算力中心会存在“对抗样本”,导致模型整体效果下降;方案2中,一方面,预训练-微调架构绝大多数适用于神经网络模型,对于其他相关的机器学习模型场景不适用,另一方面,在样本分布偏差较大的情况下,仍存在模型适用性问题。

发明内容

本发明提供一种东数西算热数据预测方法、装置及电子设备,用以解决现有技术中西部算力中心利用冷数据训练的模型在东部算力中心对热数据的预测上存在适用性差的缺陷。

第一方面,本发明提供一种东数西算热数据预测方法,应用于东部算力中心,包括:

接收西部算力中心发送的第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的;

将待预测的热数据输入第一业务预测模型进行预测,获取所述待预测的热数据对应的预测结果。

可选地,所述接收西部算力中心发送的第一业务预测模型,包括:

接收西部算力中心发送的第二业务预测模型和第一AUC评分;所述第二业务预测模型是训练基于第一预设阈值过滤后的第一冷数据训练集得到的;第一AUC评分是利用采样后的第一冷数据验证集对所述第二业务预测模型进行验证得到的;

基于所述第二业务预测模型对热数据应用集中的热数据样本进行预测,获取第二AUC评分;

基于所述第一AUC评分和所述第二AUC评分,构建目标函数;

在所述目标函数的值最小的情况下,接收西部算力中心发送的对第二冷数据训练集和第二冷数据验证集进行训练得到的第一业务预测模型;所述第二冷数据训练集和所述第二冷数据验证集是基于所述目标函数的最小值对应的第二预设阈值过滤所述第一冷数据训练集和所述第一冷数据验证集后得到的。

可选地,所述接收西部算力中心发送的第二业务预测模型和第一AUC评分之前,还包括:

基于LGB算法对热数据样本进行样本相似度训练,获取样本相似度模型;

将所述样本相似度模型发送给西部算力中心;所述样本相似度模型用于对所述第一冷数据训练集和所述第一冷数据验证集中的冷数据样本进行相似度评估,获取每一条冷数据样本对应的相似度评分。

第二方面,本发明还提供一种东数西算热数据预测方法,应用于西部算力中心,包括:

向东部算力中心发送第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的。

可选地,所述向东部算力中心发送第一业务预测模型之前,还包括:

接收所述东部算力中心发送的样本相似度模型;

基于所述样本相似度模型对第一冷数据训练集和第一冷数据验证集中的冷数据样本进行相似度评估,获取每一条冷数据样本对应的相似度评分;

基于第一预设阈值和所述相似度评分分别对所述第一冷数据训练集和所述第一冷数据验证集中的冷数据样本进行过滤,获取第三冷数据训练集和第三冷数据验证集。

可选地,所述获取第三冷数据训练集和第三冷数据验证集之后,还包括:

利用机器学习算法对所述第三冷数据训练集中的冷数据样本进行训练,获取第二业务预测模型;

利用采样后的第一冷数据验证集对所述第二业务预测模型进行验证,获取所述第二业务预测模型的第一AUC评分;

将所述第二业务预测模型和所述第一AUC评分发送给西部算力中心。

可选地,所述将所述第二业务预测模型和所述第一AUC评分发送给西部算力中心之后,还包括:

采用网格搜索对所述第一预设阈值进行调整,获取第二预设阈值;所述第二预设阈值对应目标函数的最小值;所述目标函数是基于所述第一AUC评分和第二AUC评分构建的;所述第二AUC评分是热数据应用集对所述第二业务预测模型进行预测得到的;

基于第二预设阈值分别对所述第一冷数据训练集和所述第一冷数据验证集中的冷数据样本进行过滤,获取第二冷数据训练集和第二冷数据验证集;

对所述第二冷数据训练集和所述第二冷数据验证集进行训练,获取所述第一业务预测模型。

第三方面,本发明还提供一种东数西算热数据预测装置,包括:

第一接收模块,用于接收西部算力中心发送的第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的;

第一获取模块,用于将待预测的热数据输入第一业务预测模型进行预测,获取所述待预测的热数据对应的预测结果。

第四方面,本发明还提供一种东数西算热数据预测装置,包括:

第一发送模块,用于向东部算力中心发送第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的。

第五方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述中的任一项所述第一方面或第二方面的东数西算热数据预测方法。

第六方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述中的任一项所述第一方面或第二方面的东数西算热数据预测方法。

第七方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述中的任一项所述第一方面或第二方面的东数西算热数据预测方法。

本发明提供的东数西算热数据预测方法、装置及电子设备,通过东部算力中心通过接收西部算力中心发送的业务预测模型,业务预测模型是基于过滤掉冷数据样本中偏差较大的冷数据训练得到的,实现业务预测模型在热数据上的良好适用性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的东数西算热数据预测方法的流程示意图之一;

图2是本发明实施例提供的东数西算热数据预测方法的流程示意图之二;

图3是本发明实施例提供的东数西算热数据预测方法的流程示意图之三;

图4是本发明实施例提供的东数西算热数据预测装置的结构示意图之一;

图5是本发明实施例提供的东数西算热数据预测装置的结构示意图之二;

图6是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1是本发明实施例提供的东数西算热数据预测方法的流程示意图之一,如图1所示,本发明提供一种东数西算热数据预测方法,应用于东部算力中心,该方法包括:

步骤101,接收西部算力中心发送的第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的。

具体地,东部算力中心接收西部算力中心发送的第一业务预测模型。第一业务预测模型是西部算力中心利用机器学习算法对过滤后的冷数据样本进行业务预测训练得到的,第一业务预测模型是西部算力中心输出的最终模型。

冷数据样本由第一冷数据训练集和第一冷数据验证集组成。过滤后的冷数据样本是西部算力中心基于确定的最优预设阈值对第一冷数据训练集和第一冷数据验证集进行冷数据过滤后得到的。

步骤102,将待预测的热数据输入第一业务预测模型进行预测,获取所述待预测的热数据对应的预测结果。

具体地,东部算力中心接收第一业务预测模型后,东部算力中心将接收到的第一业务预测模型文件进行固化,并采用功能即服务(Functions as a Service, FaaS)形式或批量预测形式进行模型部署,部署好之后,利用第一业务预测模型对待预测的热数据进行业务预测,获取待预测的热数据对应的预测结果,将预测结果存入数据库,供实时调用。

本发明实施例提供的东数西算热数据预测方法,东部算力中心通过接收西部算力中心发送的业务预测模型,业务预测模型是基于过滤掉冷数据样本中偏差较大的冷数据训练得到的,实现业务预测模型在热数据上的良好适用性。

图2是本发明实施例提供的东数西算热数据预测方法的流程示意图之二,如图2所示,在利用第一业务预测模型预测热数据之前,东部算力中心先进行数据分析、样本相似度模训练,然后对西部算力中心输出的初始模型即第二业务预测模型进行评估,基于模型评估的结果构建目标函数。

可选地,所述接收西部算力中心发送的第二业务预测模型和第一AUC评分之前,还包括:

基于LGB算法对热数据样本进行样本相似度训练,获取样本相似度模型;

将所述样本相似度模型发送给西部算力中心;所述样本相似度模型用于对所述第一冷数据训练集和所述第一冷数据验证集中的冷数据样本进行相似度评估,获取每一条冷数据样本对应的相似度评分。

具体地,东部算力中心对热数据样本的分布情况进行分析,获取热数据样本中正样本热数据和负样本热数据的比例,将该比例记为r。

东部算力中心采用LGB算法对小批量的热数据样本进行基线模型训练即样本相似度训练,基线模型的目的在于衡量样本间的相似度,获取训练好的基线模型也即获取样本相似度模型。

基线模型的复杂度较低,在LGB算法中,复杂度较低体现在相关树深度较小和叶子节点数据较小。

东部算力中心将样本相似度模型发送给西部算力中心。样本相似度模型用于西部算力中心对第一冷数据训练集和第一冷数据验证集中的冷数据样本进行相似度评估,获取每一条冷数据样本的相似度评估结果,将相似度评估结果进行量化,从而获取每一条冷数据样本对应的相似度评分。将相似度评分记为F(x),其中x表示一条冷数据样本。

本发明实施例提供的东数西算热数据预测方法,通过基于热数据样本训练样本相似度模型,再将样本相似度模型发送给西部算力中心,有利于西部算力中心实现对冷数据样本的相似度进行评估,进一步有利于西部算力中心实现对冷数据样本进行过滤。

可选地,所述接收西部算力中心发送的第一业务预测模型,包括:

接收西部算力中心发送的第二业务预测模型和第一AUC评分;所述第二业务预测模型是训练基于第一预设阈值过滤后的第一冷数据训练集得到的;第一AUC评分是利用采样后的第一冷数据验证集对所述第二业务预测模型进行验证得到的;

基于所述第二业务预测模型对热数据应用集中的热数据样本进行预测,获取第二AUC评分;

基于所述第一AUC评分和所述第二AUC评分,构建目标函数;

在所述目标函数的值最小的情况下,接收西部算力中心发送的对第二冷数据训练集和第二冷数据验证集进行训练得到的第一业务预测模型;所述第二冷数据训练集和所述第二冷数据验证集是基于所述目标函数的最小值对应的第二预设阈值过滤所述第一冷数据训练集和所述第一冷数据验证集后得到的。

具体地,东部算力中心接收西部算力中心发送的第二业务预测模型和第一AUC评分。

第二业务预测模型的获取过程是:西部算力中心设置预设阈值a,a的取值范围为0~1,预设阈值的初始值为第一预设阈值;基于第一预设阈值和相似度评分对第一冷数据训练集进行冷数据过滤,获取第三冷数据训练集;采用机器学习算法对第三冷数据训练集中的冷数据样本进行业务预测模型的训练,并对算法相关参数进行内部调优,得到第二业务预测模型。

第一模型评估指标(area under the curve, AUC)评分是西部算力中心利用经采样后的第一冷数据验证集中的冷数据样本对第二业务预测模型进行验证,获取验证结果,基于验证结果对第二业务预测模型进行模型评估得到的。东部算力中心利用第二业务预测模型对热数据应用集中的热数据样本进行预测,获取预测结果,基于预测结果对第二业务预测模型进行评估,获取第二业务预测模型的第二AUC评分。

东部算力中心基于第一AUC评分和第二AUC评分构建目标函数。目标函数的表达式如下所示:

式中,

在预设阈值a为第一预设阈值时,得到的业务预测模型为第二业务预测模型,

西部算力中心调整预设阈值a,取目标函数值最小时对应的预设阈值为最优的预设阈值即第二预设阈值。在确定最优的预设阈值即第二预设阈值后,利用第二预设阈值分别对第一冷数据训练集和第一冷数据验证集完成对非正负样本冷数据的过滤,得到过滤后的正负样本冷数据,获取第二冷数据训练集和第二冷数据验证集。将第二冷数据训练集和第二冷数据验证集进行拼接,基于拼接的冷数据样本集进行业务预测模型的训练,得到最终的业务预测模型即第一业务预测模型。

东部算力中心接收西部算力中心发送的第一业务预测模型。

本发明实施例提供的东数西算热数据预测方法,通过对预设阈值超参数化和模型效果差异正则化,实现对模型的自动优化和稳定提升。

图3是本发明实施例提供的东数西算热数据预测方法的流程示意图之三,如图3所示,本发明提供一种东数西算热数据预测方法,应用于西部算力中心,该方法包括:

步骤301,向东部算力中心发送第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的。

具体地,冷数据样本由第一冷数据训练集和第一冷数据验证集组成。西部算力中心基于最优的预设阈值对第一冷数据训练集和第一冷数据验证集进行冷数据过滤,得到过滤后的第一冷数据训练集和第一冷数据验证集,也即得到过滤后的冷数据样本。

西部算力中心利用机器学习算法对过滤后的冷数据样本进行业务预测训练,得到第一业务预测模型。第一业务预测模型是西部算力中心输出的最终模型。

西部算力中心将得到的第一业务预测模型发送给东部算力中心。

本发明实施例提供的东数西算热数据预测方法,西部算力中心通过对冷数据样本进行过滤,过滤掉样本偏差较大的冷数据,再基于过滤后的冷数据样本得到业务预测模型,将业务预测模型发送给东部算力中心,实现业务预测模型在热数据上的良好适用性。

可选地,所述向东部算力中心发送第一业务预测模型之前,还包括:

接收所述东部算力中心发送的样本相似度模型;

基于所述样本相似度模型对第一冷数据训练集和第一冷数据验证集中的冷数据样本进行相似度评估,获取每一条冷数据样本对应的相似度评分;

基于第一预设阈值和所述相似度评分分别对所述第一冷数据训练集和所述第一冷数据验证集中的冷数据样本进行过滤,获取第三冷数据训练集和第三冷数据验证集。

具体地,西部算力中心先对冷数据样本集按预设比例切分为第一冷数据训练集和第一冷数据验证集。预设比例可以为8:2。

西部算力中心接收东部算力中心发送的样本相似度模型,利用样本相似度模型对第一冷数据训练集和第一冷数据验证集中的冷数据样本进行相似度评估,获取每一条冷数据样本的相似度评估结果,将相似度评估结果进行量化,从而获取每一条冷数据样本对应的相似度评分。将相似度评分记为F(x),其中x表示一条冷数据样本。

西部算力中心在获取一条冷数据样本对应的相似度评分之后,设置预设阈值a,a的取值范围为0~1,预设阈值的初始值为第一预设阈值。

西部算力中心基于第一预设阈值和相似度评分对第一冷数据训练集进行冷数据样本过滤,得到第三冷数据训练集。

第一冷数据训练集进行冷数据样本过滤的具体过程为:

第一种情形,若热数据样本中正样本热数据和负样本热数据的比例r大于1,则第三冷数据训练集中的正样本冷数据的表达式如下所示:

其中,

其中,n的表达式如下所示:

式中,n表示第三冷数据训练集中的正样本冷数据个数,a表示预设阈值,a的取值 范围为0~1,

第三冷数据训练集中的负样本冷数据的表达式如下所示:

其中,

其中,

式中,

第二种情形,若热数据样本中正样本热数据和负样本热数据的比例r小于1,则第三冷数据训练集中的正样本冷数据的表达式如下所示:

式中,

其中,n的表达式如下所示:

式中,n表示第三冷数据训练集中的正样本冷数据个数,a表示预设阈值,a的取值 范围为0~1,

第三冷数据训练集中的负样本冷数据的表达式如下所示:

其中,

其中,

西部算力中心基于第一预设阈值和相似度评分对第一冷数据验证集进行冷数据样本过滤,得到第三冷数据验证集。第一冷数据验证集进行冷数据样本过滤的具体过程与第一冷数据训练集进行冷数据样本过滤的具体过程是相同的,在此不再赘述。

本发明实施例提供的东数西算热数据预测方法,西部算力中心利用东部算力中心发送的样本相似度模型对冷数据样本进行相似度评估,基于相似度评分和预设阈值实现对冷数据样本的筛选,样本数据量的减少进一步降低了西部算力中心模型训练的数据量压力。

可选地,所述获取第三冷数据训练集和第三冷数据验证集之后,还包括:

利用机器学习算法对所述第三冷数据训练集中的冷数据样本进行训练,获取第二业务预测模型;

利用采样后的第一冷数据验证集对所述第二业务预测模型进行验证,获取所述第二业务预测模型的第一AUC评分;

将所述第二业务预测模型和所述第一AUC评分发送给西部算力中心。

具体地,西部算力中心采样机器学习算法,比如LGB算法、XGB算法或自然语言处理(Natural Language Processing, NLP)算法,对获取的第三冷数据训练集中的冷数据样本进行业务预测模型的训练,并对算法相关参数进行内部调优,得到第二业务预测型。

西部算力中心对第一冷数据验证集进行采样,采样方式可以是欠采样或过采样,使得经采样后的第一冷数据验证集中正样本冷数据和负样本冷数据的比例与热数据样本中正样本热数据和负样本热数据的比例相同,即经采样后的第一冷数据验证集中正样本冷数据和负样本冷数据的比例也为r。

西部算力中心利用经采样后的第一冷数据验证集中的冷数据样本对第二业务预测模型进行验证,获取验证结果,基于验证结果对第二业务预测模型进行评估,获取第二业务预测模型的第一AUC评分。

西部算力中心将第二业务预测模型和第一AUC评分发送给东部算力中心。

本发明实施例提供的东数西算热数据预测方法,西部算力中心通过过滤后的冷数据样本训练的模型和模型评估结果发送给东部算力中心,有利于东部算力中心构建目标函数。

可选地,所述将所述第二业务预测模型和所述第一AUC评分发送给西部算力中心之后,还包括:

采用网格搜索对所述第一预设阈值进行调整,获取第二预设阈值;所述第二预设阈值对应目标函数的最小值;所述目标函数是基于所述第一AUC评分和第二AUC评分构建的;所述第二AUC评分是热数据应用集对所述第二业务预测模型进行预测得到的;

基于第二预设阈值分别对所述第一冷数据训练集和所述第一冷数据验证集中的冷数据样本进行过滤,获取第二冷数据训练集和第二冷数据验证集;

对所述第二冷数据训练集和所述第二冷数据验证集进行训练,获取所述第一业务预测模型。

具体地,西部算力中心采用网格搜索的方式对预设阈值a进行调整,设置预设阈值 a的上限为

在确定最优的预设阈值即第二预设阈值后,利用第二预设阈值分别对第一冷数据训练集和第一冷数据验证集完成对非正负样本冷数据的过滤,得到过滤后的正负样本冷数据,获取第二冷数据训练集和第二冷数据验证集。将第二冷数据训练集和第二冷数据验证集进行拼接,基于拼接的冷数据样本集进行业务预测模型的训练,得到最终的业务预测模型即第一业务预测模型。

西部算力中心将第一业务预测模型发送到东部算力中心。

本发明实施例提供的东数西算热数据预测方法,通过对预设阈值超参数化和模型效果差异正则化,实现对模型的自动优化和稳定提升;模型参数的传输相比于样本数据的传输,对网络造成的额外负担比较小,并且避免了样本数据传输存在的安全性问题。

本发明实施例提供的东数西算热数据预测方法,通过重构目标函数和超参数优化实现模型自动优化和稳定性提升。具体表现为:

1、相比于冷数据训练,热数据应用的传统方案,本发明的模型在热数据上的AUC评分提升1%;

2、在西部算力中心,通过过滤冷数据样本,参与模型训练的样本数量相对减少30%,模型训练平均训练时长缩短为原有的70%;

3、通过构建目标函数,对模型稳定性进行提升,相比于传统方案,模型在东部算力中心和西部算力中心的AUC评分差值由0.05降低为0.02;

4、本发明中通过传输样本相似度模型参数实现冷数据样本的过滤,相比于最大均值差异(Maximum Mean Discrepancy, MMD)等样本对齐方案,通过网络传输的数据量从GB级别降低为KB级别,有效降低网络负载;

5、通过将预设阈值超参数化,实现东部算力中心和西部算力中心的协同模型迭代优化,相比于单次模型训练,本发明的模型在热数据上的AUC评分提升0.3%。

下面对本发明提供的东数西算热数据预测装置进行描述,下文描述的东数西算热数据预测装置与上文描述的东数西算热数据预测方法可相互对应参照。

图4是本发明实施例提供的东数西算热数据预测装置的结构示意图之一,如图4所示,本发明还提供一种东数西算热数据预测装置,包括:第一接收模块401、和第一获取模块402,其中:

第一接收模块401用于接收西部算力中心发送的第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的;

第一获取模块402用于将待预测的热数据输入第一业务预测模型进行预测,获取所述待预测的热数据对应的预测结果。

可选地,所述第一接收模块401包括:

第一接收子模块,用于接收西部算力中心发送的第二业务预测模型和第一AUC评分;所述第二业务预测模型是训练基于第一预设阈值过滤后的第一冷数据训练集得到的;第一AUC评分是利用采样后的第一冷数据验证集对所述第二业务预测模型进行验证得到的;

第一获取子模块,用于基于所述第二业务预测模型对热数据应用集中的热数据样本进行预测,获取第二AUC评分;

构建子模块,用于基于所述第一AUC评分和所述第二AUC评分,构建目标函数;

第二接收子模块,在所述目标函数的值最小的情况下,接收西部算力中心发送的对第二冷数据训练集和第二冷数据验证集进行训练得到的第一业务预测模型;所述第二冷数据训练集和所述第二冷数据验证集是基于所述目标函数的最小值对应的第二预设阈值过滤所述第一冷数据训练集和所述第一冷数据验证集后得到的。

可选地,所述装置还包括:

第二获取模块,用于基于LGB算法对热数据样本进行样本相似度训练,获取样本相似度模型;

第二发送模块,用于将所述样本相似度模型发送给西部算力中心;所述样本相似度模型用于对所述第一冷数据训练集和所述第一冷数据验证集中的冷数据样本进行相似度评估,获取每一条冷数据样本对应的相似度评分。

具体来说,本申请实施例提供的东数西算热数据预测装置,能够实现上述方法执行主体为东部算力中心的实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图5是本发明实施例提供的东数西算热数据预测装置的结构示意图之二,如图5所示,本发明还提供一种东数西算热数据预测装置,包括:第一发送模块501;

第一发送模块501,用于向东部算力中心发送第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的。

可选地,所述装置还包括:

第二接收模块,用于接收所述东部算力中心发送的样本相似度模型;

第三获取模块,用于基于所述样本相似度模型对第一冷数据训练集和第一冷数据验证集中的冷数据样本进行相似度评估,获取每一条冷数据样本对应的相似度评分;

第四获取模块,用于基于第一预设阈值和所述相似度评分分别对所述第一冷数据训练集和所述第一冷数据验证集中的冷数据样本进行过滤,获取第三冷数据训练集和第三冷数据验证集。

可选地,所述装置还包括:

第五获取模块,用于利用机器学习算法对所述第三冷数据训练集中的冷数据样本进行训练,获取第二业务预测模型;

第六获取模块,用于利用采样后的第一冷数据验证集对所述第二业务预测模型进行验证,获取所述第二业务预测模型的第一AUC评分;

第三发送模块,用于将所述第二业务预测模型和所述第一AUC评分发送给西部算力中心。

可选地,所述装置还包括:

第七获取模块,用于采用网格搜索对所述第一预设阈值进行调整,获取第二预设阈值;所述第二预设阈值对应目标函数的最小值;所述目标函数是基于所述第一AUC评分和第二AUC评分构建的;所述第二AUC评分是热数据应用集对所述第二业务预测模型进行预测得到的;

第八获取模块,用于基于第二预设阈值分别对所述第一冷数据训练集和所述第一冷数据验证集中的冷数据样本进行过滤,获取第二冷数据训练集和第二冷数据验证集;

第九获取模块,用于对所述第二冷数据训练集和所述第二冷数据验证集进行训练,获取所述第一业务预测模型。

具体来说,本申请实施例提供的东数西算热数据预测装置,能够实现上述方法执行主体为西部算力中心的实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图6是本发明实施例提供的电子设备的结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行东数西算热数据预测方法,该方法包括:接收西部算力中心发送的第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的;将待预测的热数据输入第一业务预测模型进行预测,获取所述待预测的热数据对应的预测结果。

或者,还包括:向东部算力中心发送第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的。

此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的东数西算热数据预测方法,该方法包括:接收西部算力中心发送的第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的;将待预测的热数据输入第一业务预测模型进行预测,获取所述待预测的热数据对应的预测结果。

或者,还包括:向东部算力中心发送第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的东数西算热数据预测方法,该方法包括:接收西部算力中心发送的第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的;将待预测的热数据输入第一业务预测模型进行预测,获取所述待预测的热数据对应的预测结果。

或者,还包括:向东部算力中心发送第一业务预测模型;所述第一业务预测模型是基于过滤后的冷数据样本训练得到的。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

本申请实施例中术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”所区别的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号