首页> 中国专利> 一种企业标签可解释的预测方法、设备及介质

一种企业标签可解释的预测方法、设备及介质

摘要

本申请提供企业标签可解释的预测方法、设备及存储介质,包括:获取企业公有数据和企业私有数据,基于企业公有数据和企业私有数据构建企业知识图谱;基于企业私有数据、企业公有数据和企业知识图谱训练到目标预测模型,并得到企业标签预测结果;通过目标预测模型确定企业标签中的第一企业标签的第一全局贡献值、第二企业标签的第二全局贡献值,基于第一全局贡献值以及第二全局贡献值得到联合贡献值;基于第一全局贡献值以及联合贡献值得到第一企业标签的第一加权贡献值,确定若干企业标签中的其他企业标签的第二加权贡献值;基于第一加权贡献值和第二加权贡献值对企业标签预测结果进行解释。本申请旨在提高标签预测准确性以及实现结果的可解释性。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-04-25

    实质审查的生效 IPC(主分类):G06Q10/0635 专利申请号:2022115496606 申请日:20221205

    实质审查的生效

  • 2023-04-07

    公开

    发明专利申请公布

说明书

技术领域

本申请涉及计算机技术领域,尤其涉及一种企业标签可解释的预测方法、计算机设备以及计算机存储介质。

背景技术

园区中的小微企业是实现园区可持续性发展、提高园区竞争力的主要依托对象,实时监测园区中小微企业的发展经营状况是保障园区可持续性发展的主要依托。因此,为了提高园区的竞争力以及小微企业的利益,有必要对小微企业的发展状况以及企业标签进行预测,从而为企业提供发展建议,辅助企业决策。

为了提高标签预测的准确性,现有技术能够充分学习数据的特征,综合各维度的信息,实现对小微企业的各类标签进行较为准确的预测。然而由于深度学习模型的复杂性以及结果的不可解释性,因此限制了其在医疗企业及金融企业等风险预测行业的广泛应用。此外,也有相关技术通过对数据进行逻辑回归、随机森林、XGBoost及深度学习进行处理,再对多个组的预测结果进行相加求平均值,使其预测结果具有一定的可解释性。然而上述方法的模型拟合能力较弱,且无法融合数据的复杂特征交互关系,以实现更加精准的预测标签。因此,有必要提出一种企业标签可解释的预测方法,能够融合各维度的信息以提高企业标签的预测准确性,且能够实现预测结果的可解释性,从而促进深度学习方法在企业决策、金融等风险领域预测的可信应用。

发明内容

本申请提供了一种企业标签可解释的预测方法、计算机设备以及计算机存储介质,能够在提高企业标签预测的准确性的同时,实现预测结果的可解释性。

第一方面,本申请提供了一种企业标签可解释的预测方法,所述方法包括:

获取企业公有数据以及企业私有数据,基于所述企业公有数据以及所述企业私有数据构建企业知识图谱,其中,所述企业知识图谱包括若干企业标签以及每一企业标签对应的动态数据;

基于所述企业私有数据、所述企业公有数据以及所述企业知识图谱训练得到目标预测模型,并将所述企业知识图谱输入至所述目标预测模型,得到企业标签预测结果;

通过所述目标预测模型,分别确定所述若干企业标签中的第一企业标签的第一全局贡献值、第二企业标签的第二全局贡献值,并基于所述第一全局贡献值以及所述第二全局贡献值得到联合贡献值;

基于所述第一全局贡献值以及所述联合贡献值得到所述第一企业标签的第一加权贡献值,并确定所述若干企业标签中的其他企业标签的第二加权贡献值;

基于所述第一加权贡献值以及所述第二加权贡献值对所述企业预测结果进行解释。

第二方面,本申请还提供了一种计算机设备,所述计算机设备包括:

存储器和处理器;

其中,所述存储器与所述处理器连接,用于存储程序;

所述处理器用于通过运行所述存储器中存储的程序,实现如本申请实施例提供的任一项所述的企业标签可解释的预测方法的步骤。

第三方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如本申请实施例提供的任一项所述的企业标签可解释的预测方法的步骤。

本申请公开的企业标签可解释的预测方法、计算机设备及存储介质,能够以企业公有数据以及企业私有数据为基础,融合各维度的信息以提高企业标签的预测准确性。此外,采用模型无关的后解释方法来计算每一企业标签的加权贡献值,能够实现对企业标签的预测结果进行解释,由此促进深度学习方法在企业决策、金融等风险领域预测的可信应用。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请的实施例提供的一种企业标签可解释的预测方法的步骤示意图;

图2是本申请的实施例提供步骤S11的具体步骤示意图;

图3是本申请的实施例提供步骤S13的一具体步骤示意图;

图4是本申请的实施例提供步骤S13的另一具体步骤示意图;

图5是本申请的实施例提供的一种计算机设备的示意框图;

图6为本申请提供的一种计算机可读存储介质的结构示意图。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。

应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

应当理解,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一识别模型和第二识别模型仅仅是为了区分不同的回调函数,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。

还应当进理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。

请参阅图1,图1是本申请实施例提供的一种企业标签可解释的预测方法的步骤示意流程图。该方法可以应用于计算机设备,用于实现基于可解释深度学习的企业标签预测。

如图1所示,该企业标签可解释的预测方法包括步骤S11至步骤S15。

步骤S11:获取企业公有数据以及企业私有数据,基于企业公有数据以及企业私有数据构建企业知识图谱,其中,企业知识图谱包括若干企业标签以及每一企业标签对应的动态数据。

其中,企业公有数据为企业对外公开的数据,包括但不限于企业新闻、企业经营数据以及行业政策等;企业私有数据为企业私有的,且不涉及企业保密范围的数据,包括但不限于水电数据、物业数据、公司厂房面积数据以及人员数据等。

进一步的,本申请对于获取企业公有数据以及企业私有数据的方式不做限定,例如可以通过新闻、报刊、企业官方网站或其他可供信赖的网站获取。本申请以通过企业官方网站的方式为例进行说明,具体的,可采用分布式采集技术每天定时采集企业的官方网站信息,并进行数据的存储。如此,获得企业公有数据以及企业私有数据。

在获得企业公有数据以及企业私有数据后,便可基于企业公有数据以及企业私有数据构建企业知识图谱。其中,企业知识图谱包括若干企业标签以及每一企业标签对应的动态数据。

其中,企业知识图谱是由实体、关系和属性组成的一种数据结构。本实施例中,企业对应于实体;企业标签及其对应的动态数据对应于属性,且从属于企业。如此,可构建成企业知识图谱。

可选地,请参阅图2,图2是本申请的实施例提供步骤S11的具体步骤示意图。在获取企业公有数据以及企业私有数据之后,可通过步骤S101至步骤S104实现基于企业公有数据以及企业私有数据构建企业知识图谱。

步骤S101:分别对企业公有数据以及企业私有数据进行预处理操作。

其中,预处理操作包括但不限于数据清洗与转换操作、变量筛选操作以及数据集划分操作等,本申请对此不不加以限定。

由于从网站采集的数据很乱,有大量的不相关的数据被采集下来,因此需要筛选。由于不同的数据源的数据格式又有很大的不同需要统一化,因此需要对其的格式进行清洗与转换。具体的,可对采集得到的数据去除html标签、去除特殊字符,以及将不同数据源不同格式的数据进行统一,如此实现数据的清洗与转换操作。进一步的,可根据标签预测的需要筛选合适的数据,如此实现变量筛选操作。此外,还可以将采集得到的数据按照不同的类型进行划分并整理,以实现数据的归一化处理。

步骤S102:基于预处理后的企业公有数据以及企业私有数据,融合得到企业数据集。

可选地,基于预处理后的企业公有数据以及企业私有数据,融合得到企业数据集,包括:确定若干企业标签,并基于每一企业标签从预处理后的企业公有数据以及企业私有数据中获取对应的若干企业数据信息;将每一企业标签以及其对应的每一企业数据信息进行数据映射操作,得到若干第五样本;确定每一第五样本中企业标签与其对应的每一企业数据信息的相关度;将相关度大于预设阈值的多个第五样本融合得到企业数据集。

具体的,可预先确定企业标签,例如企业标签可以包括企业基本属性标签,具体为经营范围标签、行业标签、司龄标签、地域标签和规模标签等;企业经营状况标签,具体为企业创新力标签、企业竞争力标签、企业发展潜力标签和企业发展动力标签等;企业风险信息标签,具体为企业自身风险标签、企业周边风险标签、预警提醒标签和经营风险标签等,本申请对此不加以限定。

进一步的,可基于预先确定的标签从预处理后的企业公有数据以及企业私有数据中获取对应的若干企业数据信息。也即,基于标签从企业公有数据以及企业私有数据中获取相关联的数据。例如,由于规模标签与公司厂房面积数据以及人员数据等相关。因此,可基于规模标签从预处理后的企业公有数据以及企业私有数据中获取公司厂房面积数据以及人员数据等数据。

在获取企业标签以及其对应的若干企业数据信息后,可将每一企业标签以及其对应的每一企业数据信息进行数据映射操作,得到若干第五样本。

其中,第五样本为将每一企业标签以及其对应的每一企业数据信息进行数据映射操作后的样本,其包括每一企业标签以及其对应的每一企业数据信息的相关度信息。

具体的,可通过数据映射操作计算每一企业标签以及其对应的每一企业数据信息的相关度。如此,使得第五样本包括每一企业标签以及其对应的每一企业数据信息的相关度信息。

需要说明的是,数据映射为基于给定两个数据模型,在模型之间建立起数据元素的对应关系,将这一过程称为数据映射。进一步的,本申请对于数据映射操作的方式不做限定,例如可以为手工编码的方式或可视化操作的方式。手工编码是直接用类似XSLT,JAVA,C++这样的编程语言定义数据对应关系。可视化操作通常支持用户在数据项之间画一条线以定义数据项之间的对应关系。

进一步的,可筛选出上述相关度大于预设阈值的多个第五样本,并将其进行融合得到企业数据集。如此得到关联度较大的企业数据集,其中,企业数据集包括企业标签以及其对应的若干企业数据信息。

需要说明的是,本申请对于上述预设阈值不做限定,例如可以为80%。基于此,若上述得到的企业标签以及其对应的每一企业数据信息的相关度大于80%,即可将其融合,以得到企业数据集。

步骤S103:从企业数据集中抽取企业实体以及企业标签信息,并基于企业实体与企业标签信息构建二者的欧式空间模型。

其中,企业实体也即该企业,企业标签信息包括该企业的企业标签以及每一企业标签对应的若干数据信息。

需要说明的是,欧式空间也即欧几里德空间(Euclidean Space),在数学中是对欧几里德所研究的2维和3维空间的一般化。也即对于距离、以及相关的概念长度和角度,转换成任意数维的坐标系。欧氏空间是一个特别的度量空间,它使得我们能够对其的拓扑性质,例如紧性加以调查。其中,内积空间是对欧氏空间的一般化。

可基于企业实体与企业标签信息侯建一个三维的欧式空间模型。具体的,基于企业标签信息中的企业的企业标签以及每一企业标签对应的若干数据信息构建线性空间,接着基于企业实体定义内积,并将其赋予至线性空间上,如此得到企业实体与企业标签信息的欧式空间模型。

步骤S104:基于欧式空间模型构建企业知识图谱。

由于企业公有数据以及企业私有数据处于不断的更新过程,因此在构建企业知识图谱时,需要构建一个动态的空间模型以实现数据的更新。

可选地,由于向量具有平移不变性,因此可将欧式空间模型中每一向量映射至负曲率双曲空间中的向量,如此得到企业实体与企业标签信息的负曲率双曲空间模型,也即企业知识图谱。

需要说明的是,负曲率双曲空间是开放式无限空间,其具有表达层次结构的能力以及无限的空间容量。其不但能够复原数据本身的层次结构,还可以利用较少的参数来表达具有在欧式空间中同样容量的参数。此外,负曲率双曲空间能够实时的数据进行更新,以实现企业知识图谱的更新。

在本申请实施例中,可将企业公有数据以及企业私有数据进行融合,得到多维度的数据,以实现提高企业标签预测的精确度。此外,还可基于负曲率双曲空间实现对企业知识图谱的更新,如此保证了企业标签预测结果的及时更新。

步骤S12:基于企业私有数据、企业公有数据以及企业知识图谱训练得到目标预测模型,并将企业知识图谱输入至目标预测模型,得到企业标签预测结果。

可选地,基于企业私有数据、企业公有数据以及企业知识图谱训练得到目标预测模型,包括:基于企业私有数据以及企业公有数据构建企业标签的初始预测模型;利用企业知识图谱对初始预测模型的损失函数进行优化,以得到企业标签的目标预测模型。

具体的,可先建立标签预测的深度学习网络模型,进而基于企业私有数据、企业公有数据构建训练样本集,并基于训练样本中的数据自适应调整权重,以对标签预测的深度学习网络模型进行训练。当样本中的权重达到最大迭代数时,训练停止,得到企业标签的初始预测模型。

可选地,为了使得企业标签的预测结果更加接近真实值,还可以利用企业知识图谱对初始预测模型的损失函数进行优化,进而得到优化后的企业标签的目标预测模型。

进一步的,在得到目标预测模型之后,便可将企业知识图谱输入至目标预测模型,得到企业标签预测结果。其中企业标签预测结果包括若干企业标签以及每一企业标签对应的加权贡献值,也即重要程度。

在本申请实施例中,可基于企业私有数据以及企业公有数据构建动态的企业知识图谱,以实现对数据的实时更新。进一步的,在将企业知识图谱输入至目标预测后,可得到企业标签预测结果,由于企业知识图谱的数据为动态的,因此还可基于企业知识图谱保证企业标签预测结果的及时更新。

步骤S13:通过目标预测模型,分别确定若干企业标签中的第一企业标签的第一全局贡献值、第二企业标签的第二全局贡献值,并基于第一全局贡献值以及第二全局贡献值得到联合贡献值。

其中,第一企业标签为随机选中的企业标签,本申请对此不加以限定;第一全局贡献度为第一企业标签对应的全局贡献度;第二企业标签为随机选中的,且不同于第一企业标签的企业标签;第二全局贡献度为第二企业标签对应的全局贡献度。

可以理解的,在基于上述实施例通过目标预测模型得到包括若干企业标签以及每一企业标签对应的贡献值的企业标签预测结果后,还可基于其他方式得到企业标签以及其对应的加权贡献值,以对企业标签预测结果进行解释。

可选的,请参阅图3,图3是本申请的实施例提供步骤S13的一具体步骤示意图。如图3所示,可通过步骤S131至步骤S134实现通过目标预测模型,确定若干企业标签中的第一企业标签的第一全局贡献值。

步骤S131:获取若干企业标签中的每一企业标签在第一时刻下对应的数据。

步骤S132:基于每一企业标签以及其在第一时刻下对应的数据,构建第一样本以及第二样本,其中,第一样本包含每一企业标签以及其在第一时刻下对应的数据,第二样本不包含第一企业标签以及其在第一时刻下对应的数据。

由于企业标签对应的数据是动态数据,是随时间的变化而变化的。因此,可确定第一时刻,并获取若干企业标签中的每一企业标签在第一时刻下对应的数据。其中,第一时刻为随机选中的时刻,例如可以为11月1日下午3点这一时刻,本申请对此不加以限定。

进一步的,可基于上述得到的数据,构建第一样本以及第二样本。其中,第一样本也即原始样本,其包括每一企业标签以及其在第一时刻下对应的数据;第二样本为不包括第一企业标签以及其在第一时刻下对应的数据的样本。

步骤S133:第一样本以及第二样本分别输入所述目标预测模型,得到第一预测结果以及第二预测结果,并基于第一预测结果以及第二预测结果得到第一企业标签的第一边际贡献值。

其中,第一预测结果为基于第一样本输入目标预测模型中得到的预测结果,其包括在第一时刻下每一企业标签以及每一企业标签对应的边际贡献值;第二预测结果为基于第二样本输入目标预测模型中得到的预测结果,其包括在第一时刻下除第一企业标签外的其他标签以及其对应的边际贡献值。

进一步的,可计算第一预测结果以及第二预测结果之差,如此得到第一企业标签的第一边际贡献值,其中,第一边际贡献值为第一企业标签在第一时刻的边际贡献值。

步骤S134:确定第一企业标签在第二时刻下的第二边际贡献值,并基于第一边际贡献值以及第二边际贡献值得到第一全局贡献值。

其中,第二时刻为不同于第一时刻的随机时刻,例如可以为11月2日下午3点这一时刻,本申请对此不加以限定;第二边际贡献值为第一企业标签在第二时刻下的边际贡献值;第一全局贡献值为第一企业标签对应的全局贡献值。

具体的,可通过上述步骤得到第一企业标签在第二时刻下的第二边际贡献值,并求取第二边际贡献值与第一边际贡献值的平均值,如此得到第一企业标签的第一全局贡献值。

可选地,还可以基于不同的时刻,重复上述步骤得到第一企业标签的多个边际贡献值,并基于得到多个边际贡献值求取平均值,以得到第一企业标签的最终全局贡献值。通过多次采样的方式,可实现得到的全局贡献值更为精确。

可以理解的,还可通过步骤S131至步骤S134实现通过目标预测模型,确定若干企业标签中的第二企业标签的第二全局贡献值。为避免重复,此处不加以赘述。其中,第二企业标签为不同于第一企业标签的企业标签,第二全局贡献值为第二企业标签对应的全局贡献值。

可选地,还可以将企业知识图谱输入至深度学习模型,并通过全局平均池化层的运算得到企业标签的全局贡献值,本申请对此不加以限定。

进一步的,请参阅图4,图4是本申请的实施例提供步骤S13的另一具体步骤示意图。如图4所示,可通过步骤S135至步骤S138实现基于第一全局贡献值以及第二全局贡献值得到联合贡献值。

步骤S135:获取若干企业标签中的每一企业标签在第三时刻下对应的数据。

步骤S136:基于每一企业标签以及其在第三时刻下对应的数据,构建第三样本以及第四样本,其中,第三样本包含每一企业标签以及其在第三时刻下对应的数据,第四样本不包含第一企业标签、第二企业标签以及其分别在第三时刻下对应的数据。

步骤S137:将第三样本以及第四样本分别输入目标预测模型,得到第三预测结果以及第四预测结果,并基于第三预测结果以及第四预测结果得到第一企业标签与第二企业标签的全局贡献值。

其中,第三时刻为不同于第一时刻以及第二时刻的随机时刻,例如可以为11月3日下午3点这一时刻,本申请对此不加以限定;第三样本为包括每一企业标签以及其在第三时刻下对应的数据;第四样本为不包括第一企业标签以及第二企业标签以及其分别在第三时刻下对应的数据的样本;第三预测结果为基于第三样本输入目标预测模型中得到的预测结果,其中第三预测结果为在第三时刻下每一企业标签以及每一企业标签对应的边际贡献值;第四预测结果为基于第四样本输入目标预测模型中得到的预测结果,其中第四预测结果为在第三时刻下除第一企业标签以及第二企业标签外的其他标签以及其对应的边际贡献值。

具体的,可参考步骤S132至步骤S133的方式得到第一企业标签与第二企业标签的全局贡献值,为避免重复,此处不加以赘述。

步骤S138:基于第一全局贡献值、第二全局贡献值以及第一企业标签与第二企业标签的全局贡献值得到联合贡献值。

具体的,可将第一企业标签与第二企业标签的全局贡献值与第一全局贡献值、第二全局贡献值之和进行做差,如此得到联合贡献值。

步骤S14:基于第一全局贡献值以及联合贡献值得到第一企业标签的第一加权贡献值,并确定若干企业标签中的其他企业标签的第二加权贡献值。

其中,第一加权贡献值为第一企业标签的加权贡献值;第二加权贡献值为其他企业标签的加权贡献值。

可选地,上述基于第一全局贡献值以及联合贡献值得到第一企业标签的第一加权贡献值,并确定若干企业标签中的其他企业标签的第二加权贡献值包括:基于第一全局贡献值确定第一企业标签的单一权重,基于联合贡献值确定第一企业标签的联合权重;基于单一权重以及联合权重确定第一企业标签的加权贡献值。

具体的,可参考步骤S131至步骤S134的方式得到每一企业标签的全局贡献值。并将第一全局贡献值除以每一企业标签的全局贡献值之和,得到第一企业标签的单一权重。类似地,可步骤S131至步骤S134的方式得到若干包含两个企业标签组合的其他联合贡献值,并将第一企业标签与第二企业标签的联合贡献值除以其他联合贡献值之和,得到第一企业标签与第二企业标签的联合权重。

进一步的,可通过如下公式实现基于单一权重以及联合权重确定第一企业标签的加权贡献值:

overall

其中:overall

可以理解的,还可以基于该方法确定若干企业标签中的其他企业标签的第二加权贡献值,为避免重复,此处不加以赘述。

步骤S15:基于第一加权贡献值以及第二加权贡献值对预测结果进行解释。

由于可通过目标预测模型实现对企业的标签进行预测,得到企业标签预测结果,其中企业标签预测结果包括若干企业标签以及其对应的加权贡献值。。因此,可基于本实施例的解释方法通过计算每一企业标签以及其对应的加权贡献值,以实现对企业标签预测结果进行解释。由此,促进了深度学习方法在企业角决策、金融等风险领域的可信应用。

本申请提出的企业标签可解释的预测方法,能够以企业公有数据以及企业私有数据为基础,融合各维度的信息以提高企业标签的预测准确性。进而能够基于目标预测模型得到企业标签预测结果,其中,企业标签预测结果包括企业标签及其对应的加权贡献度。此外,还可以计算每一企业标签的加权贡献值,能够实现对企业标签预测结果进行解释,由此促进深度学习方法在企业决策、金融等风险领域预测的可信应用。

本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费终端设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

示例性的,上述的方法、装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5,图5是本申请实施例提供的一种计算机设备的示意图。该计算机设备300可以是服务器。如图5所示,该计算机设备300包括通过系统总线连接的处理器301、存储器302和网络接口,其中,存储器302可以包括易失性存储介质、非易失性存储介质和内存储器。非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器301执行任意一种企业标签可解释的预测方法。

处理器301用于提供计算和控制能力,支撑整个计算机设备300的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器301执行时,可使得处理器301执行任意一种企业标签可解释的预测方法。

该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,该计算机设备300的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备300的限定,具体的计算机设备300可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

应当理解的是,处理器301可以是中央处理单元(Central Processing Unit,CPU),该处理器301还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中,在一些实施方式中,所述处理器301用于运行存储在存储器302中的计算机程序,以实现如下步骤:获取企业公有数据以及企业私有数据,基于所述企业公有数据以及所述企业私有数据构建企业知识图谱,其中,所述企业知识图谱包括若干企业标签以及每一企业标签对应的动态数据;基于所述企业私有数据、所述企业公有数据以及所述企业知识图谱训练得到目标预测模型,并将所述企业知识图谱输入至所述目标预测模型,得到企业标签预测结果;通过所述目标预测模型,分别确定所述若干企业标签中的第一企业标签的第一全局贡献值、第二企业标签的第二全局贡献值,并基于所述第一全局贡献值以及所述第二全局贡献值得到联合贡献值;基于所述第一全局贡献值以及所述联合贡献值得到所述第一企业标签的第一加权贡献值,并确定所述若干企业标签中的其他企业标签的第二加权贡献值;基于所述第一加权贡献值以及所述第二加权贡献值对所述企业预测结果进行解释。

在一些实施方式中,所述处理器301还用于获取所述若干企业标签中的每一企业标签在第一时刻下对应的数据;基于所述每一企业标签以及其在第一时刻下对应的数据,构建第一样本以及第二样本,其中,所述第一样本包含每一企业标签以及其在第一时刻下对应的数据,所述第二样本不包含所述第一企业标签以及其在第一时刻下对应的数据;将所述第一样本以及第二样本分别输入所述目标预测模型,得到第一预测结果以及第二预测结果,并基于所述第一预测结果以及所述第二预测结果得到所述第一企业标签的第一边际贡献值;确定所述第一企业标签在第二时刻下的第二边际贡献值,并基于所述第一边际贡献值以及所述第二边际贡献值得到所述第一全局贡献值。

在一些实施方式中,所述处理器301还用于获取所述若干企业标签中的每一企业标签在第三时刻下对应的数据;基于所述每一企业标签以及其在第三时刻下对应的数据,构建第三样本以及第四样本,其中,所述第三样本包含每一企业标签以及其在第三时刻下对应的数据,所述第四样本不包含所述第一企业标签、所述第二企业标签以及其分别在第三时刻下对应的数据;将所述第三样本以及第四样本分别输入所述目标预测模型,得到第三预测结果以及第四预测结果,并基于所述第三预测结果以及所述第四预测结果得到所述第一企业标签与所述第二企业标签的全局贡献值;基于所述第一全局贡献值、所述第二全局贡献值以及所述第一企业标签与所述第二企业标签的全局贡献值得到所述联合贡献值。

在一些实施方式中,所述处理器301还用于基于所述第一全局贡献值确定所述第一企业标签的单一权重,基于所述联合贡献值确定所述第一企业标签的联合权重;基于所述单一权重以及所述联合权重确定所述第一企业标签的加权贡献值。

在一些实施方式中,所述处理器301还用于分别对所述企业公有数据以及所述企业私有数据进行预处理操作;基于预处理后的所述企业公有数据以及所述企业私有数据,得到企业数据集;从所述企业数据集中抽取企业实体以及企业标签信息,并基于所述企业实体与所述企业标签信息构建二者的欧式空间模型;基于所述欧式空间模型构建所述企业知识图谱。

在一些实施方式中,所述处理器301还用于确定若干所述企业标签,并基于每一所述企业标签从预处理后的所述企业公有数据以及所述企业私有数据中获取对应的若干企业数据信息;将每一所述企业标签以及其对应的每一所述企业数据信息进行数据映射操作,得到若干第五样本;确定每一所述第五样本中企业标签与其对应的每一企业数据信息的相关度;将相关度大于预设阈值的多个所述第五样本融合得到所述企业数据集。

在一些实施方式中,所述处理器301还用于基于所述企业私有数据以及所述企业公有数据构建所述企业标签的初始预测模型;利用所述企业知识图谱对所述初始预测模型的损失函数进行优化,以得到所述企业标签的目标预测模型。

在一些实施方式中,所述处理器301还用于分别对所述企业公有数据以及所述企业私有数据依次进行数据清洗与转换操作、变量筛选操作以及数据集划分操作。

本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时实现本申请实施例提供的企业标签可解释的预测方法。

其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备300的内部存储单元,例如所述计算机设备的硬盘或内存。

请参阅图6,图6为本申请提供的一种计算机可读存储介质的结构示意图。本申请的存储介质40存储有能够实现上述所有企业标签可解释的预测方法的计算机程序,其中,该计算机程序可以以软件产品的形式存储在上述存储介质40中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等装置。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号