首页> 中国专利> 相似度特征向量的构建方法、装置、电子设备及存储介质

相似度特征向量的构建方法、装置、电子设备及存储介质

摘要

本申请提供了一种相似度特征向量的构建方法、装置、电子设备及存储介质,从多个数据匹配标签中的每个数据匹配标签中确定出至少一个属性特征和每个属性特征对应的属性值;基于每个数据匹配标签的各个属性特征的属性值,确定任意两个数据匹配标签中同类别属性特征的属性相似度;根据每个数据匹配标签中包括的属性特征和属性特征的数量,确定两个数据匹配标签之间的属性数占比,最后,基于每两个数据匹配标签之间的属性相似度以及属性数占比,构建用于输入至确定多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量。这样,可以有效地将多个数据匹配标签转换为相似度特征向量,可以降低匹配模型的局限性,以及提高实体匹配结果的准确性。

著录项

  • 公开/公告号CN112733939A

    专利类型发明专利

  • 公开/公告日2021-04-30

    原文格式PDF

  • 申请/专利权人 上海明略人工智能(集团)有限公司;

    申请/专利号CN202110037613.2

  • 发明设计人 黄艳香;吴信东;白强伟;

    申请日2021-01-12

  • 分类号G06K9/62(20060101);

  • 代理机构11646 北京超成律师事务所;

  • 代理人孔默

  • 地址 200030 上海市徐汇区云锦路701号29、30、31、32层

  • 入库时间 2023-06-19 10:48:02

说明书

技术领域

本申请涉及信息处理技术领域,尤其是涉及一种相似度特征向量的构建方法、装置、电子设备及存储介质。

背景技术

随着企业的不断发展,由于管理人员变迁、物理布局分散、系统自治等原因,数据存在来源繁杂(不同类型的关系型数据库,不同部门的数据等)、结构异构(SQL,NoSQL数据库,文本文件,Hive大数据等)等问题,要完成不同部门数据资产的统一管理,并不简单。在企业的数字化转型过程中,将多源异构的数据进行集成、融合,是企业做好上层应用的必要基础条件,而在数据融合的过程中实体匹配是这一过程中非常重要的一环。

目前,传统的机器学习方法、以及词嵌入(word embedding)方法等构建的特征向量往往与特征数量相关,当从不同数据源获取到的特征数量不同时,使用针对某一数据源训练好的匹配模型,则会使得匹配的结果不够准确,另外,使用同一数据源训练好的匹配模型,不能够跨数据源进行实体匹配,局限性较高。

发明内容

有鉴于此,本申请的目的在于提供一种相似度特征向量的构建方法、装置、电子设备及存储介质,可以有效地将从不同的数据源获取到的数据匹配标签,转换为相似度特征向量,进而,有助于提高匹配模型的鲁棒性以及降低匹配模型的局限性,从而,可以提高实体匹配结果的准确性。

本申请实施例提供了一种相似度特征向量的构建方法,所述构建方法包括:

获取待匹配的多个数据匹配标签;

针对于每个数据匹配标签,从该数据匹配标签中确定出至少一个属性特征以及每个属性特征对应的属性值;

针对于每两个数据匹配标签,基于每个数据匹配标签中各个属性特征对应的属性值,确定所述两个数据匹配标签中同类别属性特征之间的属性相似度;

基于所述两个数据匹配标签中的每个数据匹配标签中包括的属性特征以及属性特征的数量,确定所述两个数据匹配标签之间的属性数占比;

基于所述多个数据匹配标签中每两个数据匹配标签之间的属性相似度以及属性数占比,构建用于输入至确定所述多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量。

进一步的,所述基于所述多个数据匹配标签中每两个数据匹配标签之间的属性相似度以及属性数占比,构建用于输入至确定所述多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量,包括:

针对于每两个数据匹配标签,基于所述两个数据匹配标签在各个属性特征下的属性相似度,确定所述两个数据匹配标签之间的统计相似度以及相似度占比;

基于所述多个数据匹配标签中每两个数据匹配标签之间的统计相似度、相似度占比以及属性数占比,构建用于输入至确定所述多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量。

进一步的,当所述属性数占比包括共同属性占比、最小属性占比以及最大属性占比时,所述基于所述两个数据匹配标签中的每个数据匹配标签中包括的属性特征以及属性特征的数量,确定所述两个数据匹配标签之间的属性数占比,包括:

确定所述两个数据匹配标签中均具有的属性特征的第一数量,以及所述两个数据匹配标签中每个数据匹配标签所包括的属性特征的第二数量;

基于所述第一数量以及每个数据匹配标签的第二数量,确定所述两个数据匹配标签之间的共同属性占比、最小属性占比以及最大属性占比。

进一步的,通过以下步骤确定所述两个数据匹配标签之间的相似度占比:

基于所述两个数据匹配标签之间的属性相似度,确定位于预设的每个相似度区间内的属性相似度的第三数量;

针对于每个相似度区间,基于所述第一数量以及所述第三数量,确定所述两个数据匹配标签在该相似度区间内对应的相似度占比。

进一步的,所述统计相似度包括最大属性相似度、最小属性相似度、平均属性相似度以及中位数属性相似度。

本申请实施例还提供了一种相似度特征向量的构建装置,所述构建装置包括:

标签获取模块,用于获取待匹配的多个数据匹配标签;

第一确定模块,用于针对于每个数据匹配标签,从该数据匹配标签中确定出至少一个属性特征以及每个属性特征对应的属性值;

第二确定模块,用于针对于每两个数据匹配标签,基于每个数据匹配标签中各个属性特征对应的属性值,确定所述两个数据匹配标签中同类别属性特征之间的属性相似度;

第三确定模块,用于基于所述两个数据匹配标签中的每个数据匹配标签中包括的属性特征以及属性特征的数量,确定所述两个数据匹配标签之间的属性数占比;

向量构建模块,用于基于所述多个数据匹配标签中每两个数据匹配标签之间的属性相似度以及属性数占比,构建用于输入至确定所述多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量。

进一步的,所述向量构建模块在用于基于所述多个数据匹配标签中每两个数据匹配标签之间的属性相似度以及属性数占比,构建用于输入至确定所述多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量时,所述向量构建模块用于:

针对于每两个数据匹配标签,基于所述两个数据匹配标签在各个属性特征下的属性相似度,确定所述两个数据匹配标签之间的统计相似度以及相似度占比;

基于所述多个数据匹配标签中每两个数据匹配标签之间的统计相似度、相似度占比以及属性数占比,构建用于输入至确定所述多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量。

进一步的,当所述属性数占比包括共同属性占比、最小属性占比以及最大属性占比时,所述第三确定模块在用于基于所述两个数据匹配标签中的每个数据匹配标签中包括的属性特征以及属性特征的数量,确定所述两个数据匹配标签之间的属性数占比时,所述第三确定模块用于:

确定所述两个数据匹配标签中均具有的属性特征的第一数量,以及所述两个数据匹配标签中每个数据匹配标签所包括的属性特征的第二数量;

基于所述第一数量以及每个数据匹配标签的第二数量,确定所述两个数据匹配标签之间的共同属性占比、最小属性占比以及最大属性占比。

进一步的,所述向量构建模块用于通过以下步骤确定所述两个数据匹配标签之间的相似度占比:

基于所述两个数据匹配标签之间的属性相似度,确定位于预设的每个相似度区间内的属性相似度的第三数量;

针对于每个相似度区间,基于所述第一数量以及所述第三数量,确定所述两个数据匹配标签在该相似度区间内对应的相似度占比。

进一步的,所述统计相似度包括最大属性相似度、最小属性相似度、平均属性相似度以及中位数属性相似度。

本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的相似度特征向量的构建方法的步骤。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的相似度特征向量的构建方法的步骤。

本申请实施例提供的相似度特征向量的构建方法、装置、电子设备及存储介质,可以从获取到的多个数据匹配标签中的每个数据匹配标签中确定出至少一个属性特征以及每个属性特征对应的属性值,进而,针对于每两个数据匹配标签,基于两个数据匹配标签中的每个数据匹配标签中各个属性特征的属性值,确定两个数据匹配标签中同类别属性特征之间的属性相似度,同时,根据每个数据匹配标签中包括的属性特征以及属性特征的数量,确定上述两个数据匹配标签之间的属性数占比,最后,基于多个数据匹配标签中每两个数据匹配标签之间的属性相似度以及属性数占比,构建用于输入至确定多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量。这样,可以有效地将从不同的数据源获取到的数据匹配标签,转换为相似度特征向量,进而,有助于提高匹配模型的鲁棒性以及降低匹配模型的局限性,从而,可以提高实体匹配结果的准确性。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种相似度特征向量的构建方法的流程图;

图2为本申请实施例所提供的另一种相似度特征向量的构建方法的流程图;

图3为本申请实施例所提供的一种相似度特征向量的构建装置的结构示意图;

图4为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。

经研究发现,目前,传统的机器学习方法、以及词嵌入(word embedding)方法等构建的特征向量往往与特征数量相关,当从不同数据源获取到的特征数量不同时,使用针对某一数据源训练好的匹配模型,则会使得匹配的结果不够准确,另外,使用同一数据源训练好的匹配模型,不能够跨数据源进行实体匹配,局限性较高。

基于此,本申请实施例提供了一种相似度特征向量的构建方法,有助于提高匹配模型的鲁棒性以及降低匹配模型的局限性,从而,可以提高实体匹配结果的准确性。

请参阅图1,图1为本申请实施例所提供的一种相似度特征向量的构建方法的流程图。如图1中所示,本申请实施例提供的相似度特征向量的构建方法,包括:

S101、获取待匹配的多个数据匹配标签。

该步骤中,从不同的数据源中获取待匹配的多个数据匹配标签,其中,每个数据匹配标签中存在有待匹配的实体,例如,数据匹配标签1:“张三,男,30岁,A公司”、数据匹配标签2:“张三,男,28岁,B公司”,对于上述两个数据匹配标签来说,可以判断其中的实体“张三”是否为同一个人;或者是,判断“A公司”与“B公司”是否为同一个公司。

这里,各个数据匹配标签中的属性特征的个数可以是相同的,也可以是不同的,例如,数据匹配标签3:“张三,30岁,A公司”,此时,数据匹配标签3中属性特征的数量与数据匹配标签1和数据匹配标签2中属性特征的数量不同。

S102、针对于每个数据匹配标签,从该数据匹配标签中确定出至少一个属性特征以及每个属性特征对应的属性值。

该步骤中,针对于获取到的多个数据匹配标签中的每个数据匹配标签,识别出该数据匹配标签中所包括的至少一个属性特征,以及每个属性特征对应的属性值。

对应于上述实施例,数据匹配标签1:“张三,男,30岁,A公司”,对于数据匹配标签1,识别出属性特征A

S103、针对于每两个数据匹配标签,基于每个数据匹配标签中各个属性特征对应的属性值,确定所述两个数据匹配标签中同类别属性特征之间的属性相似度。

该步骤中,分别确定多个数据匹配标签中每两个数据匹配标签之间,各个同类别属性特征之间的属性相似度,具体的,针对于获取到的每两个数据匹配标签,基于两个数据匹配标签中各个属性特征对应的属性值,确定上述两个数据匹配标签中相同类别的属性特征下的属性相似度sim(V

对应于上述实施例,分别确定数据匹配标签1与数据匹配标签2中各个同类别属性特征之间的属性相似度;数据匹配标签2与数据匹配标签3中各个同类别属性特征之间的属性相似度以及数据匹配标签1与数据匹配标签3中各个同类别属性特征之间的属性相似度。

以数据匹配标签1和数据匹配标签3为例,数据匹配标签1:属性特征A

这里,由于数据匹配标签3不包含“性别”这一属性特征,因此,对于数据匹配标签3来说,属性特征A

当两个数据匹配标签中同类别属性特征的属性值均不为0时,两个数据匹配标签在该类别属性特征下的相似度可采用现有的相似度计算方式进行计算,如传统的编辑距离、Jaccard相似度、cosine相似度,或基于词嵌入的语义相似度等,即可以通过上述相似度计算方式,计算两个数据匹配标签在“姓名”这一属性特征下的相似度sim(V

S104、基于所述两个数据匹配标签中的每个数据匹配标签中包括的属性特征以及属性特征的数量,确定所述两个数据匹配标签之间的属性数占比。

该步骤中,针对于获取到的每两个数据匹配标签,根据两个数据匹配标签中每个数据匹配标签中的属性特征以及属性特征的数量,确定两个数据匹配标签之间的属性数占比,其中,属性数占比可以包括共同属性占比、最小属性占比以及最大属性占比。

S105、基于所述多个数据匹配标签中每两个数据匹配标签之间的属性相似度以及属性数占比,构建用于输入至确定所述多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量。

该步骤中,在确定出多个数据匹配标签中每两个数据匹配标签之间的属性相似度以及属性数占比之后,基于每两个数据匹配标签之间的属性相似度以及属性数占比,即基于“数据匹配标签1和数据匹配标签2之间的属性相似度以及属性数占比”、“数据匹配标签1和数据匹配标签3之间的属性相似度以及属性数占比”以及“数据匹配标签2和数据匹配标签3之间的属性相似度以及属性数占比”,构建出多个数据匹配标签对应的相似度特征向量,这里,相似度特征向量可以作为输入特征,输入至确定多个数据匹配标签中实体是否匹配的匹配模型的。

其中,相似度特征向量可以用于训练未训练好的匹配模型;或者是,在匹配模型训练好之后,可以根据相似度特征向量,确定多个数据匹配标签中的实体是否为同一个实体,对应于上述实施例,确定数据匹配标签1和数据匹配标签2中的“张三”是否为同一个人。

本申请实施例提供的相似度特征向量的构建方法,可以从获取到的多个数据匹配标签中的每个数据匹配标签中确定出至少一个属性特征以及每个属性特征对应的属性值,进而,针对于每两个数据匹配标签,基于两个数据匹配标签中的每个数据匹配标签中各个属性特征的属性值,确定两个数据匹配标签中同类别属性特征之间的属性相似度;同时,根据每个数据匹配标签中包括的属性特征以及属性特征的数量,确定上述两个数据匹配标签之间的属性数占比,最后,基于多个数据匹配标签中每两个数据匹配标签之间的属性相似度以及属性数占比,构建用于输入至确定多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量。这样,可以有效地将从不同的数据源获取到的数据匹配标签,转换为相似度特征向量,进而,有助于提高匹配模型的鲁棒性以及降低匹配模型的局限性,从而,可以提高实体匹配结果的准确性。

请参阅图2,图2为本申请实施例所提供的另一种相似度特征向量的构建方法的流程图。如图2中所示,本申请实施例提供的相似度特征向量的构建方法,包括:

S201、获取待匹配的多个数据匹配标签。

S202、针对于每个数据匹配标签,从该数据匹配标签中确定出至少一个属性特征以及每个属性特征对应的属性值。

S203、针对于每两个数据匹配标签,基于每个数据匹配标签中各个属性特征对应的属性值,确定所述两个数据匹配标签中同类别属性特征之间的属性相似度。

S204、基于所述两个数据匹配标签中的每个数据匹配标签中包括的属性特征以及属性特征的数量,确定所述两个数据匹配标签之间的属性数占比。

S205、针对于每两个数据匹配标签,基于所述两个数据匹配标签在各个属性特征下的属性相似度,确定所述两个数据匹配标签之间的统计相似度以及相似度占比。

该步骤中,针对于多个数据匹配标签中的每两个数据匹配标签,基于上述两个数据匹配标签在各个属性特征下的属性相似度,计算上述两个数据匹配标签之间的统计相似度以及相似度占比。

这里,统计相似度包括最大属性相似度、最小属性相似度、平均属性相似度以及中位数属性相似度。相似度占比为两个数据匹配标签在各个属性特征下的属性相似度在各个相似度区间内对应的比例。

具体的,通过以下公式计算最大属性相似度:

其中,sim

通过以下公式计算最小属性相似度:

其中,sim

通过以下公式计算平均属性相似度:

其中,sim

通过以下公式计算中位数属性相似度:

其中,sim

这里,当计算最小相似度、平均属性相似度以及中位数属性相似度时,仅计算两个数据匹配标签之间均具有属性值的属性特征的属性相似度,若两个数据匹配标签之间有一方的属性特征的属性值为空,那么在计算最小相似度、平均属性相似度以及中位数属性相似度时,则不考虑两个数据匹配标签在该属性特征下的属性相似度。

S206、基于所述多个数据匹配标签中每两个数据匹配标签之间的统计相似度、相似度占比以及属性数占比,构建用于输入至确定所述多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量。

该步骤中,基于确定出的多个数据匹配标签中每两个数据匹配标签之间的统计相似度、相似度占比以及属性数占比,构建出多个数据匹配标签对应的相似度特征向量,这里,相似度特征向量可以作为输入特征,输入至确定多个数据匹配标签中实体是否匹配的匹配模型的。

其中,S201至S204的描述可以参照S101至S104的描述,并且能达到相同的技术效果,对此不做赘述。

进一步的,当所述属性数占比包括共同属性占比、最小属性占比以及最大属性占比时,步骤S204包括:确定所述两个数据匹配标签中均具有的属性特征的第一数量,以及所述两个数据匹配标签中每个数据匹配标签所包括的属性特征的第二数量;基于所述第一数量以及每个数据匹配标签的第二数量,确定所述两个数据匹配标签之间的共同属性占比、最小属性占比以及最大属性占比。

该步骤中,当属性数占比包括共同属性占比、最小属性占比以及最大属性占比时,在确定两个数据匹配标签之间的属性数占比之前,首先,确定两个数据匹配标签中均包括的属性特征的第一数量,对应于上述实施例,对于数据匹配标签1和数据匹配标签3来说,均具有的属性特征为“姓名”这一属性特征、“年龄”这一属性特征以及“工作单位”这一属性特征;那么,对于数据匹配标签1和数据匹配标签3来说均具有的属性特征的第一数量为3。

然后,分别确定两个数据匹配标签中每个数据匹配标签所包括的属性特征的第二数量,对应于上述实施例,数据匹配标签1所包括的属性特征为“姓名”、“年龄”、“性别”以及“工作单位”,那么,数据匹配标签1所包括的属性特征的第二数量为4;而对于数据匹配标签3所包括的属性特征为“姓名”、“年龄”以及“工作单位”,那么,数据匹配标签3所包括的属性特征的第二数量为3。

最后,基于确定出的第一数量以及每个数据匹配标签的第二数量,通过以下公式确定出两个数据配标签之间的共同属性占比、最小属性占比以及最大属性占比:

其中,X

其中,X

其中,X

进一步的,通过以下步骤确定所述两个数据匹配标签之间的相似度占比:基于所述两个数据匹配标签之间的属性相似度,确定位于预设的每个相似度区间内的属性相似度的第三数量;针对于每个相似度区间,基于所述第一数量以及所述第三数量,确定所述两个数据匹配标签在该相似度区间内对应的相似度占比。

该步骤中,预先划分出多个相似度区间,根据两个数据匹配标签在各个属性特征下的属性相似度,确定位于预设的每个相似度区间内的属性相似度的第三数量;进而,针对于每个相似度区间,基于第一数量以及位于该相似度区间内的属性相似度的第三数量,确定两个数据匹配标签在该相似度区间内的相似度占比。

通过以下公式计算相似度占比:

其中,X

本申请实施例提供的相似度特征向量的构建方法,可以从获取到的多个数据匹配标签中的每个数据匹配标签中确定出至少一个属性特征以及每个属性特征对应的属性值,进而,针对于每两个数据匹配标签,基于两个数据匹配标签中的每个数据匹配标签中各个属性特征的属性值,确定两个数据匹配标签中同类别属性特征之间的属性相似度,基于两个数据匹配标签在各个属性特征下的属性相似度,确定两个数据匹配标签之间的统计相似度以及相似度占比;同时,根据每个数据匹配标签中包括的属性特征以及属性特征的数量,确定上述两个数据匹配标签之间的属性数占比,最后,基于多个数据匹配标签中每两个数据匹配标签之间的统计相似度、相似度占比以及属性数占比,构建用于输入至确定多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量。这样,可以有效地将从不同的数据源获取到的数据匹配标签,转换为相似度特征向量,进而,有助于提高匹配模型的鲁棒性以及降低匹配模型的局限性,从而,可以提高实体匹配结果的准确性。

请参阅图3,图3为本申请实施例所提供的一种相似度特征向量的构建装置的结构示意图。如图3中所示,所述构建装置300包括:

标签获取模块310,用于获取待匹配的多个数据匹配标签;

第一确定模块320,用于针对于每个数据匹配标签,从该数据匹配标签中确定出至少一个属性特征以及每个属性特征对应的属性值;

第二确定模块330,用于针对于每两个数据匹配标签,基于每个数据匹配标签中各个属性特征对应的属性值,确定所述两个数据匹配标签中同类别属性特征之间的属性相似度;

第三确定模块340,用于基于所述两个数据匹配标签中的每个数据匹配标签中包括的属性特征以及属性特征的数量,确定所述两个数据匹配标签之间的属性数占比;

向量构建模块350,用于基于所述多个数据匹配标签中每两个数据匹配标签之间的属性相似度以及属性数占比,构建用于输入至确定所述多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量。

进一步的,所述向量构建模块350在用于基于所述多个数据匹配标签中每两个数据匹配标签之间的属性相似度以及属性数占比,构建用于输入至确定所述多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量时,所述向量构建模块350用于:

针对于每两个数据匹配标签,基于所述两个数据匹配标签在各个属性特征下的属性相似度,确定所述两个数据匹配标签之间的统计相似度以及相似度占比;

基于所述多个数据匹配标签中每两个数据匹配标签之间的统计相似度、相似度占比以及属性数占比,构建用于输入至确定所述多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量。

进一步的,当所述属性数占比包括共同属性占比、最小属性占比以及最大属性占比时,所述第三确定模块340在用于基于所述两个数据匹配标签中的每个数据匹配标签中包括的属性特征以及属性特征的数量,确定所述两个数据匹配标签之间的属性数占比时,所述第三确定模块340用于:

确定所述两个数据匹配标签中均具有的属性特征的第一数量,以及所述两个数据匹配标签中每个数据匹配标签所包括的属性特征的第二数量;

基于所述第一数量以及每个数据匹配标签的第二数量,确定所述两个数据匹配标签之间的共同属性占比、最小属性占比以及最大属性占比。

进一步的,所述向量构建模块350用于通过以下步骤确定所述两个数据匹配标签之间的相似度占比:

基于所述两个数据匹配标签之间的属性相似度,确定位于预设的每个相似度区间内的属性相似度的第三数量;

针对于每个相似度区间,基于所述第一数量以及所述第三数量,确定所述两个数据匹配标签在该相似度区间内对应的相似度占比。

进一步的,所述统计相似度包括最大属性相似度、最小属性相似度、平均属性相似度以及中位数属性相似度。

本申请实施例提供的相似度特征向量的构建装置,可以从获取到的多个数据匹配标签中的每个数据匹配标签中确定出至少一个属性特征以及每个属性特征对应的属性值,进而,针对于每两个数据匹配标签,基于两个数据匹配标签中的每个数据匹配标签中各个属性特征的属性值,确定两个数据匹配标签中同类别属性特征之间的属性相似度,同时,根据每个数据匹配标签中包括的属性特征以及属性特征的数量,确定上述两个数据匹配标签之间的属性数占比,最后,基于多个数据匹配标签中每两个数据匹配标签之间的属性相似度以及属性数占比,构建用于输入至确定多个数据匹配标签中实体是否匹配的匹配模型的相似度特征向量。这样,可以有效地将从不同的数据源获取到的数据匹配标签,转换为相似度特征向量,进而,有助于提高匹配模型的鲁棒性以及降低匹配模型的局限性,从而,可以提高实体匹配结果的准确性。

请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。

所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1以及图2所示方法实施例中的相似度特征向量的构建方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的相似度特征向量的构建方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号