首页> 中国专利> 基于图数据库实现ID Mapping的方法及装置

基于图数据库实现ID Mapping的方法及装置

摘要

本发明提供一种基于图数据库实现ID Mapping的方法及装置,所述方法包括:从源ID数据记录中获取第T日出现的ID节点和第T日出现的ID节点关系;对第T日出现的ID节点、第T日出现的ID节点关系以及第T‑1日对应的ID关系网进行标识连通,获取第T日对应的第一ID关系网;根据第一ID关系网中ID节点的活跃度和ID节点关系的活跃度对第一ID关系网进行清理,获取第T日对应的第二ID关系网。本发明通过清理活跃度低于阈值的ID节点,实现清理过期ID,通过断开活跃度低于阈值的ID节点关系,实现对ID节点弱关联关系的清理,提高用户ID关系网的可靠性、准确性和稳定性。

著录项

  • 公开/公告号CN114880522A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 邦道科技有限公司;

    申请/专利号CN202210303694.0

  • 申请日2022-03-24

  • 分类号G06F16/901(2019.01);G06F16/215(2019.01);G06F16/23(2019.01);

  • 代理机构北京路浩知识产权代理有限公司 11002;

  • 代理人陈新生

  • 地址 214028 江苏省无锡市新吴区菱湖大道111号无锡软件园天鹅座B栋10楼

  • 入库时间 2023-06-19 16:17:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06F16/901 专利申请号:2022103036940 申请日:20220324

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及大数据技术领域,尤其涉及一种基于图数据库实现ID Mapping的方法及装置。

背景技术

在现实生活中,用户可以通过多种多样的设备,从各种各样的入口,获得企业提供的服务;企业也可以发展多种业务线,形成多种产品,而且能够从不同的渠道为用户提供服务,因此导致同一用户的数据来自不同的数据源,数据种类繁杂而且分散在各个位置。

大数据平台在物理上解决了数据分散在各个位置的“数据孤岛”问题,但是在逻辑上,多个不同来源的数据之间难于建立关联,数据仍处于割裂的状态,这就导致只能从单个或很少的数据构建用户的一个片面画像,相当于“盲人摸象”,难以提供一个用户的完整信息。

多种不同来源的数据的一个共同之处就是来自于同一个用户,而通常数据中记录了标识用户身份的信息,这里统称为“用户标识(Identity document,ID)”。用户ID就是代表一个用户实体的一串序列号,例如身份证号、手机号、邮箱、微信号、设备号、Cookie ID及介质访问控制(Media Access Contro,MAC)地址等。因此建立用户ID之间的关系就能够在数据之间建立联系。而其中,构建用户ID之间的关系的过程,就是ID Mapping的主要过程。

通俗来说,ID Mapping就是通过各种技术手段将多个不同来源数据中的用户ID识别为同一主体并生成标识用户唯一身份的统一身份标识(统一身份标识即one-ID)。根据处理过程中所使用数据结构,ID Mapping实现方式大致可以概括为3类:字典方式、表方式和图方式,但是这3种方式中当前的具体实现方法都主要聚焦于构建ID关系,未重视ID过期与复用问题及ID间复杂关系问题的解决,而这两个问题却严重影响构建的用户ID关系网的可靠性、准确性和稳定性。其中,ID过期和复用问题是由用户ID的生命周期和精度不同产生的,例如通常一人一生只有一个身份证号,而手机号、邮箱及设备号等会较常发生改变;ID间复杂关系问题是现实复杂场景导致的,例如同设备多账号、同账号多设备、多账号、多数据源及异常数据等。

发明内容

本发明提供一种基于图数据库实现ID Mapping的方法及装置,用以解决现有技术中用户ID关系网的可靠性不高、准确性不高和稳定性不高的缺陷,实现对ID过期、ID复用以及ID复杂关系的有效处理,提高用户ID关系网的可靠性、准确性和稳定性。

本发明提供一种基于图数据库实现ID Mapping的方法,包括:

从源ID数据记录中获取第T日出现的ID节点和所述第T日出现的ID节点关系;

对所述第T日出现的ID节点、所述第T日出现的ID节点关系以及第T-1日对应的ID关系网进行标识连通,获取第T日对应的第一ID关系网;

根据所述第一ID关系网中ID节点的活跃度和ID节点关系的活跃度对所述第一ID关系网进行清理,获取第T日对应的第二ID关系网。

可选地,所述根据所述第一ID关系网中ID节点的活跃度和ID节点关系的活跃度对所述第一ID关系网进行清理之前,还包括:

分别对所述ID节点的属性和所述ID节点关系的属性进行更新;

分别对所述ID节点更新后的属性和所述ID节点关系更新后的属性进行特征提取,获取所述ID节点的特征值和所述ID节点关系的特征值;

根据所述ID节点的特征值和所述ID节点的特征值对应的权重,获取所述ID节点的活跃度;

根据所述ID节点关系的特征值和所述ID节点关系的特征值对应的权重,获取所述ID节点关系的活跃度。

可选地,根据所述第一ID关系网中ID节点的活跃度和ID节点关系的活跃度对所述第一ID关系网进行清理,获取第T日对应的第二ID关系网,包括:

在所述第一ID关系网中ID节点的活跃度小于节点活跃度阈值的情况下,将所述ID节点清理出所述第一ID关系网;

在所述第一ID关系网中ID节点关系的活跃度小于关系活跃度阈值的情况下,将所述ID节点关系清理出所述第一ID关系网;

根据清理后的所述第一ID关系网,获取第T日对应的第二ID关系网。

可选地,所述根据清理后的所述第一ID关系网,获取第T日对应的第二ID关系网,包括:

在所述ID节点或所述ID节点关系的清理未导致所述第一ID关系网中的关系子网分裂的情况下,所述第二ID关系网中的关系子网的统一身份标识为所述第一ID关系网中的关系子网的统一身份标识;

在所述ID节点或所述ID节点关系的清理导致所述第一ID关系网中的关系子网分裂为多个关系子网的情况下,所述第二ID关系网中所述多个关系子网中的一个关系子网的统一身份标识为所述第一ID关系网中的关系子网的统一身份标识,所述多个关系子网中的其他关系子网的统一身份标识为新生成的统一身份标识。

可选地,所述根据所述第一ID关系网中ID节点的活跃度和ID节点关系的活跃度对所述第一ID关系网进行清理,获取第T日对应的第二ID关系网之后,还包括:

从源ID数据记录中获取预设时间内未活跃的ID节点和未活跃的ID节点关系;

对所述未活跃的ID节点的活跃度和所述未活跃的ID节点关系的活跃度进行更新;

根据所述未活跃的ID节点更新后的活跃度和所述未活跃的ID节点关系更新后的活跃度对所述第二ID关系网进行清理,获取第T日对应的第三ID关系网。

可选地,所述对所述第T日出现的ID节点、所述第T日出现的ID节点关系以及第T-1日对应的ID关系网进行标识连通,获取第T日对应的第一ID关系网之前,还包括:

根据所述第T日出现的ID节点和第T-1日对应的标识映射字典,获取在第T-1日存在的统一身份标识;

根据所述在第T-1日存在的统一身份标识,获取所述第T-1日对应的ID关系网。

可选地,所述对所述第T日出现的ID节点、所述第T日出现的ID节点关系以及第T-1日对应的ID关系网进行标识连通,获取第T日对应的第一ID关系网之后,还包括:

在所述第一ID关系网中的关系子网存在一个统一身份标识的情况下,所述关系子网的统一身份标识为存在的所述统一身份标识;

在所述第一ID关系网中的关系子网存在一个以上统一身份标识的情况下,所述关系子网的统一身份标识为创建时间最早和合并或拆分次数最多的统一身份标识;

在所述第一ID关系网中的关系子网不存在统一身份标识的情况下,所述关系子网的统一身份标识为新生成的统一身份标识。

本发明还提供一种基于图数据库实现ID Mapping的装置,包括:

第一获取模块,用于从源ID数据记录中获取第T日出现的ID节点和所述第T日出现的ID节点关系;

第二获取模块,用于对所述第T日出现的ID节点、所述第T日出现的ID节点关系以及第T-1日对应的ID关系网进行标识连通,获取第T日对应的第一ID关系网;

第三获取模块,用于根据所述第一ID关系网中ID节点的活跃度和ID节点关系的活跃度对所述第一ID关系网进行清理,获取第T日对应的第二ID关系网。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述中的任一项所述基于图数据库实现ID Mapping的方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述中的任一项所述基于图数据库实现ID Mapping的方法。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述中的任一项所述基于图数据库实现ID Mapping的方法。

本发明提供的基于图数据库实现ID Mapping的方法及装置,通过清理活跃度低于阈值的ID节点,实现了清理过期ID,解决了ID过期的问题,通过断开活跃度低于阈值的ID节点关系,实现对ID节点之间弱关联关系的清理,解决了ID复用和ID复杂关系的问题,从而提高了用户ID关系网的可靠性、准确性和稳定性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的基于图数据库实现ID Mapping的方法的流程示意图之一;

图2是本发明提供的基于图数据库实现ID Mapping的方法的流程示意图之二;

图3是本发明提供的基于图数据库实现ID Mapping的装置的结构示意图;

图4是本发明提供的电子设备的结构示意图。

具体实施方式

ID Mapping的字典方式是3类方法中最简单的,在ID Mapping的字典方式中,用关键字(key)表示源数据中的ID,用值(value)表示生成的统一one-ID,其主要流程是判断提取的ID是否在key中,若key中存在提取的ID,则使用已存在的one-ID;若key中不存在提取的ID,则创建新的one-ID。ID联系可能会随着ID的增加而产生,因此还需要合并字典,即合并已存在ID关系但未建立ID间联系的ID。

ID Mapping的字典方式的优点是原理简单,易于实现,处理效率高;缺点是不能解决的ID过期和复用问题及ID复杂关系问题,例如同设备多用户时多个用户会被合并为一个用户。

ID最普遍的组织方式是表记录的形式,一条记录包含同时出现的多个ID,同时包含ID关系,因此,表方式是3类方式中提出方法最多的。其简要流程:以记录为单位,合并具有相同ID的记录的形成统一one-ID,而关键点是降低合并记录的错误率。

ID Mapping的表方式的优点在于原理和实现比较简单,合并时能够降低错误率;其缺点在于数据量较大时处理速度较慢,独立处理单个ID和ID关系比较难,仍然未解决ID过期和复用问题及ID复杂关系问题,例如手机号转让带来的问题。

ID关系的本质就是网络结构,因而,图方式是3类方式中最直接的,而且随着图数据库的成熟,图方式的方案得到更广泛地应用。其主要是通过将记录中的ID构建为图,而且通常会在构建图过程中设置边阈值过滤掉ID弱关联关系;然后通过最大连通子图算法获得图中的所有连通子图,并为每个子图生成唯一的one-ID,其中一个子图就代表一个用户ID关系网;该方式通过设置用户行为规则(例如,设置一个用户在预设时间内可以拥有某个类型ID的阈值数)和ID优先级(例如设置身份证号的优先级最高)处理ID复杂关系问题。

ID Mapping的图方式的优点是图结构表示ID关系直观易理解,易于处理单个ID和ID关系;其缺点是缺少有效处理ID过期和复用的问题的方法,ID复杂关系问题虽然提出了处理规则,但是太过简单。

为了对ID过期和复用问题,以及ID复杂关系问题进行有效处理,提高用户ID及ID关系网的可靠性、准确性和稳定性,本发明通过清理活跃度低于阈值的ID节点,实现了清理过期ID,解决了ID过期的问题,通过断开活跃度低于阈值的ID节点关系,实现对ID节点之间弱关联关系的清理,解决了ID复用和ID复杂关系的问题,从而提高了用户ID及ID关系网的可靠性、准确性和稳定性。

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1是本发明提供的基于图数据库实现ID Mapping的方法的流程示意图之一,如图1所示,本发明提供一种基于图数据库实现ID Mapping的方法,该方法包括:

步骤101,从源ID数据记录中获取第T日出现的ID节点和所述第T日出现的ID节点关系。

具体地,图2是本发明提供的基于图数据库实现ID Mapping的方法的流程示意图之二,源数据中包含各种ID数据记录,将每条ID数据记录中的ID和ID间的关系写入图数据库,并初始化ID节点的属性和ID节点关系的属性。表1为ID节点的属性表,表2为ID节点关系的属性表。

表1ID节点的属性表

由表1可以看出,ID节点的属性包括节点值、节点类型、节点第1次记录日期、节点最近活跃的日期、节点活跃天数、节点每次出现距第1次记录的天数的列表、节点度值、节点活跃度,其中,节点优先级和节点活跃度阈值与节点类型紧密相关,两个节点类型相同的ID节点具有相同的节点优先级,两个节点类型相同的ID节点具有相同的节点活跃度阈值。

表2ID节点关系的属性表

由表2可以看出,ID节点关系的属性包括关系描述、关系类型、关系节点第1次记录日期、关系最近活跃的日期、关系活跃的天数、关系每次出现距第1次记录的天数的列表、关系活跃度、关系优先级和关系活跃度阈值,其中,关系优先级和关系活跃度阈值与关系类型密切相关,两个关系类型相同的ID节点关系具有相同的关系优先级,两个关系类型相同的ID节点关系具有相同的关系活跃度阈值。

在初始化时,除节点优先级、关系优先级、节点度值外,其他的ID节点的属性和ID节点关系的属性全部取1。

将源数据中包含的ID和ID间的关系写入图数据库之后,从图数据库中获取第T日出现的ID节点和第T日出现的ID节点关系。

例如,第T日出现的ID节点有设备号dev_001、手机号150***、身份证号430***、账号ccc、身份证号560***。第T日出现的ID节点关系有设备号dev_001与手机号150***之间的关系,身份证号430***与账号ccc之间的关系。

步骤102,对所述第T日出现的ID节点、所述第T日出现的ID节点关系以及第T-1日对应的ID关系网进行标识连通,获取第T日对应的第一ID关系网。

具体地,在进行标识连通获取第T日对应的第一ID关系网之前,还需要先获取第T-1日对应的ID关系网。

可选地,对第T日出现的ID节点、第T日出现的ID节点关系以及第T-1日对应的ID关系网进行标识连通,获取第T日对应的第一ID关系网之前,还包括:

根据第T日出现的ID节点和第T-1日对应的标识映射字典,获取在第T-1日存在的统一身份标识;

根据在第T-1日存在的统一身份标识,获取第T-1日对应的ID关系网。

具体地,统一身份标识即one-ID,统一身份标识是one-ID的中文翻译。标识映射字典中包含one-ID、每一个one-ID对应的ID节点和ID节点关系。

将第T日出现的ID节点与第T-1日对应的标识映射字典中包含的ID节点进行比对,查找到既在第T日出现的ID节点也包含在第T-1日对应的标识映射字典中的ID节点,根据查找到的ID节点在第T-1日对应的标识映射字典中的对应关系,获取查找到的ID节点对应的one-ID,即第T-1日存在的one-ID。在获取第T-1日存在的one-ID之后,从图数据库中查找第T-1日存在的one-ID对应的ID节点和ID节点关系,从而获取了第T-1日对应的ID关系网。

例如,第T日出现的节点手机号150***在第T-1日对应的标识映射字典中也存在,在第T-1日对应的标识映射字典中,手机号150***对应的one-ID为one-ID01,再根据one-ID01在图数据库中查找与其有对应关系的ID节点和ID节点关系,查找到与one-ID01关联的身份证号320***、账号aaa、手机号150***,以及身份证号320***与手机号150***之间的关系,身份证号320***与账号aaa之间的关系。

通过先利用第T日出现的ID节点和第T-1日对应的标识映射字典,获取第T-1日存在的one-ID,再在根据在图数据库中查找与第T-1日存在的one-ID对应的ID节点和ID节点关系,从而获取了第T-1日对应的ID关系网,为后续利用第T-1日对应的ID关系网进行标识连通,获取第T日对应的第一ID关系网奠定了基础。

在获取第T日对应的第一ID关系网之后,利用最大连通子图算法对第T日出现的ID节点、第T日出现的ID节点关系以及第T-1日对应的ID关系网进行标识连通,也就是将第T日出现的ID节点和ID节点关系连接到第T-1日对应的ID关系网,从而获取第T日对应的第一ID关系网。

在获取第一ID关系网之后,需要对第一ID关系网中关系子网的one-ID进行确定。

可选地,对第T日出现的ID节点、第T日出现的ID节点关系以及第T-1日对应的ID关系网进行标识连通,获取第T日对应的第一ID关系网之后,还包括:

在第一ID关系网中的关系子网存在一个统一身份标识的情况下,关系子网的统一身份标识为存在的统一身份标识;

在第一ID关系网中的关系子网存在一个以上统一身份标识的情况下,关系子网的统一身份标识为创建时间最早和合并或拆分次数最多的统一身份标识;

在第一ID关系网中的关系子网不存在统一身份标识的情况下,关系子网的统一身份标识为新生成的统一身份标识。

具体地,表3是one-ID的属性表,one-ID的属性包括节点值、节点生成时间、合并或拆分时间和合并或拆分次数。ID节点与one-ID间关系属性有关系建立时间,关系建立时间指ID节点和one-ID建立关系的时间。

表3one-ID的属性表

在第一ID关系网中的关系子网存在一个one-ID的情况下,关系子网的one-ID为存在的one-ID。

在第一ID关系网中的关系子网存在多个one-ID的情况下,从多个one-ID中选择创建时间最早和合并或拆分次数最多的one-ID作为关系子网的one-ID。

若多个one-ID的创建时间和合并或拆分次数都相同,则随机从多个one-ID中挑选一个作为关系子网的one-ID。

在第一ID关系网中的关系子网存在不存在one-ID的情况下,根据关系子网中的ID节点和ID节点关系生成一个新的one-ID,将新生成的one-ID作为关系子网的one-ID。

明确了第一ID关系网中关系子网的one-ID的确定,one-ID打通了ID之间的关联,one-ID的确定有利于根据one-ID获取与其相关的全部ID节点和全部ID节点关系。

步骤103,根据所述第一ID关系网中ID节点的活跃度和ID节点关系的活跃度对所述第一ID关系网进行清理,获取第T日对应的第二ID关系网。

具体地,将第一ID关系网中节点活跃度低于节点活跃度阈值的ID节点从第一ID关系网中清理出去;将第一ID关系网中关系活跃度低于关系活跃度阈值的ID节点关系从第一ID关系网中清理出去。根据清理之后的第一ID关系网,获取第T日对应的第二ID关系网。

可选地,根据第一ID关系网中ID节点的活跃度和ID节点关系的活跃度对第一ID关系网进行清理之前,还包括:

分别对ID节点的属性和ID节点关系的属性进行更新;

分别对ID节点更新后的属性和ID节点关系更新后的属性进行特征提取,获取ID节点的特征值和ID节点关系的特征值;

根据ID节点的特征值和ID节点的特征值对应的权重,获取ID节点的活跃度;

根据ID节点关系的特征值和ID节点关系的特征值对应的权重,获取ID节点关系的活跃度。

具体地,第一ID关系网中ID节点和ID节点关系存在两类,一类是第T-1日未出现且第T日出现的ID节点和ID节点关系;另一类是第T-1日出现且第T日未出现的ID节点和ID节点关系。

对于第T-1日未出现且第T日出现的ID节点和ID节点关系,更新表1中的所有ID节点的属性,更新表2中的所有的ID节点关系的属性。

对于第T-1日出现且第T日未出现的ID节点和ID节点关系,仅更新ID节点的节点活跃度属性,仅更新ID节点关系的关系活跃度属性,其他属性不进行更新。

从ID节点更新后的属性和ID节点关系更新后的属性中提取用于评价ID节点的节点活跃度和评价ID节点关系的关系活跃度的特征。表4是ID节点和ID节点关系的特征提取处理表,表4中s表示进行归一化特征处理之前的特征值。

表4 ID节点和ID节点关系的特征提取处理表

由表4可以看出,用于评价ID节点的节点活跃度的特征有节点优先级、活跃天数占第1次记录距当前处理日期的天数的比例、平均活跃间隔天数、最近活跃日期距当前处理日期的天数、活跃间隔天数的标准差、间隔天数的规律性以及节点度值。

用于评价ID节点关系的关系活跃度的特征有活跃天数占第1次记录距当前处理日期的天数的比例、平均活跃间隔天数、最近活跃日期距当前处理日期的天数、关系的两节点最近活跃日期相差天数、活跃间隔天数的标准差、间隔天数的规律性以及关系优先级。

对提取的特征进行归一化处理,从而获取ID节点的特征值和ID节点关系的特征值。

根据ID节点的特征值和ID节点的特征值对应的权重,获取ID节点的活跃度。

ID节点的活跃度的表达式如下所示:

式中,X表示ID节点的活跃度,x表示进行归一化处理后的特征值,x的下标对应表4中的编号,α表示每个节点特征值对应的权重,α

根据ID节点关系的特征值和ID节点关系的特征值对应的权重,获取ID节点关系的活跃度。

ID节点关系的活跃度的表达式如下所示:

式中,Y表示ID节点关系的活跃度,x表示进行归一化处理后的特征值,x的下标对应表4中的编号,β表示每个关系特征值对应的权重,β

通过对ID节点和ID节点关系的属性进行更新,并依据更新后的属性提取特征,对特征进行归一化处理,最后根据特征值和特征值对应的权重获取活跃度,明确了活跃度的计算方法,进一步有利用活跃度进行ID节点和ID节点关系清理。

可选地,根据第一ID关系网中ID节点的活跃度和ID节点关系的活跃度对第一ID关系网进行清理,获取第T日对应的第二ID关系网,包括:

在第一ID关系网中ID节点的活跃度小于节点活跃度阈值的情况下,将ID节点清理出第一ID关系网;

在第一ID关系网中ID节点关系的活跃度小于关系活跃度阈值的情况下,将ID节点关系清理出第一ID关系网;

根据清理后的第一ID关系网,获取第T日对应的第二ID关系网。

具体地,在获取ID节点的活跃度之后,将ID节点的活跃度与节点活跃度阈值进行比较,对活跃度小于节点活跃度阈值的ID节点进行清理。

在获取ID节点关系的活跃度之后,将ID节点关系的活跃度与关系活跃度阈值进行比较,对活跃度小于关系活跃度阈值的ID节点关系进行清理。

根据清理之后的第一ID关系网,获取第T日对应的第二ID关系网。

通过清理活跃度低于阈值的ID节点,实现对过期ID的清理,通过断开活跃度低于阈值的ID节点关系,实现对ID节点之间弱关联关系的清理,提高了用户ID及ID关系网的可靠性、准确性和稳定性。

可选地,根据清理后的第一ID关系网,获取第T日对应的第二ID关系网,包括:

在ID节点或ID节点关系的清理未导致第一ID关系网中的关系子网分裂的情况下,第二ID关系网中的关系子网的统一身份标识为第一ID关系网中的关系子网的统一身份标识;

在ID节点或ID节点关系的清理导致第一ID关系网中的关系子网分裂为多个关系子网的情况下,所述第二ID关系网中所述多个关系子网中的一个关系子网的统一身份标识为所述第一ID关系网中的关系子网的统一身份标识,所述多个关系子网中的其他关系子网的统一身份标识为新生成的统一身份标识。

具体地,对ID节点和ID节点关系进行清理时,需要考虑是否会生成新的关系子网,也就是需要考虑进行清理时,关系子网会不会发生分裂,还需要考虑分裂之后,分裂后的关系子网的one-ID的确定。

在ID节点或ID节点关系的清理未导致第一ID关系网中的关系子网分裂的情况下,则关系子网的one-ID保持不变,第二ID关系网中的关系子网的one-ID为第一ID关系网中的关系子网的one-ID。

例如,在第一ID关系网中,关系子网1的one-ID为one-ID1,从关系子网1中清理了一些ID节点和一些ID节点关系,清理之后的关系子网1没有发生分裂,清理之后的关系子网1为第二ID关系网中的关系子网2,关系子网2的one-ID仍为one-ID1。

在ID节点或ID节点关系的清理导致第一ID关系网中的关系子网分裂为多个关系子网的情况下,根据预设规则从多个关系子网中挑选符合预设规则的一个关系子网继承第一ID关系网中的关系子网的one-ID,其他关系子网的one-ID为根据自身的ID节点和ID节点关系生成的新的one-ID。

预设规则可以是依次按“ID节点活跃度最大、ID节点活跃天数最多、ID节点数量最多以及ID节点最近活跃日期”的挑选顺序从多个关系子网中挑选一个关系子网。

在多个关系子网分别对应的“ID节点活跃度最大、ID节点活跃天数最多、ID节点数量最多以及ID节点最近活跃日期”均相同的情况下,从多个关系子网中随机挑选一个关系子网。

例如,在第一ID关系网中,关系子网A的one-ID为one-IDA,从关系子网A中清理了一些ID节点和一些ID节点关系,清理之后的关系子网A发生分裂,清理之后的关系子网A为第二ID关系网中的关系子网B、关系子网C和关系子网D。

比较关系子网B、关系子网C和关系子网D分别对应的ID节点活跃度最大,若关系子网B对应的ID节点活跃度最大是三个关系子网中最大的,则关系子网B的one-ID为关系子网A的one-IDA,关系子网C和关系子网D根据自身的ID节点和ID节点关系生成的新的one-ID。

若关系子网B、关系子网C和关系子网D分别对应的ID节点活跃度最大均相同时,再比较关系子网B、关系子网C和关系子网D分别对应的ID节点活跃天数最多,关系子网B对应的ID节点活跃天数最多为15天,关系子网C对应的ID节点活跃天数最多为25天,关系子网D对应的ID节点活跃天数最多为12天,则关系子网C的one-ID为关系子网A的one-IDA,关系子网B和关系子网D根据自身的ID节点和ID节点关系生成的新的one-ID。

若关系子网B、关系子网C和关系子网D分别对应的“ID节点活跃度最大、ID节点活跃天数最多、ID节点数量最多以及ID节点最近活跃日期”均相同的情况下,从关系子网B、关系子网C和关系子网D中随机挑选一个关系子网继承关系子网A的one-IDA,其他两个关系子网根据自身的ID节点和ID节点关系生成的新的one-ID。

将获取的第二ID关系网更新到图数据库中,对于已经存在one-ID的关系子网,将更新属性和活跃度后的关系子网更新到图数据库。

根据ID节点和ID节点关系的清理是否导致ID关系子网分裂,对ID关系子网的one-ID进行重新确定,提高了ID关系网的可靠性、准确性和稳定性。

可选地,根据第一ID关系网中ID节点的活跃度和ID节点关系的活跃度对第一ID关系网进行清理,获取第T日对应的第二ID关系网之后,还包括:

从源ID数据记录中获取预设时间内未活跃的ID节点和未活跃的ID节点关系;

对未活跃的ID节点的活跃度和未活跃的ID节点关系的活跃度进行更新;

根据未活跃的ID节点更新后的活跃度和未活跃的ID节点关系更新后的活跃度对第二ID关系网进行清理,获取第T日对应的第三ID关系网。

具体地,前面仅对第T日的ID节点、第T日的ID节点关系和第T-1日的ID关系网进行了筛选,而对于预设时间内未活跃的ID节点和未活跃的ID节点关系未进行考虑。

从源ID数据记录构建的图数据库中,获取预设时间内未活跃的ID节点和未活跃的ID节点关系。预设时间可以根据ID节点的类型和ID节点关系的类型进行合理设置。

利用未活跃的ID节点的属性对该未活跃的ID节点的活跃度进行更新,ID节点的活跃度的计算方法同前文一样,在此不再赘述。

利用未活跃的ID节点关系的属性对该未活跃的ID节点关系的活跃度进行更新,ID节点关系的活跃度的计算方法同前文一样,在此不再赘述。

将未活跃的ID节点更新后的活跃度与节点活跃度阈值进行比较,对活跃度小于节点活跃度阈值的未活跃的ID节点进行清理。

将未活跃的ID节点关系更新后的活跃度与关系活跃度阈值进行比较,对活跃度小于关系活跃度阈值的未活跃的ID节点关系进行清理。

根据清理了未活跃的ID节点和未活跃的ID节点关系的第二ID关系网,获取了第T日对应的第三ID关系网。

对未活跃的ID节点和未活跃的ID节点关系进行清理之后,仍需要考虑是否会生成新的关系子网,仍需要考虑新的关系子网的one-ID的确定。

在未活跃的ID节点或未活跃的ID节点关系的清理未导致第二ID关系网中的关系子网分裂的情况下,则关系子网的one-ID保持不变,第三ID关系网中的关系子网的one-ID为第二ID关系网中的关系子网的one-ID。

在未活跃的ID节点或未活跃的ID节点关系的清理导致第二ID关系网中的关系子网分裂为多个关系子网的情况下,根据预设规则从多个关系子网中挑选符合预设规则的一个关系子网继承第二ID关系网中的关系子网的one-ID,其他关系子网的one-ID为根据自身的ID节点和ID节点关系生成的新的one-ID。将第三ID关系网更新到图数据库中,对于ID节点全部删除的ID关系子网,从图数据库中进行删除。

根据更新的图数据库生成第T日对应的标识映射字典。

通过对预设时间内未活跃的ID节点和ID节点关系进活跃度更新,再根据更新后的活跃度对ID关系网进行清理,提高了ID关系网的可靠性、准确性和稳定性。

本发明提供的基于图数据库实现ID Mapping的方法,通过清理活跃度低于阈值的ID节点,实现了清理过期ID,解决了ID过期的问题,通过断开活跃度低于阈值的ID节点关系,实现对ID节点之间弱关联关系的清理,解决了ID复用和ID复杂关系的问题,从而提高了用户ID关系网的可靠性、准确性和稳定性

下面对本发明提供的基于图数据库实现ID Mapping的装置进行描述,下文描述的基于图数据库实现ID Mapping的装置与上文描述的基于图数据库实现ID Mapping的方法可相互对应参照。

图3是本发明提供的基于图数据库实现ID Mapping的装置的结构示意图,如图3所示,本发明还提供一种基于图数据库实现ID Mapping的装置,包括:第一获取模块301、第二获取模块302和第三获取模块303,其中:

第一获取模块301用于从源ID数据记录中获取第T日出现的ID节点和所述第T日出现的ID节点关系;

第二获取模块302用于对所述第T日出现的ID节点、所述第T日出现的ID节点关系以及第T-1日对应的ID关系网进行标识连通,获取第T日对应的第一ID关系网;

第三获取模块303用于根据所述第一ID关系网中ID节点的活跃度和ID节点关系的活跃度对所述第一ID关系网进行清理,获取第T日对应的第二ID关系网。

具体来说,本申请实施例提供的基于图数据库实现ID Mapping的装置,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行基于图数据库实现ID Mapping的方法,该方法包括:从源ID数据记录中获取第T日出现的ID节点和所述第T日出现的ID节点关系;对所述第T日出现的ID节点、所述第T日出现的ID节点关系以及第T-1日对应的ID关系网进行标识连通,获取第T日对应的第一ID关系网;根据所述第一ID关系网中ID节点的活跃度和ID节点关系的活跃度对所述第一ID关系网进行清理,获取第T日对应的第二ID关系网。

此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于图数据库实现ID Mapping的方法,该方法包括:从源ID数据记录中获取第T日出现的ID节点和所述第T日出现的ID节点关系;对所述第T日出现的ID节点、所述第T日出现的ID节点关系以及第T-1日对应的ID关系网进行标识连通,获取第T日对应的第一ID关系网;根据所述第一ID关系网中ID节点的活跃度和ID节点关系的活跃度对所述第一ID关系网进行清理,获取第T日对应的第二ID关系网。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于图数据库实现IDMapping的方法,该方法包括:从源ID数据记录中获取第T日出现的ID节点和所述第T日出现的ID节点关系;对所述第T日出现的ID节点、所述第T日出现的ID节点关系以及第T-1日对应的ID关系网进行标识连通,获取第T日对应的第一ID关系网;根据所述第一ID关系网中ID节点的活跃度和ID节点关系的活跃度对所述第一ID关系网进行清理,获取第T日对应的第二ID关系网。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

本申请实施例中术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”所区别的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号