首页> 中国专利> 基于多渠道消费者数据整合方法、系统、设备及介质

基于多渠道消费者数据整合方法、系统、设备及介质

摘要

本发明提供的基于多渠道消费者数据整合方法、系统、计算机设备以及介质,其中,方法获取业务数据,通过预设身份信息规则对业务数据中的身份信息字段进行标记得到第一身份信息;根据身份信息规则中的优先级对第一身份信息进行遍历,根据遍历结果构建身份信息连通图;根据第一身份信息的名称以及质量,确定信息连通图中的歧义节点;重新确定歧义节点的第二身份信息归属,并更新信息连通图,将更新后的信息连通图进行消费者属性信息和行为明细整合,并进行可视化展示;方案能够更精确地识别和整合消费者信息,进而准确刻画消费者的画像,更好地赋能推荐、推广等业务场景,方案也能灵活拓展至其他应用场景,可广泛应用于互联网技术领域。

著录项

  • 公开/公告号CN113868475A

    专利类型发明专利

  • 公开/公告日2021-12-31

    原文格式PDF

  • 申请/专利权人 广州云徙科技有限公司;

    申请/专利号CN202111105105.X

  • 发明设计人 李楠;陈新宇;蒲继强;丁婷婷;

    申请日2021-09-22

  • 分类号G06F16/901(20190101);G06F16/904(20190101);G06Q30/02(20120101);

  • 代理机构44205 广州嘉权专利商标事务所有限公司;

  • 代理人郑宏谋

  • 地址 510700 广东省广州市黄埔区茅岗村坑田大街32号自编A栋102房

  • 入库时间 2023-06-19 13:29:16

说明书

技术领域

本发明属于互联网技术领域,尤其是基于多渠道消费者数据整合方法、系统、设备以及存储介质。

背景技术

现有技术中,由于各个厂商之间的系统的封闭,由于消费者信息接入渠道的不同,存在一个消费者在某商家的平台中拥有多个账号、消费者属性和行为未打通等数据歧义情况,导致无法根据消费者全面的画像进行会员运营、精准推广等操作。相关技术中,消费者数据整合是通过GraphX图计算算法将消费者的身份ID进行连通,则将该消费者的基础信息和行为数据进行连通,但在实际场景中,存在共用账号、借用设备、信息可靠度低等情况,导致最终结果融合了其他消费者数据,从而影响标签标注、精准营销的准确度。

因此,针对现有的技术方案可以归纳总结得到以下技术缺陷:

1、消费者身份ID歧义节点判断较为不够智能,无法精准识别消费者个体和满足身份ID拓展需求;

2、消费者属性歧义处理规则较单一;

3、消费者的属性、身份ID歧义处理规则、消费者属性歧义处理规则无法灵活拓展。

发明内容

有鉴于此,为至少部分解决上述技术问题之一,本发明实施例目的在于提供基于多渠道消费者数据整合方法,能够更加精准识别消费者,连通多渠道的数据,从而更好地赋能推荐、推广等业务场景,同时本申请技术方案还提供能够对应实现该方法的系统、设备以及存储介质。

第一方面,本申请的技术方案提供了基于多渠道消费者数据整合方法,其步骤包括:

获取业务数据,通过预设身份信息规则对所述业务数据中的身份信息字段进行标记得到第一身份信息;

根据所述身份信息规则中的优先级对所述第一身份信息进行遍历,根据遍历结果构建信息连通图;

根据第一身份信息的名称以及质量,确定所述信息连通图中的歧义节点;

重新确定所述歧义节点的第二身份信息归属,并更新所述信息连通图,将更新后的所述信息连通图进行消费者属性信息和行为明细整合,并进行可视化展示。

在本申请方案的一种可行的实施例中,所述通过预设身份信息规则对所述业务数据中的身份信息字段进行标记得到第一身份信息这一步骤,包括:

确定所述第一身份信息的名称字段;

根据所述第一身份信息的稳定性以及所述身份信息的唯一性确定所述第一身份信息的质量字段;

确定所述第一身份信息的优先级字段。

在本申请方案的一种可行的实施例中,所述歧义节点包括主歧义节点和从歧义节点,所述根据第一身份信息的名称以及质量,确定所述信息连通图中的歧义节点这一步骤,包括:

根据第一身份信息的名称以及质量确定所述主歧义节点;

从所述主歧义节点所处的连通链路中确定所述从歧义节点。

在本申请方案的一种可行的实施例中,所述根据身份信息的名称以及质量确定所述主歧义节点这一步骤,包括:

当第一级节点的质量小于或等于第二级节点的质量,且所述第二级节点的连接有至少两个所述第一级节点,确定所述第二级节点为所述主歧义节点。

在本申请方案的一种可行的实施例中,所述重新确定所述歧义节点的第二身份信息归属这一步骤,包括:

将所述主歧义节点中的第二身份信息与第一身份信息进行实体对齐,

根据实体对齐结果的准确度、粘度以及时间衰减确定所述第二身份信息的归属消费者。

在本申请方案的一种可行的实施例中,所述重新确定所述歧义节点的第二身份信息归属这一步骤,还包括:

确定所述主歧义节点为进行数据同步的主键字段,根据所述主键字段确定所述从歧义节点的归属主节点。

在本申请方案的一种可行的实施例中,所述将更新后的所述信息连通图进行消费者属性信息和行为明细整合这一步骤,包括:

根据更新后的所述信息连通图中的身份信息字段的优先级,将所述行为明细整合至所述业务数据;

确定所述户属性信息的多值或者唯一值,将所述多值或者所述唯一值整合至所述业务数据。

第二方面,本发明的技术方案还提供一种基于多渠道消费者数据整合系统,该系统包括:

数据获取单元,用于获取业务数据,通过预设身份信息规则对所述业务数据中的身份信息字段进行标记得到第一身份信息;

连通图构建单元,用于根据所述身份信息规则中的优先级对所述第一身份信息进行遍历,根据遍历结果构建信息连通图;

歧义节点识别单元,用于根据第一身份信息的名称以及质量,确定所述信息连通图中的歧义节点;并重新确定所述歧义节点的第二身份信息归属,并更新所述信息连通图;

数据可视化单元,用于将更新后的所述信息连通图进行消费者属性信息和行为明细整合,并进行可视化展示。

第三方面,本发明的技术方案还提供一种基于多渠道消费者数据整合设备,其包括:

至少一个处理器;

至少一个存储器,用于存储至少一个程序;

当至少一个程序被至少一个处理器执行,使得至少一个处理器运行第一方面中所述方法。

第四方面,本发明的技术方案还提供一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于运行如权利要求1-7中任一项所述基于多渠道消费者数据整合方法。

本发明的优点和有益效果将在下面的描述中部分给出,其他部分可以通过本发明的具体实施方式了解得到:

本申请技术方案基于ID-Mapping原理,对业务数据中消费者的身份信息字段进行标记,从确定业务数据记录的身份信息,在确定消费者身份信息之后,根据身份信息规则中编排身份信息的优先级,对身份信息进行遍历之后构建身份信息连通图,并且根据身份信息的具体名称和信息质量确定连通图中的歧义节点,并根据歧义节点的身份信息重新确定其归属,最后整合消费者的属性信息以及行为明细等内容,以使得方案能够更精确地识别和整合消费者信息,进而准确刻画消费者的画像,更好地赋能推荐、推广等业务场景,方案也能灵活拓展至其他领域。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于多渠道消费者数据整合方法的步骤流程图;

图2为本发明实施例中构建得到的信息连通图的示意图;

图3为本发明实施例信息连通图中第一种歧义节点的示意图;

图4为本发明实施例信息连通图中第二种歧义节点的示意图;

图5为本发明实施例信息连通图中第三种歧义节点的示意图;

图6为本发明实施例信息连通图中第四种歧义节点的示意图;

图7为本发明实施例中确定主从歧义节点的示意图;

图8为本发明实施例中主歧义节点为主键字段,确定从歧义节点归属的示意图;

图9为本发明实施例中主歧义节点不为主键字段,确定从歧义节点归属的示意图。

具体实施方式

下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

针对前述背景技术中所陈述的技术问题,本申请的技术方案中的业务数据选取消费者的消费数据,消费者的消费者数据整合是精准识别消费者个体的有力依据;本申请技术方案首先设置身份ID的配置信息作为身份信息规则,同时对同步的消费者数据标识具体的身份ID字段;然后提取同步消费者数据中的身份ID字段,通过在原始数据的关联按照身份ID优先级由高到低遍历形成身份ID的连通图;接着基于身份ID连通图,根据身份ID的名称、ID质量依次判断图的主歧义节点和从歧义节点;接着按照数据的准确度、置信度和时间衰减判断歧义身份ID节点的归属,生成消费者OneID;最后基于OneID结果数据,整合消费者多个渠道的基础信息和行为明细。

在第一方面,如图1所示,本申请的技术方案提供了基于多渠道消费者数据整合方法,其主要步骤可以包括S100-S400:

S100、获取业务数据,通过预设身份信息规则对业务数据中的身份信息字段进行标记得到第一身份信息;

其中,第一身份信息是指根据预设身份信息规则标记得到的业务数据中的消费者信息字段所记录的具体数据,包括但不限于可以触发/标识单个消费者的ID信息,例如身份证、手机号码、护照、社交账户的openID等。实施例中预设身份信息规则,包含预设身份ID、标识身份ID两部分规则内容。示例性地,以身份ID为例,实施例首先预设身份ID,通过预设身份ID的信息同时标识同步数据中的身份ID字段。

在一些可行的实施例中,方法步骤S100中通过预设身份信息规则对业务数据中的身份信息字段进行标记得到第一身份信息这一过程,可以包括步骤S110-S130:

S110、确定第一身份信息的名称字段;

S120、根据第一身份信息的稳定性以及身份信息的唯一性确定第一身份信息的质量字段;

S130、确定第一身份信息的优先级字段;

具体地,在实施例步骤S100预设身份ID的过程中,其一是预设身份ID的名称字段,并设置每个身份ID名称;其二是预设身份ID的ID质量,根据身份ID的稳定性或者消费者身份ID的变动性和唯一性(每个消费者是否仅拥有一个ID值),可分为稳定且唯一、稳定但不唯一、不稳定且不唯一3类;三是预设身份ID的优先级,用以身份ID的图连通;示例性地,实施例预设身份ID后所得到的数据内容如表1所示:

表1

此外,在实施例的业务数据中,通常会涉及到会员数据、潜客数据、订单表、浏览行为数据、好友粉丝数据等数据内容,在实施例进行数据字段或数据表字段同步过程中,标识需要与身份ID进行关联的字段,其字段的数据内容用以身份ID图连通。

S200、根据身份信息规则中的优先级对第一身份信息进行遍历,根据遍历结果构建身份信息连通图;

其中,身份信息连通图是指基于消费者身份ID在原始数据的关联关系,采用图计算、Dijkstra算法、深度优先搜索等算法,按照身份ID的优先级遍历连通消费者身份ID,形成有向无环的消费者身份ID关系连通图。示例性地,如图2所示,在实施例中,身份ID的优先级依次为:身份证、手机号码以及社交账号,那么在图连通时先遍历全部身份证和护照、身份证和手机号码、身份证和社交账号的关系,然后再遍历手机号码和社交账号的关系,并根据遍历后确定的关联关系构建得到身份ID连通图。

S300、根据第一身份信息的名称以及质量,确定信息连通图中的歧义节点;

具体地,在实际应用场景中,往往存在着共用账号,借用设备以及消费者信息录入错误等情况,导致所构建得到的连通图出现歧义节点。示例性地,一个消费者或消费者仅能拥有一个身份证号,出现一个手机号码连通两个身份证,那么该手机号码为歧义节点。

根据节点在身份ID连通图中的位置不同,实施例中的歧义节点可以包括主歧义节点和从歧义节点;进而确定主从歧义节点的步骤,可以包括步骤S310-S320:

S310、根据第一身份信息的名称以及质量确定主歧义节点;

S320、从主歧义节点所处的连通链路中确定从歧义节点;

具体地,歧义节点识别基于消费者身份ID连通图,首先按照图中身份ID的ID质量,判断主歧义节点;然后根据连通图的连通链路中是否存在主歧义节点,再判断从歧义节点。

更为具体地,为了提高身份ID连通图的准确性和可靠性,在一些可选择的实施例中,根据身份信息的名称以及质量确定主歧义节点这一步骤S310,可以包括步骤S311:

S311、当第一级节点的质量小于或等于第二级节点的质量,且第二级节点的连接有至少两个同类型第一级节点,确定第二级节点为主歧义节点。

如图3所示,示例性地,实施例中存在一个质量为1的身份ID,连通两个同类型质量为1的身份ID,那么该身份ID为歧义节点,例如,护照和身份证都属于质量为1的身份ID,如果存在一个身份证(图3中的B1节点)连通两个护照(图3中的两个A1节点),则该身份证为歧义节点;

如图4所示,实施例中存在一个质量为2的身份ID,连通两个同类型质量为1的身份ID,那么该质量为2的身份ID为歧义节点;例如,手机号码属于质量为2的身份ID(图4中的C2节点),身份证属于质量为1的身份ID(图4中的两个A1节点),若一个手机号码连通2个身份证,则该手机号码为歧义节点。

如图5所示,实施例中存在一个质量为3的身份ID,连通两个同类型质量为2的身份ID,则该质量为3的身份ID为歧义节点;例如,cookieid属于质量为3的身份ID(图5中的E3节点),手机号码属于质量为2的身份ID(图5中的C2节点),如果一个cookieid连通2个手机号码,则该cookieid为歧义节点。

又或者如图6所示,实施例中存在一个质量为3的身份ID,连通两个同类型质量为1的身份ID,则该质量为3的身份ID为歧义节点,例如,cookieid属于质量为3的身份ID(图6中的E3节点),身份证属于质量为1的身份ID(图6中的A1节点),如果一个cookieid连通2个身份证,则该cookieid为歧义节点。如图7所示,在实施例中,若ID连通图中已经存在主歧义节点,则主歧义节点的下游链路,皆可以确定为歧义节点。

此外,若质量为1的第二级节点连接至少两个同类型质量为1的节点,该二级节点同样也可以确定为歧义节点。

S400、重新确定歧义节点的第二身份信息归属,并更新信息连通图,将更新后的信息连通图进行消费者属性信息和行为明细整合,并进行可视化展示。

其中,第二身份信息是在确定该节点为歧义节点之后,节点所对应的身份信息。具体地,实施例采用实体对齐的方法,首先按照数据的准确度、粘度和时间衰减判断主歧义节点的归属,然后按照数据同步中的主键字段,判断从歧义节点的归属。歧义节点判断归属后,则可以根据图中的身份ID生成OneID结果表进行可视化显示。需要说明的是,实体对齐旨在判断两个或者多个不同信息来源的实体是否为指向实际场景中同一个对象;如果多个实体表征同一个对象,则在这些实体之间构建对齐关系,同时对实体包含的信息进行融合和聚集。

在一些可选择的实施例中,重新确定主歧义节点归属的过程可以包括步骤S410-S420:

S410、将主歧义节点中的第二身份信息与第一身份信息进行实体对齐;

S420、根据实体对齐结果的准确度、粘度以及时间衰减确定第二身份信息的归属消费者;

具体地,实施例基于身份ID连通图的主歧义节点,将存在歧义的身份ID用根据数据的准确度、粘度和时间衰减对消费者身份ID实体对齐,并对该主歧义节点进行识别判断其归属的消费者实体。示例性地,实施例中1个手机号连通2个身份证,那么该手机号码到底归属哪个身份证,可以根据原始数据的数据准确度进行归属;其中,数据的准确度是指数据同步的原始数据的准确度,根据数据准确度进行判断;置信度是根据身份ID同时出现的频次计算2个身份ID的粘度,常用于行为明细中的身份ID归属判断;时间衰减是指每类身份ID,消费者使用的周期不一致(例如,身份证是在消费者生命周期中不会发生变更的信息、cookieid是三个月),需要根据时间衰减进行判断,主要用于cookieid的归属判断。

相对应地,实施例中重新确定从歧义节点归属的过程可以包括步骤S430:

S430、确定主歧义节点为进行数据同步的主键字段,根据主键字段确定从歧义节点的归属主节点;

具体地,实施例中从歧义节点需要确定主歧义节点是否为具有数据同步任务的主键字段,然后再判断从歧义节点的归属;例如,会员表的数据同步中,可以以会员ID作为主键字段。

在实施例中,如果主歧义节点是主键字段,那么从歧义节点则按照主歧义节点进行实体对齐;如图8所示,会员ID是数据同步任务(身份证B、会员IDA、手机号A、OpenIDA)的主键字段,由于会员ID是连通身份证A、身份证B导致歧义,那么从歧义节点(手机号A、OpenIDA)则按照主歧义节点进行归属。若会员IDA根据数据准确度判断后归属身份证A,那么手机号A、OpenIDA也归属身份证A;若会员IDA根据数据准确度判断后归属身份证B,那么手机号A、OpenIDA也归属身份证B。

在实施例中,若主歧义节点不是主键字段,那么从歧义节点则按照数据同步的原始链路进行归属,如图9所示,手机号A不是数据同步任务的主键字段,由于手机号A是连通身份证A、身份证B导致歧义,那么从歧义节点(OpenIDA、cookieid)则按照原始数据进行归属。假设手机号码A归属身份证A,那么如果身份证A、手机号A、OpenIdA、cookieidA都属于同一个数据同步的应用,那么手机号A、OpenIDA也归属身份证A。但是如果身份证B、手机号A、OpenIdA、cookieidA都属于同一个数据同步的应用,那么手机号A、OpenIDA归属身份证B,手机号A归属身份证A。

在一些可选择的实施例中,实施例方法中将更新后的信息连通图进行消费者属性信息和行为明细整合这一过程,可以包括步骤S440-S450:

S440、根据更新后的信息连通图中的身份信息字段的优先级,将行为明细整合至业务数据;

S450、确定消费者属性信息的多值或者唯一值,将多值或者唯一值整合至业务数据;

具体地,实施例基于实体对齐后的OneID结果表,通过消费者ID关联其数据同步的原始消费者属性和行为数据,从而形成消费者全渠道数据的统一视图。对于消费者行为数据,根据该结果表的身份ID字段的优先级判断归属的OneID;例如,交易行为的关联消费者身份ID优先级依次为:会员ID、手机号、openid。如果一个交易订单会员id、手机号,那么按照有显示根据该订单的会员ID归属到对应的OneID。

对于消费者属性,按照业务需求可保留多值或者保留唯一值。如果消费者属性在原始业务系统的数据不一致而且取值需保留唯一值,则认为该消费者属性存在歧义;例如,消费者A在系统A的性别为男性,在B系统为女性,那么消费者A的性别存在歧义。对于消费者属性的歧义点,如果是非数值型的,可以按照源系统的表优先级、值的优先级、时间的优先级等方式进行取值;如果是数值型,则按照最大值、最小值、平均值等取值。最后所得到的统一表如表2所示:

表2

第二方面,本发明的技术方案还提供一种基于多渠道消费者数据整合系统,该系统包括:

数据获取单元,用于获取业务数据,通过预设身份信息规则对业务数据中的身份信息字段进行标记得到第一身份信息;

连通图构建单元,用于根据身份信息规则中的优先级对第一身份信息进行遍历,根据遍历结果构建身份信息连通图;

歧义节点识别单元,用于根据第一身份信息的名称以及质量,确定信息连通图中的歧义节点;并重新确定歧义节点的第二身份信息归属,并更新信息连通图

数据可视化单元,用于将更新后的信息连通图进行消费者属性信息和行为明细整合,并进行可视化展示。

第三方面,本申请的实施例提供了基于多渠道消费者数据整合设备,其包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当至少一个程序被至少一个处理器执行,使得至少一个处理器运行第一方面中方法。

从上述具体的实施过程,可以总结出,本发明所提供的技术方案相较于现有技术存在以下优点或优势:

本申请技术方案基于ID-Mapping原理,对消费者的身份ID进行图连通,通过身份ID质量和链路判断主从歧义节点,同时对歧义身份ID进行实习对齐,精准消费者的基础信息和行为明细,更准确刻画消费者的画像。

在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号