首页> 中国专利> 自然人识别方法、装置、电子设备及存储介质

自然人识别方法、装置、电子设备及存储介质

摘要

本发明提供一种自然人识别方法、装置、电子设备及存储介质,所述方法包括:获取用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹;基于用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹采用随机森林算法确定自然人识别结果。本发明提供的自然人识别方法、装置、电子设备及存储介质,采用随机森林算法,通过组合证件、交往圈指纹、位置指纹、终端指纹和行为指纹五类决策树后根据取均值的方式得到最终预测结果,具有更高的准确率和更强的稳定性。

著录项

  • 公开/公告号CN114971661A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利号CN202110204913.5

  • 发明设计人 谭丽丽;张晓川;张湛梅;

    申请日2021-02-23

  • 分类号G06Q30/02(2012.01);

  • 代理机构北京路浩知识产权代理有限公司 11002;

  • 代理人陈新生

  • 地址 510623 广东省广州市天河区珠江新城珠江西路11号广东全球通大厦

  • 入库时间 2023-06-19 16:34:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06Q30/02 专利申请号:2021102049135 申请日:20210223

    实质审查的生效

说明书

技术领域

本发明涉及数据挖掘技术领域,尤其涉及一种自然人识别方法、装置、电子设备及存储介质。

背景技术

传统的移动营销在构建时,“客户-用户-账户”体系紧耦合,是以手机号码作为营销目标的。但业务发展至全业务运营场景时,客户-用户紧耦合的模型无法有效识别自然人客户,满足不了以自然人为场景的竞争需求。

现有的自然人用户识别模型,往往是基于用户的通话记录等数据构建“社交网络”模型,通过“交往圈发现”算法挖掘紧密联系的群体作为疑似自然人客户。通过用户的通话记录作为构建连线的依据;确定用户间的连线关系后,利用交往圈划分算法等划分出交往圈高度的社群,以此作为疑似自然人客户。

但是,现有的方案建立的自然人关系容易受到出度入度较大的中间节点干扰,如家庭成员、单位同事之间的交往圈往往会高度重合,容易将两个非自然人群体划分为同一自然人,从而导致自然人的识别结果不准确。

发明内容

本发明提供一种自然人识别方法、装置、电子设备及存储介质,用以解决现有技术中自然人的识别结果不准确的缺陷,实现提高了自然人的识别结果的准确性。

本发明提供一种自然人识别方法,包括:

获取用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹;

基于用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹采用随机森林算法确定自然人识别结果。

根据本发明提供的一种自然人识别方法,基于用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹采用随机森林算法确定自然人识别结果,包括:

分别以随机森林中的一个决策树生成证件、交往圈指纹、位置指纹、终端指纹和行为指纹对应的结果;

统计每个决策树的结果,选择投票数最多的结果作为自然人识别结果。

根据本发明提供的一种自然人识别方法,用户的证件包括同一证件办理的多个号码。

根据本发明提供的一种自然人识别方法,用户的交往圈指纹包括互通号码前N的重合率。

根据本发明提供的一种自然人识别方法,用户的位置指纹包括白天驻留位置,晚上驻留位置和常去地。

根据本发明提供的一种自然人识别方法,用户的终端指纹包括不同用户身份识别模块sim卡使用的同一终端。

根据本发明提供的一种自然人识别方法,用户的行为指纹包括用户之间互通、用户之间呼转和用户应用APP使用同一个账号登录。

本发明还提供一种自然人识别装置,包括:

获取模块,用于获取用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹;

确定模块,用于基于用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹采用随机森林算法确定自然人识别结果。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述自然人识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述自然人识别方法的步骤。

本发明提供的自然人识别方法、装置、电子设备及存储介质,采用随机森林算法,通过组合证件、交往圈指纹、位置指纹、终端指纹和行为指纹五类决策树后根据取均值的方式得到最终预测结果,具有更高的准确率和更强的稳定性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的自然人识别方法的流程示意图;

图2是本发明提供的自然人识别装置的结构示意图;

图3是本发明提供的电子设备的结构示意图。

具体实施方式

在5G和携号转网业务的全面展开,行业竞争从电信业务运营向数字化业务运营全面转型的新形势下,市场竞争日益加剧。除了传统的电信运营商将发挥各自优势争夺市场外,各类互联网企业以各种形式进入政企和家庭市场的业务竞争,通过各类运营手段全面争夺客户。因此,要求移动运营商更好、更快的满足客户个性化、差异化的需求提升客户价值和企业价值,助力企业构建差异化竞争能力,提升企业未来对价值链的掌控能力。

但传统的移动营销在构建时,“客户-用户-账户”体系紧耦合,是以手机号码作为营销目标的。但业务发展至全业务运营场景时,客户-用户紧耦合的模型无法有效识别自然人客户,满足不了以自然人为场景的竞争需求。

基于个人市场的开拓需要,对自然人的识别是重点之一。现有的自然人用户识别模型,往往是基于用户的通话记录等数据构建“社交网络”模型,通过“交往圈发现”算法挖掘紧密联系的群体作为疑似自然人客户。做法一般是:通过用户的通话记录作为构建连线的依据;确定用户间的连线关系后,利用交往圈划分算法等划分出交往圈高度重合的社群,以此作为疑似自然人客户。

传统的自然人识别模型由于使用通话记录作为两个号码连线,采用交往圈高度重合作为自然人判定的依据,存在以下几点缺点:一是建立的自然人关系容易受到出度入度较大的中间节点干扰,如家庭成员、单位同事之间的交往圈往往会高度重合,容易将两个非自然人群体划分为同一自然人;二是由于偶然性的通话行为也会对构成稳定自然人识别造成干扰,传统模型构建时没有对这些偶然性节点识别与剔除,因此不同月份数据训练划分的同一自然人关系存在较大差别;三是传统模型忽略用户在地理位置、上网习惯、终端使用、登记身份信息等方面的的联系,因此传统模型识别的依据不够全面,得到的结果稳定性和准确率均不高。

本申请实施例设计的数据挖掘算法是对传统模型的进一步改进,在原有使用交往圈作为连线依据的基础上,利用信令位置数据,通过组合证件、交往圈指纹、位置指纹、终端指纹、行为指纹(互通、呼转、账号登录)构建随机森林模型来对构成的自然人识别实现自动剪线删除干扰节点,从而构成稳定的自然人识别。该算法通过构建多维度指标来客观判断自然人,尤其是在训练模型时,基于组合证件、交往圈指纹、位置指纹、终端指纹和行为指纹的相对稳定性考量,增强信令各类指纹(即自然人共同生活位置数据)的重要性,弥补传统模型的不足,提升传统模型识别的稳定性,降低算法的误判率,更准确合理地划分用户为家自然人客户。

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合图1-图3描述本发明的自然人识别方法、装置、电子设备及存储介质。

本申请实施例采用随机森林算法实现,随机森林是一种以决策树为基分类器的集成算法,通过组合证件、交往圈指纹、位置指纹、终端指纹、行为指纹(互通、呼转、账号登录)等五类决策树后根据取均值的方式得到最终预测结果,比现有方案中根据交往圈的决策树算法具有更高的准确率和更强的稳定性。随机森林相比于决策树拥有出色的性能主要取决于随机抽取样本和特征和集成算法,前者让它具有更稳定的抗过拟合能力,后者让它有更高的准确率。

图1是本发明提供的自然人识别方法的流程示意图,如图1所示,本申请实施例提供一种自然人识别方法,该方法包括:

步骤101、获取用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹。

具体来说,通过大数据平台计算出用户的证件(例如,同一证件办理多个号码)、交往圈指纹(例如,互通号码前20的重合率)、位置指纹(例如,用户的白天,晚上位置驻留,用户的常去地等)、终端指纹(例如,不同sim卡使用同一终端)、行为指纹(例如,用户之间互通、用户之间呼转、用户APP使用同一个账号登录(爬虫获取)等)。

将同证件的客户使用的号码个数分类,分为1个、2个、3个、4-5个、5-8个、8个以上分完类别之后选择特征,熵值公式判断这些用户是否可能属于同一个人。

对于交往圈,共有5种:重合率超过80%,重合率在60-80%,重合率40%-60%,重合率20%-40%,重合率低于20%。

对于其他分类,以此类推,计算出白天驻留、夜晚驻留、用户长去地、同一终端使用、用户之间互通、用户之间呼转、用户APP使用同一个账号登录(爬虫获取)等熵值。

步骤102、基于用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹采用随机森林算法确定自然人识别结果。

具体来说,获取用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹之后,基于用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹采用随机森林算法确定自然人识别结果。

在确定熵值之后,将其代入如下公式:

Entropy(D)=-

随后,在选择节点的特征项的时候,通过信息增益或者是信息增益率来选择。

Gain(D,A)=Entropy(D)-

最后,推导出基尼系数公式,因为随机森林采用的CART决策树就是基于基尼系数选择特征的。基尼系数的选择的标准就是每个子节点达到最高的纯度,即落在子节点中的所有观察都属于同一个分类,此时基尼系数最小,纯度最高,不确定度最小。

Gain(D,A)=

随机森林通过建立几个模型组合的来解决自然人问题,其表现一般要优于单一的决策树,因为随机森林的结果是证件、交往圈指纹、位置指纹、终端指纹、行为指纹等多个决策树结果投票来决定最后的结果。随机森林中每个决策树都产生一个结果,随机森林通过统计每个决策树的结果,选择投票数最多的结果作为其最终结果。

本发明提供的自然人识别方法,采用随机森林算法,通过组合证件、交往圈指纹、位置指纹、终端指纹和行为指纹五类决策树后根据取均值的方式得到最终预测结果,具有更高的准确率和更强的稳定性。

可选地,基于用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹采用随机森林算法确定自然人识别结果,包括:

分别以随机森林中的一个决策树生成证件、交往圈指纹、位置指纹、终端指纹和行为指纹对应的结果;

统计每个决策树的结果,选择投票数最多的结果作为自然人识别结果。

可选地,用户的证件包括同一证件办理的多个号码。

可选地,用户的交往圈指纹包括互通号码前N的重合率。例如,N等于20。

可选地,用户的位置指纹包括白天驻留位置,晚上驻留位置和常去地。

可选地,用户的终端指纹包括不同用户身份识别模块sim卡使用的同一终端。

可选地,用户的行为指纹包括用户之间互通、用户之间呼转和用户应用APP使用同一个账号登录。

对比于现有的自然人系识别模型,本申请实施例应用于客户标签项目、集中运营平台项目中;准确识别出自然人客户,产生了以下效果:

1、全面掌握自然人的各方面真实属性和习惯,以人为本,反向引入政企垂直行业数据,沉淀数据资产。

2、建设自然人客户标签,群面支撑四轮驱动,支撑CHBN营销体系,适应5G全业务的竞争形势。

3、基于自然人标签体系,提供差异化服务能力,提升客户感知,使有限资源聚焦到价值客户中去,提升资源的使用效率。

自然人标签具体使用情况如下:

1)已识别自然人客户9738万个,对应11522万个手机号码。

2)基于自然人识别,已识别用户的工作地址9275万户,经抽样检测68%的用户位置偏差在300米内,93%的用户误差在1公里内。

3)基于自然人识别,已识别用户的家庭地址9527万户,经抽样检测76%的用户位置偏差在100米内,其余均在500米以内。

4)自然人识别模型应用于实时营销系统之后,人均客户营销成本降低了0.22元,按照年均3000万笔实时营销计算,年均节约成本660万元。

5)基于自然人识别用于客户保有后,目前模型识别9700万异网号码,按照大市场0.5%保有提升率计算,人均40元arpu,每年维系挽留带来582万收益。

另外,本申请实施例能够有效地建立手记之间存在联系,识别自然人客户,并且能从位置指纹等层面上自动调整和确定多个手机属于一个自然人,使得模型更为稳定准确进行自然人识别。

本申请实施例相比于传统的自然人识别模型,有以下优点:

1、由于自然人的客户识别采用了集成算法,本身精度比基于证件的自然人识别要高。

2、本算法在测试集上表现良好,由于多个随机性的引入,使得随机森林不容易陷入过拟合。

3、在应用方面,由于多个随机性的引入,使得自然是识别算法具有一定的抗噪声能力,对比其他算法具有一定优势。

4、由于树的组合,使得本算法可以处理多个用户经纬度等非线性数据,更适用于自然人识别这类非线性分类(拟合)模型。

5、自然是识别算法能够处理很高维度的数据,并且不用做特征选择,对数据集的适应能力强:既能处理离散型数据(用户位置、轨迹等),也能处理连续型数据(用户的互通等),数据集无需规范化。

6、训练速度快,可以运用在大规模数据集上,本项目完成某省近亿自然人客户识别,不足12个小时就可以生成结果。

7、本算法可以处理缺省值(单独作为一类),不用额外处理。

8、由于有袋外数据,自然人识别算法可以在模型生成过程中取得真实误差的无偏估计,且不损失训练数据量。

9、在训练过程中,自然人识别算法能够检测到特征(feature)间的互相影响,且可以得出feature的重要性,具有一定参考意义。

10、自然人识别算法由于每棵树可以独立、同时生成,容易做成并行化方法。

11、自然人识别算法由于实现简单、精度高、抗过拟合能力强,当面对非线性数据时,适于作为基准模型。

图2是本发明提供的自然人识别装置的结构示意图,如图2所示,本申请实施例提供一种自然人识别装置,具体包括获取模块201和确定模块202,其中:

获取模块201用于获取用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹;确定模块202用于基于用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹采用随机森林算法确定自然人识别结果。

本申请实施例提供的自然人识别装置,可以用于执行上述相应实施例中所述的方法,通过本实施例提供的装置执行上述相应实施例中所述方法的具体步骤与上述相应实施例相同,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图3是本发明提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行自然人识别方法,该方法包括:获取用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹;

基于用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹采用随机森林算法确定自然人识别结果。

此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的自然人识别方法,该方法包括:获取用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹;

基于用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹采用随机森林算法确定自然人识别结果。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的自然人识别方法,该方法包括:获取用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹;

基于用户的证件、交往圈指纹、位置指纹、终端指纹和行为指纹采用随机森林算法确定自然人识别结果。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号