首页> 中国专利> 保险客户身份属性的筛选方法、筛选装置及电子设备

保险客户身份属性的筛选方法、筛选装置及电子设备

摘要

本说明书实施例提供一种保险客户身份属性的筛选方法、筛选装置及电子设备。所述筛选方法包括:根据客户身份属性特征抽取多个数据源对应的特征数据,预处理得到规范化数据;其中,所述规范化数据至少包括匹配于所述客户身份属性特征中的两个特征的数据;基于不同规范化数据具有的相同客户身份属性特征,对所述规范化数据进行关联并去重,得到客户检索数据集;根据预设的筛选条件,对所述客户检索数据集进行筛选得到目标属性客户集。这样的技术方案,能够极大的降低检索数据源的数量和筛选的难度,提高筛选的效率。

著录项

  • 公开/公告号CN112508720A

    专利类型发明专利

  • 公开/公告日2021-03-16

    原文格式PDF

  • 申请/专利权人 中国人寿保险股份有限公司;

    申请/专利号CN202011459951.7

  • 发明设计人 王军杰;

    申请日2020-12-11

  • 分类号G06Q40/08(20120101);G06Q30/02(20120101);G06F16/2455(20190101);G06F16/22(20190101);G06F16/182(20190101);

  • 代理机构11403 北京风雅颂专利代理有限公司;

  • 代理人车英慧

  • 地址 100033 北京市西城区金融大街16号

  • 入库时间 2023-06-19 10:16:30

说明书

技术领域

本说明书实施例涉及大数据技术领域,尤其涉及一种保险客户身份属性的筛选方法、筛选装置及电子设备。

背景技术

随着信息技术的发展,保险公司对于海量的客户资料实现了电子化管理。现有技术中,为便于管理通常将不同的客户类型、业务类型等的客户资料存储于不同的数据库中。由于不同的客户来源、业务类型涉及的客户资料形式、数量各异,例如,个人客户资料包括姓名、证件号码,而长期保险客户资料包括国籍、居住地址,导致对应的数据库也存在差异,给利用不同数据库进行海量客户身份属性的筛选造成极大不便。

发明内容

有鉴于此,本发明的一个目的是提出一种保险客户身份属性的筛选方法,以解决现有技术中存在的客户身份属性筛选不便的技术缺陷。本发明的另一个目的是提供一种保险客户身份属性的筛选装置。本发明的再一个目的是提供一种用于执行保险客户身份属性的筛选方法的电子设备。

基于上述目的,第一方面,本说明书一个或多个实施例提供了一种保险客户身份属性的筛选方法,包括:

根据客户身份属性特征抽取多个数据源对应的特征数据,预处理得到规范化数据;其中,所述规范化数据至少包括匹配于所述客户身份属性特征中的两个特征的数据;

基于不同规范化数据具有的相同客户身份属性特征,对所述规范化数据进行关联并去重,得到客户检索数据集;

根据预设的筛选条件,对所述客户检索数据集进行筛选得到目标属性客户集。

进一步地,所述抽取多个数据源对应的特征数据,预处理得到规范化数据的步骤,包括:

将所述客户身份属性特征和所述数据源的特征标签进行匹配;

根据匹配于所述客户身份属性特征的特征标签,抽取对应特征数据;

对于不同数据源的特征数据进行规范化处理,得到所述规范化数据。

进一步地,所述根据预设的筛选条件,对所述客户检索数据集进行筛选得到目标客户集的步骤,包括:

根据所述筛选条件中的筛选特征和所述客户检索数据集,构建对应于每一特征的数据表;

根据所述筛选条件,对每一特征的数据表进行筛选并组合得到目标属性客户集。

进一步地,所述构建对应于每一特征的数据表的步骤之前,还包括:

根据所述筛选条件中的筛选特征,对所述客户检索数据集建立数据索引。

进一步地,所述构建对应于每一特征的数据表通过分类标注方式实现。

进一步地,所述规范化数据采用Hadoop分布式文件架构处理。

进一步地,所述客户身份属性特征包括名称、证件类型、证件号码、国籍、出生地址、居住地址和联系方式。

进一步地,所述多个数据源包括个人客户数据源、团体客户数据源、长险数据源和短险数据源。

第二方面,本说明书实施例提供了一种保险客户身份属性的筛选装置,包括:

数据获取模块,被配置为:根据客户身份属性特征抽取多个数据源对应的特征数据,预处理得到规范化数据;其中,所述规范化数据至少包括匹配于所述客户身份属性特征中的两个特征的数据;

数据整合模块,被配置为:基于不同规范化数据具有的相同客户身份属性特征,对所述规范化数据进行关联并去重,得到客户检索数据集;

数据筛选模块,被配置为:根据预设的筛选条件,对所述客户检索数据集进行筛选得到目标属性客户集。

第三方面,本说明书实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如前述任意所述的筛选方法。

从上面所述可以看出,本说明书一个或多个实施例提供的保险客户身份属性的筛选方法,通过根据客户身份属性特征抽取多个数据源对应的特征数据,预处理得到规范化数据;并基于不同规范化数据具有的相同客户身份属性特征,对所述规范化数据进行关联并去重,得到客户检索数据集;由此将多个数据源的客户身份属性数据整合,使得后续筛选过程中,仅需要针对客户检索数据集进行查询检索即可,极大的降低检索数据源的数量和筛选的难度,提高筛选的效率。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为现有相关技术的流程示意图;

图2为本说明书一个或多个实施例提供的保险客户身份属性的筛选方法的流程示意图;

图3为本说明书一个或多个实施例提供的获取规范化数据的流程示意图;

图4为本说明书一个或多个实施例提供的保险客户身份属性的筛选装置的结构示意图;

图5为本说明书一个或多个实施例提供的电子设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。

需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。

结合图1,对现有技术中对于不同数据库之前的数据进行海量客户身份属性的查询和检索的方法进行简单的说明。

需要说明的是,数据源A、数据源B以及数据源N分别对应于不同的数据库。应当理解的是,这里,数据库的类型可能相同,也可能不同。示例性的,数据源A和数据源B均是MySQL数据库,而数据源C采用Oracle数据库。

具体地,从数据源A中查询出关键字关联数据源B中的筛查条件1进行检索,若检索条件不足还需要关联数据源C等其他数据源做关联查询,得到最终结果集。若数据源之间不是同一类数据库(例如数据源A是MySQL数据库,而数据源B采用Oracle数据库),还需要修改调整查询链接和查询语句。也就是说,现有技术中为了实现对海量客户身份属性的筛选,通常仅能进行单库或者双库之间的数据查询检索,再逐步加入其它数据库,最终遍历全部的数据源建立不同数据源之间的查询链接,导致检索逻辑和实现方式复杂、检索效率低下,不利于海量大数据信息的检索筛选。

基于此,本说明书一个或多个实施例提供一种保险客户身份属性的筛选方法。

请参阅图2,所述筛选方法包括:

S201:根据客户身份属性特征抽取多个数据源对应的特征数据,预处理得到规范化数据;其中,所述规范化数据至少包括匹配于所述客户身份属性特征中的两个特征的数据。

需要说明的是,客户身份属性可以是居民或非居民;也可以是沿海地区客户、内陆地区客户等,这里不做具体限定。

对于客户身份属性特征,本领域技术人员能够根据筛选的目标客户集,进行合理设定,这里不做具体限定。

作为一个可选的实施例,所述客户身份属性特征包括名称、证件类型、证件号码、国籍、出生地址、居住地址和联系方式。可选地,所述客户身份属性特征能够用于筛选客户是否为非居民。可选地,这里居民不仅包括自然人,也包括法人。

对于保险客户来说,客户身份属性数据通常存在于多个数据源中。应当理解的,每个数据源可能包括相同的客户,也可能包括不同的客户。也就是说,同一个客户的身份属性数据可能仅在一个数据源出现,也可能在多个数据源出现。

作为一个可选的实施例,所述多个数据源包括个人客户数据源、团体客户数据源、长险数据源和短险数据源等。

进一步地,由于每个数据源对应不同的业务类型或客户来源,因此,不同的数据源可能包括同一客户身份属性数据的不同内容。也就是说,对于一个数据源,仅能够抽取到其所包括的部分客户身份属性特征,而非客户身份属性特征的全部特征。

示例性的,所述个人客户数据源、团体客户数据源通常包括客户身份属性特征中的姓名、证件类型和证件号码等。可能理解的,由个人客户数据源中,仅能够抽取到客户身份属性特征中的姓名、证件类型和证件号码。

示例性的,长险数据源和短险数据源通常包括客户身份属性特征中的国籍、出生地址、居住地址和联系方式等。可能理解的,由长险数据源中,仅能够抽取到客户身份属性特征中的国籍、出生地址、居住地址和联系方式。

作为一个可选的实施例,所述规范化数据采用Hadoop分布式文件架构处理。这里,Hadoop分布式文件架构能够将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。这样的技术方案,能够有效提高筛选效率,降低筛选时间。

本领域技术人员能够理解的,所述规范化数据也可以选择MySQL数据库、Microsoft SQL Server数据库或oracle数据库处理,这里不做具体限定。

这里,MySQL数据库是一种开放源代码的关系型数据库管理系统(RDBMS),可以使用最常用结构化查询语言进行数据库操作。

Microsoft SQL Server数据库是一个可扩展的、高性能的、为分布式客户机/服务器计算所设计的数据库管理系统,实现了与WindowsNT的有机结合,提供了基于事务的企业级信息管理系统方案。

Oracle数据库是关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

S202:基于不同规范化数据具有的相同客户身份属性特征,对所述规范化数据进行关联并去重,得到客户检索数据集。

如前所述,所述规范化数据可能来源于不同的数据源,而不同的数据源可能包含客户身份属性特征不同。因此,需要根据规范化数据具有的相同客户身份属性特征,例如均具有的姓名、证件号码,对所述规范化数据进行关联以将同一客户的多个客户身份属性特征进行整合。

可选地,若整合后同一客户对应多个规范化数据,则还需要进行去重操作,以使所述客户检索数据集在保持完整的基础上避免无效重复数据的出现。

S203:根据预设的筛选条件,对所述客户检索数据集进行筛选得到目标属性客户集。

需要说明的是,本领域技术人员根据目标属性客户集的特点,合理设置所述预设的筛选条件,这里不对所述预设的筛选条件进行限定。

为了更好的理解的本步骤,以下通过示例对预设的筛选条件和目标属性客户集进行说明。

目标属性客户集为非居民客户。基于此,所述预设的筛选条件包括客户国籍为非中国国籍,则认定为非居民。对于不包括国籍信息的客户检索数据,则若客户证件类型非身份证类型,若为护照并且出生地址和居住地非中国地区,则认定为非居民;若客户证件类型为护照,出生地址和居住地址为中国地区,联系方式非中国地区联系方式,则认定为疑似非居民。这里,对于联系方式的地区判断,可以依据是否为中国移动、中国联通、中国电信等通信运营商号码进行判断。

从上面所述可以看出,通过根据客户身份属性特征抽取多个数据源对应的特征数据,预处理得到规范化数据;并基于不同规范化数据具有的相同客户身份属性特征,对所述规范化数据进行关联并去重,得到客户检索数据集;由此将多个数据源的客户身份属性数据整合,使得后续筛选过程中,仅需要针对客户检索数据集进行查询检索即可,极大的降低检索数据源的数量和筛选的难度,提高筛选的效率。

请参阅图3,在本说明书一个或多个实施例中,所述抽取多个数据源对应的特征数据,预处理得到规范化数据的步骤,包括:

S301:将所述客户身份属性特征和所述数据源的特征标签进行匹配。

通常,不同的数据源可能包括多项特征标签,其中有些特征能够和所述客户身份属性特征匹配,从而用于筛选客户身份;有些特征与客户身份属性无关,因此需要对数据源包括的大量特征进行筛选。例如,长期保险数据源包括名称、国籍、保险项目、保险金额、免责条款等。又如,个人客户数据源包括姓名、证件类型、证件号码、身体健康状态等。本领域技术人员能够理解的,对于确定客户的是否为非居民,保险金额、免责条款属于无关特征,而姓名、证件类型、国籍特征属于客户身份属性特诊。

S302:根据匹配于所述客户身份属性特征的特征标签,抽取对应特征数据。

S303:对于不同数据源的特征数据进行规范化处理,得到所述规范化数据。

需要说明的是,规范化处理可以是对不同数据源,不同格式的数据根据设定的格式进行统一,以得到格式一致的特征数据。当然,规范化处理也可以包括其他能够使得特征数据统一、便于检索的处理方式,这里不做具体限定。

可选地,进行规范化处理之后,还包括去重的步骤,以减少相同或不同数据源中存在的完全重复的数据。

通过上述的技术方案,根据所述客户身份属性特征,从多个数据源中抽取对应的特征数据并得到规范化数据,从而避免后续对保险客户身份属性进行筛选时对多个数据源进行查询检索,极大的降低了检索难度,提高了检索效率。

在本说明书一个或多个实施例中,所述根据预设的筛选条件,对所述客户检索数据集进行筛选得到目标客户集的步骤,包括:

根据所述筛选条件中的筛选特征和所述客户检索数据集,构建对应于每一特征的数据表。

示例性的,所述筛选特征包括国籍是否为中国籍、证件类型是否为身份证、地址是否为中国地区等。由此,基于所述客户检索数据集,分别建立国籍维度数据表、证件类型维度表、地址维度表。

通过建立对应于每一特征的数据表,能够有效缩小检索数量级,提高筛选效率。

进一步地,根据所述筛选条件,对每一特征的数据表进行筛选并组合得到目标属性客户集。

结合前述非居民客户的筛选条件,对每一特征的数据表进行筛选并组合得到目标属性客户集进行示例性说明。

对于国籍维度数据表,客户国籍为非中国国籍,可以直接认定为非居民。

对于证件类型维度表,筛选非身份证类型且为护照的客户;对于地区维度表,筛选出生地址和居住地是非中国地区的客户。将两者的筛选结果进行组合即能够筛选出非居民。

在本说明书一个或多个实施例中,所述构建对应于每一特征的数据表的步骤之前,还包括:根据所述筛选条件中的筛选特征,对所述客户检索数据集建立数据索引。通过建立数据索引,能够提高检索的效率,提高构件每一特征的数据表的效率。

作为一个可选的实施例,所述构建对应于每一特征的数据表通过分类标注方式实现。

需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种保险客户身份属性的筛选装置。

参考图4,所述保险客户身份属性的筛选装置,包括:

数据获取模块401,被配置为:根据客户身份属性特征抽取多个数据源对应的特征数据,预处理得到规范化数据;其中,所述规范化数据至少包括匹配于所述客户身份属性特征中的两个特征的数据;

数据整合模块402,被配置为:基于不同规范化数据具有的相同客户身份属性特征,对所述规范化数据进行关联并去重,得到客户检索数据集;

数据筛选模块403,被配置为:根据预设的筛选条件,对所述客户检索数据集进行筛选得到目标属性客户集。

作为一个可选的实施例,所述数据获取模块401,还被配置为:

将所述客户身份属性特征和所述数据源的特征标签进行匹配;

根据匹配于所述客户身份属性特征的特征标签,抽取对应特征数据;

对于不同数据源的特征数据进行规范化处理,得到所述规范化数据。

作为一个可选的实施例,所述数据筛选模块403,被配置为:

所述根据预设的筛选条件,对所述客户检索数据集进行筛选得到目标客户集的步骤,包括:

根据所述筛选条件中的筛选特征和所述客户检索数据集,构建对应于每一特征的数据表;

根据所述筛选条件,对每一特征的数据表进行筛选并组合得到目标属性客户集。

作为一个可选的实施例,所述数据筛选模块403,还配位置为:

根据所述筛选条件中的筛选特征,对所述客户检索数据集建立数据索引。

作为一个可选的实施例,所述构建对应于每一特征的数据表通过分类标注方式实现。

作为一个可选的实施例,所述规范化数据采用Hadoop分布式文件架构处理。

作为一个可选的实施例,所述客户身份属性特征包括名称、证件类型、证件号码、国籍、出生地址、居住地址和联系方式。

作为一个可选的实施例,所述多个数据源包括个人客户数据源、团体客户数据源、长险数据源和短险数据源。

为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的保险客户身份属性的筛选方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的保险客户身份属性的筛选方法。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的保险客户身份属性的筛选方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的保险客户身份属性的筛选方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的保险客户身份属性的筛选方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。

另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号