首页> 中国专利> 一种家庭关系挖掘方法和装置

一种家庭关系挖掘方法和装置

摘要

本发明提供了一种家庭关系挖掘方法和装置,本发明涉及大数据,该方法包括:获取已有配偶关系数据;根据已有配偶关系数据,对特征值进行筛选,确定特征值集合;根据特征值集合,对准备训练数据进行挖掘,确定训练数据;根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型;根据训练后机器学习模型,进行家庭关系挖掘。本发明通过训练后机器学习模型挖掘出家庭关系,提高家庭配偶关系的预测能力,可以用于家庭关系采集的推广活动中,提升推广活动的投放精准度。

著录项

说明书

技术领域

本发明涉及计算机数据处理技术领域,尤其涉及一种家庭关系挖掘方法和装置。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

目前各商业银行都提供了以家庭为维度的产品或服务,但目前在家庭关系信息的采集上,各个商业银行没有找到精准的目标客群进行营销,从而家庭关系信息采集效率不高,影响了家庭维度的产品和服务的推广。

目前商业银行客户数据众多,但需要从海量的客户数据里面分析出家庭关系还是面临一些问题:

1)没有一套有效的分析机制,基于规则的分析结果又往往不准确;

2)对海量的数据进行分析时,效率也是比较低的。

因此,如何提供一种新的方案,其能够解决上述技术问题是本领域亟待解决的技术难题。

发明内容

本发明实施例提供一种家庭关系挖掘方法,通过训练后机器学习模型挖掘出家庭关系,提高家庭配偶关系的预测能力,可以用于家庭关系采集的推广活动中,提升推广活动的投放精准度,该方法包括:

获取已有配偶关系数据;

根据已有配偶关系数据,对特征值进行筛选,确定特征值集合;

根据特征值集合,对准备训练数据进行挖掘,确定训练数据;

根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型;

根据训练后机器学习模型,进行家庭关系挖掘。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,获取已有配偶关系数据,包括:

连接个贷系统,获取个人住房贷款信息;

分析人住房贷款信息,获取以后配偶关系数据。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,获取已有配偶关系数据,还包括:

连接银行客户管理系统,获取包含性别、年龄、名族、客户所属机构、婚姻状况、子女状况、学历、居住状况、家庭人口数和职业的客户基本属性信息;

从客户基本属性信息中筛选出婚姻状况作为已有配偶关系数据。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,获取已有配偶关系数据,还包括:

连接客户关系管理系统和客户信息信息系统,获取客户AUM值;

根据客户AUM值,获取已有配偶关系数据。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,根据已有配偶关系数据,对特征值进行筛选,确定特征值集合,包括:

根据分类算法,预选出多个特征值;

根据已有配偶关系数据对预选出的特征值进行统计,确定特征值与配偶关系的相关性;

根据特征值与配偶关系的相关性,从多个特征值中筛选出特征值集合。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,特征值集合,包括:

双方的转账次数、双方的性别差异、双方的年龄差距、双方的民族差异、双方的学历差距、双方所属机构号差距、双方婚姻状况的差异、双方子女状况的差异、双方居住状况的差异以及双方家庭人口数的差异。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,从多个特征值中筛选出双方的学历差距,包括:

将双方学历进行数值化,确定数值化学历;

取数值化学历的前两位相减后取绝对值,确定学历差异;

将学历差异和家庭数量建立直方图,当直方图满足双方文化程度的差异越小越容易组建家庭的条件时,将双方的学历差距作为相关特征值从多个预选出的特征值中筛选出来,送入特征值集合。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,根据特征值集合,对准备训练数据进行挖掘,确定训练数据,包括:

对特征值集合进行缺失值处理,确定完整化特征值集合;

根据完整化特征值集合,对准备训练数据进行挖掘,确定特征数据;

将特征数据用转账关系里面的两个客户去关联已有配偶关系数据,确定训练数据。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,对特征值集合进行缺失值处理时,

当特征值属于数值型数据时,采用归一化处理方式进行处理;

当特征值属于类型数据时,采用one-hot编码处理方式进行处理。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型,包括:

将训练数据分为训练集、验证集和测试集;

将训练集导入机器学习模型进行训练;

在训练的过程中,监测机器学习模型参数的变化,通过验证集确定模型参数,通过测试集对机器学习模型性能进行评估;

根据模型参数和模型性能,输出训练后机器学习模型。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,在将训练集导入机器学习模型进行训练时,采用大数据SPARK ML机器学习库对数据进行并行训练,利用集群的计算能力,加速模型训练的速度。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,根据训练后机器学习模型,进行家庭关系挖掘,包括:

根据训练后机器学习模型,使用基于类变量的划分规则去创建分类树,将转账数据中不同类别的样本分开,划分为家庭内部转账和非家庭内部转账;

将家庭内部转账中的两者确定为家庭关系。

本发明实施例还提供一种家庭关系挖掘装置,包括:

数据获取模块,用于获取已有配偶关系数据;

特征值集合确定模块,用于根据已有配偶关系数据,对特征值进行筛选,确定特征值集合;

训练数据确定模块,用于根据特征值集合,对准备训练数据进行挖掘,确定训练数据;

机器学习模型训练模块,用于根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型;

家庭关系挖掘模块,用于根据训练后机器学习模型,进行家庭关系挖掘。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,数据获取模块,具体用于:

连接个贷系统,获取个人住房贷款信息;

分析人住房贷款信息,获取以后配偶关系数据。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,数据获取模块,还用于:

连接银行客户管理系统,获取包含性别、年龄、名族、客户所属机构、婚姻状况、子女状况、学历、居住状况、家庭人口数和职业的客户基本属性信息;

从客户基本属性信息中筛选出婚姻状况作为已有配偶关系数据。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,数据获取模块,还用于:

连接客户关系管理系统和客户信息信息系统,获取客户AUM值;

根据客户AUM值,获取已有配偶关系数据。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,特征值集合确定模块,具体用于:

根据分类算法,预选出多个特征值;

根据已有配偶关系数据对预选出的特征值进行统计,确定特征值与配偶关系的相关性;

根据特征值与配偶关系的相关性,从多个特征值中筛选出特征值集合。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,特征值集合,包括:

双方的转账次数、双方的性别差异、双方的年龄差距、双方的民族差异、双方的学历差距、双方所属机构号差距、双方婚姻状况的差异、双方子女状况的差异、双方居住状况的差异以及双方家庭人口数的差异。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,特征值集合确定模块,在从多个特征值中筛选出双方的学历差距时,包括:

将双方学历进行数值化,确定数值化学历;

取数值化学历的前两位相减后取绝对值,确定学历差异;

将学历差异和家庭数量建立直方图,当直方图满足双方文化程度的差异越小越容易组建家庭的条件时,将双方的学历差距作为相关特征值从多个预选出的特征值中筛选出来,送入特征值集合。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,训练数据确定模块,具体用于:

对特征值集合进行缺失值处理,确定完整化特征值集合;

根据完整化特征值集合,对准备训练数据进行挖掘,确定特征数据;

将特征数据用转账关系里面的两个客户去关联已有配偶关系数据,确定训练数据。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,训练数据确定模块,还用于:

当特征值属于数值型数据时,采用归一化处理方式进行处理;

当特征值属于类型数据时,采用one-hot编码处理方式进行处理。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,机器学习模型训练模块,具体用于:

将训练数据分为训练集、验证集和测试集;

将训练集导入机器学习模型进行训练;

在训练的过程中,监测机器学习模型参数的变化,通过验证集确定模型参数,通过测试集对机器学习模型性能进行评估;

根据模型参数和模型性能,输出训练后机器学习模型。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,在将训练集导入机器学习模型进行训练时,采用大数据SPARK ML机器学习库对数据进行并行训练,利用集群的计算能力,加速模型训练的速度。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,家庭关系挖掘模块,具体用于:

根据训练后机器学习模型,使用基于类变量的划分规则去创建分类树,将转账数据中不同类别的样本分开,划分为家庭内部转账和非家庭内部转账;

将家庭内部转账中的两者确定为家庭关系。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种家庭关系挖掘方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述一种家庭关系挖掘方法的计算机程序。

本发明实施例提供的一种家庭关系挖掘方法和装置,包括:首先获取已有配偶关系数据;然后根据已有配偶关系数据,对特征值进行筛选,确定特征值集合;接着根据特征值集合,对准备训练数据进行挖掘,确定训练数据;下一步根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型;最后根据训练后机器学习模型,进行家庭关系挖掘。本发明实施例通过训练后机器学习模型挖掘出家庭关系,提高家庭配偶关系的预测能力,可以用于家庭关系采集的推广活动中,提升推广活动的投放精准度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本发明实施例一种家庭关系挖掘方法示意图。

图2为本发明实施例一种家庭关系挖掘方法的学历差异和家庭数量直方图。

图3为本发明实施例一种家庭关系挖掘方法的机器学习模型训练过程示意图。

图4为运行本发明实施的一种家庭关系挖掘方法的计算机装置示意图。

图5为本发明实施例一种家庭关系挖掘装置示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

本发明涉及大数据。图1为本发明实施例一种家庭关系挖掘方法示意图,如图1所示,本发明实施例提供一种家庭关系挖掘方法,通过训练后机器学习模型挖掘出家庭关系,提高家庭配偶关系的预测能力,可以用于家庭关系采集的推广活动中,提升推广活动的投放精准度,该方法包括:

步骤101:获取已有配偶关系数据;

步骤102:根据已有配偶关系数据,对特征值进行筛选,确定特征值集合;

步骤103:根据特征值集合,对准备训练数据进行挖掘,确定训练数据;

步骤104:根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型;

步骤105:根据训练后机器学习模型,进行家庭关系挖掘。

本发明实施例提供的一种家庭关系挖掘方法,包括:首先获取已有配偶关系数据;然后根据已有配偶关系数据,对特征值进行筛选,确定特征值集合;接着根据特征值集合,对准备训练数据进行挖掘,确定训练数据;下一步根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型;最后根据训练后机器学习模型,进行家庭关系挖掘。本发明实施例通过训练后机器学习模型挖掘出家庭关系,提高家庭配偶关系的预测能力,可以用于家庭关系采集的推广活动中,提升推广活动的投放精准度。

在本发明实施例中,机器学习:是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

大数据:IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

本方法涉及的是在商业银行中使用结合大数据和人工智能的相关技术,对客户的信息和行为数据进行分析,从而得出客户与客户之间的可能家庭关系(如配偶、父母、子女等)信息。

因为目前在银行里面可能有的家庭关系主要是配偶关系,且这也是对银行最为有用的关系类型。本方法通过设计出一套基于大数据和机器学习的流程机制来预测配偶关系,通过这些流程和机制主要达到的目标为:

基于样本数据,结合大数据和机器学习的技术,得出一套机器学习的模型;

利用上面得到的机器学习的模型,对现有和新增客户数据进行分析,得到两个客户是否是疑似配偶关系的结果。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,可以包括:

获取已有配偶关系数据;

根据已有配偶关系数据,对特征值进行筛选,确定特征值集合;

根据特征值集合,对准备训练数据进行挖掘,确定训练数据;

根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型;

根据训练后机器学习模型,进行家庭关系挖掘。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,获取已有配偶关系数据,包括:

连接个贷系统,获取个人住房贷款信息;

分析人住房贷款信息,获取以后配偶关系数据。

实施例中,配偶关系数据,包括:客户在办理住房贷款等个贷时,如果已婚都会提供准确的配偶关系,所以一般可从个贷系统获取确定的配合关系数据用做分析。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,获取已有配偶关系数据,还包括:

连接银行客户管理系统,获取包含性别、年龄、名族、客户所属机构、婚姻状况、子女状况、学历、居住状况、家庭人口数和职业的客户基本属性信息;

从客户基本属性信息中筛选出婚姻状况作为已有配偶关系数据。

实施例中,在银行的客户信息管理系统里面,一般都存有客户的基本属性,如:性别、年龄、名族、客户所属机构、婚姻状况、子女状况、学历、居住状况、家庭人口数、职业等。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,获取已有配偶关系数据,还包括:

连接客户关系管理系统和客户信息信息系统,获取客户AUM值;

根据客户AUM值,获取已有配偶关系数据。

实施例中,银行一般都会定期计算出客户的AUM值,一般可从客户关系管理或客户信息系统获取。AUM指的是资产管理规模(Asset Under Management),代表某个客户在银行托管的总资产。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,根据已有配偶关系数据,对特征值进行筛选,确定特征值集合,包括:

根据分类算法,预选出多个特征值;

根据已有配偶关系数据对预选出的特征值进行统计,确定特征值与配偶关系的相关性;

根据特征值与配偶关系的相关性,从多个特征值中筛选出特征值集合。

实施例中,转账数据:存款系统会有客户与客户之间的转账关系数据,一般可以直接获取。

所有的转账数据中必然包含了两类数据:“家庭内部转账”和“非家庭内部转账”。而所谓的“家庭内部转账”,它其实就是我想要的“配偶关系”。我需要做的仅仅是将两类数据区分开来就行了。这样,一个看似复杂的问题,就变成了机器学习中简单的“分类”问题,而且是分类里面的二分类问题。

一般机器学习的分类算法,都需要选取特征值用于机器学习的训练,特征值的选取一般可以在在学习中根据预测结果进行增减尝试。但这也是一个繁琐的过程,毕竟机器学习的训练一般都是需要大量的时间。我们可以选取一些特征值,然后用配偶关系的数据的特征值进行统计,得出这些特征值跟配偶关系的相关性,从多个特征值中筛选出特征值集合。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,特征值集合,包括:

双方的转账次数、双方的性别差异、双方的年龄差距、双方的民族差异、双方的学历差距、双方所属机构号差距、双方婚姻状况的差异、双方子女状况的差异、双方居住状况的差异以及双方家庭人口数的差异。

图2为本发明实施例一种家庭关系挖掘方法的学历差异和家庭数量直方图,如图2所示,具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,从多个特征值中筛选出双方的学历差距,包括:

将双方学历进行数值化,确定数值化学历;

取数值化学历的前两位相减后取绝对值,确定学历差异;

将学历差异和家庭数量建立直方图,当直方图满足双方文化程度的差异越小越容易组建家庭的条件时,将双方的学历差距作为相关特征值从多个预选出的特征值中筛选出来,送入特征值集合。

实施例中,从多个特征值中筛选出双方的学历差距,包括:

假设:双方文化程度的差异越小,越容易组建家庭;

验证:使用5000个家庭继续进行“学历”的分析和验证。因为,“学历”的取值是隐含了高低的(01*代表博士类学历,09*代表小学类学历)。所以,我们只需要取夫妻双方的学历的前两位相减,然后取其绝对值就可以得到目标的“学历差异”。例如:A的学历是01*,B的学历是02*,那么两人的学历差异既是“|01-02|=1”。综上所述,我们可以得到“学历差异”与“家庭数量”的直方图如图2所示。

所以,假设成立,此特征值可用。

进一步的,假设双方的AUM的倍数越小,越容易组建家庭。

同理我们继续使用相同5000个家庭继续进行“AUM”的分析和验证。取夫妻双方AUM的倍数作为“AUM差距”分析,可以看出“AUM差距”毫无规律可言。

所以,假设不成立,不选用此特征值。

通过上面的分析,最终选取的特征值集合如下:

1)双方的转账次数(数值表示);

2)双方的性别差异(0和1表示);

3)双方的年龄差距(具体数值表示);

4)双方的民族差异(0和1表示);

5)双方的学历差距(具体数值表示);

6)双方所属机构号差距(0不同分行;1同分行;2同二级分行;3同网点);

7)双方婚姻状况的差异(0非都已婚;1都已婚;2未知);

8)双方子女状况的差异(0都无子女;1一方有子女;2都无子女3未知(包括一方及双方未知));

9)双方居住状况的差异(0不一致;1状况一致;2未知);

10)双方家庭人口数的差异(0不一致;1一致;2未知)。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,根据特征值集合,对准备训练数据进行挖掘,确定训练数据,包括:

对特征值集合进行缺失值处理,确定完整化特征值集合;

根据完整化特征值集合,对准备训练数据进行挖掘,确定特征数据;

将特征数据用转账关系里面的两个客户去关联已有配偶关系数据,确定训练数据。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,对特征值集合进行缺失值处理时,

当特征值属于数值型数据时,采用归一化处理方式进行处理;

当特征值属于类型数据时,采用one-hot编码处理方式进行处理。

实施例中,根据选取的特征值后就可开始挖掘准备训练数据,这个过程是一个繁琐复杂的过程,一般需要比较多的步骤处理。另外这些特征值可能会有缺失,在准备训练数据时需要进行缺失值处理,数值型数据处理的方式一般采用归一化处理,类型数据一般使用one-hot编码处理。

这些特征数据都加工出来过后用转账关系里面的两个客户去关联配偶关系数据,可以直接得到这些转账关系是否为配合关系。最终得到训练数据。为了训练的准确性,一般选取一个月的转账关系并随机(均匀分布)抽取200W条转账关系数据来做训练数据。

图3为本发明实施例一种家庭关系挖掘方法的机器学习模型训练过程示意图,如图3所示,具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型,包括:

步骤301:将训练数据分为训练集、验证集和测试集;

步骤302:将训练集导入机器学习模型进行训练;

步骤303:在训练的过程中,监测机器学习模型参数的变化,通过验证集确定模型参数,通过测试集对机器学习模型性能进行评估;

步骤304:根据模型参数和模型性能,输出训练后机器学习模型。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,在将训练集导入机器学习模型进行训练时,采用大数据SPARK ML机器学习库对数据进行并行训练,利用集群的计算能力,加速模型训练的速度。

具体实施本发明实施例提供的一种家庭关系挖掘方法时,在一个实施例中,根据训练后机器学习模型,进行家庭关系挖掘,包括:

根据训练后机器学习模型,使用基于类变量的划分规则去创建分类树,将转账数据中不同类别的样本分开,划分为家庭内部转账和非家庭内部转账;

将家庭内部转账中的两者确定为家庭关系。

实施例中,我们把训练数据分训练集(70%)、验证集(20%)、测试集(10%)。训练集用于训练模型,找出最佳模型。验证集用于确定模型参数。测试集用于对模型进行性能评估。

因为训练数据集比较大,我们采用大数据SPARK ML机器学习库对数据进行并行训练,这样可以利用集群的计算能力,比较快速的训练处模型来。

因为我们要做的是类不平衡二分类问题(即正负样本的比例非一比一),这比较好理解,比如一般转账关系里面确实为配偶关系的比例为10%,这样可理解正负样本比例为1:9,这样我们每次猜都为正样本的概率(即人工猜测准确的概率)为11%。决策树往往在类别不均衡数据上表现不错。它使用基于类变量的划分规则去创建分类树,因此可以强制地将不同类别的样本分开。因此算法我们选用随机森林算法。

因为转账关系里面确实为配偶的比例还是比较低的,上文说到大概为11%,通过以上模型训练测试验证后,预测转账关系为配偶关系的准确率可以达到76%。通过此方法可以大大的提高家庭配偶关系的预测能力,可以用于后面家庭关系采集的推广等活动。

本发明实施例还提供了一种家庭关系挖掘方法的流程,包括:

1.方法基础-已有数据:

要利用机器学习对数据进行分析得出模型,需要有效的学习数据:

1.1配偶关系数据:

因为客户在办理住房贷款等个贷时,如果已婚都会提供准确的配偶关系,所以一般可从个贷系统获取确定的配合关系数据用做分析。

1.2转账数据:

存款系统会有客户与客户之间的转账关系数据,一般可以直接获取。

1.3客户基本信息数据:

在银行的客户信息管理系统里面,一般都存有客户的基本属性,如:

性别、年龄、名族、客户所属机构、婚姻状况、子女状况、学历、居住状况、家庭人口数、职业等。

1.4客户AUM数据:

银行一般都会定期计算出客户的AUM值,一般可从客户关系管理或客户信息系统获取。

2.方法核心思想:

所有的转账数据中必然包含了两类数据:“家庭内部转账”和“非家庭内部转账”。而所谓的“家庭内部转账”,它其实就是我想要的“配偶关系”。我需要做的仅仅是将两类数据区分开来就行了。这样,一个看似复杂的问题,就变成了机器学习中简单的“分类”问题,而且是分类里面的二分类问题。

2.1特征值选取:

一般机器学习的分类算法,都需要选取特征值用于机器学习的训练,特征值的选取一般可以在在学习中根据预测结果进行增减尝试。但这也是一个繁琐的过程,毕竟机器学习的训练一般都是需要大量的时间。我们可以选取一些特征值,然后用配偶关系的数据的特征值进行统计,得出这些特征值跟配偶关系的相关性。列如以学历和AUM为例:

2.1.1学历:

假设:双方文化程度的差异越小,越容易组建家庭

验证:使用5000个家庭继续进行“学历”的分析和验证。因为,“学历”的取值是隐含了高低的(01*代表博士类学历,09*代表小学类学历)。所以,我们只需要取夫妻双方的学历的前两位相减,然后取其绝对值就可以得到目标的“学历差异”。例如:A的学历是01*,B的学历是02*,那么两人的学历差异既是“|01-02|=1”。综上所述,我们可以得到“学历差异”与“家庭数量”的直方图如下:

所以,假设成立,此特征值可用。

2.1.2 AUM:

假设:双方的AUM的倍数越小,越容易组建家庭。

同理我们继续使用相同5000个家庭继续进行“AUM”的分析和验证。取夫妻双方AUM的倍数作为“AUM差距”分析,可以看出“AUM差距”毫无规律可言。

所以,假设不成立,不选用此特征值。

2.2最终特征值:

通过上面的分析,最终选取的特征值如下:

1)双方的转账次数(数值表示);

2)双方的性别差异(0和1表示);

3)双方的年龄差距(具体数值表示);

4)双方的民族差异(0和1表示);

5)双方的学历差距(具体数值表示);

6)双方所属机构号差距(0不同分行;1同分行;2同二级分行;3同网点);

7)双方婚姻状况的差异(0非都已婚;1都已婚;2未知);

8)双方子女状况的差异(0都无子女;1一方有子女;2都无子女3未知(包括一方及双方未知));

9)双方居住状况的差异(0不一致;1状况一致;2未知);

10)双方家庭人口数的差异(0不一致;1一致;2未知)。

3.数据挖掘:

根据选取的特征值后就可开始挖掘准备训练数据,这个过程是一个繁琐复杂的过程,一般需要比较多的步骤处理。另外这些特征值可能会有缺失,在准备训练数据时需要进行缺失值处理,数值型数据处理的方式一般采用归一化处理,类型数据一般使用one-hot编码处理。

这些特征数据都加工出来过后用转账关系里面的两个客户去关联配偶关系数据,可以直接得到这些转账关系是否为配合关系。最终得到训练数据。为了训练的准确性,一般选取一个月的转账关系并随机(均匀分布)抽取200W条转账关系数据来做训练数据。

4.机器学习训练:

我们把训练数据分训练集(70%)、验证集(20%)、测试集(10%)。训练集用于训练模型,找出最佳模型。验证集用于确定模型参数。测试集用于对模型进行性能评估。

因为训练数据集比较大,我们采用大数据SPARK ML机器学习库对数据进行并行训练,这样可以利用集群的计算能力,比较快速的训练处模型来。

因为我们要做的是类不平衡二分类问题(即正负样本的比例非一比一),这比较好理解,比如一般转账关系里面确实为配偶关系的比例为10%,这样可理解正负样本比例为1:9,这样我们每次猜都为正样本的概率(即人工猜测准确的概率)为11%。决策树往往在类别不均衡数据上表现不错。它使用基于类变量的划分规则去创建分类树,因此可以强制地将不同类别的样本分开。因此算法我们选用随机森林算法。

5.测试结果:

因为转账关系里面确实为配偶的比例还是比较低的,上文说到大概为11%,通过以上模型训练测试验证后,预测转账关系为配偶关系的准确率可以达到76%。通过此方法可以大大的提高家庭配偶关系的预测能力,可以用于后面家庭关系采集的推广等活动。

图4为运行本发明实施的一种家庭关系挖掘方法的计算机装置示意图,如图4所示,本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种家庭关系挖掘方法。

具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种家庭关系挖掘方法时,在一个实施例中,可以包括:

获取已有配偶关系数据;

根据已有配偶关系数据,对特征值进行筛选,确定特征值集合;

根据特征值集合,对准备训练数据进行挖掘,确定训练数据;

根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型;

根据训练后机器学习模型,进行家庭关系挖掘。

具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种家庭关系挖掘方法时,在一个实施例中,获取已有配偶关系数据,包括:

连接个贷系统,获取个人住房贷款信息;

分析人住房贷款信息,获取以后配偶关系数据。

具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种家庭关系挖掘方法时,在一个实施例中,获取已有配偶关系数据,还包括:

连接银行客户管理系统,获取包含性别、年龄、名族、客户所属机构、婚姻状况、子女状况、学历、居住状况、家庭人口数和职业的客户基本属性信息;

从客户基本属性信息中筛选出婚姻状况作为已有配偶关系数据。

具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种家庭关系挖掘方法时,在一个实施例中,获取已有配偶关系数据,还包括:

连接客户关系管理系统和客户信息信息系统,获取客户AUM值;

根据客户AUM值,获取已有配偶关系数据。

具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种家庭关系挖掘方法时,在一个实施例中,根据已有配偶关系数据,对特征值进行筛选,确定特征值集合,包括:

根据分类算法,预选出多个特征值;

根据已有配偶关系数据对预选出的特征值进行统计,确定特征值与配偶关系的相关性;

根据特征值与配偶关系的相关性,从多个特征值中筛选出特征值集合。

具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种家庭关系挖掘方法时,在一个实施例中,特征值集合,包括:

双方的转账次数、双方的性别差异、双方的年龄差距、双方的民族差异、双方的学历差距、双方所属机构号差距、双方婚姻状况的差异、双方子女状况的差异、双方居住状况的差异以及双方家庭人口数的差异。

具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种家庭关系挖掘方法时,在一个实施例中,从多个特征值中筛选出双方的学历差距,包括:

将双方学历进行数值化,确定数值化学历;

取数值化学历的前两位相减后取绝对值,确定学历差异;

将学历差异和家庭数量建立直方图,当直方图满足双方文化程度的差异越小越容易组建家庭的条件时,将双方的学历差距作为相关特征值从多个预选出的特征值中筛选出来,送入特征值集合。

具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种家庭关系挖掘方法时,在一个实施例中,根据特征值集合,对准备训练数据进行挖掘,确定训练数据,包括:

对特征值集合进行缺失值处理,确定完整化特征值集合;

根据完整化特征值集合,对准备训练数据进行挖掘,确定特征数据;

将特征数据用转账关系里面的两个客户去关联已有配偶关系数据,确定训练数据。

具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种家庭关系挖掘方法时,在一个实施例中,对特征值集合进行缺失值处理时,

当特征值属于数值型数据时,采用归一化处理方式进行处理;

当特征值属于类型数据时,采用one-hot编码处理方式进行处理。

具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种家庭关系挖掘方法时,在一个实施例中,根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型,包括:

将训练数据分为训练集、验证集和测试集;

将训练集导入机器学习模型进行训练;

在训练的过程中,监测机器学习模型参数的变化,通过验证集确定模型参数,通过测试集对机器学习模型性能进行评估;

根据模型参数和模型性能,输出训练后机器学习模型。

具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种家庭关系挖掘方法时,在一个实施例中,在将训练集导入机器学习模型进行训练时,采用大数据SPARK ML机器学习库对数据进行并行训练,利用集群的计算能力,加速模型训练的速度。

具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种家庭关系挖掘方法时,在一个实施例中,根据训练后机器学习模型,进行家庭关系挖掘,包括:

根据训练后机器学习模型,使用基于类变量的划分规则去创建分类树,将转账数据中不同类别的样本分开,划分为家庭内部转账和非家庭内部转账;

将家庭内部转账中的两者确定为家庭关系。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种家庭关系挖掘方法的计算机程序。

具体实施本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种家庭关系挖掘方法的计算机程序时,在一个实施例中,可以包括:

获取已有配偶关系数据;

根据已有配偶关系数据,对特征值进行筛选,确定特征值集合;

根据特征值集合,对准备训练数据进行挖掘,确定训练数据;

根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型;

根据训练后机器学习模型,进行家庭关系挖掘。

具体实施本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种家庭关系挖掘方法的计算机程序时,在一个实施例中,获取已有配偶关系数据,包括:

连接个贷系统,获取个人住房贷款信息;

分析人住房贷款信息,获取以后配偶关系数据。

具体实施本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种家庭关系挖掘方法的计算机程序时,在一个实施例中,获取已有配偶关系数据,还包括:

连接银行客户管理系统,获取包含性别、年龄、名族、客户所属机构、婚姻状况、子女状况、学历、居住状况、家庭人口数和职业的客户基本属性信息;

从客户基本属性信息中筛选出婚姻状况作为已有配偶关系数据。

具体实施本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种家庭关系挖掘方法的计算机程序时,在一个实施例中,获取已有配偶关系数据,还包括:

连接客户关系管理系统和客户信息信息系统,获取客户AUM值;

根据客户AUM值,获取已有配偶关系数据。

具体实施本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种家庭关系挖掘方法的计算机程序时,在一个实施例中,根据已有配偶关系数据,对特征值进行筛选,确定特征值集合,包括:

根据分类算法,预选出多个特征值;

根据已有配偶关系数据对预选出的特征值进行统计,确定特征值与配偶关系的相关性;

根据特征值与配偶关系的相关性,从多个特征值中筛选出特征值集合。

具体实施本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种家庭关系挖掘方法的计算机程序时,在一个实施例中,特征值集合,包括:

双方的转账次数、双方的性别差异、双方的年龄差距、双方的民族差异、双方的学历差距、双方所属机构号差距、双方婚姻状况的差异、双方子女状况的差异、双方居住状况的差异以及双方家庭人口数的差异。

具体实施本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种家庭关系挖掘方法的计算机程序时,在一个实施例中,从多个特征值中筛选出双方的学历差距,包括:

将双方学历进行数值化,确定数值化学历;

取数值化学历的前两位相减后取绝对值,确定学历差异;

将学历差异和家庭数量建立直方图,当直方图满足双方文化程度的差异越小越容易组建家庭的条件时,将双方的学历差距作为相关特征值从多个预选出的特征值中筛选出来,送入特征值集合。

具体实施本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种家庭关系挖掘方法的计算机程序时,在一个实施例中,根据特征值集合,对准备训练数据进行挖掘,确定训练数据,包括:

对特征值集合进行缺失值处理,确定完整化特征值集合;

根据完整化特征值集合,对准备训练数据进行挖掘,确定特征数据;

将特征数据用转账关系里面的两个客户去关联已有配偶关系数据,确定训练数据。

具体实施本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种家庭关系挖掘方法的计算机程序时,在一个实施例中,对特征值集合进行缺失值处理时,

当特征值属于数值型数据时,采用归一化处理方式进行处理;

当特征值属于类型数据时,采用one-hot编码处理方式进行处理。

具体实施本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种家庭关系挖掘方法的计算机程序时,在一个实施例中,根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型,包括:

将训练数据分为训练集、验证集和测试集;

将训练集导入机器学习模型进行训练;

在训练的过程中,监测机器学习模型参数的变化,通过验证集确定模型参数,通过测试集对机器学习模型性能进行评估;

根据模型参数和模型性能,输出训练后机器学习模型。

具体实施本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种家庭关系挖掘方法的计算机程序时,在一个实施例中,在将训练集导入机器学习模型进行训练时,采用大数据SPARK ML机器学习库对数据进行并行训练,利用集群的计算能力,加速模型训练的速度。

具体实施本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种家庭关系挖掘方法的计算机程序时,在一个实施例中,根据训练后机器学习模型,进行家庭关系挖掘,包括:

根据训练后机器学习模型,使用基于类变量的划分规则去创建分类树,将转账数据中不同类别的样本分开,划分为家庭内部转账和非家庭内部转账;

将家庭内部转账中的两者确定为家庭关系。

本发明实施例中还提供了一种家庭关系挖掘装置,如下面的实施例所述。由于该装置解决问题的原理与一种家庭关系挖掘方法相似,因此该装置的实施可以参见一种家庭关系挖掘方法的实施,重复之处不再赘述。

图5为本发明实施例一种家庭关系挖掘装置示意图,如图5所示,本发明实施例还提供一种家庭关系挖掘装置,包括:

数据获取模块501,用于获取已有配偶关系数据;

特征值集合确定模块502,用于根据已有配偶关系数据,对特征值进行筛选,确定特征值集合;

训练数据确定模块503,用于根据特征值集合,对准备训练数据进行挖掘,确定训练数据;

机器学习模型训练模块504,用于根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型;

家庭关系挖掘模块505,用于根据训练后机器学习模型,进行家庭关系挖掘。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,数据获取模块,具体用于:

连接个贷系统,获取个人住房贷款信息;

分析人住房贷款信息,获取以后配偶关系数据。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,数据获取模块,还用于:

连接银行客户管理系统,获取包含性别、年龄、名族、客户所属机构、婚姻状况、子女状况、学历、居住状况、家庭人口数和职业的客户基本属性信息;

从客户基本属性信息中筛选出婚姻状况作为已有配偶关系数据。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,数据获取模块,还用于:

连接客户关系管理系统和客户信息信息系统,获取客户AUM值;

根据客户AUM值,获取已有配偶关系数据。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,特征值集合确定模块,具体用于:

根据分类算法,预选出多个特征值;

根据已有配偶关系数据对预选出的特征值进行统计,确定特征值与配偶关系的相关性;

根据特征值与配偶关系的相关性,从多个特征值中筛选出特征值集合。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,特征值集合,包括:

双方的转账次数、双方的性别差异、双方的年龄差距、双方的民族差异、双方的学历差距、双方所属机构号差距、双方婚姻状况的差异、双方子女状况的差异、双方居住状况的差异以及双方家庭人口数的差异。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,特征值集合确定模块,在从多个特征值中筛选出双方的学历差距时,包括:

将双方学历进行数值化,确定数值化学历;

取数值化学历的前两位相减后取绝对值,确定学历差异;

将学历差异和家庭数量建立直方图,当直方图满足双方文化程度的差异越小越容易组建家庭的条件时,将双方的学历差距作为相关特征值从多个预选出的特征值中筛选出来,送入特征值集合。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,训练数据确定模块,具体用于:

对特征值集合进行缺失值处理,确定完整化特征值集合;

根据完整化特征值集合,对准备训练数据进行挖掘,确定特征数据;

将特征数据用转账关系里面的两个客户去关联已有配偶关系数据,确定训练数据。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,训练数据确定模块,还用于:

当特征值属于数值型数据时,采用归一化处理方式进行处理;

当特征值属于类型数据时,采用one-hot编码处理方式进行处理。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,机器学习模型训练模块,具体用于:

将训练数据分为训练集、验证集和测试集;

将训练集导入机器学习模型进行训练;

在训练的过程中,监测机器学习模型参数的变化,通过验证集确定模型参数,通过测试集对机器学习模型性能进行评估;

根据模型参数和模型性能,输出训练后机器学习模型。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,在将训练集导入机器学习模型进行训练时,采用大数据SPARK ML机器学习库对数据进行并行训练,利用集群的计算能力,加速模型训练的速度。

具体实施本发明实施例提供的一种家庭关系挖掘装置时,在一个实施例中,家庭关系挖掘模块,具体用于:

根据训练后机器学习模型,使用基于类变量的划分规则去创建分类树,将转账数据中不同类别的样本分开,划分为家庭内部转账和非家庭内部转账;

将家庭内部转账中的两者确定为家庭关系。

综上,本发明实施例提供的一种家庭关系挖掘方法和装置,包括:首先获取已有配偶关系数据;然后根据已有配偶关系数据,对特征值进行筛选,确定特征值集合;接着根据特征值集合,对准备训练数据进行挖掘,确定训练数据;下一步根据训练数据,对机器学习模型进行训练,确定训练后机器学习模型;最后根据训练后机器学习模型,进行家庭关系挖掘。本发明实施例通过训练后机器学习模型挖掘出家庭关系,提高家庭配偶关系的预测能力,可以用于家庭关系采集的推广活动中,提升推广活动的投放精准度。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号