首页> 中国专利> 基于客户画像的客户流失预测及挽回方法和系统

基于客户画像的客户流失预测及挽回方法和系统

摘要

本发明公开了一种基于客户画像的客户流失预测及挽回方法和系统,所述基于客户画像的客户流失预测及挽回方法包括S1:获取客户各类相关信息;S2:通过将客户的信息映射到客户画像,获得客户特征,并对特定的业务场景下的客户信息进行系统描述;S3:在得到客户特征后,使用机器学习模型对客户流失情况进行预测;S4:针对S3中对客户流失情况的预测结果,对客户流失概率高的客户进行个性化营销挽回;S5:根据客户对营销活动的响应情况,对客户的标签进行更新,完成客户画像的更新;S6:对客户流失预测模型进行优化。通过客户画像搭建标签体系,构成特征进行客户流失预测可以帮助了解客户需求,为向客户提供有针对性的服务奠定基础。

著录项

  • 公开/公告号CN112561598A

    专利类型发明专利

  • 公开/公告日2021-03-26

    原文格式PDF

  • 申请/专利号CN202011545265.1

  • 发明设计人 杨晨曦;

    申请日2020-12-23

  • 分类号G06Q30/02(20120101);G06Q10/04(20120101);G06Q50/00(20120101);G06K9/62(20060101);G06F16/9536(20190101);G06N20/20(20190101);

  • 代理机构51218 成都金英专利代理事务所(普通合伙);

  • 代理人袁英

  • 地址 400010 重庆市渝中区新华路103号

  • 入库时间 2023-06-19 10:24:22

说明书

技术领域

本发明涉及客户流失预测领域,尤其涉及一种基于客户画像的客户流失预测及挽回方法和系统。

背景技术

客户资源是商业银行至关重要的资源之一,防止客户流失已成为商业银行在面临激烈竞争中的一项重要举措。利用大数据及时发现高风险流失客户群,预测客户流失趋势,并有针对性的展开营销活动,对最大限度的降低客户流失率,保留客户资源,具有重要意义。

目前,大多数管理者传统上采取追溯法来解决客户流失问题,即通过比较开展营销活动前后客户的状态来相应的制定营销策略,过程繁琐、耗时长、效率低且成本高。

发明内容

本发明的目的在于提供一种基于客户画像的客户流失预测及挽回方法和系统,旨在解决现有技术中,通过比较开展营销活动前后客户的状态来相应的制定营销策略,过程繁琐、耗时长、效率低且成本高的问题。

为实现上述目的,本发明提出一种基于客户画像的客户流失预测及挽回方法,所述基于客户画像的客户流失预测及挽回方法包括以下步骤:

S1:获取客户各类相关信息;

S2:通过将客户的信息映射到客户画像,获得客户特征,并对特定的业务场景下的客户信息进行系统描述;

S3:在得到客户特征后,使用机器学习模型对客户流失情况进行预测;

S4:针对S3中对客户流失情况的预测结果,对客户流失概率高的客户进行个性化营销挽回;

S5:根据客户对营销活动的响应情况,对客户的标签进行更新,完成客户画像的更新;

S6:客户画像更新后,对客户流失预测模型进行优化。

所述步骤S2还包括以下子步骤:

S21:将客户信息进行结构化处理,形成客户特征;再通过建模得到对客户特征的业务描述,形成客户标签;

S22:根据客户标签,使用K-Means均值聚类算法,将客户标记为不同的分类,与丰富的客户标签共同形成客户特征宽表。

所述步骤S3还包括以下子步骤:

S31:对客户特征作数据预处理;

S32:对数据预处理之后的客户特征作特征工程;

S33:通过客户特征工程构建客户流失预测模型。

所述步骤S31还包括以下子步骤:

S311:选取在一年内未销户的客户信息形成样本集:将一年内没有过任何渠道的交易和行为记录且持有资产、产品余额未变动的客户标记为已流失客户;将一年内由任意渠道的交易和行为记录和\或持有资产、产品余额有过变动的客户作为未流失客户;

S312:统一检查数据缺失情况:删除缺失值过多的字段,并对连续型字段和离散型字段进行填充;

S313:数据表导入环境时,将int型的类别型变量转换为str型;

S314:对数据进行探索性数据分析,查看数据分布情况;

S315:对存在异常值的变量进行盖帽处理。

所述步骤S312中:对于连续型字段,通过填补均值、加权均值、中位数的方法进行填充;对于离散型字段,通过填补众数的方法进行填充。

所述步骤S32还包括以下子步骤:

S321:从业务理解角度出发,将现有特征进行组合形成新的具有业务意义的特征;

S322:对于数值特征,先生成聚合统计特征,再做二阶聚合特征;

S323:将不同量纲的变量映射到同一区间内;

S324:采用过滤法,设定阈值为95%:若变量存在95%以上的实例取值相同,则将该变量认定为无关变量,进行删除;

S325:初步构建模型,选取重要性大于一定阈值或重要性在前50%的特征,经过特征选择后,减少变量个数。

所述步骤S33还包括以下子步骤:

S331:将数据集以6:2:2的比例划分为训练集、验证集和测试集,分别用于训练模型、选择模型和评价模型;

S332:运用AdaBoost算法进行模型构建,并使用Boosting集成方法,将弱学习器提升为强学习器;

S333:采用SAMME.R的集成算法根据对样本集的预测错误的比例进行弱学习器权重的度量;

S334:使用AUC为主要模型评价指标;

S335:基于验证集上的表现对模型进行选择和调参;

S336:使用测试集的数据测试模型对新样本的判别能力,对模型进行评估;

S337:获得各特征的重要性数值,为相应决策提供参考。

所述步骤S4还包括以下子步骤:

S41:通过客户信息计算客户间的喜好相似度,并将相似度高的客户归为一类;

S42:将目标客户未有过,但同一客户集合中其他客户喜欢的产品,推荐给目标客户。

所述基于客户画像的客户流失预测及挽回系统包括:

客户数据获取模块:用于获取需要的客户数据,并将获取的客户数据发送给客户画像模块;

客户画像构建模块:包括客户画像标签体系构建子模块和客户特征宽度构建子模块,用于将客户数据进行结构化处理,形成客户特征,得到客户标签体系;并根据客户画像标签体系,配合K-Means均值聚类算法,将客户标记为不同分类,和客户标签一起构成客户特征宽表;

客户流失预测建模模块:包括数据预处理子模块、特征工程子模块和模型构建子模块,用于根据客户特征,使用机器学习模型对客户流失情况进行预测;

协同过滤推荐模块:包括客户集合构建子模块和产品推荐子模块,通过客户流失情况预测结果,对流失概率高的客户进行个性化营销挽留;

迭代更新模块:包括客户画像更新子模块和后续迭代更新子模块,用于根据客户对营销活动的响应情况,对客户标签进行更新,并对客户流失预测模型进行优化。

本申请的有益效果:

(1)通过客户画像搭建标签体系,构成特征进行客户流失预测可以帮助了解客户需求,向客户提供有针对性的服务奠定基础;

(2)运用客户标签体系构建客户流失预测模型,可以有效提高预测的准确度和效率;

(3)预测后使用协同过滤算法生成营销方案,调整营销内容、营销策略和渠道选择,可以提高营销决策的效率,提高客户响应率,提高客户粘性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据附图的结构获得其他的附图。

图1为本发明总流程图;

图2为本发明组成结构图;

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。

在本实施例中,如图1所示,本发明提出一种基于客户画像的客户流失预测及挽回方法,所述基于客户画像的客户流失预测及挽回方法包括以下步骤:

S1:获取客户各类相关信息,包括:

基本属性数据 -- 客户年龄、职业、学历、性别、所在省市等数据;

资产数据 -- 客户金融资产余额、AUM、存款、理财、资产分布等数据;

理财数据 -- 客户理财签约信息、持有理财情况等数据;

借贷数据 -- 客户授信额度、贷款余额、违约情况等数据;

产品数据 -- 客户贷款信息、信用卡持有情况、基金持有情况、国债持有情况、保险持有情况、贵金属持有情况等签约情况;

行为数据 -- 客户消费明细、第三方支付明细、转账明细等数据;

交易数据 -- 客户活期交易中流入流出金额、流入流出净额、流入流出笔数等数据;

电子银行数据 -- 客户使用个人网银登录时间、掌银登录时间、交易明细(交易时间、类型、金额、笔数、渠道等)等数据;

S2:通过将客户的信息映射到客户画像,获得客户特征,并对特定的业务场景下的客户信息进行系统描述;

具体的说,客户画像是一种对客户数据建模的方法,是对客户信息在特定的业务场景下的系统描述;通过将客户的信息映射到客户画像,得到对客户的认知;而客户标签是客户画像的元素,客户画像的搭建需要一个高效、全面的标签体系;将客户信息经过结构化处理、形成客户特征,再通过建模得到对客户特征的业务描述,即客户标签;而客户画像就是客户标签在特定业务目标下的有序集合;

S3:在得到客户特征后,使用机器学习模型对客户流失情况进行预测;

S4:针对S3中对客户流失情况的预测结果,对客户流失概率高的客户进行个性化营销挽回;

S5:根据客户对营销活动的响应情况,对客户的标签进行更新,完成客户画像的更新;

S6:客户画像更新后,对客户流失预测模型进行优化。

所述步骤S2还包括以下子步骤:

S21:将客户信息进行结构化处理,形成客户特征;再通过建模得到对客户特征的业务描述,形成客户标签;具体的说:首先要制定标签分层体系,确定在特定业务场景下的标签体系框架,框架搭建后再逐步丰富内容。然后根据客户的各类数据,搭建模型以挖掘用户标签;最后将客户标签实际运用,并根据应用结果持续反馈、优化标签体系;

在银行的实际应用场景下,标签体系从客户基本属性(包括年龄、性别、职业、生活缴费情况、地址等信息)、客户关系(包括客户配偶信息、金融关联关系等信息)、客户兴趣偏好(包括金融产品偏好、交易渠道偏好等信息)、客户价值(包括客户资产情况、价值贡献情况等信息)、客户风险信息(包括客户信贷违约情况、信用风险评价等信息)、客户营销信息(包括客户潜在需求、活动响应情况、忠诚度等信息);

S22:在标签体系搭建好后,根据客户标签,使用K-Means均值聚类算法,将客户标记为不同的分类,与丰富的客户标签共同形成客户特征宽表。

所述步骤S3还包括以下子步骤:

S31:对客户特征作数据预处理;

S32:对数据预处理之后的客户特征作特征工程;

S33:通过客户特征工程构建客户流失预测模型。

所述步骤S31还包括以下子步骤:

S311:数据标记:为了提高精准营销的效率,选取在一年内未销户的客户信息形成样本集。将在一年内未有过任何渠道的交易和行为记录并且持有资产、产品余额未变动的客户标记为已流失客户,将在一年内有过任何渠道的交易和行为记录或者持有资产、产品余额有过变动的客户标记为未流失客户,作为样本集;

S312:缺失值检查:由于不同模型对于缺失值的允许情况不同,在数据预处理阶段统一检查数据缺失情况;对于缺失值过多的字段,直接删掉该字段;对于连续型字段,通过填补均值、加权均值、中位数等方法进行填充;对于离散型字段,通过填补众数的方法进行填充;

S313:数据格式转换:数据表在导入环境时,变量可能会被设为默认的类型,需要根据实际情况调整变量的类型。对于类别型变量,数字取值仅代表类别,并不连续,因此需要将int型转换为str型;

S314:探索性数据分析:在进行特征工程前,为更加了解数据,更好地进行特征工程,对数据进行探索性数据分析,查看数据的分布,以便在特征工程时进行处理。如通过探索性数据分析发现缺失比例过高的特征,因其解释能力较弱,所以对于缺失比例高于95%的特征进行剔除;

S315:异常值处理:一些变量存在着异常值,会影响模型的结果,因此对这些变量进行盖帽处理。

所述步骤S32还包括以下子步骤:

S321:特征衍生:在这一步骤中,将现有的特征从业务理解角度出发,进行某种组合而形成新的具有业务意义的特征;可以利用基本信息拼接或者时间戳之差进行特征交叉;

S322:聚合特征:对于数值特征,可以生成合统计特征,如取最大值、均值、标准差等,然后再做二阶聚合特征;

S323:归一化:由于不同的变量的量纲不同,可能影响数据处理,将不同量纲的变量映射到同一区间内,使得不同量级的指标能够进行比较和加权;

S324:特征选取:无关变量,会成为干扰模型学习任务的噪声。为降低学习任务的难度,避免变量过多带来的负面影响,对特征进行选择;首先采用过滤法,设定阈值为95%,即若某一变量,95%以上的实例取值相同,则将该变量认定为无关变量,进行删除;然后初步构建模型,选取重要性大于一定阈值或重要性在前百分之五十的特征;经过特征选择后,有效减少变量个数,降低模型学习任务难度;

所述步骤S33还包括以下子步骤:

S331:样本集划分及采样:为证明模型的有效性,将数据集以6:2:2的比例划分为训练集、验证集和测试集,分别用于训练模型、选择模型和评价模型;

S332:模型选择:集成学习是机器学习中一种常见的算法,通过结合多个学习器,达到比单个学习器好的性能,提升学习器效果。为提高模型的准确性,使用了Boosting(提升)的集成方法,将弱的基学习器提升为强学习器。AdaBoost算法是运用广泛的一种集成算法,作为分类器时精度很高,作为简单的二元分类器,构造简单、易于理解,且不容易发生过拟合,因此在本项目中运用AdaBoost算法进行模型构建,有效提升模型的准确性,增强模型有效性;

在模型建立上,运用了集成学习中的AdaBoost算法,采用自适应增强的方式调整每轮训练集中的样本权重,将弱学习器集成为强学习器;基分类器为决策树,采用SAMME.R的集成算法根据对样本集的预测错误的比例进行弱学习器权重的度量;参数基分类器提升次数(n_estimators)和学习率(learning_rate)将进行调参处理;

S333:评价指标选择:使用AUC为主要模型评价指标;混淆矩阵、准确率、精准度、召回率、F1值等用于辅助评价;

S334:调整参数:基于验证集上的表现对模型进行选择和调参;为了搜索更好的参数组合,提升模型性能,使用RandomizedSearchCV,以随机在参数空间中采样的方式进行对参数的搜索,对参数基分类器提升次数(n_estimators)和学习率(learning_rate)进行调参;

S335:模型效果评价:

a.评价模型:使用测试集的数据测试模型对新样本的判别能力,对模型进行评估;

b.重点特征:模型建立完后,可得到各特征的重要性数值,分析在预测目标变量时,哪些特征对于预测过程比较重要,可以为相关决策提供有效参考;

所述步骤S4还包括以下子步骤:

S41:构建客户集合:通过客户的金融产品购买情况等信息计算客户间的喜好相似度,将相似度高的客户归为一类,即找到用户喜好相似的集合;

S42:推荐产品:将目标客户未有过行为,但同一用户集合中其他客户喜欢的产品,推荐给目标客户,根据业务人员经验,设计营销话术等。

如图2所示,所述基于客户画像的客户流失预测及挽回系统包括:

客户数据获取模块:用于获取需要的客户数据,并将获取的客户数据发送给客户画像模块;

客户画像构建模块:包括客户画像标签体系构建子模块和客户特征宽度构建子模块,用于将客户数据进行结构化处理,形成客户特征,得到客户标签体系;并根据客户画像标签体系,配合K-Means均值聚类算法,将客户标记为不同分类,和客户标签一起构成客户特征宽表;

客户流失预测建模模块:包括数据预处理子模块、特征工程子模块和模型构建子模块,用于根据客户特征,使用机器学习模型对客户流失情况进行预测;

协同过滤推荐模块:包括客户集合构建子模块和产品推荐子模块,通过客户流失情况预测结果,对流失概率高的客户进行个性化营销挽留;

迭代更新模块:包括客户画像更新子模块和后续迭代更新子模块,用于根据客户对营销活动的响应情况,对客户标签进行更新,并对客户流失预测模型进行优化。

以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号