公开/公告号CN102567807A
专利类型发明专利
公开/公告日2012-07-11
原文格式PDF
申请/专利权人 上海亚太计算机信息系统有限公司;
申请/专利号CN201010608325.X
申请日2010-12-23
分类号G06Q10/04(20120101);G06Q50/00(20120101);
代理机构
代理人
地址 200040 上海市静安区延安西路300号7楼
入库时间 2023-12-18 06:00:04
法律状态公告日
法律状态信息
法律状态
2016-01-13
授权
授权
2013-07-24
实质审查的生效 IPC(主分类):G06Q10/04 申请日:20101223
实质审查的生效
2012-07-11
公开
公开
技术领域
本发明涉及客户流失预测分析,具体涉及石化零售行业加油卡用户的流 失预测分析。
背景技术
中国的石化行业经过多年的信息化建设,取得了巨大的经济效益和良好 的社会效益。然而经过一轮高速发展之后,尤其是随着行业内竞争的加剧, 各运营商加油卡客户的增长逐渐放慢,客户呈现出动态亦增亦减趋势,在每 月都有客户新开卡的情况下,也有大量客户停止使用。每个月都有出现的零 充值、零消费客户,大量占用了客户维护的信息资源,客户数量的增加却不 能带来收入的增加,而发展新客户的成本要远远大于挽留老客户的成本,所 以客户流失分析的重要意义对石化运营商来说不言而喻。在当前运营基础设 施不断改善,服务意识也逐步提升的情况下,对有价值客户的关注和流失防 范成为关注的焦点。
目前,未有任何石化公司对加油卡客户的流失进行系统化、规划化分析 并提出相应预警信息。
发明内容
本发明要解决的技术问题就是为了克服现有技术缺陷而提供一种加油 卡客户流失预测方法。
本发明的目的通过以下技术方案来实现,如图1所示:
一种加油卡客户流失预测分析方法,包括步骤:
S1、收集一定期限内每个加油卡客户行为的原始数据,建立数据库;
S2、以颗粒度为月对所述原始数据进行整理汇总,计算出和加油卡客户流失 行为相关的若干基本属性;
S3、对所述各基本属性进行离散化或布尔化处理;
S4、利用信息增益参量对所述各基本属性的重要性进行评估,筛选出若干重 要属性;
S5、对所述各重要属性,利用多维关联规则,得到属性的频繁项集,并以每 个频繁项集中的频繁项与该频繁维谓词集合并起来作为新属性;
S6、针对所述多维频繁项集的新属性,采用决策树方式建立模型;
S7、将实际已经流失的客户的数据输入所述决策树模型进行分析,比较分析 结果和实际历史结果的差异,对所述决策树模型进行修正;
S7、根据修正后的决策树模型进行客户流失预测,发布预警信息。
其中,步骤S1中加油卡客户行为的原始数据包括充值明细、圈存明细、 加油明细、积分明细、沉淀资金。
其中,步骤S2中和加油卡客户后续行为相关的若干基本属性,至少包 括一定期限内的月平均消费额,以往充值的平均金额,最后一次充值距当前 时间,最后一次的充值的金额,最后一次消费距当前的时间。
其中,步骤S4包括以下步骤:
S41、计算任意基本属性的期望信息:
I(s1,s2,…,sn)=-∑pilog2(pi)(i=1…m)
其中,数据库的数据集为S,m为S的基本属性数目,ci为某基
本属性标号,pi为任意基本属性ci的概率,si为ci上的样本数;
S42、由A划分为子集的熵:
A为任意基本属性,具有v个不同的取值;
S43、计算信息增益Gain(A)=I(s1,s2,…,sn)-E(A);
S44、设定阀值,去除信息增益很小的基本属性。
其中,所述步骤S6包括:
S61、对步骤S5中所述的每个新属性计算信息增益,取信息增益最大的新属 性作为根节点;
S62、为该新属性的每一个取值建立一个树的分叉;
S63、对每一个分叉,选出样本子集,对其余的新属性计算信息增益,建立 节点;
S64、递归以上过程,直到没有其余的新属性,该节点定义为叶子节点;
S65、将没有样本的叶子节点剪掉;
S66、将该结点归类为所含样本中个数最多的类别。
其中,步骤S62进一步包括:如果该新属性为布尔型,则取值为真或假。
本发明的积极进步效果在于:综合并改进了属性关联和决策树模型,属 性的筛选使增加了决策树生成效率和可理解性,属性的合并具有石化行业特 色,从而实现传统决策树模型不能解决的问题,为石化行业提出了一种可行 的客户流失预警方案。
附图说明
图1为本发明的基本流程图。
图2为本发明实施例的加油卡数据整理过程图示。
图3为本发明实施例的布尔化图示。
图4为本发明实施例的决策树图示
具体实施方式
下面结合附图给出本发明一个较佳实施例,以详细说明本发明的技术方 案。
以2008年1-8月的加油卡客户的原始数据建立数据库并进行客户流失 预测分析。
如图2所示,当前中国的石化行业掌握的加油卡客户行为原始数据包括: 每个加油卡客户的充值明细(时间、网点、金额等)、圈存明细(时间、网 点、金额等)、加油明细(时间、网点、油品、金额等)、积分明细(时间、 网点、产生的积分、消费的积分)、沉淀资金(账户余额、卡备付金余额、 卡帐余额)等。由于每个加油卡客户拥有主卡和很多张副卡,因此明细数据 具有很大的随机性,所以需要对以上数据进行汇总整理。根据预测的需要, 选取以月为颗粒度,整理出每个加油卡客户单月的消费金额(简称Cons),单 月的充值金额(简称Charge),单月产生的积分(简称AccuCreate),单 月消费的积分(简称AccuCons),单月的沉淀资金(简称Balance),当月 在异地加油所占比例。
一般的,判断一个客户是否流失,包括诸多因素,如:最后一次充值金 额和时间,最后一次消费金额和时间,等等。根据加油卡原始数据整理出的 数据,计算出和客户流失行为相关的各种基本属性,包括:前六个月的月平 均消费ConsAver,以往充值的平均金额ChargeAver,最后一次充值距当前的 时间ChargeLong,最后一次充值的金额ChargeLast,最后一次消费距当前的 时间,最后一个月的沉淀资金,最后一个月消费的金额,最后一个月消费和 上月的环比,最后一个月消费和前六个月平均消费的比例,最后一个月异地 消费的次数,最后一次充值和以往平均充值的比例,最后一次充值后的沉淀 资金,等。具体的计算方法很简单,本行业人员易于理解,在此不赘述。
为了便于分析,将以上各基本属性进行布尔化处理,如图3中所示,布 尔化后的属性包括:属性A即最后一个月消费是否低于平均值70%,属性B 即最后一个月消费环比是否低于50%,属性C即圈存是否低于平均值50%,属 性D即最后一次充值是否低于平均值(平均充值金额)50%,属性E即异地消 费所占比例(占全部消费额的比例)是否超过50%,属性F即沉淀资金是否低 于最后一次充值后金额的5%,属性G即是否超过30天没有充值,属性H即最 后一个月积分消费比例(占全部积分消费的比例)是否超过50%,。
然后,利用信息增益参量这些属性的重要性进行评估,任意分类属性的 期望信息:I(s1,s2,…,sn)=-∑pilog2(pi)(i=1…m)
其中,数据集为S,m为S的分类数目,ci为某分类标号, pi为任意样本ci的概率,si为分类ci上的样本数。
由A划分为子集的熵:
A为属性,具有v个不同的取值。
信息增益:Gain(A)=I(s1,s2,…,sn)-E(A)。
具体到本实施例,属性A,属性B,……属性H的信息增益,分别计算 得(由于加油卡客户有数十万,为便于计算,随机取13组数据,其中1至6 月数据用来计算以往平均值,7月数据作为要预测的月,即本文中提到的最 后一个月,8月数据用来判断是否流失):
Grain(A)=0.0218
Grain(B)=0.0127
Grain(C)=0.0004
Grain(D)=0.0051
Grain(E)=0.0003
Grain(F)=0.0035
Grain(G)=0.0054
Grain(H)=0.0001
以0.001为阀值,去除属性C、E、H,保留保留属性A、B、D、F、G, 即属性A、B、D、F、G为相对的重要属性。
对于这些相对重要的属性,如果直接采用决策树进行数据挖掘,则效率 非常低下,而且不一定能挖掘出有用的知识,所以还需要采用多维关联规则 合并属性。为此,本实施例将采用多维关联规则的方法进行数据过滤,扫描 数据库,得到多维频繁项集,将每个频繁项集中的频繁项与该频繁维谓词集 合并起来作为新的属性,如将最后一月消费值环比是否低于50%和最后一个 月消费与前六个月平均值比是否低于70%可以合并为属性A或B。
针对这些得到的新属性,采用自上而下,分而治之的方法建立决策树模 型,具体步骤为:
1、对每个新属性计算信息增益,取信息增益最大的属性作为根节点;
2、为该属性的每一个取值(如果该属性为布尔型,则取值为真或假) 建立一个树的分叉;
3、对每一个分叉,选出样本子集,对其余的属性计算信息增益,建立 节点;
4、递归以上过程,直到没有其余的属性,该节点定义为叶子节点;
5、将没有样本的叶子节点剪掉;
6、将该结点归类为所含样本中个数最多的类别。
经过上述步骤,可以得到如图3所示的决策树模型。由此模型,可以预 测:本月消费值较低,充值量下降,沉淀资金较少,且长时间没有充值的用 户较可能流失。
这个模型建立后,根据后续的实际数据对模型进行修正,结合石化运营 商实际经验进行检验,如果检验合理,推向市场。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理 解,这些仅是举例说明,在不背离本发明的原理和实质的前提下,可以对实 施方式做出多种变更或修改。因此,本发明的保护范围由所附权利要求书限 定。
机译: 使用深度学习和增强决策树的客户流失预测设备以及使用其预测客户流失的方法
机译: 使用客户群管理客户流失
机译: 用于根据客户群中的流失概率确定客户分布的统计建模方法