首页> 中国专利> 一种用户流失的预测方法和装置

一种用户流失的预测方法和装置

摘要

本申请实施例涉及一种用户流失预测方法和装置,该方法包括:获取现存用户的基本信息,基本信息包括会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息中的至少一种;将基本信息输入至已训练的用户流失预测模型中输出流失概率值;若流失概率值大于预设阈值,则确定基本信息对应的用户为即将流失用户。本申请实施例通过将现存健身用户的基本信息输入至已训练的用户流失预测模型可以直接输出流失概率值,通过流失概率值可以确定现存用户是不是属于即将流失的用户,从而解决了现有技术中健身房中没有预测用户流失的技术空白,为健身房管理者对未来可能的流失用户采取对应挽留措施提供指导,降低了用户流失率。

著录项

  • 公开/公告号CN113240451A

    专利类型发明专利

  • 公开/公告日2021-08-10

    原文格式PDF

  • 申请/专利权人 西南财经大学;

    申请/专利号CN202110389902.9

  • 发明设计人 熊健;赵健富;寇纲;

    申请日2021-04-12

  • 分类号G06Q30/02(20120101);G06Q50/10(20120101);G06Q10/06(20120101);

  • 代理机构51254 成都拓荒者知识产权代理有限公司;

  • 代理人杨争华

  • 地址 611130 四川省成都市光华村街55号

  • 入库时间 2023-06-19 12:10:19

说明书

技术领域

本申请实施例涉及用户流失预测技术领域,具体涉及一种用户流失的预测方法和装置。

背景技术

现阶段,用户流失预测常常应用于通信企业,目前还没应用于健身房的案例。为健身房管理者对用户的管理造成困扰,并且用户的健身行为和方式难以精确度量,同时,用户的开卡时间段并非连续,以及用户的健身行为更易受天气、工作需要、节假日等外界因素干扰。其中,预约制健身房,采用教练在固定时间开设课程、用户预约的制度,这使得用户的健身时长更好量化,从用户的教练选择偏好、上课时段偏好中也可提取有用信息。目前还没有一种对预约制健身房流失的用户进行预测的方案。

发明内容

为了解决现有技术存在的至少一个问题,本申请的至少一个实施例提供了一种用户流失预测方法和装置,可以对健身房的健身用户的流失进行预测。

第一方面,本发明实施例提供了一种用户流失预测方法,应用于预约制健身房的用户流失预测,所述方法包括:

获取现存用户的基本信息,所述基本信息包括会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息中的至少一种;

将所述基本信息输入至已训练的用户流失预测模型中输出流失概率值;

若所述流失概率值大于预设阈值,则确定所述基本信息对应的用户为即将流失用户。

在一些实施例中,上述方法还包括:

对所述流失概率进行区间分类为不同的风险等级,所述风险等级至少包括:无流失风险、低风险、中风险和高风险;

对所述不同的风险等级对应的用户采用不同的挽留方式;

其中,所述挽留方式至少包括:加强沟通督促、优化用户体验、提供优惠活动、对用户的持续健身行为提供奖励中的至少一种。

在一些实施例中,上述已训练的用户流失预测模型的训练步骤包括:

获取连续N个月的历史数据,其中N=T+X;

基于T个月的历史数据确定用户的特征;

基于X个月的历史数据确定所述历史数据对应的用户是留存用户、回访用户和流失用户中的一种;

筛选所述回访用户对应的历史数据;

将所述筛选后的历史数据分为训练集和验证集;使用所述训练集训练随机森林模型得到已训练的流失预测模型。

在一些实施例中,上述方法还包括:

通过所述验证集对已训练的用户流失预测模型结果进行验证。

在一些实施例中,上述方法还包括:对所述N个月的历史数据进行预处理。

第二方面,本发明实施例还提供一种用户了流失预测装置,应用于预约制健身房的用户流失预测,所述装置包括:

获取模块:用于获取现存用户的基本信息,所述基本信息包括会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息中的至少一种;

输入输出模块:用于将所述基本信息输入至已训练的用户流失预测模型中输出流失概率值;

确定模块:用于若所述流失概率值大于预设阈值,则确定所述基本信息对应的用户为即将流失用户。

在一些实施例中,上述装置还包括分类模块:

所述分类模块:用于对所述流失概率进行区间分类为不同的风险等级,所述风险等级至少包括:无流失风险、低风险、中风险和高风险;

对所述不同的风险等级对应的用户采用不同的挽留方式;

其中,所述挽留方式至少包括:加强沟通督促、优化用户体验、提供优惠活动、对用户的持续健身行为提供奖励中的至少一种。

在一些实施例中,上述装置中已训练的用户流失预测模型的训练步骤包括:

获取连续N个月的历史数据,其中N=T+X;

基于T个月的历史数据确定用户的特征;

基于X个月的历史数据确定所述历史数据对应的用户是留存用户、回访用户和流失用户中的一种;

筛选所述回访用户对应的历史数据;

将所述筛选后的历史数据分为训练集和验证集;使用所述训练集训练随机森林模型得到已训练的用户流失预测模型。

在一些实施例中,上述装置还包括:验证模块,

所述验证模块:用于通过所述验证集对已训练的用户流失预测模型结果进行验证。

在一些实施例中,上述装置还包括:预处理模块,所述预处理模块:用于对所述N个月的历史数据进行预处理。

本发明实施例的优点在于:本申请实施例提出的用户流失预测的方法,应用于预约制健身房的用户流失预测,通过获取现存用户的基本信息,将所述基本信息输入至已训练的用户流失预测模型中输出流失概率值;若所述流失概率值大于预设阈值,则确定所述基本信息对应的用户为即将流失用户。通过将健身用户的基本信息输入至已训练的用户流失预测模型可以直接输出流失概率值,通过流失概率值可以直接确定用户是不是属于即将流失的用户,从而解决了现有技术中健身房中没有预测用户流失的技术空白,为健身房管理者对未来可能的流失用户采取对应挽留措施提供指导,降低用户流失率。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种用户流失预测方法示意图;

图2是本申请实施例提供的又一种用户流失预测方法示意图;

图3是本申请实施例提供的已训练的用户流失预测模型的训练方法示意图;

图4是本申请实施例提供的一种用户流失预测装置示意图;

图5是本申请实施例提供的又一种用户流失预测装置示意图;

图6是本申请实施例提供的又一种用户流失预测装置示意图;

图7是本申请实施例提供的又一种用户流失预测装置示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本申请的限定。基于所描述的本申请的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

现阶段,用户流失预测常常应用于通信企业,目前还没应用于健身房的案例。为健身房管理者对用户的管理造成困扰,并且用户的健身行为和方式难以精确度量,同时,用户的开卡时间段并非连续,以及用户的健身行为更易受天气、工作需要、节假日等外界因素干扰。其中,预约制健身房,采用教练在固定时间开设课程、用户预约的制度,这使得用户的健身时长更好量化,从用户的教练选择偏好、上课时段偏好中也可提取有用信息。目前还没有一种对预约制健身房流失的用户进行预测的方案。

图1是本申请实施例提供的一种用户流失预测方法示意图。

鉴于此,第一方面,本申请实施例提供了一种用户流失预测方法,应用于预约制健身房的用户流失预测,结合图1,包括如下三个步骤S101、S102和S103。

S101:获取现存用户的基本信息,所述基本信息包括会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息中的至少一种。

具体的,本申请实施例中的基本信息中的会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息的定义分别如下:

会员基本信息包括:会员ID、会员性别、会员年龄。会员运动收益指标包括:体重变化、体脂变化、腰围变化。会员健身行为指标包括:平均每月健身次数、爽约比率、最长健身间隔、平均健身间隔、每月健身次数标准差、极差、雨天上课率、周末上课率、偏好上课时段、上课时段分布、预约教练波动、最近一次上课时间、最近一个月上课次数、累计健身次数。会员办卡信息包括:办卡次数、办卡天数、停卡次数、停卡天数、累计消费金额。会员社交传播:点赞次数、分享次数、推荐办卡次数。

S102:将所述基本信息输入至已训练的用户流失预测模型中输出流失概率值。

应理解,通过S102步骤将用户的基本信息,会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息输入至已训练的用户流失预测模型中输出流失概率值。

S103:若所述流失概率值大于预设阈值,则确定所述基本信息对应的用户为即将流失用户。

应理解,已训练的用户流失预测模型模型输出的流失概率在区间[0,1]之间,例如输出的流失概率值为0.8,预设阈值为0.5,则确定输入的基本信息对应的用户为即将流失用户,输出的流失概率值为0.3,预设阈值为0.5,则确定输入的基本信息对应的用户为不流失用户,从而实现对健身房用户是否流失进行准确的预测。

上述S101、S102和S103三个步骤通过将健身用户的基本信息输入至已训练的用户流失预测模型中输出流失概率值,以及通过流失概率值确定是不是即将流失的过程,下面通过S201和S202两个步骤介绍对流失概率进行风险等级划分,对不同的风险等级对应的用户采取不同的挽留方式进行挽留,提高健身房的经济效益。

图2是本申请实施例提供的又一种用户流失预测方法示意图。

在一些实施例中,如图2所示,上述方法还包括S201和S202两个步骤:

S201:对所述流失概率进行区间分类为不同的风险等级,所述风险等级至少包括:无流失风险、低风险、中风险和高风险。

应理解,模型输出的流失概率在区间[0,1]之间,通过将概率进行区间分类得到不同的风险等级,例如可以使用不同阈值将用户划分为不同区间,例如,[0,0.5]为无流失风险,(0.5,0.7]为低风险,(0.7,0.85]为中风险,(0.85,1]为高风险,或者,[0,0.5]为无流失风险,(0.5,0.6]为中风险,(0.6,0.8]为中风险,(0.8,1]为高风险,具体的区间本申请实施例不做限定。

S202:对所述不同的风险等级对应的用户采用不同的挽留方式。

其中,所述挽留方式至少包括:加强沟通督促、优化用户体验、提供优惠活动、对用户的持续健身行为提供奖励中的至少一种。

示例性的,高风险的用户采取加强沟通督促、优化用户体验的方式,如用户的需求为瘦身、减脂、增肌等。但是瘦身、减脂、增肌不明显,可以通过配备教练等方式进行挽留。中风险的用户采取提供优惠活动的方式进行挽留,例如,对训练半年以上的用户赠送月卡等。低风险的用户采取对用户的持续健身行为提供奖励,如赠送健身服,健身器材等方式。

此外,现有的用户流失预测方法主要是对用户历史数据进行预处理后,将基础指标数据输入到已训练的用户流失预测模型(如决策树、神经网络等)中,并最终输出用户是否流失的概率。然而,基础指标虽然覆盖面广,但缺乏对特定问题的针对性,容易导致预警结果的不准确。此外,传统用户流失预测中,将用户直接分为留存用户和流失用户,然而这其中还包括一部分回访用户,无论将回访用户判断为留存用户或是流失用户都会影响模型的准确率。

鉴于此,本申请实施例通过S301、S302、S303、S304、S305和S306六个步骤介绍本申请实施例中训练用户流失预测模型的过程,通过使用该已训练的用户流失预测模型对用户流失进行预测可以进一步提高预测的准确性。

图3是本申请实施例提供的已训练的用户流失预测模型的训练方法示意图。

在一些实施例中,如图3所示,上述已训练的用户流失预测模型的训练步骤包括S301、S302、S303、S304、S305和S306六个步骤。

S301:获取连续N个月的健身历史数据,其中N=T+X。

应理解,这里的N可以是5、8、10个月等数值,具体的数值本申请不做具体限定。

健身历史数据可以包括:会员基本信息包括:会员ID、会员性别、会员年龄。会员运动收益指标包括:体重变化、体脂变化、腰围变化。会员健身行为指标包括:平均每月健身次数、爽约比率、最长健身间隔、平均健身间隔、每月健身次数标准差、极差、雨天上课率、周末上课率、偏好上课时段、上课时段分布、预约教练波动、最近一次上课时间、最近一个月上课次数、累计健身次数。会员办卡信息包括:办卡次数、办卡天数、停卡次数、停卡天数、累计消费金额。会员社交传播:点赞次数、分享次数、推荐办卡次数。

示例性的,以N=5=3+2个月为例。

S302:基于T个月的健身历史数据确定用户的特征。

应理解,示例性的T=3,如通过7-9月这三个月的健身历史数据提取用户的特征,从而确定用户的特征;用户的特征可以是健身效果,不正常沉默、健身毅力和健身时长。上述用户的特征的定义如下:

健身效果:几乎所有健身用户都有自己锻炼的目的,如瘦身、减脂、增肌等。选取用户的体重、体脂率、胸围、臀围、臂围等作为健身效果的指标,可以综合衡量用户的健身效果。大多数流失用户的健身效果没有明显的改善,甚至出现倒退。不正常沉默:健身行为出现突然减少乃至不正常沉默,主要根据用户健身次数,因此设计建模指标包括最近平均每月健身次数、最长健身间隔(天)、平均健身间隔(天)、最近每月健身次数标准差、极差。健身毅力:流失用户更有可能频繁爽约,即将已预约的健身课程取消;对于下雨天,用户也有可能会取消本已预约的课程。可以通过爽约比率和雨天上课率来判断用户健身的决心和毅力。流失用户与健身时长关系紧密,健身时长越长,用户粘性越大,流失的可能性就越小,健身时长也可作为建模指标。

在一种可能的实施方式中,可以在3-10月这一时间段,多次使用3+2策略,即通过3-5、4-6、5-7、6-8、7-9、8-10这6个时间段的健身历史数据确定用户的特征。

S303:基于X个月的健身历史数据确定所述健身历史数据对应的用户是留存用户、回访用户和流失用户中的一种。

具体的,本申请实施例中的留存用户、流失用户和回访用户的定义如下:

留存用户:在M个月中,每个月都有健身行为的用户。流失用户:在M个月中,完全没有健身行为,或者前期有健身行为,后期无健身行为的用户。回访用户:在M个月中,在某一个月中已经被判断为无健身行为,后面又出现健身行为的用户。这里的M可以取值为3、4和5等值。

如7-9月这三个月的健身历史数据确定用户的特征后,确定用户在10、11月的健身行为确定其是留存用户、回访用户和流失用户。

对于历史数据,流失用户的确定具有一定的时间滞后,故采用T+X策略,即用连续T个月的数据获取用户的特征,通过后X个月的用户行为判断是否流失,提高了预测的准确性。对于现存的当前用户,只用T个月的数据获取用户特征,用训练后的模型判断是否流失。

S304:筛选所述回访用户对应的健身历史数据。

应理解,通过S303步骤确定了用户是留存用户、回访用户和流失用户后,将回访用户的数据筛选掉,排除了回访用户的干扰,与没有排除回访用户干扰的模型相比进一步提高了模型预测的准确性。

S305:将所述筛选后的健身历史数据分为训练集和验证集;使用所述训练集训练随机森林模型得到已训练的用户流失预测模型。

应理解,筛选后的健身历史数据包括:留存用户对应的历史数据和流失用户对应的历史数据。将留存用户对应的历史数据以及流失用户对应的历史数据分为训练集和验证集,如从留存用户对应的历史数据以及流失用户对应的历史数据取出80%当训练集;从留存用户对应的历史数据以及流失用户对应的历史数据取出20%当验证集。

具体的,本申请实施例中的随机森林模型是一种集成学习的机器学习算法,基本分类器由决策树组成,这些决策树是经过Bagging集成学习技术得到,对单棵决策树的输出结果进行投票从而决定随机森林模型最终的分类结果。随机森林对噪声和异常值有着很好的过滤效果,能够克服过拟合问题,尤其在对高维数据的分类方面表现除了良好的并行性和可扩展性。随机森林模型以数据为驱动,通过对指定样本进行学习和训练得出分类规则,不需要任何分类的先验知识,是一种非参数分类模型。

应理解,使用上述训练集训练随机森林模型得到已训练的用户流失预测模型。解决了传统预测方法指标选择单一、没有排除回访用户、健身房用户的健身行为数据难以精确采集的问题,通过上述方法训练的用户流失预测模型较为准确且性能优异,对健身用户是否流失进行有效预测。

在一些实施例中,上述方法还包括:

通过所述验证集对已训练的用户流失预测模型结果进行验证。

通过验证集计算已训练的用户流失预测模型的准确率、精度、召回率和F1分数,确定已训练的用户流失预测模型效果。

具体地,所述准确率的计算公式为:准确率=预测正确的用户/所有用户;所述精度(precision)的计算公式为:精度=被正确预测的流失用户/所有被预测为流失用户;所述召回率(recall)的计算公式为:召回率=被正确预测的流失用户/所有实际为流失用户;所述F1分数的计算公式为:F1=2×precision×recall/(precision+recall)。

在一些实施例中,上述方法还包括:对所述N个月的历史数据进行预处理。

具体的,本申请实施例中的预处理的处理方式如下:

第一种处理方式:对缺失值以众数、中位数或均值进行填充。

第二种处理方式:对因数据记录而产生的异常值进行人工修改或删除。

第三钟处理方式:对内部员工和健身不满三个月的用户数据进行删除。

应理解,通过上述三种对N个月的健身历史数据进行预处理,筛选出正常用户数据,为用户流失预测模型的训练提供数据保障。

图4是本申请实施例提供的一种用户流失预测装置示意图。

第二方面,如图4所示,本发明实施例还提供一种用户了流失预测装置,应用于预约制健身房的用户流失预测,所述装置40包括:

获取模块401:用于获取现存用户的基本信息,所述基本信息包括会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息中的至少一种。

具体的,本申请实施例中通过获取模块401获取基本信息基本信息中的会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息的定义分别如下:

会员基本信息包括:会员ID、会员性别、会员年龄。

会员运动收益指标包括:体重变化、体脂变化、腰围变化。

会员健身行为指标包括:平均每月健身次数、爽约比率、最长健身间隔、平均健身间隔、每月健身次数标准差、极差、雨天上课率、周末上课率、偏好上课时段、上课时段分布、预约教练波动、最近一次上课时间、最近一个月上课次数、累计健身次数。

会员办卡信息包括:办卡次数、办卡天数、停卡次数、停卡天数、累计消费金额。

会员社交传播:点赞次数、分享次数、推荐办卡次数。

输入输出模块402:用于将所述基本信息输入至已训练的用户流失预测模型中输出流失概率值。

应理解,通过输入输出模块402将用户的基本信息,会员基本信息、会员运动收益信息、会员健身行为信息、会员办卡行为信息、会员社交行为信息输入至已训练的用户流失预测模型中输出流失概率值。

确定模块403:用于若所述流失概率值大于预设阈值,则确定所述基本信息对应的用户为即将流失用户。

应理解,已训练的用户流失预测模型模型输出的流失概率在区间[0,1]之间,例如输出的流失概率值为0.8,预设阈值为0.5,则确定模块403确定输入的基本信息对应的用户为即将流失用户,输出的流失概率值为0.3,预设阈值为0.5,则确定输入的基本信息对应的用户为不流失用户,从而实现对健身房用户是否流失进行准确的预测。

图5是本申请实施例提供的又一种用户流失预测装置示意图。

在一些实施例中,如图5所示,上述装置40还包括分类模块501:

所述分类模块501:用于对所述流失概率进行区间分类为不同的风险等级,所述风险等级至少包括:无流失风险、低风险、中风险和高风险。

应理解,已训练的用户流失预测模型模型输出的流失概率在区间[0,1]之间,通过分类模块501将概率进行区间分类得到不同的风险等级,例如可以使用不同阈值将用户划分为不同区间,例如,[0,0.5]为无流失风险,(0.5,0.7]为低风险,(0.7,0.85]为中风险,(0.85,1]为高风险,或者,[0,0.5]为无流失风险,(0.5,0.6]为低风险,(0.6,0.8]为中风险,(0.8,1]为高风险,具体的区间本申请实施例不做限定。

对所述不同的风险等级对应的用户采用不同的挽留方式。

其中,所述挽留方式至少包括:加强沟通督促、优化用户体验、提供优惠活动、对用户的持续健身行为提供奖励中的至少一种。

示例性的,高风险的用户采取加强沟通督促、优化用户体验的方式,如用户的需求为瘦身、减脂、增肌等。但是瘦身、减脂、增肌不明显,可以通过配备教练等方式进行挽留。中风险的用户采取提供优惠活动的方式进行挽留,例如,对训练半年以上的用户赠送月卡等。低风险的用户采取对用户的持续健身行为提供奖励,如赠送健身服,健身器材等方式。

在一些实施例中,上述装置40中已训练的用户流失预测模型的训练步骤包括:

获取连续N个月的历史数据,其中N=T+X。

应理解,这里的N可以是5、8、10个月等数值,具体的数值本申请不做具体限定。

健身历史数据可以包括:会员基本信息包括:会员ID、会员性别、会员年龄。会员运动收益指标包括:体重变化、体脂变化、腰围变化。会员健身行为指标包括:平均每月健身次数、爽约比率、最长健身间隔、平均健身间隔、每月健身次数标准差、极差、雨天上课率、周末上课率、偏好上课时段、上课时段分布、预约教练波动、最近一次上课时间、最近一个月上课次数、累计健身次数。会员办卡信息包括:办卡次数、办卡天数、停卡次数、停卡天数、累计消费金额。会员社交传播:点赞次数、分享次数、推荐办卡次数。

示例性的,以N=5=3+2个月为例。

基于T个月的健身历史数据确定用户的特征。

应理解,示例性的T=3,如通过7-9月这三个月的健身历史数据提取用户的特征,从而确定用户的特征;用户的特征可以是健身效果,不正常沉默、健身毅力和健身时长。上述用户的特征的定义如下:

健身效果:几乎所有健身用户都有自己锻炼的目的,如瘦身、减脂、增肌等。选取用户的体重、体脂率、胸围、臀围、臂围等作为健身效果的指标,可以综合衡量用户的健身效果。大多数流失用户的健身效果没有明显的改善,甚至出现倒退。不正常沉默:健身行为出现突然减少乃至不正常沉默,主要根据用户健身次数,因此设计建模指标包括最近平均每月健身次数、最长健身间隔(天)、平均健身间隔(天)、最近每月健身次数标准差、极差。健身毅力:流失用户更有可能频繁爽约,即将已预约的健身课程取消;对于下雨天,用户也有可能会取消本已预约的课程。可以通过爽约比率和雨天上课率来判断用户健身的决心和毅力。流失用户与健身时长关系紧密,健身时长越长,用户粘性越大,流失的可能性就越小,健身时长也可作为建模指标。

在一种可能的实施方式中,可以在3-10月这一时间段,多次使用3+2策略,即通过3-5、4-6、5-7、6-8、7-9、8-10这6个时间段的健身历史数据确定用户的特征。

基于X个月的健身历史数据确定所述健身历史数据对应的用户是留存用户、回访用户和流失用户中的一种。

具体的,本申请实施例中的留存用户、流失用户和回访用户的定义如下:

留存用户:在M个月中,每个月都有健身行为的用户。流失用户:在M个月中,完全没有健身行为,或者前期有健身行为,后期无健身行为的用户。回访用户:在M个月中,在某一个月中已经被判断为无健身行为,后面又出现健身行为的用户。这里的M可以取值为3、4和5等值。

如7-9月这三个月的健身历史数据确定用户的特征后,确定用户在10、11月的健身行为确定其是留存用户、回访用户和流失用户。

对于历史数据,流失用户的确定具有一定的时间滞后,故采用T+X策略,即用连续T个月的数据获取用户的特征,通过后X个月的用户行为判断是否流失,提高了预测的准确性。

筛选所述回访用户对应的健身历史数据。

应理解,确定了用户是留存用户、回访用户和流失用户后,将回访用户的数据筛选掉,排除了回访用户的干扰,与没有排除回访用户干扰的模型相比进一步提高了模型预测的准确性。

将所述筛选后的健身历史数据分为训练集和验证集。

应理解,筛选后的健身历史数据包括:留存用户对应的历史数据和流失用户对应的历史数据。将留存用户对应的历史数据以及流失用户对应的历史数据分为训练集和验证集,如从留存用户对应的历史数据以及流失用户对应的历史数据取出80%当训练集;从留存用户对应的历史数据以及流失用户对应的历史数据取出20%当验证集。

使用所述训练集训练随机森林模型得到已训练的用户流失预测模型。

具体的,本申请实施例中的随机森林模型是一种集成学习的机器学习算法,基本分类器由决策树组成,这些决策树是经过Bagging集成学习技术得到,对单棵决策树的输出结果进行投票从而决定随机森林模型最终的分类结果。随机森林对噪声和异常值有着很好的过滤效果,能够克服过拟合问题,尤其在对高维数据的分类方面表现除了良好的并行性和可扩展性。随机森林模型以数据为驱动,通过对指定样本进行学习和训练得出分类规则,不需要任何分类的先验知识,是一种非参数分类模型。

应理解,使用上述训练集训练随机森林模型得到用户流失预测模型。解决了传统预测方法指标选择单一、没有排除回访用户、健身房用户的健身行为数据难以精确采集的问题,通过上述方法构建出的模型较为准确且性能优异,对健身用户是否流失进行有效预测。

图6是本申请实施例提供的又一种用户流失预测装置示意图;

在一些实施例中,如图6所示,上述装置40还包括:验证模块60,

所述验证模块601:用于通过所述验证集对已训练的用户流失预测模型结果进行验证。

通过验证模块601中的验证集计算已训练的用户流失预测模型的准确率、精度、召回率和F1分数,确定已训练的用户流失预测模型效果。

具体地,所述准确率的计算公式为:准确率=预测正确的用户/所有用户;所述精度(precision)的计算公式为:精度=被正确预测的流失用户/所有被预测为流失用户;所述召回率(recall)的计算公式为:召回率=被正确预测的流失用户/所有实际为流失用户;所述F1分数的计算公式为:F1=2×precision×recall/(precision+recall)。

图7是本申请实施例提供的又一种用户流失预测装置示意图。

在一些实施例中,上述装置还包括:预处理模块701,所述预处理模块:用于对所述N个月的历史数据进行预处理。

具体的,本申请实施例中的预处理模块701的处理方式如下:

第一种处理方式:对缺失值以众数、中位数或均值进行填充。

第二种处理方式:对因数据记录而产生的异常值进行人工修改或删除。

第三钟处理方式:对内部员工和健身不满三个月的用户数据进行删除。

应理解,通过上述三种方式对N个月的健身历史数据进行预处理,筛选出正常用户数据,为已训练的用户流失预测模型的训练提供数据保障。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号