首页> 中国专利> 代理人留存预测方法、装置、计算机设备及存储介质

代理人留存预测方法、装置、计算机设备及存储介质

摘要

本发明涉及人工智能技术领域,提供一种代理人留存预测方法、装置、计算机设备及存储介质,包括:采用第一N‑Gram算法切分目标代理人的第一埋点序列得到多个第一序列片段;采用第二N‑Gram算法切分与目标代理人关联的多个目标用户的第二埋点序列得到多个第二序列片段;采用第一特征提取模型从多个第一序列片段中提取出第一特征序列;采用第二特征提取模型从多个第二序列片段中提取出第二特征序列;根据第一特征序列生成第一权重;根据第二特征序列生成第二权重;根据第一特征序列、第一权重、第二特征序列及第二权重生成目标特征序列;调用代理人留存预测模型基于目标特征序列进行留存时长的预测。本发明能够提高跨时间的代理人留存预测的准确率和稳定性。

著录项

  • 公开/公告号CN112182069A

    专利类型发明专利

  • 公开/公告日2021-01-05

    原文格式PDF

  • 申请/专利权人 中国平安人寿保险股份有限公司;

    申请/专利号CN202011064335.1

  • 发明设计人 张跃;张浩然;

    申请日2020-09-30

  • 分类号G06F16/2458(20190101);G06K9/62(20060101);G06Q10/04(20120101);

  • 代理机构44334 深圳市赛恩倍吉知识产权代理有限公司;

  • 代理人何春兰;迟珊珊

  • 地址 518000 广东省深圳市福田区益田路5033号平安金融中心14、15、16、41、44、45、46层

  • 入库时间 2023-06-19 09:27:35

说明书

技术领域

本发明涉及人工智能技术领域,具体涉及一种代理人留存预测方法、装置、计算机设备及存储介质。

背景技术

准代理人在入司前的一系列环节的表现(例如EPASS考试、AI面谈、新人体验、职岗培训)可以为预测该代理人入司后的留存、低业绩考核提供很多有价值的预测特征,随着互联网科技和保险间的深入结合,这些入司环节大部分都是通过在手机APP上完成,准代理人和用户在APP上的各种浏览、点击、操作行为通过埋点记录在数据库中。

现有技术是通过从准代理人的各个入司环节对应的业务场景的埋点数据来挖掘特征,以实现对准代理人的留存预测。发明人在实现本发明的过程中发现,现有技术挖掘出的特征大多是分模块的统计类特征(频数、占比类指标),而分模块的统计类特征的方法可能会忽略一些有价值的埋点,且一些有先后顺序的行为序列也会被忽略,导致代理人的留存预测准确率较差。此外,统计类特征(频数、占比类指标)会随着时间季节性和业务场景的突变产生波动,造成每月迭代更新代理人留存预测模型时发生过拟合,导致跨时间的代理人留存预测效果不稳定。

发明内容

鉴于以上内容,有必要提出一种代理人留存预测方法、装置、计算机设备及存储介质,能够提高跨时间的代理人留存预测的准确率和稳定性。

本发明的第一方面提供一种代理人留存预测方法,所述方法包括:

获取目标代理人的第一埋点序列,采用第一N-Gram算法对所述第一埋点序列进行切分得到多个第一序列片段;

获取与所述目标代理人关联的多个目标用户的第二埋点序列,并采用第二N-Gram算法对所述第二埋点序列进行切分得到多个第二序列片段;

采用第一特征提取模型从所述多个第一序列片段中提取出大于预设第一稳定度阈值的第一特征序列,及采用第二特征提取模型从所述多个第二序列片段中提取出大于预设第二稳定度阈值第二特征序列;

根据所述第一特征序列生成第一权重,及根据所述第二特征序列生成第二权重;

根据所述第一特征序列、所述第一权重、所述第二特征序列及所述第二权重生成目标特征序列;

调用代理人留存预测模型基于所述目标特征序列进行留存预测得到所述目标代理人的留存时长。

根据本发明的一个可选的实施例,所述采用第一特征提取模型从所述多个第一序列片段中提取出大于预设第一稳定度阈值的第一特征序列,及采用第二特征提取模型从所述多个第二序列片段中提取出大于预设第二稳定度阈值第二特征序列包括:

计算每个第一序列片段的第一TF-IDF值,及计算每个第二序列片段的第二TF-IDF值;

根据多个所述第一TF-IDF值构建第一TF-IDF矩阵,根据多个所述第二TF-IDF值构建第二TF-IDF矩阵;

采用第一逻辑回归分类模型计算所述第一TF-IDF矩阵的第一逻辑回归系数,及采用第二逻辑回归分类模型计算所述第二TF-IDF矩阵的第二逻辑回归系数;

根据所述第一逻辑回归系数对所述多个第一序列片段进行去重处理得到多个第一候选序列片段,根据所述第二逻辑回归系数对所述多个第二序列片段进行去重处理得到多个第二候选序列片段;

计算每个第一候选序列片段的第一稳定度,及计算所述每第二候选序列片段的第二稳定度;

从所述多个第一候选序列片段提取出大于预设第一稳定度阈值的第一稳定度对应的多个第一目标候选序列片段,从所述多个第二候选序列片段提取出大于预设第二稳定度阈值的第二稳定度对应的多个第二目标候选序列片段;

基于所述多个第一目标候选序列片段构建第一特征序列,及基于所述多个目标第二候选序列片段构建第二特征序列。

根据本发明的一个可选的实施例,所述代理人留存预测模型的训练过程包括:

获取多个历史代理人的第三特征序列和历史留存时长,及每个历史代理人的关联的多个用户的第四特征序列;

计算每个第三特征序列与对应的多个第四特征序列中的每个第四特征序列之间的距离得到每个第一距离集;

根据每个第一距离集从多个所述第三特征序列中筛选出多个第三目标特征序列,及从每个第三目标特征序列对应的多个第四特征序列中选取出多个第四目标特征序列;

根据每个第三目标特征序列生成第三权重,根据每个第四目标特征序列生成第四权重;

根据所述第三目标特征序列及对应的所述第三权重、多个所述第四目标特征序列、多个所述第四权重及所述历史留存时长生成历史特征序列;

基于多个所述历史特征序列训练LightGBM网络得到代理人留存预测模型。

根据本发明的一个可选的实施例,所述根据每个第一距离集从多个所述第三特征序列中筛选出多个第三目标特征序列,及从每个第三目标特征序列对应的多个第四特征序列中选取出多个第四目标特征序列包括:

针对每个所述第三特征序列,将所述第一距离集中的每个距离与距离阈值进行对比;

确定大于所述距离阈值的目标距离并计算所述目标距离的距离数;

将所述距离数作为所述第三特征序列的密度值;

将大于预设密度值阈值的密度值对应的第三特征序列确定为第三目标特征序列;

将每个第三目标特征序列中大于所述距离阈值的目标距离对应的第四特征序列确定为第四目标特征序列。

根据本发明的一个可选的实施例,所述基于多个所述历史特征序列训练LightGBM网络得到代理人留存预测模型包括:

将多个所述历史特征序列作为数据集,并按照所述第三目标特征序列对应的时间将所述数据集切分为第一数据集和第二数据集;

将所述第一数据集切分为多个子数据集;

采用留一法基于所述多个子数据集训练LightGBM网络得到多个代理人留存预测模型;

采用所述第二数据集对每个代理人留存预测模型进行测试,得到测试留存概率;

计算每个代理人留存预测模型对应的测试留存概率的均值,并将最高的均值对应的代理人留存预测模型作为目标代理人留存预测模型。

根据本发明的一个可选的实施例,所述获取目标代理人的第一埋点序列,及获取与所述目标代理人关联的多个目标用户的第二埋点序列包括:

获取所述目标代理人的多个第一埋点数据,并对所述多个第一埋点数据进行处理得到所述第一埋点序列;

确定与所述目标代理人关联的多个目标用户,获取所述多个目标用户的多个第二埋点数据,并对所述多个第二埋点数据进行处理得到所述第二埋点序列。

根据本发明的一个可选的实施例,对所述多个埋点数据进行处理得到埋点序列的过程包括:

获取所述多个埋点数据中的多个埋点ID及每个埋点ID对应的埋点时间;

对多个埋点时间按照时间顺序进行排序;

计算排序后的多个埋点时间中的每两个相邻的埋点时间的埋点时间间隔;

对多个埋点时间间隔进行分箱处理得到多个时间分箱;

根据多个埋点ID及所述多个时间分箱构建埋点序列。

本发明的第二方面提供一种代理人留存预测装置,所述装置包括:

第一切分模块,用于获取目标代理人的第一埋点序列,采用第一N-Gram算法对所述第一埋点序列进行切分得到多个第一序列片段;

第二切分模块,用于获取与所述目标代理人关联的多个目标用户的第二埋点序列,并采用第二N-Gram算法对所述第二埋点序列进行切分得到多个第二序列片段;

第一提取模块,用于采用第一特征提取模型从所述多个第一序列片段中提取出大于预设第一稳定度阈值的第一特征序列;

第二提取模块,用于采用第二特征提取模型从所述多个第二序列片段中提取出大于预设第二稳定度阈值第二特征序列;

权重生成模块,用于根据所述第一特征序列生成第一权重,及根据所述第二特征序列生成第二权重;

特征生成模块,用于根据所述第一特征序列、所述第一权重、所述第二特征序列及所述第二权重生成目标特征序列;

留存预测模块,用于调用代理人留存预测模型基于所述目标特征序列进行留存预测得到所述目标代理人的留存时长。

本发明的第三方面提供一种计算机设备,所述计算机设备包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现所述的代理人留存预测方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的代理人留存预测方法。

综上所述,本发明所述的代理人留存预测方法、装置、计算机设备及存储介质,能够基于APP埋点行为序列进行全局搜索,找到重要的有预测价值的埋点以及埋点序列、点击行为习惯等等,并生成稳定的指标特征,从而为代理人留存预测模型提供数据,接着通过代理人打分模型预测代理人的留存概率,作为第一权重的依据,通过用户打分模型预测用户的留存概率,作为第二权重的依据,实现了动态生成权重的目的;根据第一埋点序列与第二埋点序列之间的距离集可确定每个第一埋点序列的密度集,从而从第一埋点序列中筛选出简单样本,并从对应的第二埋点序列中进一步筛选出与简单样本关联度较高的目标埋点序列,基于生成的不同权重及筛选出的目标埋点序列训练代理人留存模型,能够得到预测准确率较高的代理人留存预测模型,进而准确的预测出代理人的留存时长。

附图说明

图1是本发明实施例一提供的代理人留存预测方法的流程图。

图2是本发明实施例二提供的代理人留存预测装置的流程图。

图3是本发明实施例三提供的计算机设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

所述代理人留存预测方法由计算机设备执行,相应地,所述代理人留存预测装置运行于计算机设备中。

图1是本发明实施例一提供的代理人留存预测方法的流程图。所述代理人留存预测方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。

S11,获取目标代理人的第一埋点序列,采用第一N-Gram算法对所述第一埋点序列进行切分得到多个第一序列片段。

其中,所述目标代理人是指需要进行留存时长预测的代理人。在代理人留存预测场景中,所述留存时长可以为三个月、六个月、一年等。

在一个可选的实施例中,所述获取目标代理人的第一埋点序列包括:获取所述目标代理人的多个第一埋点数据,并对所述多个第一埋点数据进行处理得到所述第一埋点序列。

计算机设备预先从多个APP中获取所述目标代理人的埋点数据,并基于所述埋点数据形成第一埋点序列。将所述第一埋点序列中的每个埋点ID看做一个字,所述第一埋点序列可看做一句话,则可用自然语言处理(Natural Language Processing,NLP)解析所述第一埋点序列,从而挖掘出对预测有积极作用的序列片段(“词”或“短语”)。通过借助于N-Gram算法对所述第一埋点序列进行切分,可以实现类似中文的分词操作。具体实施时,先设置大小为N1的滑动窗口;然后使用所述滑动窗口在所述第一埋点序列上进行重叠滑动操作,每滑动一次滑动窗口,能够得到长度为N1的序列片段。

S12,获取与所述目标代理人关联的多个目标用户的第二埋点序列,并采用第二N-Gram算法对所述第二埋点序列进行切分得到多个第二序列片段。

除了所述目标代理人的第一埋点序列可以用来加工指标特征,所述目标代理人在APP(例如,金管家)上关联的用户的第二埋点序列同样可以用来预测所述目标代理人的留存时长。实际应用中,每个代理人需要在APP上关联至少5个用户,一个代理人对应多个用户,而一个用户只能关联在一个代理人身上。

在一个可选的实施例中,所述获取与所述目标代理人关联的多个目标用户的第二埋点序列包括:确定与所述目标代理人关联的多个目标用户,获取所述多个目标用户的多个第二埋点数据,并对所述多个第二埋点数据进行处理得到所述第二埋点序列。

计算机设备预先从多个APP中获取所述目标用户的埋点数据,并基于所述埋点数据形成第二埋点序列。将所述第二埋点序列中的每个埋点ID看做一个字,所述第二埋点序列可看做一句话,通过借助于N-Gram算法对所述第二埋点序列进行切分,可以实现类似中文的分词操作。具体实施时,先设置大小为N2的滑动窗口;然后使用所述滑动窗口在所述第二埋点序列上进行重叠滑动操作,每滑动一次滑动窗口,能够得到长度为N2的序列片段。

其中,N1与N2可以相同,也可以不同。

在一个可选的实施例中,对所述多个埋点数据进行处理得到埋点序列的过程包括:

获取所述多个埋点数据中的多个埋点ID及每个埋点ID对应的埋点时间;

对多个埋点时间按照时间顺序进行排序;

计算排序后的多个埋点时间中的每两个相邻的埋点时间的埋点时间间隔;

对多个埋点时间间隔进行分箱处理得到多个时间分箱;

根据多个埋点ID及所述多个时间分箱构建埋点序列。

该可选的实施例中,埋点时间间隔是连续型变量,为了使得自然语言处理能够对埋点数据进行学习,需要将连续型的埋点时间间隔进行离散化处理。

具体实施时,计算机设备设置多个时间分箱,例如10个时间分箱(bin1,bin2,…,bin10),将埋点时间间隔进行排序后得到埋点时间间隔(t1,t2,t3,…,tn),然后按照时间分箱的分位点进行分箱处理,根据埋点时间间隔与时间分箱的映射关系,则埋点时间间隔序列可以转化为时间分箱序列,例如(bin3,bin2,bin5,…,bin1)。再将所述多个埋点ID及所述多个时间分箱顺次拼接得到埋点序列;或者将所述多个埋点ID及所述多个时间分箱交叉拼接得到埋点序列。示例性的,埋点序列为(埋点a,埋点b,…,埋点c,bin3,bin2,…,bin3),或者埋点序列为(埋点a,bin3,埋点b,bin2,…,埋点c,bin3)。

该可选的实施例中,通过将连续型的时间间隔转化为离散化的时间分箱,实现了将海量数据进行精简化处理,便于后续模型的挖掘和学习;并所述多个时间分箱融入埋点ID中,从而构建出埋点序列,丰富了埋点序列的内容,并且根据埋点时间形成了类似上下文信息,能够进一步提高代理人留存预测的准确率。

需要说明的是,本实施例还可以将代理人埋点序列中每个埋点的中文说明拼接起来,形成一句话。

S13,采用第一特征提取模型从所述多个第一序列片段中提取出大于预设第一稳定度阈值的第一特征序列,及采用第二特征提取模型从所述多个第二序列片段中提取出大于预设第二稳定度阈值第二特征序列。

由于APP的不断更新、代理人入司流程的改造、业务场景的季节性变化和热门商品活动的影响,每个月都会有新的埋点被采集,也会有旧的埋点下线,导致每个月的埋点数据存在一定的不稳定性,那么基于埋点数据切分得到的序列片段也存在一定的不稳定性。为了避免一些重要的埋点的突然波动会对预测结果产生不利影响,所以需要先剔除不稳定的序列片段。剔除不稳定的序列片段,能够增强代理人留存预测的稳定性。

在一个可选的实施例中,所述采用第一特征提取模型从所述多个第一序列片段中提取出大于预设第一稳定度阈值的第一特征序列,及采用第二特征提取模型从所述多个第二序列片段中提取出大于预设第二稳定度阈值第二特征序列包括:

计算每个第一序列片段的第一TF-IDF值,及计算每个第二序列片段的第二TF-IDF值;

根据多个所述第一TF-IDF值构建第一TF-IDF矩阵,根据多个所述第二TF-IDF值构建第二TF-IDF矩阵;

采用第一逻辑回归分类模型计算所述第一TF-IDF矩阵的第一逻辑回归系数,及采用第二逻辑回归分类模型计算所述第二TF-IDF矩阵的第二逻辑回归系数;

根据所述第一逻辑回归系数对所述多个第一序列片段进行去重处理得到多个第一候选序列片段,根据所述第二逻辑回归系数对所述多个第二序列片段进行去重处理得到多个第二候选序列片段;

计算每个第一候选序列片段的第一稳定度,及计算所述每第二候选序列片段的第二稳定度;

从所述多个第一候选序列片段提取出大于预设第一稳定度阈值的第一稳定度对应的多个第一目标候选序列片段,从所述多个第二候选序列片段提取出大于预设第二稳定度阈值的第二稳定度对应的多个第二目标候选序列片段;

基于所述多个第一目标候选序列片段构建第一特征序列,及基于所述多个目标第二候选序列片段构建第二特征序列。

上述实施例中,可以运用TF-IDF算法计算出每个序列片段的TF-IDF值,并且按照事先设定好的阈值进行过滤,保留大于或者等于所述阈值的TF-IDF值对应的序列片段,并删除小于所述阈值的TF-IDF值对应的序列片段,实现了从多个序列片段中筛选出关键序列片段;最后根据关键序列片段对应的TF-IDF值构建TF-IDF矩阵。接着将根据逻辑回归(Logistic Regression,LR)分类模型计算得到的逻辑回归系数的绝对值进行排序,找到最大的topN(N可以取2000)的序列片段,对同一个序列片段中的同一个埋点ID进行去重处理,得到M个(M可以为800左右)候选序列片段(作为重要埋点)。最后计算候选序列片段的PSI(根据金融领域中的稳定度指标计算公式计算得到的稳定度),如果大于一个预先设定的阈值(例如0.25),则将该候选序列片段列入黑名单;将黑名单中的序列片段剔除掉,得到目标候选序列片段。

上述实施例,通过N-Gram+TF-IDF能够从第一埋点序列和第二埋点序列中搜索和挖掘出预测性很强的序列片段,N-Gram的滑动窗口遍历是一个全局的搜索,而TF-IDF的特征生成同时考虑到了序列片段在所述埋点序列中的频数比重和在所有埋点序列中出现的相对比重,计算出的TF-IDF值相当于另一种形式的特征标准化,这样的特征变换在数据波动较大的跨时间预测场景相较于传统的埋点统计类指标(频次、占比等等)具有更好的跨时间预测性。

S14,根据所述第一特征序列生成第一权重,及根据所述第二特征序列生成第二权重。

可以根据特征序列中的序列片段的逻辑回归系数生成权重,逻辑回归系数越大,生成的权重越大,逻辑回归系数越小,生成的权重越小。还可以根据特征序列中的序列片段的TF-IDF值生成权重,TF-IDF值越大,生成的权重越大,TF-IDF值越小,生成的权重越小。

S15,根据所述第一特征序列、所述第一权重、所述第二特征序列及所述第二权重生成目标特征序列。

其中,所述目标特征序列为(第一特征序列,第一权重,第二特征序列,第二权重)。

S16,调用代理人留存预测模型基于所述目标特征序列进行留存预测得到所述目标代理人的留存时长。

其中,所述代理人留存预测模型为预先训练好的,将所述目标代理人的目标特征序列作为所述代理人留存预测模型的入参,通过所述代理人留存预测模型输出多个留存时长及每个留存时长的得分,将得分最高的留存时长作为所述目标代理人的留存时长。

在一个可选的实施例中,所述代理人留存预测模型的训练过程包括:

获取多个历史代理人的第三特征序列和历史留存时长,及每个历史代理人的关联的多个用户的第四特征序列;

计算每个第三特征序列与对应的多个第四特征序列中的每个第四特征序列之间的距离得到每个第一距离集;

根据每个第一距离集从多个所述第三特征序列中筛选出多个第三目标特征序列,及从每个第三目标特征序列对应的多个第四特征序列中选取出多个第四目标特征序列;

根据每个第三目标特征序列生成第三权重,根据每个第四目标特征序列生成第四权重;

根据所述第三目标特征序列及对应的所述第三权重、多个所述第四目标特征序列、多个所述第四权重及所述历史留存时长生成历史特征序列;

基于多个所述历史特征序列训练LightGBM网络得到代理人留存预测模型。

其中,历史代理人的第三特征序列和对应的第四特征序列的提取过程如同所述目标代理人的第一特征序列和对应的第二特征序列的提取过程,本发明在此不再详细阐述。

其中,所述距离可以包括,但不限于:欧式距离、余弦距离等等。所述距离集中的每个距离都大于0。例如,当计算的余弦距离小于0时,则取计算的余弦距离的绝对值。

其中,每个历史特征序列为(第三目标特征序列,第三权重,第四目标特征序列,第四权重,历史留存时长)。

在大规模的特征序列收集的过程中,会有与特征序列表示的类别相关度不高,或者错误的特征序列出现。为了后续提高代理人留存预测模型训练的准确度,需要对特征序列进行分类,自动检测出在模型训练过程中容易被学习的简单的特征序列,及在模型训练过程中不容易被学习的难的特征序列,从而实现对特征序列的分类。

在一个可选的实施例中,所述根据每个第一距离集从多个所述第三特征序列中筛选出多个第三目标特征序列,及从每个第三目标特征序列对应的多个第四特征序列中选取出多个第四目标特征序列包括:

针对每个所述第三特征序列,将所述第一距离集中的每个距离与距离阈值进行对比;

确定大于所述距离阈值的目标距离并计算所述目标距离的距离数;

将所述距离数作为所述第三特征序列的密度值;

将大于预设密度值阈值的密度值对应的第三特征序列确定为第三目标特征序列;

将每个第三目标特征序列中大于所述距离阈值的目标距离对应的第四特征序列确定为第四目标特征序列。

针对每个第三特征序列,计算出第三特征序列的密度值,第三特征序列的密度值越大,表示对应的多个第四特征序列中与第三特征序列相似的第四特征序列越多,第三特征序列与对应的多个第四特征序列之间的距离越近。第三特征序列的密度值越小,表示对应的多个第四特征序列中与第三特征序列相似的第四特征序列越少,密度值越小,表示第三特征序列与对应的多个第四特征序列之间的距离越远。

距离越近,表示对应的第四特征序列越属于正确的样本;以第三特征序列为聚类中心及对应的多个第四特征序列构成的子集就越密集,该子集之间的特征序列表示的类型就越相似,属于简单的样本,模型很容易学习到简单样本的特征。距离越远,表示对应的第四特征序列越属于错误的样本;以第三特征序列为聚类中心及对应的多个第四特征序列构成的子集就越稀疏,该子集之间的特征序列表示的类型就越多样化,属于难样本。

通过密度值可以有效的筛选出第三目标特征序列,作为简单样本进行入模学习。再通过距离进一步筛选出第四目标特征序列,能够排除出错误的样本,从而提高后续训练代理人留存预测模型的准确度。

在一个可选的实施例中,所述基于多个所述历史特征序列训练LightGBM网络得到代理人留存预测模型包括:

将多个所述历史特征序列作为数据集,并按照所述第三目标特征序列对应的时间将所述数据集切分为第一数据集和第二数据集;

将所述第一数据集切分为多个子数据集;

采用留一法基于所述多个子数据集训练LightGBM网络得到多个代理人留存预测模型;

采用所述第二数据集对每个代理人留存预测模型进行测试,得到测试留存概率;

计算每个代理人留存预测模型对应的测试留存概率的均值,并将最高的均值对应的代理人留存预测模型作为目标代理人留存预测模型。

以代理人留存预测模型为例,代理人留存标签在代理人岗后三个月才能得到,如果要预测2020年3月的代理人的留存信息,则模型训练月份为2019年10月-2019年12月的埋点序列。而2020年1月-2月的埋点序列,虽然没有留存标签,但是可以用来进一步训练出稳定性较强的代理人留存预测模型。计算机设备可以采用等频分箱模型将所述第一数据集切分为多个第一子数据集,及将所述第二数据集切分为多个第二子数据集。即,每个子数据集的数量相同。

示例性的,假设将所述第一数据集切分为5份子数据集,以其中的任意4份子数据集为训练集训练LightGBM网络,以另一份子数据集为测试集进行测试,如此能够训练出5个代理人留存预测模型。使用2020年1月-2月的埋点序列进行测试时,每个代理人留存预测模型均对应输出多个测试留存概率,测试留存概率的均值越高,表明对应的代理人留存预测模型的预测越准确。

本发明能够基于APP埋点行为序列进行全局搜索,找到重要的有预测价值的埋点以及埋点序列、点击行为习惯等等,并生成稳定的指标特征,从而为代理人留存预测模型提供数据,接着通过代理人打分模型预测代理人的留存概率,作为第一权重的依据,通过用户打分模型预测用户的留存概率,作为第二权重的依据,实现了动态生成权重的目的;根据第一埋点序列与第二埋点序列之间的距离集可确定每个第一埋点序列的密度集,从而从第一埋点序列中筛选出简单样本,并从对应的第二埋点序列中进一步筛选出与简单样本关联度较高的目标埋点序列,基于生成的不同权重及筛选出的目标埋点序列训练代理人留存模型,能够得到预测准确率较高的代理人留存预测模型,进而准确的预测出代理人的留存时长。

需要说明的是,本发明所述的方法不仅可以用来训练代理人留存预测模型,还可以用来训练代理人低业绩预测模型。

需要强调的是,为进一步保证上述代理人留存预测模型的私密性和安全性,上述代理人留存预测模型可存储于区块链的节点中。

图2是本发明实施例二提供的代理人留存预测装置的结构图。

在一些实施例中,所述代理人留存预测装置20可以包括多个由计算机程序段所组成的功能模块。所述代理人留存预测装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)代理人留存预测的功能。

本实施例中,所述代理人留存预测装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:第一切分模块201、第二切分模块202、第一提取模块203、第二提取模块204、权重生成模块205、特征生成模块206、留存预测模块207及模型训练模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

所述第一切分模块201,用于获取目标代理人的第一埋点序列,采用第一N-Gram算法对所述第一埋点序列进行切分得到多个第一序列片段。

其中,所述目标代理人是指需要进行留存时长预测的代理人。在代理人留存预测场景中,所述留存时长可以为三个月、六个月、一年等。

在一个可选的实施例中,所述获取目标代理人的第一埋点序列包括:获取所述目标代理人的多个第一埋点数据,并对所述多个第一埋点数据进行处理得到所述第一埋点序列。

计算机设备预先从多个APP中获取所述目标代理人的埋点数据,并基于所述埋点数据形成第一埋点序列。将所述第一埋点序列中的每个埋点ID看做一个字,所述第一埋点序列可看做一句话,则可用自然语言处理(Natural Language Processing,NLP)解析所述第一埋点序列,从而挖掘出对预测有积极作用的序列片段(“词”或“短语”)。通过借助于N-Gram算法对所述第一埋点序列进行切分,可以实现类似中文的分词操作。具体实施时,先设置大小为N1的滑动窗口;然后使用所述滑动窗口在所述第一埋点序列上进行重叠滑动操作,每滑动一次滑动窗口,能够得到长度为N1的序列片段。

所述第二切分模块202,用于获取与所述目标代理人关联的多个目标用户的第二埋点序列,并采用第二N-Gram算法对所述第二埋点序列进行切分得到多个第二序列片段。

除了所述目标代理人的第一埋点序列可以用来加工指标特征,所述目标代理人在APP(例如,金管家)上关联的用户的第二埋点序列同样可以用来预测所述目标代理人的留存时长。实际应用中,每个代理人需要在APP上关联至少5个用户,一个代理人对应多个用户,而一个用户只能关联在一个代理人身上。

在一个可选的实施例中,所述获取与所述目标代理人关联的多个目标用户的第二埋点序列包括:确定与所述目标代理人关联的多个目标用户,获取所述多个目标用户的多个第二埋点数据,并对所述多个第二埋点数据进行处理得到所述第二埋点序列。

计算机设备预先从多个APP中获取所述目标用户的埋点数据,并基于所述埋点数据形成第二埋点序列。将所述第二埋点序列中的每个埋点ID看做一个字,所述第二埋点序列可看做一句话,通过借助于N-Gram算法对所述第二埋点序列进行切分,可以实现类似中文的分词操作。具体实施时,先设置大小为N2的滑动窗口;然后使用所述滑动窗口在所述第二埋点序列上进行重叠滑动操作,每滑动一次滑动窗口,能够得到长度为N2的序列片段。

其中,N1与N2可以相同,也可以不同。

在一个可选的实施例中,对所述多个埋点数据进行处理得到埋点序列的过程包括:

获取所述多个埋点数据中的多个埋点ID及每个埋点ID对应的埋点时间;

对多个埋点时间按照时间顺序进行排序;

计算排序后的多个埋点时间中的每两个相邻的埋点时间的埋点时间间隔;

对多个埋点时间间隔进行分箱处理得到多个时间分箱;

根据多个埋点ID及所述多个时间分箱构建埋点序列。

该可选的实施例中,埋点时间间隔是连续型变量,为了使得自然语言处理能够对埋点数据进行学习,需要将连续型的埋点时间间隔进行离散化处理。

具体实施时,计算机设备设置多个时间分箱,例如10个时间分箱(bin1,bin2,…,bin10),将埋点时间间隔进行排序后得到埋点时间间隔(t1,t2,t3,…,tn),然后按照时间分箱的分位点进行分箱处理,根据埋点时间间隔与时间分箱的映射关系,则埋点时间间隔序列可以转化为时间分箱序列,例如(bin3,bin2,bin5,…,bin1)。再将所述多个埋点ID及所述多个时间分箱顺次拼接得到埋点序列;或者将所述多个埋点ID及所述多个时间分箱交叉拼接得到埋点序列。示例性的,埋点序列为(埋点a,埋点b,…,埋点c,bin3,bin2,…,bin3),或者埋点序列为(埋点a,bin3,埋点b,bin2,…,埋点c,bin3)。

该可选的实施例中,通过将连续型的时间间隔转化为离散化的时间分箱,实现了将海量数据进行精简化处理,便于后续模型的挖掘和学习;并所述多个时间分箱融入埋点ID中,从而构建出埋点序列,丰富了埋点序列的内容,并且根据埋点时间形成了类似上下文信息,能够进一步提高代理人留存预测的准确率。

需要说明的是,本实施例还可以将代理人埋点序列中每个埋点的中文说明拼接起来,形成一句话。

所述第一提取模块203,用于采用第一特征提取模型从所述多个第一序列片段中提取出大于预设第一稳定度阈值的第一特征序列。

所述第二提取模块204,用于采用第二特征提取模型从所述多个第二序列片段中提取出大于预设第二稳定度阈值第二特征序列。

由于APP的不断更新、代理人入司流程的改造、业务场景的季节性变化和热门商品活动的影响,每个月都会有新的埋点被采集,也会有旧的埋点下线,导致每个月的埋点数据存在一定的不稳定性,那么基于埋点数据切分得到的序列片段也存在一定的不稳定性。为了避免一些重要的埋点的突然波动会对预测结果产生不利影响,所以需要先剔除不稳定的序列片段。剔除不稳定的序列片段,能够增强代理人留存预测的稳定性。

在一个可选的实施例中,所述第一提取模块203采用第一特征提取模型从所述多个第一序列片段中提取出大于预设第一稳定度阈值的第一特征序列包括:计算每个第一序列片段的第一TF-IDF值;根据多个所述第一TF-IDF值构建第一TF-IDF矩阵;采用第一逻辑回归分类模型计算所述第一TF-IDF矩阵的第一逻辑回归系数;根据所述第一逻辑回归系数对所述多个第一序列片段进行去重处理得到多个第一候选序列片段;计算每个第一候选序列片段的第一稳定度;从所述多个第一候选序列片段提取出大于预设第一稳定度阈值的第一稳定度对应的多个第一目标候选序列片段;基于所述多个第一目标候选序列片段构建第一特征序列。

所述第二提取模块204采用第二特征提取模型从所述多个第二序列片段中提取出大于预设第二稳定度阈值第二特征序列包括:计算每个第二序列片段的第二TF-IDF值;根据多个所述第二TF-IDF值构建第二TF-IDF矩阵;采用第二逻辑回归分类模型计算所述第二TF-IDF矩阵的第二逻辑回归系数;根据所述第二逻辑回归系数对所述多个第二序列片段进行去重处理得到多个第二候选序列片段;计算所述每第二候选序列片段的第二稳定度;从所述多个第二候选序列片段提取出大于预设第二稳定度阈值的第二稳定度对应的多个第二目标候选序列片段;基于所述多个目标第二候选序列片段构建第二特征序列。

上述实施例中,可以运用TF-IDF算法计算出每个序列片段的TF-IDF值,并且按照事先设定好的阈值进行过滤,保留大于或者等于所述阈值的TF-IDF值对应的序列片段,并删除小于所述阈值的TF-IDF值对应的序列片段,实现了从多个序列片段中筛选出关键序列片段;最后根据关键序列片段对应的TF-IDF值构建TF-IDF矩阵。接着将根据逻辑回归(Logistic Regression,LR)分类模型计算得到的逻辑回归系数的绝对值进行排序,找到最大的topN(N可以取2000)的序列片段,对同一个序列片段中的同一个埋点ID进行去重处理,得到M个(M可以为800左右)候选序列片段(作为重要埋点)。最后计算候选序列片段的PSI(根据金融领域中的稳定度指标计算公式计算得到的稳定度),如果大于一个预先设定的阈值(例如0.25),则将该候选序列片段列入黑名单;将黑名单中的序列片段剔除掉,得到目标候选序列片段。

上述实施例,通过N-Gram+TF-IDF能够从第一埋点序列和第二埋点序列中搜索和挖掘出预测性很强的序列片段,N-Gram的滑动窗口遍历是一个全局的搜索,而TF-IDF的特征生成同时考虑到了序列片段在所述埋点序列中的频数比重和在所有埋点序列中出现的相对比重,计算出的TF-IDF值相当于另一种形式的特征标准化,这样的特征变换在数据波动较大的跨时间预测场景相较于传统的埋点统计类指标(频次、占比等等)具有更好的跨时间预测性。

所述权重生成模块205,用于根据所述第一特征序列生成第一权重,及根据所述第二特征序列生成第二权重。

可以根据特征序列中的序列片段的逻辑回归系数生成权重,逻辑回归系数越大,生成的权重越大,逻辑回归系数越小,生成的权重越小。还可以根据特征序列中的序列片段的TF-IDF值生成权重,TF-IDF值越大,生成的权重越大,TF-IDF值越小,生成的权重越小。

所述特征生成模块206,用于根据所述第一特征序列、所述第一权重、所述第二特征序列及所述第二权重生成目标特征序列。

其中,所述目标特征序列为(第一特征序列,第一权重,第二特征序列,第二权重)。

所述留存预测模块207,用于调用代理人留存预测模型基于所述目标特征序列进行留存预测得到所述目标代理人的留存时长。

其中,所述代理人留存预测模型为预先训练好的,将所述目标代理人的目标特征序列作为所述代理人留存预测模型的入参,通过所述代理人留存预测模型输出多个留存时长及每个留存时长的得分,将得分最高的留存时长作为所述目标代理人的留存时长。

所述模型训练模块208,用于训练代理人留存预测模型。

在一个可选的实施例中,所述模型训练模块208训练代理人留存预测模型包括:

获取多个历史代理人的第三特征序列和历史留存时长,及每个历史代理人的关联的多个用户的第四特征序列;

计算每个第三特征序列与对应的多个第四特征序列中的每个第四特征序列之间的距离得到每个第一距离集;

根据每个第一距离集从多个所述第三特征序列中筛选出多个第三目标特征序列,及从每个第三目标特征序列对应的多个第四特征序列中选取出多个第四目标特征序列;

根据每个第三目标特征序列生成第三权重,根据每个第四目标特征序列生成第四权重;

根据所述第三目标特征序列及对应的所述第三权重、多个所述第四目标特征序列、多个所述第四权重及所述历史留存时长生成历史特征序列;

基于多个所述历史特征序列训练LightGBM网络得到代理人留存预测模型。

其中,历史代理人的第三特征序列和对应的第四特征序列的提取过程如同所述目标代理人的第一特征序列和对应的第二特征序列的提取过程,本发明在此不再详细阐述。

其中,所述距离可以包括,但不限于:欧式距离、余弦距离等等。所述距离集中的每个距离都大于0。例如,当计算的余弦距离小于0时,则取计算的余弦距离的绝对值。

其中,每个历史特征序列为(第三目标特征序列,第三权重,第四目标特征序列,第四权重,历史留存时长)。

在大规模的特征序列收集的过程中,会有与特征序列表示的类别相关度不高,或者错误的特征序列出现。为了后续提高代理人留存预测模型训练的准确度,需要对特征序列进行分类,自动检测出在模型训练过程中容易被学习的简单的特征序列,及在模型训练过程中不容易被学习的难的特征序列,从而实现对特征序列的分类。

在一个可选的实施例中,所述根据每个第一距离集从多个所述第三特征序列中筛选出多个第三目标特征序列,及从每个第三目标特征序列对应的多个第四特征序列中选取出多个第四目标特征序列包括:

针对每个所述第三特征序列,将所述第一距离集中的每个距离与距离阈值进行对比;

确定大于所述距离阈值的目标距离并计算所述目标距离的距离数;

将所述距离数作为所述第三特征序列的密度值;

将大于预设密度值阈值的密度值对应的第三特征序列确定为第三目标特征序列;

将每个第三目标特征序列中大于所述距离阈值的目标距离对应的第四特征序列确定为第四目标特征序列。

针对每个第三特征序列,计算出第三特征序列的密度值,第三特征序列的密度值越大,表示对应的多个第四特征序列中与第三特征序列相似的第四特征序列越多,第三特征序列与对应的多个第四特征序列之间的距离越近。第三特征序列的密度值越小,表示对应的多个第四特征序列中与第三特征序列相似的第四特征序列越少,密度值越小,表示第三特征序列与对应的多个第四特征序列之间的距离越远。

距离越近,表示对应的第四特征序列越属于正确的样本;以第三特征序列为聚类中心及对应的多个第四特征序列构成的子集就越密集,该子集之间的特征序列表示的类型就越相似,属于简单的样本,模型很容易学习到简单样本的特征。距离越远,表示对应的第四特征序列越属于错误的样本;以第三特征序列为聚类中心及对应的多个第四特征序列构成的子集就越稀疏,该子集之间的特征序列表示的类型就越多样化,属于难样本。

通过密度值可以有效的筛选出第三目标特征序列,作为简单样本进行入模学习。再通过距离进一步筛选出第四目标特征序列,能够排除出错误的样本,从而提高后续训练代理人留存预测模型的准确度。

在一个可选的实施例中,所述基于多个所述历史特征序列训练LightGBM网络得到代理人留存预测模型包括:

将多个所述历史特征序列作为数据集,并按照所述第三目标特征序列对应的时间将所述数据集切分为第一数据集和第二数据集;

将所述第一数据集切分为多个子数据集;

采用留一法基于所述多个子数据集训练LightGBM网络得到多个代理人留存预测模型;

采用所述第二数据集对每个代理人留存预测模型进行测试,得到测试留存概率;

计算每个代理人留存预测模型对应的测试留存概率的均值,并将最高的均值对应的代理人留存预测模型作为目标代理人留存预测模型。

以代理人留存预测模型为例,代理人留存标签在代理人岗后三个月才能得到,如果要预测2020年3月的代理人的留存信息,则模型训练月份为2019年10月-2019年12月的埋点序列。而2020年1月-2月的埋点序列,虽然没有留存标签,但是可以用来进一步训练出稳定性较强的代理人留存预测模型。计算机设备可以采用等频分箱模型将所述第一数据集切分为多个第一子数据集,及将所述第二数据集切分为多个第二子数据集。即,每个子数据集的数量相同。

示例性的,假设将所述第一数据集切分为5份子数据集,以其中的任意4份子数据集为训练集训练LightGBM网络,以另一份子数据集为测试集进行测试,如此能够训练出5个代理人留存预测模型。使用2020年1月-2月的埋点序列进行测试时,每个代理人留存预测模型均对应输出多个测试留存概率,测试留存概率的均值越高,表明对应的代理人留存预测模型的预测越准确。

本发明能够基于APP埋点行为序列进行全局搜索,找到重要的有预测价值的埋点以及埋点序列、点击行为习惯等等,并生成稳定的指标特征,从而为代理人留存预测模型提供数据,接着通过代理人打分模型预测代理人的留存概率,作为第一权重的依据,通过用户打分模型预测用户的留存概率,作为第二权重的依据,实现了动态生成权重的目的;根据第一埋点序列与第二埋点序列之间的距离集可确定每个第一埋点序列的密度集,从而从第一埋点序列中筛选出简单样本,并从对应的第二埋点序列中进一步筛选出与简单样本关联度较高的目标埋点序列,基于生成的不同权重及筛选出的目标埋点序列训练代理人留存模型,能够得到预测准确率较高的代理人留存预测模型,进而准确的预测出代理人的留存时长。

需要说明的是,本发明所述的方法不仅可以用来训练代理人留存预测模型,还可以用来训练代理人低业绩预测模型。

需要强调的是,为进一步保证上述代理人留存预测模型的私密性和安全性,上述代理人留存预测模型可存储于区块链的节点中。

参阅图3所示,为本发明实施例五提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线(图中未显示)及收发器(图中未显示)。

本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。

在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的计算机设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的代理人留存预测方法/代理人留存预测方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的代理人留存预测方法的全部或者部分步骤;或者实现代理人留存预测装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中,所述至少一条通信总线被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号