首页> 中国专利> 应用程序的潜在用户预测方法、装置、设备及存储介质

应用程序的潜在用户预测方法、装置、设备及存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种应用程序的潜在用户预测方法，在获取到应用程序对应的用户数据并分类之后，然后利用训练数据集分别对多个预测模型进行训练，得到多个标准预测模型，然后利用验证数据集对各标准预测模型进行验证，然后将测试数据集输入至经验证后的各标准预测模型以预测测试数据集中的潜在用户，从而在各标准预测模型的预测结果中选取最优的预测结果。本方案不仅能对潜在用户进行预测，同时，能从多个标准预测模型的预测结果中选取最优的预测结果以完成对潜在用户进行预测，从而保证了对潜在用户进行预测的精确度。进而能针对潜在用户提供优质的服务，避免了潜在用户的流失。此外，本发明还公开了一种潜在用户的预测装置、设备及存储介质。

著录项

公开/公告号CN112712383A

专利类型发明专利
公开/公告日2021-04-27

原文格式PDF
申请/专利权人上海莉莉丝科技股份有限公司;
展开▼

申请/专利号CN201911016389.8
发明设计人杨格蒙;江锐;
展开▼

申请日2019-10-24
分类号G06Q30/02(20120101);
代理机构31300 上海华诚知识产权代理有限公司;
代理人肖华
地址 201802 上海市嘉定区胜辛南路500号15幢2055室
入库时间 2023-06-19 10:46:31

说明书

技术领域

本发明涉及计算机技术领域，尤其涉及一种应用程序的潜在用户预测方法、装置、设备及存储介质。

背景技术

随着人工智能的快速发展，智能手机得到越来越广泛的应用，为了满足用户的生活需求，各大厂商都开发了模式多样的应用程序，包括游戏类的应用程序、生活类的应用程序以及学习类的应用程序等。

在用户在应用商店下载应用程序后，需要先在应用程序上注册个人信息，在注册完成后再继续使用该应用程序。以游戏应用程序为例，当用户注册游戏应用程序之后，可以根据用户登录游戏应用程序的时间长短以及在游戏应用程序上的消费行为可以将用户进行分类，其中，注册游戏应用程序的用户中包含很多潜在用户，如何对潜在用户进行科学的预测，从而为潜在用户提供优质的服务，避免潜在用户流失是本领域技术人员需要解决的技术问题。

发明内容

本发明的目的在于解决现有技术中无法对潜在用户进行科学预测，而无法潜在用户提供优质服务而导致潜在用户流失的问题。因此，本发明提供一种应用程序的潜在用户预测方法、装置、设备及存储介质，能对潜在用户进行科学的预测，从而能为潜在用户提供优质的服务，避免了用户流失。

为解决上述问题，本发明的实施方式公开了一种应用程序的潜在用户预测方法，获取与所述应用程序对应的用户数据；

对所述用户数据进行分类，得到多类用户数据，并对各类所述用户数据进行标记，所述用户数据的种类包括历史进行价值数据交换的用户数据和历史未进行价值数据交换的用户数据；

将标记各类所述用户数据后的数据集划分为训练数据集、验证数据集以及测试数据集；

利用所述训练数据集分别对多个预测模型进行训练，得到多个标准预测模型；

利用所述验证数据集对各所述标准预测模型进行验证；

将所述测试数据集输入至经验证后的各所述标准预测模型以预测所述测试数据集中的潜在用户；

从各所述标准预测模型的预测结果中选取最优的预测结果。

采用上述技术方案，在获取到应用程序对应的用户数据并分类之后，将用户数据划分为训练数据集、验证数据集以及测试数据集，然后利用训练数据集分别对多个预测模型进行训练，得到多个标准预测模型，在得到多个标准预测模型后，利用验证数据集对各标准预测模型进行验证，然后将测试数据集输入至经验证后的各标准预测模型以预测测试数据集中的潜在用户，从而在各标准预测模型的预测结果中选取最优的预测结果。本方案不仅能对潜在用户进行预测，同时，由于利用多个标准预测模型对潜在用户进行预测，并能从多个标准预测模型的预测结果中选取最优的预测结果以完成对潜在用户进行预测，从而保证了对潜在用户进行预测的精确度。进而能针对潜在用户提供优质的服务，避免了潜在用户的流失。

可选的，在所述对所述用户数据进行分类，得到多类用户数据，并对各类所述用户数据进行标记之后，还包括：

基于主成分分析法将标记各类所述用户数据后得到的数据集由高维空间降维至低维空间。

可选的，在所述从各所述标准预测模型的预测结果中选取最优的预测结果之后，还包括：

基于所述潜在用户在所述应用程序的埋点数据，对所述潜在用户进行行为分析，得到所述潜在用户的价值数据交换行为特征；

对所述潜在用户提供与所述价值数据交换行为特征对应的服务策略。

可选的，所述用户数据包括：登陆所述应用程序的时间超出第一预定时间的老用户的第一数据和注册所述应用程序的时间不超过第二预定时间的新用户的第二数据；

所述第一数据和所述第二数据均包括：登录ID、最后一次登出所述应用程序的数据、用户在所述应用程序中的角色ID、行为特征数据、等级数据、进行价值数据交换的价值数据、服务器ID和应用程序的浏览路径数据。

可选的，所述预测模型包括：XGBoost预测模型、LightGBM预测模型和CatBoost预测模型。

可选的，所述XGBoost预测模型的标准XGBoost预测模型的构建过程包括：

设定所述应用程序的用户对所述应用程序进行价值数据交换行为特征的概率最大为目标函数；

利用所述目标函数构建所述XGBoost预测模型；

将所述训练数据集输入至所述XGBoost预测模型，训练所述XGBoost预测模型以不断调整所述XGBoost预测模型的参数；

在所述XGBoost预测模型的训练精度达到理想值时，将与所述理想值对应的XGBoost 预测模型的权重作为最优权重，与所述最优权重对应的XGBoost预测模型为所述标准 XGBoost预测模型。

可选的，所述LightGBM预测模型的标准LightGBM预测模型的构建过程包括：

对所述训练数据集进行特征提取，并解析各特征的特征值，所述特征包括用户登出所述应用程序的登出时间、所述用户持续登录所述应用程序的时间、所述用户在登录所述应用程序时的价值数据交换行为特征和用户登录所述应用程序的登录时间；

设定所述应用程序的用户对所述应用程序进行价值数据交换行为特征的概率最大为目标函数；

利用所述目标函数构建所述LightGBM预测模型；

将所述特征值进行分桶，并将分桶后的特征值对应的特征输入至所述LightGBM预测模型进行训练，得到所述标准LightGBM预测模型。

可选的，所述CatBoost预测模型的标准CatBoost预测模型的构建过程包括：

对所述训练数据集中的数据随机重新排列；

将所述训练数据集中的标记值转换为整型数据；

遍历所述训练数据集并将所述训练数据集的分类特征转换为数据型；

将所述整型数据和所述数据型的分类特征输入至CatBoost预测模型，并进行训练，得到所述CatBoost预测模型。

进一步地，本发明的实施方式公开了一种应用程序的潜在用户预测装置，所述装置包括：

获取模块，用于获取与所述应用程序对应的用户数据；

分类模块，用于对所述用户数据进行分类，得到多类用户数据，并对各类所述用户数据进行标记，所述用户数据的种类包括历史进行价值数据交换的用户数据和历史未进行价值数据交换的用户数据；

划分模块，用于将标记各类所述用户数据后的数据集划分为训练数据集、验证数据集以及测试数据集；

训练模块，用于利用所述训练数据集分别对多个预测模型进行训练，得到多个标准预测模型；

验证模块，用于利用所述验证数据集对各所述标准预测模型进行验证；

预测模块，用于将所述测试数据集输入至经验证后的各所述标准预测模型以预测所述测试数据集中的潜在用户；

选取模块，用于从各所述标准预测模型的预测结果中选取最优的预测结果。进一步地，本发明的实施方式公开了一种应用程序的潜在用户预测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序以实现以上任意一种所述的应用程序的潜在用户预测方法的步骤。

进一步地，本发明的实施方式公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有预测程序，所述预测程序被处理器执行以实现如以上任意一种所述的应用程序的潜在用户预测方法的步骤。

本发明其他特征和相应的有益效果在说明书的后面部分进行阐述说明，且应当理解，至少部分有益效果从本发明说明书中的记载变的显而易见。

附图说明

图1为本发明实施例1公开的一种应用程序的潜在用户预测方法流程示意图；

图2为本发明实施例1公开的另一种应用程序的潜在用户预测方法流程示意图；

图3为本发明实施例2公开的一种应用程序的潜在用户预测方法流程示意图；

图4为本发明实施例3公开的一种应用程序的潜在用户预测装置的结构示意图；

图5为本发明实施例4公开的一种应用程序的潜在用户预测设备的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。虽然本发明的描述将结合较佳实施例一起介绍，但这并不代表此发明的特征仅限于该实施方式。恰恰相反，结合实施方式作发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提供对本发明的深度了解，以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外，为了避免混乱或模糊本发明的重点，有些具体细节将在描述中被省略。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

应注意的是，在本说明书中，相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

实施例1

下面结合图1和图2对本发明实施例1公开的一种应用程序的潜在用户预测方法进行说明，图1为本发明实施例1公开的一种应用程序的潜在用户预测方法流程示意图，图2为本发明实施例1公开的另一种应用程序的潜在用户预测方法流程示意图。

如图1所示的，该方法包括：

S10：获取与应用程序对应的用户数据。

具体的，应用程序可以是游戏类应用程序、生活类应用程序以及学习类应用程序等。以游戏类应用程序为例，用户数据包括老玩家预定时间段的老玩家数据和日为单位的新用户数据，老玩家指的是创建角色并登录应用程序超过预定时间的玩家，预定时间段可以为一周，预定时间可以为一天。新用户数据和老玩家数据的特征和新用户的特征保持一致，下文均称为特征，特征是指按照客观事实、现实常理、业务需求以及游戏逻辑构造特征，如下：

老玩家数据是以快照数据为基准表，快照数据是指玩家当天最后一次登出的数据，主要包括：创建的角色ID、游戏应用程序的游戏ID、服务器ID、角色战力、角色等级、角色总付费金额、角色的区域ID、角色的金币存量、宝石存量、角色联盟、游戏应用程序的承载终端的设备信息(设备类型、设备型号以及设备厂商)、用户点击游戏应用程序中的道具信息(获取次数、道具消耗次数、道具获取数量以及道具消耗数量)、各个资源的获取总数、游戏应用程序的升级次数、各个资源的获取次数(礼包打开次数、金币获取次数、集宝石次数和总数、集石头次数、粮食次数以及木材次数等)、任务完成数据(主线任务接取与完成情况、支线任务接取和完成情况、日常任务完成和接取情况以及日常任务总分)、邮件数据(发送邮件次数、获取系统邮件的次数)等。

作为本发明可选的实施例，用户数据包括：登陆应用程序的时间超出第一预定时间 (预定时间段)的老用户的第一数据和注册应用程序的时间不超过第二预定时间(预定时间)的新用户的第二数据。

第一数据和第二数据均包括：登录ID、最后一次登出应用程序的数据、用户在应用程序中的角色ID、行为特征数据、等级数据、进行价值数据交换的价值数据、服务器ID 和应用程序的浏览路径数据。

S11：对用户数据进行分类，得到多类用户数据，并对各类用户数据进行标记，用户数据的种类包括历史进行价值数据交换的用户数据和历史未进行价值数据交换的用户数据。

具体的，价值数据交换指的是玩家进行了付费行为，可以将用户数据分类为老玩家数据和新用户数据，老玩家数据和新用户数据统称为玩家数据，选定第一个时间点，将玩家数据分为已付费玩家和从未付费玩家，然后再选定第二个时间点，将未付费玩家的首次消费标记为第一标识符、若依旧未消费，则标记为第二标识符，第一标识符可选为1、第二标识符可选为0。

在对用户数据完成标记后，对标记后的的用户数据进行清洗，例如，统计玩家进行在线付费的行为的总数，如果没有玩家进行在线付费，则用数字“0”填充缺失值。

S12：将标记各类用户数据后的数据划分为训练数据集、验证数据集以及测试数据集。

具体的，训练数据集为用于预测模型进行训练学习的样本数据集。

验证数据集是用来调整预测模型的参数的样本数据集。当通过训练数据集训练出多个预测模型后，为了能找出效果最佳的预测模型，使用各个预测模型对验证数据集进行预测，记录模型准确率等指标。

测试数据集来测试经过训练和验证后的标准预测模型的分类能力的样本数据集。

S13：利用训练数据集分别对多个预测模型进行训练，得到多个标准预测模型。

具体的，作为本发明可选的实施例，预测模型包括：XGBoost预测模型、LightGBM预测模型和CatBoost预测模型。

下面分别对XGBoost预测模型、LightGBM预测模型和CatBoost预测模型的构建过程进行说明：

对于XGBoost预测模型，训练过程具体可以为如下的步骤：

设定应用程序的用户对应用程序进行价值数据交换行为特征的概率最大为目标函数。

具体的，价值数据交换行为特征指的是用户在线进行付费的概率。

利用目标函数构建XGBoost预测模型。

具体的，构建的目标函数如下：

其中，

在构建以上目标函数后，引入正则项，如下式：

具体的，在目标函数加入正则项后，按训练数据集加和的目标函数转换成按树模型的叶子加和，加入正则项得到的目标函数如下：

对加入正则项的目标函数取极小值，得到叶子的权重和目标函数取极小值时目标函数的值，具体如下：

其中，

将训练数据集输入至XGBoost预测模型，训练XGBoost预测模型以不断调整XGBoost 预测模型的参数。

在XGBoost预测模型的训练精度达到理想值时，将与理想值对应的XGBoost预测模型的参数作为最优参数，与最优参数对应的XGBoost预测模型为标准XGBoost预测模型。

具体的，XGBoost预测模型的训练精度以分裂增益之间的差值确定，对于XGBoost预测模型的分裂增益，可以为分裂之前的目标函数值减去分裂之后目标函数的值，具体可以采用下式计算：

其中，

对于LightGBM预测模型，其训练过程具体如下：

对训练数据集进行特征提取，并解析各特征的特征值，特征包括：用户登出应用程序的登出时间，用户持续登录应用程序的时间、用户在登录应用程序时的价值数据交换行为特征和用户登录应用程序的登录时间。

设定应用程序的用户对应用程序进行价值数据交换行为特征的概率最大为目标函数。

利用目标函数构建LightGBM预测模型。

将特征值进行分桶，并将分桶后的特征值对应的特征输入至LightGBM预测模型进行训练，得到标准LightGBM预测模型。

具体的，价值数据交换行为特征为用户点击应用程序进行付费的行为，在得到特征值之后，按照特征值的排序建立索引，然后按照索引遍历每一个阈值以进行分裂增益的计算。具体的，本发明实施例中，LightGBM预测模型采用直方图的方式，首先对特征值进行分桶，进行分桶操作后，能够降低数据过拟合的风险。

计算分裂增益的过程具体如下：在对LightGBM预测模型的一个叶子进行分裂之后，需要重新计算两个孩子节点的直方图，其中，直方图每一个桶存的是落到该桶的训练数据集的样本数量、训练数据集的一阶导数之和以及训练数据集的二阶导数之和，在对直方图进行作差时，只需要计算测试数据集的样本较少的孩子节点的特征直方图，然后将父节点的特征直方图减去小孩子节点的直方图，如此，便得到大孩子节点的直方图。采用该种方案，只需要遍历小叶子上的测试数据集的样本数据，便可以达到加速计算的目的。

对于LightGBM预测模型而言，其采用的是Leafwise的树生长方式，而传统的XGBoost 采用的是Levelwise的树生长方式，通过计算当前树的所有叶子的分裂增益，选择最大分裂增益的叶子进行分裂，Leafwise相比于Levelwise每次分裂可能会产生更大的增益，因此采用LightGBM预测模型的数据拟合速度更快。

进一步，由于对训练数据集的特征进行One-Hot处理后，其会占用更大的存储空间，采用LightGBM预测模型，无需对特征进行处理，也无需占用过大的存储空间，提高了储存盘的利用率。

对于CatBoost预测模型，其训练过程具体如下：

对训练数据集中的数据随机重新排列。

将训练数据集中的标记值转换为整型数据。

遍历训练数据集并将训练数据集的分类特征转换为数据型。

将整型数据和数据型的分类特征输入至CatBoost预测模型，并进行训练，得到CatBoost预测模型。

具体的，CatBoost预测模型是基于Boosting tree的梯度提升树模型框架，最大的特点对category特征的直接支持，甚至支持字符串类型的特征。

将训练数据集中的标记值转换为整型数据具体如下：

本发明实施例中，可以将分类结果分类两类，即玩家付费和玩家不付费两种结果，本发明实施例中，将训练数据集中的付费用户采用标识1进行标记，将训练数据集中的未付费用户采用标识0进行标记。

遍历训练数据集并将训练数据集的分类特征转换为数据型具体可以采用下式：

其中，value

S14：利用验证数据集对各标准预测模型进行验证。

具体的，验证数据集是用来调整预测模型的参数的样本数据集。当通过训练数据集训练出多个预测模型后，为了能找出效果最佳的预测模型，使用各个预测模型对验证数据集进行预测，记录模型准确率、召回率等指标。

S15：将测试数据集输入至经验证后的各标准预测模型以预测测试数据集中的潜在用户；

S16：从各标准预测模型的预测结果中选取最优的预测结果。

具体的，预测测试数据集中的潜在用户指的是测试数据集中用户产生付费行为的用户。标准预测模型中的最优的预测结果是以各标准预测模型的准确率和召回率以及混淆矩阵进行评估，选择准确率和召回率最高的标准预测模型的预测结果作为最优的预测结果。

进一步，为了减少数据所需的存储空间，加快数据的计算速度以及避免数据过拟合，本发明实施例1提供了另一种应用程序的潜在用户预测方法，在图1的基础上，如图2所示的，在步骤S11之后，还包括：

S20：基于主成分分析法将标记各类用户数据后得到的数据集由高维空间降维至低维空间。

具体的，降至低维空间的低维空间的预定维数可以由用户预先设定，主成分分析法的过程具体如下：

首先输入训练数据集和低维空间的空间维数d'。

然后对训练数据集中的样本进行中心化，具体采用如下方式：

其中，m指的是训练数据集中的样本的个数，x

然后计算训练数据集中的协方差矩阵。

其次对协方差矩阵做特征值分解。

最后取最大的d'个特征值对应的特征向量。并输出投影矩阵作为低维空间内的数据集。

需要说明的是，对于主成分分析法本身本发明实施例并未作出改进，具体可以参见现有技术。

具体的，假设对标记后的用户数据集(训练数据集、验证数据集以及测试数据集)进行了中心化，即∑

再假设投影变换后得到的新坐标系为{w

将新坐标系中的部分坐标系进行丢弃，则代表将数据的维度由维度d降到d'，则用户数据集的样本点w

综合整个用户数据集，原用户数据集的样本点x

其中，W＝{w

s.t.W

将上式作为主成分分析法的优化目标。

样本点x

s.t.W

对以上两个公式表示的优化目标使用拉格朗日乘子法可得下式：

只需要对协方差矩阵XX

需要说明的是，对于XGBoost预测模型、LightGBM预测模型和CatBoost预测模型的原理也可以参见现有技术。

本发明实施例1公开的一种应用程序的潜在用户预测方法，采用上述技术方案，在获取到应用程序对应的用户数据并分类之后，将用户数据划分为训练数据集、验证数据集以及测试数据集，然后利用训练数据集分别对多个预测模型进行训练，得到多个标准预测模型，在得到多个标准预测模型后，利用验证数据集对各标准预测模型进行验证，然后将测试数据集输入至经验证后的各标准预测模型以预测测试数据集中的潜在用户，从而在各标准预测模型的预测结果中选取最优的预测结果。本方案不仅能对潜在用户进行预测，同时，由于利用多个标准预测模型对潜在用户进行预测，并能从多个标准预测模型的预测结果中选取最优的预测结果以完成对潜在用户进行预测，从而保证了对潜在用户进行预测的精确度。进而能针对潜在用户提供优质的服务，避免了潜在用户的流失。

实施例2

在预测出潜在用户的付费概率之后，为了对潜在用户提供其所需的服务，本发明提供了实施例2，图3为本发明实施例2公开的一种应用程序的潜在用户预测方法流程示意图。

如图3所示的，该方法包括：

S30：获取与应用程序对应的用户数据。

S11：对用户数据进行分类，得到多类用户数据，并对各类用户数据进行标记。

S20：基于主成分分析法将标记各类用户数据后得到的数据集由高维空间降维至低维空间，并将数据集在低维空间的维数降为预定维数。

S12：将标记各类用户数据后的数据划分为训练数据集、验证数据集以及测试数据集。

S13：利用训练数据集分别对多个预测模型进行训练，得到多个标准预测模型。

S14：利用验证数据集对各标准预测模型进行验证。

S15：基于各标准预测模型的验证结果从多个标准预测模型中选取最优的标准预测模型为目标预测模型。

S16：将测试数据集输入至目标预测模型，以预测测试数据集中的潜在用户。

S31：基于潜在用户在应用程序的埋点数据，对潜在用户进行行为分析，得到潜在用户的价值数据交换行为特征。

S32：对潜在用户提供与价值数据交换行为特征对应的服务策略。

具体的，用户的价值数据交换行为特征指的是用户在登录进应用程序后产生的付费交易行为。服务策略指的是，根据用户的付费项目，为用户推送与该付费项目相关的服务项目，供用户选择。

本发明实施例2公开的一种应用程序的潜在用户预测方法，采用上述技术方案，在获取到应用程序对应的用户数据并分类之后，将用户数据划分为训练数据集、验证数据集以及测试数据集，然后利用训练数据集分别对多个预测模型进行训练，得到多个标准预测模型，在得到多个标准预测模型后，利用验证数据集对各标准预测模型进行验证，然后将测试数据集输入至经验证后的各标准预测模型以预测测试数据集中的潜在用户，从而在各标准预测模型的预测结果中选取最优的预测结果。本方案不仅能对潜在用户进行预测，同时，由于利用多个标准预测模型对潜在用户进行预测，并能从多个标准预测模型的预测结果中选取最优的预测结果以完成对潜在用户进行预测，从而保证了对潜在用户进行预测的精确度。进而能针对潜在用户提供优质的服务，避免了潜在用户的流失。

此外，针对用户的价值数据交换行为特征，能针对潜在用户提供相对应的服务策略，避免了潜在用户的流失。

实施例3

下面结合图4对本发明实施例3公开的一种应用程序的潜在用户预测装置进行说明，图4为本发明实施例3公开的一种应用程序的潜在用户预测装置的结构示意图。

如图4所示的，该装置包括：

获取模块40，用于获取与应用程序对应的用户数据；

分类模块41，用于对用户数据进行分类，得到多类用户数据，并对各类用户数据进行标记，用户数据的种类包括历史进行价值数据交换的用户数据和历史未进行价值数据交换的用户数据。

划分模块42，用于将标记各类用户数据后的数据集划分为训练数据集、验证数据集以及测试数据集；

训练模块43，用于利用训练数据集分别对多个预测模型进行训练，得到多个标准预测模型；

验证模块44，用于利用验证数据集对各标准预测模型进行验证；

选取模块45，用于基于各标准预测模型的验证结果从多个标准预测模型中选取最优的标准预测模型为目标预测模型；

预测模块46，用于将测试数据集输入至经验证后的各标准预测模型以预测测试数据集中的潜在用户；

选取模块47，用于从各标准预测模型的预测结果中选取最优的预测结果。

进一步，作为本发明可选的实施例，还包括：

降维模块，用于基于主成分分析法将标记各类用户数据后得到的数据集由高维空间降维至低维空间。

进一步，作为本发明可选的实施例，还包括：

分析模块，用于基于潜在用户在应用程序的埋点数据，对潜在用户进行行为分析，得到潜在用户的价值数据交换行为特征；

提供模块，用于对潜在用户提供与价值数据交换行为特征对应的服务策略。

本发明实施例3公开的一种应用程序的潜在用户预测装置，在获取模块获取到应用程序对应的用户数据并由分类模块分类之后，将用户数据划分为训练数据集、验证数据集以及测试数据集，然后训练模块利用训练数据集分别对多个预测模型进行训练，得到多个标准预测模型，在得到多个标准预测模型后，验证模块利用验证数据集对各标准预测模型进行验证，然后将测试数据集输入至经验证后的各标准预测模型以预测测试数据集中的潜在用户，从而在各标准预测模型的预测结果中选取最优的预测结果。本方案不仅能对潜在用户进行预测，同时，由于利用多个标准预测模型对潜在用户进行预测，并能从多个标准预测模型的预测结果中选取最优的预测结果以完成对潜在用户进行预测，从而保证了对潜在用户进行预测的精确度。进而能针对潜在用户提供优质的服务，避免了潜在用户的流失。

实施例4

下面结合图5对本发明实施例4公开的一种应用程序的潜在用户预测设备进行说明，图5为本发明实施例4公开的一种应用程序的潜在用户预测设备的结构示意图。

如图5所示的，该设备包括：

存储器50，用于存储计算机程序；

处理器51，用于执行存储器中存储的计算机程序以实现如以上任意一个实施例提到的的应用程序的潜在用户预测方法的步骤。

本发明实施例4公开的一种应用程序的潜在用户预测设备，处理器在执行存储器存储的计算机程序后，具有以下有益效果：在获取到应用程序对应的用户数据并分类之后，将用户数据划分为训练数据集、验证数据集以及测试数据集，然后利用训练数据集分别对多个预测模型进行训练，得到多个标准预测模型，在得到多个标准预测模型后，利用验证数据集对各标准预测模型进行验证，然后将测试数据集输入至经验证后的各标准预测模型以预测测试数据集中的潜在用户，从而在各标准预测模型的预测结果中选取最优的预测结果。本方案不仅能对潜在用户进行预测，同时，由于利用多个标准预测模型对潜在用户进行预测，并能从多个标准预测模型的预测结果中选取最优的预测结果以完成对潜在用户进行预测，从而保证了对潜在用户进行预测的精确度。进而能针对潜在用户提供优质的服务，避免了潜在用户的流失。

实施例5

下面结合对本发明实施例5公开的一种计算机可读存储介质进行说明，计算机可读存储介质上存储有预测程序，预测程序被处理器执行以实现如以上任意一个实施例提到的应用程序的潜在用户预测方法的步骤。

本发明实施例5公开的一种计算机可读存储介质，处理器在执行计算机可读存储介质上存储的计算机程序后，具有以下有益效果：在获取到应用程序对应的用户数据并分类之后，将用户数据划分为训练数据集、验证数据集以及测试数据集，然后利用训练数据集分别对多个预测模型进行训练，得到多个标准预测模型，在得到多个标准预测模型后，利用验证数据集对各标准预测模型进行验证，然后将测试数据集输入至经验证后的各标准预测模型以预测测试数据集中的潜在用户，从而在各标准预测模型的预测结果中选取最优的预测结果。本方案不仅能对潜在用户进行预测，同时，由于利用多个标准预测模型对潜在用户进行预测，并能从多个标准预测模型的预测结果中选取最优的预测结果以完成对潜在用户进行预测，从而保证了对潜在用户进行预测的精确度。进而能针对潜在用户提供优质的服务，避免了潜在用户的流失。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 应用程序的潜在用户预测方法、装置、设备及存储介质 [P] . 中国专利： CN112712383A . 2021-04-27
2. 基于流失用户的潜在用户预测方法、装置和计算机设备 [P] . 中国专利： CN109242539A . 2019-01-18
3. Communication control method in image forming system which comprises a plurality of applications and an image forming apparatus and in which at least a print job described in JDF code is transmitted from said applications to said image forming apparatus and a message described in JMF code is exchanged between said applications and said image forming apparatus, storage medium stored with program for said image forming system, and said image forming system [P] . 美国专利： US9372650B2 . 2016-06-21

机译：包括多个应用程序和图像形成装置的图像形成系统中的通信控制方法，其中至少以JDF代码描述的打印作业从所述应用程序传输到所述图像形成装置，并且在之间交换以JMF代码描述的消息所述应用程序和所述图像形成设备，存储有用于所述图像形成系统的程序的存储介质以及所述图像形成系统
4. BEHAVIOR PREDICTION METHOD AND APPARATUS, GAIT RECOGNITION METHOD AND APPARATUS, ELECTRONIC DEVICE, AND COMPUTER READABLE STORAGE MEDIUM [P] . WO2021169924A1 . 2021-09-02

机译：行为预测方法和装置，步态识别方法和装置，电子设备和计算机可读存储介质
5. DATA PREDICTION METHOD, APPARATUS, COMPUTER DEVICE, AND STORAGE MEDIUM [P] . WO2022011946A1 . 2022-01-20

机译：数据预测方法，装置，计算机设备和存储介质