首页> 中国专利> 一种APP2VEC在风控系统中建模的工作方法

一种APP2VEC在风控系统中建模的工作方法

摘要

一种APP2VEC在风控系统中建模的工作方法,通过将整理多个用户一个月之内使用app的行为的数据进行训练集,配合工具fasttext训练生成skip‑gram模型得到n维向量模型,并且通过softmax的算法将需要聚合的向量矩阵压缩成一个一维多列的向量特征;选取风控样本用户一个月之内使用app的行为数据进行聚合,再将数组数据累加起来,得到1×100的向量;把1×100的向量作为特征,进行训练并建立风控模型;该方法将训练向量模型时训练集的准备,以及在向量使用过程中向量之间的累加方法,通过使用本发明生成的特征,在模型训练的过程中,挑选出带来增益的特征变量;使上万维和app使用相关的特征压缩成一个200至300维的向量,通过这些向量,可以很好的概括形容用户一段时间内使用app的行为。

著录项

  • 公开/公告号CN113034193A

    专利类型发明专利

  • 公开/公告日2021-06-25

    原文格式PDF

  • 申请/专利权人 墨致科技(上海)有限公司;

    申请/专利号CN202110360358.5

  • 发明设计人 徐宇杰;

    申请日2021-04-02

  • 分类号G06Q30/02(20120101);G06F16/35(20190101);G06K9/62(20060101);G06N20/00(20190101);

  • 代理机构44631 广东省畅欣知识产权代理事务所(普通合伙);

  • 代理人耿佳

  • 地址 200030 上海市徐汇区乐山路33号1号楼712室

  • 入库时间 2023-06-19 11:35:49

说明书

技术领域

本发明涉及系统建模方法领域,具体是一种APP2VEC在风控系统中建模的工作方法。

背景技术

科技信息化时代的今天,移动互联网带给人们的方方面面方便和快捷,智能手机作为移动互联网的载体每天会产生数以百亿量级的行为。我们可以通过这些用户手机使用行为分析,更准确的进行用户定位,生成用户画像,从而判断用户在金融领域的风险;

一般来说可以从两个方面进行分析,一个是用户的手机app使用行为,比如一天之内具体打开使用app的时间,每天打开各个app的时长、次数。通过这些数据生成向量特征并且建立模型,可以预测用户的兴趣,职业,性别,金融风险等,同时也可以概括用户一段时间内的app使用情况。

目前现有的技术方案比较适合于广告投放场景,在金融风控领域缺少实际的方案。本次申请的专利主要是把app2vec的技术运用于金融场景,结合风控知识,生成出给风控模型带来增益的特征变量。一般来说,同一个特征在不同场景下的不同模型里,带来的信息熵不同。比如在广告营销模型中,一个用户A同一天使用多个贷款类app这种行为,对于一个广告平台来说,可以预测其对贷款的兴趣大于没有使用过任何贷款类app的用户B,那对用户A展示广告被点击的几率就会大于用户B。 而在金融风控领域,我们会觉得用户A的风险比用户B高,用户A有多头借贷的风险。 所以同一个特征变量(一天内使用贷款app的个数)在不同领域起到的作用不同,这很大程度上取决于建模人员对业务的理解。所以如果对业务了解不深刻,很难在海量的特征变量中挑选出对实际业务带来增益的特征。类似对于用户的兴趣或者风险的评估,并不仅限于贷款类app的使用,可以应用在很多其他的领域。

发明内容

本发明所要解决的技术问题是提供一种APP2VEC在风控系统中建模的工作方法,可以有效解决上述背景技术中提出的问题。

为解决上述问题,本发明所采取的技术方案是:一种APP2VEC在风控系统中建模的工作方法,其方法在于:

步骤一:选取多个用户一段时间内使用app的行为数据;

步骤二:把用户ID、app名称、使用时间的数据进行扁平化整理成统一格式;

步骤三:把用户ID按天聚合,并且根据使用时间排序,得到用户一天的使用app的序列;

步骤四:把训练集中所有app名称映射成base 60编码,得到一个编码完整的训练集;

步骤五:使用快速文本分类算法fasttext skipgram 在已有的训练集上进行训练,调参并生成向量模型;

步骤六:把编码还原成app名称;

步骤七:选取风控样本用户一段时间内使用app的行为数据,每个app名映射成一个100维度向量;

步骤八:把步骤七选取的数据按人聚合,得到一个用户该时间内使用app 的100维向量数组,以及该时间段内每个app使用的次数数组;

步骤九:把步骤八产出的数据累加起来,得到1×100的向量;

步骤十:把1×100的向量作为特征,进行训练并建立风控模型。

作为本发明的进一步优选方案,所述步骤三中用户一天内使用2个app之间的间隔大于2小时,在这2个app之间的序列数据中每过2小时补1个z。

作为本发明的进一步优选方案,所述步骤五中模型结果为一个base 60编码对应一个100维向量。

作为本发明的进一步优选方案,所述步骤六中得到app名称对应向量的模型文件。

作为本发明的进一步优选方案,所述步骤七与步骤一中的时间段相同。

作为本发明的进一步优选方案,所述步骤九中使用的累加逻辑是向量数组为一个N×100 的矩阵,每一行向量值乘以使用次数的log函数与2的log函数的比值,再把矩阵中所有行按每列相加。

与现有技术相比,本发明提供了一种APP2VEC在风控系统中建模的工作方法,具备以下有益效果:

该方法将训练向量模型时训练集的准备,以及在向量使用过程中向量之间的累加方法。通过使用本发明生成的特征,在模型训练的过程中,可以更有效的挑选出带来增益的特征变量;使得上万维和app使用相关的特征压缩成一个200至300维的向量,通过这些向量,可以很好的概括形容用户一段时间内使用app的行为,从而对用户的兴趣偏好和风险作出较好的预判,可以较好的应用于各类推荐算法、广告类变现以及金融风险管理。

对于用户浏览器使用行为同样也是通过word2vec的方法进行降维,把用户一段时间内浏览过的网页,搜索的关键字压缩成一个200至300维度的向量。

本次专利是通过机器学习的方法,让模型无监督根据提供的样本,在海量特征中自动学习出最有效果的特征变量,减缓建模人员对业务理解的压力,极大提升建模效率、模型预测的精确度与时效性,从而提升业务的效率。

附图说明

图1为本发明流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

参照图1,本发明提供一种APP2VEC在风控系统中建模的工作方法:

步骤一:选取多个用户一段时间内使用app的行为数据;

步骤二:把用户ID、app名称、使用时间的数据进行扁平化整理成统一格式;

步骤三:把用户ID按天聚合,并且根据使用时间排序,得到用户一天的使用app的序列;

步骤四:把训练集中所有app名称映射成base 60编码,得到一个编码完整的训练集;

步骤五:使用快速文本分类算法fasttext skipgram 在已有的训练集上进行训练,调参并生成向量模型;

步骤六:把编码还原成app名称;

步骤七:选取风控样本用户一段时间内使用app的行为数据,每个app名映射成一个100维度向量;

步骤八:把步骤七选取的数据按人聚合,得到一个用户该时间内使用app 的100维向量数组,以及该时间段内每个app使用的次数数组;

步骤九:把步骤八产出的数据累加起来,得到1×100的向量;

步骤十:把1×100的向量作为特征,进行训练并建立风控模型。

作为本发明的进一步优选方案,所述步骤三中用户一天内使用2个app之间的间隔大于2小时,在这2个app之间的序列数据中每过2小时补1个z。

作为本发明的进一步优选方案,所述步骤五中模型结果为一个base 60编码对应一个100维向量。

作为本发明的进一步优选方案,所述步骤六中得到app名称对应向量的模型文件。

作为本发明的进一步优选方案,所述步骤七与步骤一中的时间段相同。

作为本发明的进一步优选方案,所述步骤九中使用的累加逻辑是向量数组为一个N×100 的矩阵,每一行向量值乘以log(使用次数) / log(2),再把矩阵中所有行按每列相加。

作为本发明的一个具体实施例:

word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;通过建立word2vec其中的skipgram 模型,把app映射为空间中一个向量,通过向量之间的聚合,生成有效的模型特征变量,因此,Skip-gram模型的本质是计算输入word的input vector与目标word的output vector之间的余弦相似度,并进行softmax归一化;对了计算相似度并归一化变得更加简单,Mikolov引入了两种优化算法:层次Hierarchical Softmax和负采样Negative Sampling。

本发明通过选取多个用户一个月之内使用app的行为数据整理成训练集,而且把训练集中的app名称映射成base 60编码,得到一个编码完整的训练集,配合工具fasttext训练生成skip-gram模型得到每个app的base 60编码对应的一个100维向量,并且通过softmax的算法将需要聚合的向量矩阵压缩成一个一维多列的向量特征;把编码还原成app名称,得到app名称对应向量的模型文件;选取风控样本用户一个月之内使用app的行为数据进行聚合,每个app名映射成一个100维度向量,得到一个用户该月使用app 的100维向量数组,以及该月每个app使用的次数数组;再将数组数据累加起来,得到1×100的向量;把1×100的向量作为特征,进行训练并建立风控模型。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号