首页> 中国专利> 网络小额贷款服务中的黑中介自动挖掘方法与系统

网络小额贷款服务中的黑中介自动挖掘方法与系统

摘要

本发明公开了一种网络小额贷款服务中的黑中介自动挖掘方法与系统,该方法包括:基于该规则识别出更多的高精度中介用户S1;对种子黑中介用户B1、普通中介用户C1以及普通用户N1的申贷信息进行特征提取并分析,找到可以有效区分三类用户的属性特征;利用分类模型训练出一个可以从普通用户中识别中介用户的中介用户分类模型;从高精度中介用户S1中找到一批高精度的黑中介用户B2;利用分类算法训练出一个可以从中介用户中识别黑中介用户的分类模型,识别出更多的黑中介用户B4;种子黑中介用户B1、黑中介用户B2以及黑中介用户B4组成网贷平台中的黑中介用户群体。本发明的方法与系统,能有效识别申贷用户中的黑中介用户群体。

著录项

  • 公开/公告号CN112241760A

    专利类型发明专利

  • 公开/公告日2021-01-19

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN202010867838.6

  • 申请日2020-08-25

  • 分类号G06K9/62(20060101);G06Q40/02(20120101);

  • 代理机构33224 杭州天勤知识产权代理有限公司;

  • 代理人高燕

  • 地址 310013 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 09:36:59

说明书

技术领域

本发明涉及用户画像和网贷服务的安全领域,尤其涉及一种网络小额贷款服务中的黑中介自动挖掘方法与系统。

背景技术

网络小额贷款服务是一种新型的金融服务模式。它在金融市场中,尤其是在发展中国家,充当了非常重要的角色。与传统的银行贷款服务不同,与传统的银行贷款不同,它不需要借款人提供任何的财产抵押,而是通过审核借款人所提交的材料来评估其信用风险,从而决定是否放款。这种灵活有效的方式给借款者带来了许多便利,但是也滋生了一条以帮助高风险人群躲避风险管理的黑色产业链。我们把这种以帮助高风险人群行骗并且帮助他们制造虚假信息来通过风险评估的人群称为黑中介人群。

目前,大多数申请网络小额贷款的过程都是在平台上进行。申贷者只需要在app上提交与信用相关的信息,平台会结合申贷者在该平台的历史申贷记录来评估他们的信用风险。申贷者需要提交的信息分为两种:一种是必填信息,包括各类个人信息,例如身份证号、教育程度等等,以及社会信息,例如通话记录和手机通讯录;另一种是选填信息,例如在其他平台的申贷信息、收入来源等。

黑中介通常也会在这类网贷平台中就像普通申贷者一样的进行申贷,从而来获得申贷经验。他们通常会申贷很多次来获取更多的申贷经验和申贷只是。虽然市面上还是会存在很多的正常的普通中介来帮助正常用户进行申贷,但这些行为只是为了帮助他们节省时间而不是躲避风险管理。在高报酬的诱惑下,黑中介会帮助高风险人群进行申贷,并且这类人群人群通常不会按时还贷,甚至会赖账不还贷。虽然国内有征信系统可以记录用户的信用状况,但是目前的网贷平台无法验证用户提交的征信报告是否真实,这就给了黑中介帮助用户造假的机会,直接影响了网络小额贷款生态链,给网贷平台造成了巨大经济损失。

然而,目前还没有有效并且简易的方法来检测黑中介群体。目前主流获取的黑中介名单是由逾期人员报告而来。网贷平台在催逾期人员还贷的时候,某些逾期人员会主动承认自己的贷款是由黑中介帮助而来,并且由于黑中介从中收取了一大批不菲的手续费,因此这些逾期人员拒绝还款。如果一个用户被两个逾期人员报告为黑中介,那么平台的安全人员就会检查这位用户的资料来进一步判断他是否为黑中介。这种行为是不具有可拓展性的并且也是效率低下的。此外,在文献《Understanding Default Behavior in OnlineLending》中,为了评估申贷用户的逾期概率,文章中引入了黑中介的概念。但是,由于文章中对黑中介的特征提取只基于用户的通话网络,并且依赖的黑中介种子集规模小,不具有广泛应用性。

发明内容

本发明提供了一种网络小额贷款服务中的黑中介自动挖掘方法与系统,能有效识别申贷用户中的黑中介用户群体。

本发明的具体技术方案如下:

一种网络小额贷款服务中的黑中介自动挖掘方法,包括以下步骤:

(1)从已标记黑中介用户的备忘录中提炼出存储中介用户的备注的规则,并基于该规则识别出更多的高精度中介用户S1;将种子黑中介用户B1与高精度中介用户S1合并,获得中介用户C1;

(2)对种子黑中介用户B1、中介用户C1以及普通用户N1的申贷信息进行特征提取并分析,找到可以有效区分三类用户的属性特征;

(3)利用机器学习中的分类模型,训练出一个可以从普通用户中识别中介用户的中介用户分类模型;

(4)对种子黑中介用户进行拓展,从高精度中介用户S1中找到一批高精度的黑中介用户B2;

(5)利用机器学习中的分类算法,训练出一个可以从中介用户中识别黑中介用户的分类模型,识别出更多的黑中介用户B4;

种子黑中介用户B1、黑中介用户B2以及黑中介用户B4组成网贷平台中的黑中介用户群体。

步骤(1)包括:从种子黑中介用户B1的通讯录备注信息中提取中介用户的通讯录备注规则;对网贷平台的所有用户的通讯录进行检索,提取通讯录备注信息符合通讯录备注规则的用户,将该用户加入高精度中介用户S1;将种子黑中介用户B1与高精度中介用户S1合并,获得中介用户C1。

步骤(1)中,存储种子黑中介用户B1的种子黑中介用户库为网贷平台所提供。

所述的通讯录备注规则为:若在所有网贷平台用户的通讯录备注中,对某一个电话号码的所有备注中包含任何一个关键词的备注信息数量大于没包含关键词的备注信息数量,则该号码的主人为中介用户。

所述的关键词包括:

中介相关:中介+(卡/金融),办+卡,代+办+信用,包办;

借贷相关:借,贷,代款,黑户,白户,信+(代/贷),高利;

信用卡相关:提额,大额,高额,额度,pos/p0s,ps机,套现,(刷/养)+卡,花呗,白条;

银行相关:信用卡/办卡(credit/apply card),15家银行名称,具体为民生银行、中信银行、华夏银行、兴业银行、浦发银行、上海浦东发展银行、光大银行、微众银行、广发银行、上海银行、交通银行、平安银行、交通银行、宁波银行;

网贷平台相关:44家网贷平台名称,具体为拍拍贷、小牛投资、翼龙贷、捷信、宜人贷、瑞昌、新贵贷、佰仟、恒峰金融、恒融、鼎峰睿信、永安、万泰、人人刷、融道网、夸克、薪金贷、融兴、龙港、E贷、卡卡贷、云贷、达飞、保单贷、酷刷、云科贷、银扣、捷越、汇中、精英贷、宜信、河源、志融、丽人贷、立信、和信、银谷、广汇、山猫、楚雄、快易贷、零用贷、前旗、茂莱;

其中,+前后两个词语必须同时出现在同一条备注中,/前后两个词语出现其一即可,()表示两者中选其一。

步骤(2)中,对种子黑中介用户B1、中介用户C1以及普通用户N1的申贷信息进行特征提取并分析,包括:

(2-I)分别对三类群体用户的通话记录进行分析,包括用户通话出度、入度的数量分布、用户与不同的号码联系数量分布、用户的通话时长分布、用户漫游通话数量分布以及分别与平台仅注册用户、申贷成功用户、逾期用户通话数量分布;所述的申贷成功用户已还款;

(2-II)分别对三类群体用户的通讯录进行分析,包括在其他用户通讯录中对该用户的备注数量分布、用户自己通讯录中备注的数量分布;

(2-III)分别对三类群体用户的申贷次数进行分析,即用户在网贷平台中申贷次数分布;

(2-IV)分别对三类群体用户的活动日志进行分析,即用户在平台中参与邀请他人申贷次数分布。

所述的属性特征包括:

(a)给注册用户打电话的数量值;

(b)接听注册用户打过来的电话的数量值;

(c)给多少位注册用户打电话;

(d)接听了多少位注册用户打过来的电话;

(e)给申贷用户打电话的数量值;

(f)接听申贷用户打过来的电话的数量值;

(g)给多少位申贷用户打电话;

(h)接听了多少位申贷用户打过来的电话;

(i)给逾期用户打电话的数量值;

(j)接听逾期用户打过来的电话的数量值;

(k)给多少位逾期用户打电话;

(l)接听了多少位逾期用户打过来的电话;

(m)所有短时长的出度通话数量值;短时长是指短于3s;

(n)所有短时长的入度通话数量值;短时长是指短于3s;

(o)所有短时长的出度通话的号码数量值;短时长是指短于3s;

(p)所有短时长的入度通话的号码数量值;短时长是指短于3s;

(q)所有漫游通话的出度通话数量值;

(r)所有漫游通话的入度通话数量值;

(s)所有漫游通话的出度通话的号码数量值;

(t)所有漫游通话的入度通话的号码数量值;

(u)在其他用户通讯录中被备注的数量值;

(v)用户自身通讯录中备注数量值;

(w)用户在该平台中申贷次数值;

(x)用户在该平台中邀请他人申贷的次数值。

步骤(3)中,所述的分类模型为XGBoost模型。

步骤(3)包括:将中介用户C1作为正样本,普通用户N1作为负样本,基于所述的属性特征训练分类模型获得中介用户分类模型;采用中介用户分类模型识别未知用户中的中介用户,将识别出的中介用户加入中介用户S2。

步骤(3)中,所述的分类模型为XGBoost模型。将中介用户C1作为正样本,普通用户N1作为负样本,基于所述的属性特征训练分类模型,获得中介用户分类模型。

采用中介用户分类模型识别未知用户中的中介用户包括:采用中介用户分类模型计算未知用户是中介用户的概率值,若一未知用户的概率值为0.8以上,则该未知用户为中介用户。

步骤(4)包括:将种子黑中介用户B1作为正样本,高精度中介用户S1作为负样本,基于所述的属性特征训练分类模型,获得第一黑中介用户分类模型;采用黑中介用户分类模型识别高精度中介用户S1中的黑中介用户,将识别出的黑中介用户加入黑中介用户B2。

步骤(4)中,所述的分类模型为XGBoost模型。

采用黑中介用户分类模型识别高精度中介用户S1中的黑中介用户包括:采用黑中介用户分类模型计算高精度中介用户S1是黑中介用户的概率值,若一高精度中介用户S1的概率值为0.7以上,则该高精度中介用户S1为黑中介用户。

步骤(5)包括:将黑中介用户B2作为正样本,中介用户S1作为负样本,基于所述的属性特征训练分类模型,获得第二黑中介用户分类模型;采用第二黑中介用户分类模型识别中介用户S2中的黑中介用户,将识别出的黑中介用户加入黑中介用户B4。

步骤(5)中,所述的分类模型为XGBoost模型。

采用第二黑中介用户分类模型识别中介用户S2中的黑中介用户包括:采用第二黑中介用户分类模型计算中介用户S2是黑中介用户的概率值,若一中介用户S2的概率值为0.8以上,则该中介用户S2为黑中介用户。

将种子黑中介用户B1、识别出的黑中介用户B2以及黑中介用户B4合并,获得网贷平台中的黑中介用户群体。

本发明还提供了一种网络小额贷款服务中的黑中介自动挖掘系统,所述的黑中介自动挖掘方法基于该黑中介自动挖掘系统而实现。所述的黑中介自动挖掘系统包括:

基于规则的中介挖掘模块,基于通讯录备注规则从网贷平台用户中识别出中介用户;

用户特征提取模块,对种子黑中介用户、普通中介用户以及普通用户的申贷信息进行特征提取并分析,分别获得种子黑中介用户、普通中介用户以及普通用户的属性特征;

基于机器学习的中介挖掘模块,挖掘出在通讯录备注规则之外的中介用户;

黑中介识别模块,从中介用户中识别出黑中介用户群体。

所述的通讯录备注规则为:若在所有网贷平台用户的通讯录备注中,对某一个号码的所有备注中包含任何一个关键词的备注信息数量大于没包含关键词的备注信息数量,则该号码的主人为中介用户。

基于规则的中介挖掘模块,提取出一批中介用户。通过申贷用户所提交的个人通讯录信息,找到存储种子黑中介用户号码的通讯录备注,分析备注内容信息并提取出备注内容规则。利用这些规则来挖掘出更多的中介用户。

用户特征提取模块,挖掘出黑中介、普通中介以及正常用户这三类人群的不同行为属性。我们在种子黑中介群体、利用规则已挖掘出的中介群体以及正常用户群体中,分别对他们的通话信息、通讯录、申贷次数以及活动日志这四类信息进行深层次的调查分析,找到了在这些信息上可以区分这三种群体的有效特征。

基于机器学习的中介挖掘模块,挖掘出在通讯录备注规则之外的中介人群。基于中介与正常用户的可区分属性,我们建立了一个机器学习分类模型,来找到这批遗漏的中介群体。

黑中介识别模块,从中介群体中识别出黑中介群体。基于机器学习算法,利用黑中介用户与普通中介用户之间的属性区别,建立一个分类模型来从中介用户群体中识别出黑中介用户群体。

由于黑中介对网贷平台的风险评估标准有很好的理解,而且他们很可能像正常借款人一样在平台中有很好的信用记录。因此,通过利用对借款人进行信用评估来检测他是否为黑中介这类方法是不可行的。此外,利用黑中介和目标借款人之间的其他信息,如直接互动内容(电话交谈的内容)可以非常有助于识别他们是否为黑中介。但是,因为这种接触是非法和被禁止的,我们无法接触他们并获得这些信息。

在网贷平台中,只提供了诸如电话通话记录、贷款记录和活动日志等间接信息。因此,本发明提出了一套自动挖掘网络小额贷款服务中的黑中介的方法与系统。该系统对黑中介、普通中介以及正常用户的各类信息进行了深入的分析,对该三类用户进行了深层次的用户画像,并利用机器学习算法建立了分类模型来自动检测黑中介群体。

与现有技术相比,本发明的有益效果为:

本发明的网贷平台中黑中介的自动挖掘方法利用用户画像技术,对网贷平台中的用户群体进行分析,能有效识别网贷平台中的黑中介用户,可通过对这些黑中介用户进行分析进而对整个网贷平台黑灰产业链进行宏观掌握,从而对申贷作弊行为进行提前防范。

附图说明

图1为自动挖掘网络小额贷款中的黑中介的系统结构示意图;

图2为自动挖掘网络小额贷款中的黑中介的方法流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。

本发明提供了一种自动挖掘网络小额贷款中的黑中介的方法与系统,如图1所示,包括:

基于规则的中介挖掘模块,提取出一批中介用户。通过申贷用户所提交的个人通讯录信息,找到存储种子黑中介用户号码的通讯录备注,分析备注内容信息并提取出备注内容规则。利用这些规则来挖掘出更多的中介用户。

用户特征提取模块,挖掘出黑中介、普通中介以及正常用户这三类人群的不同行为属性。我们在种子黑中介群体、利用规则已挖掘出的中介群体以及正常用户群体中,分别对他们的通话信息、通讯录、申贷次数以及活动日志这四类信息进行深层次的调查分析,找到了在这些信息上可以区分这三种群体的有效特征。

基于机器学习的中介挖掘模块,挖掘出在通讯录备注规则之外的中介人群。基于中介与正常用户的可区分属性,我们建立了一个机器学习分类模型,来找到这批遗漏的中介群体。

黑中介识别模块,从中介群体中识别出黑中介群体。基于机器学习算法,利用黑中介用户与普通中介用户之间的属性区别,建立一个分类模型来从中介用户群体中识别出黑中介用户群体。

利用网贷平台中黑中介的自动挖掘系统进行网贷平台中黑中介的挖掘时,执行以下步骤:

(1)如图2所示,对所有用户的通讯录进行检索,找到存储种子黑中介库B1中任意用户的备注信息,提取备注信息内容的规则特征,加入特征集F1中,对所有用户的通讯录中的其他备注进行搜索,找到符合特征集F1中任何特征的备注并提取该备注中所存储的号码信息,将这些号码信息加入高精度中介库S1中,将B1和S1的合集称为中介库C1;

构造的特征集为:若在所有用户的通讯录备注中,对某一个号码的所有备注中包含任何一个关键词的备注信息数量大于没包含关键词的备注信息数量,我们则提取该号码并认为该号码的主人为中介,加入中介库S1中。

所述的关键词为:

(dd)中介相关:中介+(卡/金融),办+卡,代+办+信用,包办;

(ee)借贷相关:借,贷,代款,黑户,白户,信+(代/贷),高利;

(ff)信用卡相关:提额,大额,高额,额度,pos/p0s,ps机,套现,(刷/养)+卡,花呗,白条;

(gg)银行相关:信用卡/办卡(credit/apply card),15家银行名称,例如民生银行、中信银行;

(hh)网贷平台相关:44家网贷平台名称,例如拍拍贷、小牛投资,

其中,+表示前后两个词语必须同时出现在同一条备注中,/表示前后两个词语只要有一个出现就行。

(2)从其他申贷用户中随机抽取与C1数量相等的用户作为正常用户库N1。对种子黑中介库B1、中介库S1和正常用户库N1进行特征提取,找到可以有效区分三类用户的属性特征。

对种子黑中介B1、中介用户S1以及普通用户N1的信息进行全面的分析,包括:

(2-I)分别对三类群体用户的通话记录进行分析,包括用户通话出度、入度的数量分布、用户与不同的号码联系数量分布、用户的通话时长分布、用户漫游通话数量分布、分别与平台仅注册用户/申贷成功用户(已还款)/逾期用户通话数量分布;

(2-II)分别对三类群体用户的通讯录进行分析,包括在其他用户通讯录中对该用户的备注数量分布、用户自己通讯录中备注的数量分布;

(2-III)分别对三类群体用户的申贷次数进行分析,即用户在网贷平台中申贷次数分布;

(2-IV)分别对三类群体用户的活动日志进行分析,及用户在平台中参与邀请他人申贷次数分布;

区分黑中介、中介以及普通用户的属性特征为:

(ii)给注册用户打电话的数量值;

(jj)接听注册用户打过来的电话的数量值;

(kk)给多少位注册用户打电话;

(ll)接听了多少位注册用户打过来的电话;

(mm)给申贷用户打电话的数量值;

(nn)接听申贷用户打过来的电话的数量值;

(oo)给多少位申贷用户打电话;

(pp)接听了多少位申贷用户打过来的电话;

(qq)给逾期用户打电话的数量值;

(rr)接听逾期用户打过来的电话的数量值;

(ss)给多少位逾期用户打电话;

(tt)接听了多少位逾期用户打过来的电话;

(uu)所有短时长(短于3s)的出度通话数量值;

(vv)所有短时长(短于3s)的入度通话数量值;

(ww)所有短时长(短于3s)的出度通话的号码数量值;

(xx)所有短时长(短于3s)的入度通话的号码数量值;

(yy)所有漫游通话的出度通话数量值;

(zz)所有漫游通话的入度通话数量值;

(aaa)所有漫游通话的出度通话的号码数量值;

(bbb)所有漫游通话的入度通话的号码数量值;

(ccc)在其他用户通讯录中被备注的数量值;

(ddd)用户自身通讯录中备注数量值;

(eee)用户在该平台中申贷次数值;

(fff)用户在该平台中邀请他人申贷的次数值。

(3)将中介库C1作为正样本,正常用户库N1作为负样本,基于上一步找到的特征,利用机器学习分类算法训练一个分类模型,识别其他未知用户中的中介用户,加入中介库S2中;

(4)将种子黑中介库B1作为正样本,高精度中介库S1作为负样本,基于第(2)步的特征,利用机器学习分类算法训练一个分类模型,找到高精度中介库S1中所潜在的黑中介,加入黑中介库B2中。合并种子黑中介库B1和黑中介库B2为黑中介库B3;从高精度中介库S1中移除黑中介库B2中的所有用户,此时的高精度中介库为S3;

(5)将黑中介库B3作为正样本,中介库S3作为负样本,基于第(2)步的特征,利用机器学习分类算法训练一个分类模型,找到中介库S2中所潜在的黑中介,加入黑中介库B4中;

种子黑中介库B1、黑中介库B2、以及黑中介库B4组成网贷平台中的黑中介群体。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号