公开/公告号CN112749921A
专利类型发明专利
公开/公告日2021-05-04
原文格式PDF
申请/专利权人 深圳无域科技技术有限公司;
申请/专利号CN202110133964.3
发明设计人 林建明;
申请日2021-02-01
分类号G06Q10/06(20120101);G06Q40/00(20120101);
代理机构31252 上海大邦律师事务所;
代理人孙成
地址 518000 广东省深圳市南山区粤海街道科技园社区科苑路15号科兴科学园B栋B4-902
入库时间 2023-06-19 10:51:07
技术领域
本发明属于数学模型构建技术领域,涉及一种建模方法,尤其涉及一种数学建模方法、系统、设备及计算机可读介质。
背景技术
风险控制是金融的关键,随着时代的发展,风控领域的一个总趋势是信息化、模型化、智能化的程度越来越高。
在风险控制建模过程中,由于外部资信信息受到外部环境的影响不稳定,从而影响模型的稳定性。此外,由于风险控制产品种类比较多,针对每个风险控制产品均需要建立对应的数学模型,工作量较大,且模型对客户的识别效率较低。
有鉴于此,如今迫切需要设计一种新的数学模型建立方式,以便克服现有数学模型建立方式存在的上述至少部分缺陷。
发明内容
本发明提供一种数学建模方法、系统、设备及计算机可读介质,可提高数学模型的稳定性,同时提高对客户好坏的识别效率及精确度。
为解决上述技术问题,根据本发明的一个方面,采用如下技术方案:
一种数学建模方法,依靠严格变量筛选及模型训练,减少变量的稳不定和模型的过拟合,尽可能地减少数据的不稳定对模型训练及最终效果的影响;
所述数学建模方法包括:
严格变量筛选步骤;
模型训练步骤;
其中,所述严格变量筛选包括:
-变量挖掘步骤;获取客户维度信息,包括通讯录信息,运营商信息,APP埋点信息,风险事件信息,外部资信信息;
-变量筛选步骤;通过变量的设定特征对变量进行筛选;具体包括:
特征饱和度筛选:剔除特征饱和度不足20%的特征,认为这种特征由于缺失值过多,难以对训练目标有区分效果;
分布稳定性筛选:建模样本分为训练集和测试集,每个特征在训练集和测试集上的分布情况应该保持一定的稳定,评判稳定的指标是计算得到的PSI,每个特征都会有一个PSI值,认为PSI大于0.1的特征存在分布不稳定的情况,予以剔除;
信息量指标筛选:计算每个特征的IV值,认为IV小于0.02的特征对训练目标没有明显的区分效果,予以剔除剔除;
风险区分稳定性筛选:如果一个特征在训练集上IV为0.08、在测试集上IV为0.01,认为这个特征在不同样本上对训练目标的区分能力出现较大程度的变化,应剔除这样的特征;
其中,所述模型训练步骤包括:
把外部资信特征单独建模,配合其他特征建出的模型进行模型结果融合,当外部资信出现问题时仅对资信模型进行调整而不影响整体模型;
考虑到产品多元化,将分布及场景相似的产品进行合并在一起建模,因为产品不同,客群不一样;这样分客群建模方式能让模型组更好的区分客户的好坏。
根据本发明的另一个方面,采用如下技术方案:一种数学建模方法,所述数学建模方法包括:
严格变量筛选步骤;挖掘客户设定信息,作为变量;通过变量的设定特征对变量进行筛选;
模型训练步骤。
作为本发明的一种实施方式,所述严格变量筛选包括:
变量挖掘步骤;挖掘客户设定信息,作为变量;
变量筛选步骤;通过变量的设定特征对变量进行筛选。
作为本发明的一种实施方式,所述挖掘变量步骤中,获取客户维度信息,包括通讯录信息,运营商信息,APP埋点信息,风险事件信息,外部资信信息;
所述变量筛选步骤具体包括:
特征饱和度筛选:剔除特征饱和度不足20%的特征,认为这种特征由于缺失值过多,难以对训练目标有区分效果;
分布稳定性筛选:建模样本分为训练集和测试集,每个特征在训练集和测试集上的分布情况应该保持一定的稳定,评判稳定的指标是计算得到的PSI,每个特征都会有一个PSI值,认为PSI大于0.1的特征存在分布不稳定的情况,予以剔除;
信息量指标筛选:计算每个特征的IV值,认为IV小于0.02的特征对训练目标没有明显的区分效果,予以剔除剔除;
风险区分稳定性筛选:如果一个特征在训练集上IV为0.08、在测试集上IV为0.01,认为这个特征在不同样本上对训练目标的区分能力出现较大程度的变化,应剔除这样的特征。
作为本发明的一种实施方式,所述模型训练步骤中,把外部资信特征单独建模,配合其他特征建出的模型进行模型结果融合,当外部资信出现问题时仅对资信模型进行调整而不影响整体模型;
将分布及场景相似的产品进行合并在一起建模;因为产品不同,客群不一样;这样分客群建模方式能让模型组更好地区分客户的好坏。
根据本发明的又一个方面,采用如下技术方案:一种数学建模系统,所述数学建模系统包括:
严格变量筛选模块,用以挖掘客户设定信息,作为变量,并通过变量的设定特征对变量进行筛选;
模型训练模块,用以进行模型训练。
作为本发明的一种实施方式,所述严格变量筛选模块包括:
变量挖掘单元,用以获取客户维度信息,包括通讯录信息,运营商信息,APP埋点信息,风险事件信息,外部资信信息;
变量筛选单元,通过变量的设定特征对变量进行筛选;具体包括:
特征饱和度筛选:剔除特征饱和度不足20%的特征,认为这种特征由于缺失值过多,难以对训练目标有区分效果;
分布稳定性筛选:建模样本分为训练集和测试集,每个特征在训练集和测试集上的分布情况应该保持一定的稳定,评判稳定的指标是计算得到的PSI,每个特征都会有一个PSI值,认为PSI大于0.1的特征存在分布不稳定的情况,予以剔除;
信息量指标筛选:计算每个特征的IV值,认为IV小于0.02的特征对训练目标没有明显的区分效果,予以剔除剔除;
风险区分稳定性筛选:如果一个特征在训练集上IV为0.08、在测试集上IV为0.01,认为这个特征在不同样本上对训练目标的区分能力出现较大程度的变化,应剔除这样的特征。
作为本发明的一种实施方式,所述模型训练单元用以把外部资信特征单独建模,配合其他特征建出的模型进行模型结果融合,当外部资信出现问题时仅对资信模型进行调整而不影响整体模型;
所述模型训练单元用以将分布及场景相似的产品进行合并在一起建模,因为产品不同,客群不一样;这样分客群建模方式能让模型组更好的区分客户的好坏。
根据本发明的又一个方面,采用如下技术方案:一种数学建模方法的设备,所述设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行上述的方法。
根据本发明的又一个方面,采用如下技术方案:一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现上述的方法。
本发明的有益效果在于:本发明提出的数学建模方法、系统、设备及计算机可读介质,可提高数学模型的稳定性,同时提高对客户好坏的识别效率及精确度。本发明可以减少变量的稳不定和模型的过拟合,尽可能地减少数据的不稳定对模型训练及最终效果的影响。
附图说明
图1为本发明一实施例中数学建模方法的流程图。
图2为本发明一实施例中数学建模系统的组成示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
该部分的描述只针对几个典型的实施例,本发明并不仅局限于实施例描述的范围。相同或相近的现有技术手段与实施例中的一些技术特征进行相互替换也在本发明描述和保护的范围内。
说明书中各个实施例中的步骤的表述只是为了方便说明,本申请的实现方式不受步骤实现的顺序限制。说明书中的“连接”既包含直接连接,也包含间接连接。
本发明揭示了一种数学建模方法,依靠严格变量筛选及模型训练,减少变量的稳不定和模型的过拟合,尽可能地减少数据的不稳定对模型训练及最终效果的影响。
图1为本发明一实施例中数学建模方法的流程图;请参阅图1,所述数学建模方法包括:
【步骤S1】严格变量筛选步骤;挖掘客户设定信息,作为变量;通过变量的设定特征对变量进行筛选。
在本发明的一实施例中,所述严格变量筛选包括:
变量挖掘步骤;挖掘客户设定信息,作为变量;
变量筛选步骤;通过变量的设定特征对变量进行筛选。
在本发明的一实施例中,所述挖掘变量步骤中,获取客户维度信息,包括通讯录信息,运营商信息,APP埋点信息,风险事件信息,外部资信信息;通过获取上述信息,可以提高判断用户风险的精确度。
在一实施例中,所述变量筛选步骤具体包括:
特征饱和度筛选:剔除特征饱和度不足20%(也可以是0-20%之间的其他值)的特征,认为这种特征由于缺失值过多,难以对训练目标有区分效果;
分布稳定性筛选:建模样本分为训练集和测试集,每个特征在训练集和测试集上的分布情况应该保持一定的稳定,评判稳定的指标是计算得到的PSI,每个特征都会有一个PSI值,认为PSI大于0.1(也可以是其他值)的特征存在分布不稳定的情况,予以剔除;
信息量指标筛选:计算每个特征的IV值,认为IV小于0.02(0.02也可以是0.01-0.03之间的其他值;IV计算逻辑为本领域技术人员的惯用方式,这里不作赘述)的特征对训练目标没有明显的区分效果,予以剔除剔除;
风险区分稳定性筛选:如果一个特征在训练集上IV为0.08、在测试集上IV为0.01,认为这个特征在不同样本上对训练目标的区分能力出现较大程度的变化,应剔除这样的特征。
【步骤S2】模型训练步骤。
在本发明的一实施例中,考虑到外部资信信息受到外部环境的影响不稳定,从而影响模型的稳定性;把外部资信特征单独建模,配合其他特征建出的模型进行模型结果融合,当外部资信出现问题时仅对资信模型进行调整而不影响整体模型。
将分布及场景相似的产品进行合并在一起建模;因为产品不同,客群不一样;这样分客群建模方式能让模型组更好地区分客户的好坏。
本发明还揭示一种数学建模系统,图2为本发明一实施例中数学建模系统的组成示意图;请参阅图2,所述数学建模系统包括:严格变量筛选模块1及模型训练模块2。严格变量筛选模块1用以挖掘客户设定信息,作为变量,并通过变量的设定特征对变量进行筛选;模型训练模块2用以进行模型训练。
在本发明的一实施例中,所述严格变量筛选模块1包括:变量挖掘单元及变量筛选单元。
所述变量挖掘单元用以获取客户维度信息,包括通讯录信息,运营商信息,APP埋点信息,风险事件信息,外部资信信息。可以尽可能多地获取客户信息,从而可以准确判断客户风险。
所述变量筛选单元通过变量的设定特征对变量进行筛选;具体包括:
特征饱和度筛选:剔除特征饱和度不足20%的特征,认为这种特征由于缺失值过多,难以对训练目标有区分效果;
分布稳定性筛选:建模样本分为训练集和测试集,每个特征在训练集和测试集上的分布情况应该保持一定的稳定,评判稳定的指标是计算得到的PSI,每个特征都会有一个PSI值,认为PSI大于0.1的特征存在分布不稳定的情况,予以剔除;
信息量指标筛选:计算每个特征的IV值,认为IV小于0.02的特征对训练目标没有明显的区分效果,予以剔除剔除;
风险区分稳定性筛选:如果一个特征在训练集上IV为0.08、在测试集上IV为0.01,认为这个特征在不同样本上对训练目标的区分能力出现较大程度的变化,应剔除这样的特征。
在本发明的一实施例中,所述模型训练单元用以把外部资信特征单独建模,配合其他特征建出的模型进行模型结果融合,当外部资信出现问题时仅对资信模型进行调整而不影响整体模型;
所述模型训练单元用以将分布及场景相似的产品进行合并在一起建模,因为产品不同,客群不一样;这样分客群建模方式能让模型组更好的区分客户的好坏。
本发明还揭示一种数学建模方法的设备,所述设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行上述的方法。
本发明进一步揭示一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现上述的方法。
综上所述,本发明提出的数学建模方法、系统、设备及计算机可读介质,可提高数学模型的稳定性,同时提高对客户好坏的识别效率及精确度。本发明可以减少变量的稳不定和模型的过拟合,尽可能地减少数据的不稳定对模型训练及最终效果的影响。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施;例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中;例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现;例如,作为与处理器配合从而执行各个步骤或功能的电路。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。实施例中所涉及的效果或优点可因多种因素干扰而可能不能在实施例中体现,对于效果或优点的描述不用于对实施例进行限制。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。
机译: 用于电子商业交易,识别信息添加设备,计算机可读记录介质记录识别信息添加程序和交易信息提供设备计算机的系统和方法,可读记录介质,记录记录交易信息提供程序,设置信息记录程序,结算处理设备,计算机可读记录介质录制程序,电子交易终端,计算机可读记录介质录制电子交易程序
机译: 位置信息管理系统和管理设备,便携式终端设备,位置信息管理方法,位置信息管理设备和便携式终端设备的控制方法,位置信息管理程序,位置信息管理设备的控制程序,便携式终端设备的控制程序,计算机位置信息管理设备的可读记录介质记录位置管理程序,位置信息管理设备的计算机可读记录介质记录控制程序以及便携式终端设备的计算机可读记录介质记录控制程序
机译: 位置信息管理系统和设备,管理方法,设备控制方法,移动终端设备及其控制方法,位置信息管理程序,位置信息管理设备控制程序,移动终端设备的控制程序,计算机可读记录介质记录管理程序,位置信息管理装置的计算机可读记录介质记录控制程序,移动终端设备的计算机可读记录介质记录控制程序