首页> 中国专利> 一种基于遗传算法优化Elman神经网络的信用风险预测方法和系统

一种基于遗传算法优化Elman神经网络的信用风险预测方法和系统

摘要

本发明公开了一种基于遗传算法优化Elman神经网络的信用风险预测方法和系统,包括以下步骤:S1.采集数据,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据;S2.数据预处理,对采集的数据进行缺失补全、异常值处理和归一化处理后按照7:3的比例切分成训练集和测试集;S3.利用训练集样本数据确定Elman神经网络拓扑结构;S4.设置遗传算法相关参数并与神经网络模型相结合,利用训练集样本对优化的神经网络的初始权值和阈值;本发明中Elman神经网络具有动态和非线性映射的特性,特别适用于互联网金融的信用评估预测。

著录项

  • 公开/公告号CN112330435A

    专利类型发明专利

  • 公开/公告日2021-02-05

    原文格式PDF

  • 申请/专利权人 百维金科(上海)信息科技有限公司;

    申请/专利号CN202011049256.3

  • 发明设计人 江远强;李兰;韩璐;

    申请日2020-09-29

  • 分类号G06Q40/02(20120101);G06Q10/06(20120101);G06N3/12(20060101);G06N3/08(20060101);G06N3/04(20060101);G06K9/62(20060101);

  • 代理机构

  • 代理人

  • 地址 201913 上海市崇明区长兴镇潘园公路1800号3号楼22264室(上海泰和经济发展区)

  • 入库时间 2023-06-19 09:47:53

说明书

技术领域

本发明属于互联网金融行业的风控技术领域,具体涉及一种基于遗传算法优化Elman神经网络的信用风险预测方法和系统。

背景技术

近年来在互联网金融信用评估方面,人工神经网络已经被证明是表现不错的研究模型。人工神经网络模型来预测、发现和总结金融变量结构的优势在于其不依赖于特定的假设。目前在信用评估应用中大多采用的是BP神经网络和RBF神经网络,或者基于这两种网络的一些改进。然而,这两种神经网络在处理数据进行预测时存在各种不足:BP网络是基于梯度下降算法的,存在局部极小、鲁棒性不高等缺陷;RBF神经网络属于静态前馈网络,对处理动态时间建模问题存在不足,不能很好满足互金信用评估的需要。

Elman神经网络是一种带反馈的神经网络,它在BP神经网络的基础上增加了一层承接层用于存储前一时刻隐含层的输出并计算时延数据,使其具有动态存储的能力。通过数据训练,它具有动态和非线性映射的特性,适用于时间序列数据的预测问题,而金融数据作为典型的时间序列数据,Elman神经网络特别适用于互联网金融的信用评估预测。

尽管Elman神经网络对于传统的神经网络性能有所提升,但是在设计过程中,仍然面临着对训练算法、传输函数、网络结构、隐含层连接权值和阈值的选取优化等问题,现有技术中,使用梯度下降法、粒子群算法或模拟退火算法等来优化Elman神经网络参数,但都存在收敛过程不稳定、收敛速度慢、容易陷入局部最优等缺点,因此需要采用更加合适的优化算法,为此我们提出一种基于遗传算法优化Elman神经网络的信用风险预测方法和系统。

发明内容

本发明的目的在于提供一种基于遗传算法优化Elman神经网络的信用风险预测方法和系统,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于遗传算法优化Elman神经网络的信用风险预测方法,包括以下步骤:

S1.采集数据,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据;

S2.数据预处理,对采集的数据进行缺失补全、异常值处理和归一化处理后按照7:3的比例切分成训练集和测试集;

S3.利用训练集样本数据确定Elman神经网络拓扑结构;

S4.设置遗传算法相关参数并与神经网络模型相结合,利用训练集样本对优化的神经网络的初始权值和阈值,得到GA-Elman神经网络的信用评分预测模型;

S5.将测试集数据输入GA-Elman神经网络的预测性能进行测试,与梯度下降法、粒子群算法优化的Elman神经网络模型的进行对比;

S6.将遗传算法优化Elman神经网络的信用评分模型部署至申请平台输出实时申请信用评分,并定期将有表现数据输入到模型训练。

优选的,所述S1中从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据,所述个人基本信息包括:手机号、学历、婚姻状况、工作单位、住址、联系人信息,征信报告获取的个人基本信息、信用交易信息、公共信息、特别记录数据;所述埋点数据包括埋点时采集的设备行为数据和日志数据,所述设备行为数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,所述日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计、移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。

优选的,所述S2中神经网络的输入量的单位不同,数值差异较大,在输入训练之前需要对原数据变量进行归一化处理,使其处于同一量纲,所述归一化处理包括归一化处理和反归一化处理。

优选的,所述S3中所述Elman神经网络是一种典型的动态神经元网络,所述Elman神经网络是在BP人工神经网络基本结构的基础上,通过存储内部状态使其具有映射动态特征的功能,从而使系统具有适应时变特性的能力,所述Elman神经网络包括输入层、隐含层、输出层和承接层,所述输入层的神经元用于起到信号传输作用,所述输出层的神经元用于起到线性加权作用,所述隐含层的激励函数选择线性或非线性函数,所述承接层自联到隐含层的输入,实现对隐含层的输出的延迟与存储。

优选的,所述S3中输入层神经元神经元数和输出层神经元神经元数根据输入输出参数确定,且隐含层神经元神经元数通过经验方法以及试凑法确定。

优选的,所述S4中设置遗传算法相关参数并与神经网络模型相结合,在编码时个体编码方式为实数编码,设定Elman神经网络的权值w、阈值b的取值范围并利用插值法选取个体的一组实数集作为染色体,以二进制的形式进行染色体基因编码Elman神经网络模型参数组合(w,b),随机产生初始种群,以模型输出误差最小为适应度函数,通过选择、交叉和变异操作寻找最优个体,确定神经网络的初始权值和阈值组合(w,b),从而得到性能最优的Elman神经网络模型。

优选的,所述S5中采用均方根误差指标来分析预测结果,如果误差较大,则重新进行训练,如果误差在允许的范围内,则GA-Elman神经网络训练合格。

优选的,所述S6中将遗传算法优化Elman神经网络的信用评分模型部署至申请平台输出实时申请信用评分用于实现申请客户的实时审批,所述S6中并定期将有表现数据输入到模型训练用于实现模型的在线更新。

本发明还提供一种基于遗传算法优化Elman神经网络的信用风险预测系统,包括样本获取单元:用于获取包括个人申请信息、操作行为埋点数据和贷后还款表现作为评价结果的训练样本;

数据处理单元:对采集的数据特征提取,进行包括数据缺失补全、异常值处理和归一化;

模型训练单元:设置遗传算法相关参数并与Elman神经网络模型相结合,优化的神经网络的初始权值和阈值,得到GA-Elman神经网络的信用评分预测模型;

预测单元:用于训练完成的Elman神经网络对在线申请客户进行信用风险预测。

与现有技术相比,本发明的有益效果是:

(1)本发明中Elman神经网络具有动态和非线性映射的特性,特别适用于互联网金融的信用评估预测。

(2)本发明利用遗传算法的非线性寻优能力对Elman神经网络模型进行参数自动调优,在全局进行优化搜索获取最优权值阈值,克服了传统Elman收敛过程不稳定、收敛速度慢、容易陷入局部最优等缺点,提高了Elman神经网络的稳定性和泛化能力。

附图说明

图1为本发明的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

请参阅图1,本发明提供一种技术方案:一种基于遗传算法优化Elman神经网络的信用风险预测方法,包括以下步骤:

S1.采集数据,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据;

S2.数据预处理,对采集的数据进行缺失补全、异常值处理和归一化处理后按照7:3的比例切分成训练集和测试集;

S3.利用训练集样本数据确定Elman神经网络拓扑结构,所述Elman神经网络拓扑结构包括网络的输入层、输出层和隐含层的神经元数以及隐含层数、初始化神经网络的权值、阈值;

S4.设置遗传算法相关参数并与神经网络模型相结合,利用训练集样本对优化的神经网络的初始权值和阈值,得到GA-Elman神经网络的信用评分预测模型;

S5.将测试集数据输入GA-Elman神经网络的预测性能进行测试,与梯度下降法、粒子群算法优化的Elman神经网络模型的进行对比;

S6.将遗传算法优化Elman神经网络的信用评分模型部署至申请平台输出实时申请信用评分,并定期将有表现数据输入到模型训练。

本实施例中,优选的,所述S1中从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据,所述个人基本信息包括:手机号、学历、婚姻状况、工作单位、住址、联系人信息,征信报告获取的个人基本信息、信用交易信息、公共信息、特别记录数据;所述埋点数据包括埋点时采集的设备行为数据和日志数据,所述设备行为数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,所述日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计、移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。

本实施例中,优选的,所述S2中神经网络的输入量的单位不同,数值差异较大,在输入训练之前需要对原数据变量进行归一化处理,使其处于同一量纲,所述归一化处理包括归一化处理和反归一化处理,表达式分别如下:

归一化处理的表达式为:

x=(x

反归一化处理表达式为:

x

其中,x

原数据经过归一化处理将其映射到[0,1]区间,有效地消除了原变量因量纲不同和数值差异太大而带来的影响,模型得到的预测值最后通过反归一化处理还原得到真实的数值。

本实施例中,优选的,所述S3中所述Elman神经网络是一种典型的动态神经元网络,所述Elman神经网络是在BP人工神经网络基本结构的基础上,通过存储内部状态使其具有映射动态特征的功能,从而使系统具有适应时变特性的能力,所述Elman神经网络包括输入层、隐含层、输出层和承接层,所述输入层的神经元用于起到信号传输作用,所述输出层的神经元用于起到线性加权作用,所述隐含层的激励函数选择线性或者非线性函数,所述承接层自联到隐含层的输入,实现对隐含层的输出的延迟与存储。

本实施例中,优选的,所述S3中输入层神经元神经元数和输出层神经元神经元数根据输入输出参数确定,且隐含层神经元神经元数通过经验方法以及试凑法确定,其经验理论值可根据经验隐含层确定规则:

其中,m为输入层神经元数,n为输出层神经元数,r为隐含层神经元数。

Elman神经网络信号的传递和误差修正基本Elman神经网络算法由信号的正向传递和误差的反向传播两部分组成,即计算实际输出时按输入到输出方向进行,各层权值、阈值的修正过程则从输出到输入的方向进行。Elman神经网络网络模型建立,数学模型如下

X(t)=f(w

X

Y(t)=g(w

其中,t为当前时刻,X(t)为隐含层的输出值,U(t-1)为前一刻网络的输出值,X

Elman神经网络一般采用BP算法进行权值修正,学习指标函数采用误差平方和函数,表达式如下:

其中,Y(t)为预测网络的输出值,y(t)为相对应的期望值。

本实施例中,优选的,所述S4中设置遗传算法相关参数并与神经网络模型相结合,在编码时个体编码方式为实数编码,设定Elman神经网络的权值w、阈值b的取值范围并利用插值法选取个体的一组实数集作为染色体,以二进制的形式进行染色体基因编码Elman神经网络模型参数组合(w,b),随机产生初始种群,以模型输出误差最小为适应度函数,通过选择、交叉和变异操作寻找最优个体,确定神经网络的初始权值和阈值组合(w,b),进而得到性能最优的Elman神经网络模型,主要包括以下几个步骤:

步骤4-1:设置遗传算法相关参数

初始化种群,包括种群的初始规模M、交叉概率P

步骤4-2:建立适应度函数

以预测输出和期望输出之间的误差绝对值和作为个体适应度值用来训练Elman神经网络,个体适应度值的计算方式为:

F

其中,Y

步骤4-3:选择操作

选择操作选用轮盘赌法,根据个体适应度大小作为评判标准决定哪些个体可以进入下一代,公式如下:

其中,i为染色体个数,M为种群大小,F

步骤4-4:交叉操作

交叉操作是对染色体串进行随机位置的两两配对的交叉进行部分的染色体的交换,由此产生新的后代个体。将第k个染色体a

其中,a

步骤4-5:变异操作

变异先以一定概率从群体中随机选择若干个体,然后对于选中的个体随机选取某一位置进行反运算。选取第i个个体的第j个基因a

f(g)=r(1-g/G

其中,r为(0,1)之间的随机数;g为当前选代次数;G

步骤4-6:重复上述步骤4-3~4-5直至达到最大迭代次数或全局最优值满足最小适应值时,得到最优个体,通过解码得到神经网络的初始权值和阈值组合(w,b),得到性能最优的GA-Elman神经网络模型。

本实施例中,优选的,所述S5中采用均方根误差指标来分析预测结果,如果误差较大,则重新进行训练,如果误差在允许的范围内,则GA-Elman神经网络训练合格,均方根误差公式如下:

其中,σ

当运算结束后,对输出值再进行反归一化处理,以此得到信用评分结果,公式为:

x

其中,x

本实施例中,优选的,所述S6中将遗传算法优化Elman神经网络的信用评分模型部署至申请平台输出实时申请信用评分用于实现申请客户的实时审批,所述S6中并定期将有表现数据输入到模型训练用于实现模型的在线更新。

实施例2

本发明还提供一种基于遗传算法优化Elman神经网络的信用风险预测系统,包括样本获取单元:用于获取包括个人申请信息、操作行为埋点数据和贷后还款表现作为评价结果的训练样本;

数据处理单元:对采集的数据特征提取,进行包括数据缺失补全、异常值处理和归一化;

模型训练单元:设置遗传算法相关参数并与Elman神经网络模型相结合,优化的神经网络的初始权值和阈值,得到GA-Elman神经网络的信用评分预测模型;

预测单元:用于训练完成的Elman神经网络对在线申请客户进行信用风险预测。

本发明中Elman神经网络具有动态和非线性映射的特性,特别适用于互联网金融的信用评估预测;利用遗传算法的非线性寻优能力对Elman神经网络模型进行参数改善,在全局进行优化搜索获取最优权值阈值,克服了传统Elman收敛过程不稳定、收敛速度慢、容易陷入局部最优等缺点,提高了Elman神经网络的稳定性和泛化能力。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号