首页> 中国专利> 信用风险预测方法、装置、电子设备及存储介质

信用风险预测方法、装置、电子设备及存储介质

摘要

本申请提供一种信用风险预测方法、装置、电子设备及存储介质,方法包括获取目标企业的多个企业特征;利用预设的特征筛选模型,对企业特征进行特征筛选,得到目标企业所属目标行业内的多个风险特征,特征筛选模型为多个行业内的企业样本特征输入预设多任务学习算法进行训练得到;将风险特征输入预设的风险预测模型进行风险预测,得到目标企业的风险预测结果,风险预测模型为多个风险样本特征输入预设分类算法进行训练得到。通过特征筛选模型筛选出符合行业要求的企业特征作为风险预测模型的输入,从而无需人工筛选特征指标,降低预测成本,又保证企业特征符合行业要求,进而保证风险预测模型具有较好的预测效果。

著录项

  • 公开/公告号CN112750029A

    专利类型发明专利

  • 公开/公告日2021-05-04

    原文格式PDF

  • 申请/专利权人 北京知因智慧科技有限公司;

    申请/专利号CN202011643193.4

  • 发明设计人 任亮;傅雨梅;牟铁钢;

    申请日2020-12-30

  • 分类号G06Q40/02(20120101);G06Q10/04(20120101);G06K9/62(20060101);G06F16/245(20190101);G06F16/215(20190101);

  • 代理机构11463 北京超凡宏宇专利代理事务所(特殊普通合伙);

  • 代理人唐菲

  • 地址 100000 北京市西城区德胜门外大街13号院1号楼9层905室

  • 入库时间 2023-06-19 10:51:07

说明书

技术领域

本申请涉及计算机技术领域,具体而言,涉及一种信用风险预测方法、装置、电子设备及存储介质。

背景技术

信用风险模型是用于对企业资产信用进行风险评估的预测模型。目前,为使模型具有更好的预测性和可解释性,需要根据行业特性,建立该行业独有的预测子模型。例如,煤炭行业需要考虑可采储量、可采年限、煤种、煤炭资源分布和吨煤成本等煤炭行业特有的指标,钢铁行业需要考虑粗钢产能、粗钢产量、铁矿石自给率和焦炭自给率等钢铁行业特有指标。

但是,当今社会的行业非常多,例如申万行业分类结果有28个一级行业、103个二级行业和227个三级行业。若仅针对一级行业建立预测子模型,则模型在具体行业的实际应用效果不佳;若针对二级行业或三级行业建立预测子模型,则需要耗费大量的数据采集成本和人才成本。可见,目前的风险预测方法还存在预测成本高和预测效果不佳的问题。

发明内容

本申请实施例的目的在于提供一种信用风险预测方法、装置、电子设备及存储介质,旨在解决目前的风险预测方法还存在预测成本高和预测效果不佳的问题。

第一方面,本申请实施例提供了一种信用风险预测方法,包括:

获取目标企业的多个企业特征;

利用预设的特征筛选模型,对企业特征进行特征筛选,得到目标企业所属目标行业内的多个风险特征,特征筛选模型为多个行业内的企业样本特征输入预设多任务学习算法进行训练得到;

将风险特征输入预设的风险预测模型进行风险预测,得到目标企业的风险预测结果,风险预测模型为多个风险样本特征输入预设分类算法进行训练得到。

在上述实现方式中,通过特征筛选模型筛选出符合行业要求的企业特征作为风险预测模型的输入,从而无需人工筛选特征指标,降低预测成本,又保证企业特征符合行业要求,进而保证风险预测模型具有较好的预测效果。

可选地,风险特征包括负面舆情风险特征、财务风险特征、资本交易风险特征和/或法律风险特征。

在上述实现方式中,将舆情、财务、资本市场交易和法律等领域风险作为风险特征,保证预测结果的有效性。

进一步地,利用预设的特征筛选模型,对企业特征进行特征筛选,得到目标企业所属目标行业内的多个风险特征,包括:

确定企业特征在目标行业内的分位值;

将分位值输入特征筛选模型,输出企业特征的重要度;

根据重要度,对企业特征进行排序,得到排序结果;

将排序结果中重要度大于预设值的多个企业特征作为风险特征。

在上述实现方式中,将分位值作为特征筛选模型的模型输入,能够使得模型具有良好的排序性,以提高特征筛选模型中特征之间的相互影响,从而提高特征筛选结果的准确性。

进一步地,确定企业特征在目标行业内的分位值,包括:

针对同一企业特征,确定企业特征的特征值在目标行业的预设企业特征分布图中的分布位置;

将分布位置作为分位值。

在上述实现方式中,确定企业特征在预设企业特征分布图中的分布位置,则可以得知企业特征在该行业内的重要性比重,以便于特征筛选模型对多个企业特征比较后得出每个企业特征的重要度。

进一步地,针对同一企业特征,确定企业特征的特征值在目标行业的预设企业特征分布图中的分布位置之前,还包括:

获取目标行业的行业公开信息;

将行业公开信息加工为行业特征指标;

根据行业特征指标,对目标行业内的所有企业进行企业评级,得到企业评级结果;

根据企业评级结果和行业特征指标,确定预设企业特征分布图。

在上述实现方式中,以行业公开信息作为数据源,使得特征指标更加行业特色,从而使得预测结果能够更加准确。

进一步地,将行业公开信息加工为行业特征指标,包括:

基于语义识别技术,清洗行业公开信息中的无效信息,得到清洗后的目标行业信息;

将目标行业信息进行数据分析,得到行业特征指标。

在上述实现方式中,对行业公开信息进行数据清洗,能够降低运算的数据量,也能够基于得到的有效的目标行业信息进一步分析出行业特征指标。

可选地,预设分类算法包括均衡随机森林算法。

在上述实现方式中,风险预测模型是非均衡样本建模问题,而均衡随机森林算法能够针对非均衡样本建模问题实现优秀的表现效果。

第一方面,本申请实施例提供了一种信用风险预测装置,包括:

获取模块,用于获取目标企业的多个企业特征;

筛选模块,用于利用预设的特征筛选模型,对企业特征进行特征筛选,得到目标企业所属目标行业内的多个风险特征,特征筛选模型为多个行业内的企业样本特征输入预设多任务学习算法进行训练得到;

预测模块,用于将风险特征输入预设的风险预测模型进行风险预测,得到目标企业的风险预测结果,风险预测模型为多个风险样本特征输入预设分类算法进行训练得到。

第三方面,本申请实施例提供了一种电子设备,包括存储器及处理器,存储器用于存储计算机程序,处理器运行计算机程序以使电子设备执行第一方面中任一项的信用风险预测方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,计算机程序被处理器执行时实现第一方面中任一项的信用风险预测方法。

可以理解的是,上述第二方面至第四方面的有益效果可以参见上述第一方面的相关描述,在此不再赘述。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的信用风险预测方法的流程示意图;

图2为本申请实施例提供的信用风险预测装置的结构示意图;

图3为本申请实施例提供的电子设备的结构示意图;

图4为本申请实施例提供的模型表现效果的对比示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

如背景技术相关记载,目前的风险预测方法,若仅针对一级行业建立预测子模型,则模型在具体行业的实际应用效果不佳;若针对二级行业或三级行业建立预测子模型,则需要耗费大量的数据采集成本和人才成本。

针对上述现有技术中的问题,本申请提供了一种信用风险预测方法,通过利用预设的特征筛选模型,对企业特征进行特征筛选,得到目标企业所属目标行业内的多个风险特征,从而无需人工筛选特征指标,降低预测成本,又保证企业特征符合行业要求;再将风险特征输入预设的风险预测模型进行风险预测,得到目标企业的风险预测结果,保证风险预测模型具有较好的预测效果。

参见图1,参见图1,图1示出了本申请实施例提供的信用风险预测方法的实现流程图。本申请实施例中下述的信用风险预测方法可应用于电子设备,电子设备包括但不限于智能手机、平板电脑、桌上型计算机、超级计算机、个人数字助理、物理服务器和云服务器等计算机设备。本申请实施例的信用风险预测方法,包括步骤S101至S103,详述如下:

步骤S101,获取目标企业的多个企业特征。

在本实施例中,上述企业特征为企业信息对应特征,如企业资产信息、企业舆情信息、企业法律纠纷信息和企业运营信息等,可以理解的是,每个行业中的企业信息可以有所差异。例如,如煤炭行业的企业信息可以包括可采储量、可采年限、煤种、煤炭资源分布和吨煤成本等本行业特有的指标特征;钢铁行业的企业信息可以包括粗钢产能、粗钢产量、铁矿石自给率和焦炭自给率等本行业特有指标特征。

步骤S102,利用预设的特征筛选模型,对企业特征进行特征筛选,得到目标企业所属目标行业内的多个风险特征,特征筛选模型为多个行业内的企业样本特征输入预设多任务学习算法进行训练得到。

在本实施例中,由于特征筛选过程中需要获得每个企业特征的重要度,所以需要模型进行多任务处理,所以本实施例采用多任务学习算法构建特征筛选模型,以对企业特征进行筛选。需要说明的是,特征筛选模型可以在终端设备上训练好,也可以在其他设备训练好后,将特征筛选模型的模型文件和算法文件移植至本终端设备。也就是说,训练特征筛选模型的执行主体与使用特征筛选模型的执行主体可以相同,也可以不同。

通过特征筛选模型筛选出符合行业要求的企业特征作为风险预测模型的输入,从而无需人工筛选特征指标,降低预测成本,又保证企业特征符合行业要求,进而保证风险预测模型具有较好的预测效果。

可选地,利用已标注好的多个企业样本特征对多任务学习算法构建的预设模型进行训练,直至模型达到预设收敛条件。预设收敛条件为表示模型训练完成的条件,例如损失函数得到的损失值小于预设损失阈值,则表示收敛。可以通俗理解为,损失值越小表示该模型提取到的特征向量越准确。示例性地,将企业样本特征输入到模型中进行处理,得到每个企业样本特征对应的重要度;计算输入的企业样本特征与标注结果之间的损失值,当该损失值大于或等于预设损失阈值时,调整模型中的模型参数,并返回指向将企业样本特征输入到模型中进行处理,得到每个企业样本特征对应的重要度的步骤;当该损失值小于预设损失阈值时,表示模型训练完成,得到训练好的特征筛选模型。

可选地,风险特征包括负面舆情风险特征、财务风险特征、资本交易风险特征和/或法律风险特征。具体地,负面舆情风险特征可以包括企业高层变动、股东离职、股权转让、合同纠纷、业绩预亏、资产冻结和重大资产重组等;财务风险特征可以包括偿债能力类指标、经营能力类指标、盈利能力类指标、现金流分析类指标、风险水平类指标、发展能力类指标和比率结构类指标等;资本交易风险特征可以包括股票交易异常波动、债券交易异常波动、外部评级、隐含评级和股票质押融资类信息等;法律风险特征可以包括企业及关联企业涉及重大诉讼,被列为失信被执行人,发生金融借款纠纷和发生重大经营合同纠纷等。本实施例将舆情、财务、资本市场交易和法律等领域风险作为风险特征,保证预测结果的有效性。

在一实施方式中,利用预设的特征筛选模型,对企业特征进行特征筛选,得到目标企业所属目标行业内的多个风险特征,包括:确定企业特征在目标行业内的分位值;将分位值输入特征筛选模型,输出企业特征的重要度;根据重要度,对企业特征进行排序,得到排序结果;将排序结果中重要度大于预设值的多个企业特征作为风险特征。

在上述实施方式中,为了确保模型结果具有良好的排序性,尽量给出企业特征在所处行业中的相对位置,而非直接将指标丢入模型运算。如A房地产企业的资产负债率为75%,企业特征处理时倾向于取该企业资产负债率在房地产行业中的分位值作为模型的输入特征,而非直接将75%这一数值作为输入特征。本实施例提高特征筛选模型中特征之间的相互影响,从而提高特征筛选结果的准确性。

在一实施例中,确定企业特征在目标行业内的分位值,包括:针对同一企业特征,确定企业特征的特征值在目标行业的预设企业特征分布图中的分布位置;将分布位置作为分位值。

在本实施例中,预设企业特征分布图为目标行业内的企业特征的特征分布曲线,例如企业特征为资产负债率为75%,则可以从预设企业特征分布图查询到75%这一数值在图中的位置,如位置为第五位,则分位值为5。本实施例通过确定企业特征在预设企业特征分布图中的分布位置,则可以得知企业特征在该行业内的重要性比重,以便于特征筛选模型对多个企业特征比较后得出每个企业特征的重要度。

在一实施例中,针对同一企业特征,确定企业特征的特征值在目标行业的预设企业特征分布图中的分布位置之前,还包括:获取目标行业的行业公开信息;将行业公开信息加工为行业特征指标;根据行业特征指标,对目标行业内的所有企业进行企业评级,得到企业评级结果;根据企业评级结果和行业特征指标,确定预设企业特征分布图。

在本实施例中,由于行业特征指标就是从企业信息等行业公开信息提取得到,所以行业特征指标与企业特征存在关系,因此基于行业特征指标和企业评级确定企业特征分布。例如,行业特征指标为行业偿债指标,则可以企业评级结果的排序方式对每个企业的企业偿债特征进行排序,最终得到企业偿债特征分布图。本实施例以行业公开信息作为数据源,使得特征指标更加行业特色,从而使得预测结果能够更加准确。

在一实施例中,将行业公开信息加工为行业特征指标,包括:基于语义识别技术,清洗行业公开信息中的无效信息,得到清洗后的目标行业信息;将目标行业信息进行数据分析,得到行业特征指标。

在本实施例中,基于语义识别技术,对行业公开信息进行语义分析,以删除行业公开信息中的无效信息。例如,需要的行业公开信息为行业盈利额等,则将除了行业盈利额之外的其他信息删除。进一步地,由于不同行业之间盈利额存在很大差异,所以单从行业盈利额等信息难以表征不同行业间的盈利优势,所以需要将目标行业信息加工为行业特征指标,如将行业盈利额加工为行业景气度。示例性地,行业特征指标可以包括行业周期性、行业竞争格局、行业进入壁垒、行业市场地位、行业替代品威胁、行业景气度、行业盈利水平、行业收益质量、行业资本结构和行业偿债指标等。本实施例对行业公开信息进行数据清洗,能够降低运算的数据量,也能够基于得到的有效的目标行业信息进一步分析出行业特征指标。

步骤S103,将风险特征输入预设的风险预测模型进行风险预测,得到目标企业的风险预测结果,风险预测模型为多个风险样本特征输入预设分类算法进行训练得到。

在本实施例中,风险预测模型可以在终端设备上训练好,也可以在其他设备训练好后,将风险预测模型的模型文件和算法文件移植至本终端设备。也就是说,训练风险预测模型的执行主体与使用风险预测模型的执行主体可以相同,也可以不同。

可选地,预设分类算法包括均衡随机森林算法、决策树、极端随机森林等,具体参见图4示出的模型表现效果的对比示意图。优选为均衡随机森林算法,风险预测模型是非均衡样本建模问题,而均衡随机森林算法能够针对非均衡样本建模问题实现优秀的表现效果。从图4可知,对于均衡随机森林算法,召回率Recall和精确度Precision虽然都不是最高的,但它的Recall和Precision表现都相对较好,且有较高的Recall,而且综合下来F1分数(用于衡量二分类模型精确度的指标)也较高,比较适合风险预警场景。

为了执行上述方法实施例对应的方法,以实现相应的功能和技术效果,下面提供一种信用风险预测装置。参见图2,图2是本申请实施例提供的一种信用风险预测装置的结构框图。本实施例中该装置包括的各模块用于图1对应的实施例中的各步骤,具体参见图1以及图1所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分,本申请实施例提供的信用风险预测装置,包括:

获取模块201,用于获取目标企业的多个企业特征;

筛选模块202,用于利用预设的特征筛选模型,对企业特征进行特征筛选,得到目标企业所属目标行业内的多个风险特征,特征筛选模型为多个行业内的企业样本特征输入预设多任务学习算法进行训练得到;

预测模块203,用于将风险特征输入预设的风险预测模型进行风险预测,得到目标企业的风险预测结果,风险预测模型为多个风险样本特征输入预设分类算法进行训练得到。

可选地,风险特征包括负面舆情风险特征、财务风险特征、资本交易风险特征和/或法律风险特征。

作为一种可选的实施方式,筛选模块202,包括:

确定子模块,用于确定企业特征在目标行业内的分位值;

输出子模块,用于将分位值输入特征筛选模型,输出企业特征的重要度;

排序子模块,用于根据重要度,对企业特征进行排序,得到排序结果;

作为子模块,用于将排序结果中重要度大于预设值的多个企业特征作为风险特征。

作为一种可选的实施方式,确定子模块,包括:

第一确定单元,用于针对同一企业特征,确定企业特征的特征值在目标行业的预设企业特征分布图中的分布位置;

作为单元,用于将分布位置作为分位值。

作为一种可选的实施方式,确定子模块,还包括:

获取单元,用于获取目标行业的行业公开信息;

加工单元,用于将行业公开信息加工为行业特征指标;

评级单元,用于根据行业特征指标,对目标行业内的所有企业进行企业评级,得到企业评级结果;

第二确定单元,用于根据企业评级结果和行业特征指标,确定预设企业特征分布图。

作为一种可选的实施方式,加工单元,包括:

清洗子单元,用于基于语义识别技术,清洗行业公开信息中的无效信息,得到清洗后的目标行业信息;

分析子单元,用于将目标行业信息进行数据分析,得到行业特征指标。

可选地,预设分类算法包括均衡随机森林算法。

上述的信用风险预测装置可实施上述方法实施例的信用风险预测方法。上述方法实施例中的可选项也适用于本实施例,这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容,在本实施例中,不再进行赘述。

图3为本申请一实施例提供的电子设备的结构示意图。如图3所示,该实施例的电子设备3包括:至少一个处理器30(图3中仅示出一个)处理器、存储器31以及存储在所述存储器31中并可在所述至少一个处理器30上运行的计算机程序32,所述处理器30执行所述计算机程序32时实现上述任意方法实施例中的步骤。

所述电子设备3可以是智能手机、平板电脑、桌上型计算机、超级计算机、个人数字助理、物理服务器和云服务器等计算设备。该电子设备可包括但不仅限于处理器30、存储器31。本领域技术人员可以理解,图3仅仅是电子设备3的举例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。

所称处理器30可以是中央处理单元(Central Processing Unit,CPU),该处理器30还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器31在一些实施例中可以是所述电子设备3的内部存储单元,例如电子设备3的硬盘或内存。所述存储器31在另一些实施例中也可以是所述电子设备3的外部存储设备,例如所述电子设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括所述电子设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。

另外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述任意方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时实现可实现上述各个方法实施例中的步骤。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号