首页> 中国专利> 源发风险分值的量化方法、量化装置及电子设备

源发风险分值的量化方法、量化装置及电子设备

摘要

本发明提供了一种源发风险分值的量化方法、量化装置及电子设备,包括:获取目标企业的企业特征数据;其中,企业特征数据至少包括目标企业的基本信息、风险事件、财务和信息预警数据;根据企业特征数据和预先训练好的风险源发模型确定目标企业的源发风险分值。本发明可以提高企业源发风险分值的客观性、准确性和一致性。

著录项

  • 公开/公告号CN112749742A

    专利类型发明专利

  • 公开/公告日2021-05-04

    原文格式PDF

  • 申请/专利权人 北京知因智慧科技有限公司;

    申请/专利号CN202011643825.7

  • 申请日2020-12-30

  • 分类号G06K9/62(20060101);G06N20/00(20190101);G06Q10/06(20120101);G06F16/903(20190101);

  • 代理机构11463 北京超凡宏宇专利代理事务所(特殊普通合伙);

  • 代理人张萌

  • 地址 100000 北京市西城区德胜门外大街13号院1号楼9层905室

  • 入库时间 2023-06-19 10:51:07

说明书

技术领域

本发明涉及计算机技术领域,尤其是涉及一种源发风险分值的量化方法、量化装置及电子设备。

背景技术

风险传导模型可以很好的描述被查询企业的传导风险是如何发生并传递过来的,但是风险传导模型需要有一个输入,即发生风险的企业是什么,该风险的分值是多少,基于此,风险传导模型才可以得出被查询企业的传导风险及传导路径。目前企业源发风险的得分通常是基于专家经验,即人为的将企业风险事件进行分类,专家根据分类后的风险事件的严重程度进行打分。但是,基于专家经验打分主观性太强,且目前没有统一的评分标准,从而导致不同专家对企业的风险评分也千差万别。

发明内容

有鉴于此,本发明的目的在于提供一种源发风险分值的量化方法、量化装置及电子设备,以提高了企业源发风险分值的客观性、准确性和一致性。

为了实现上述目的,本发明实施例采用的技术方案如下:

第一方面,本发明实施例提供了一种源发风险分值的量化方法,包括:获取目标企业的企业特征数据;其中,企业特征数据至少包括目标企业的基本信息、风险事件、财务和信息预警数据;根据企业特征数据和预先训练好的风险源发模型确定目标企业的源发风险分值。

在一种实施方式中,根据企业特征数据和预先训练好的风险源发模型确定目标企业的源发风险分值的步骤,包括:将企业特征数据输入到预先训练好的风险源发模型中,得到企业风险概率值;根据企业风险概率值确定目标企业的源发风险分值。

在一种实施方式中,上述方法还包括:当企业风险概率值大于或等于预设值时,确定目标企业属于黑灰名单企业;当企业风险概率值小于预设值时,确定目标企业属于白名单企业。

在一种实施方式中,风险源发模型的训练过程包括:获取样本企业的样本特征数据和样本企业所属风险名单的类型;其中,风险名单包括:黑灰名单和白名单;根据样本企业所属风险名单的类型对样本企业进行标注,得到标注后的样本特征数据;根据标注后的样本特征数据进行模型训练,得到风险源发模型。

在一种实施方式中,根据标注后的样本特征数据进行模型训练,得到风险源发模型的步骤,包括:对标注后的样本特征数据进行预处理和数据探查,得到训练数据集和测试数据集;根据训练数据集和机器学习算法对模型进行训练,并根据测试数据集对模型进行验证,得到风险源发模型。

第二方面,本发明实施例提供了一种源发风险分值的量化装置,包括:数据获取模块,用于获取目标企业的企业特征数据;其中,企业特征数据至少包括目标企业的基本信息、风险事件、财务和信息预警数据;分值确定模块,用于根据企业特征数据和预先训练好的风险源发模型确定目标企业的源发风险分值。

在一种实施方式中,分值确定模块包括:输入单元,用于将企业特征数据输入到预先训练好的风险源发模型中,得到企业风险概率值;确定单元,用于根据企业风险概率值确定目标企业的源发风险分值。

在一种实施方式中,上述装置还包括模型训练模块,用于获取样本企业的样本特征数据和样本企业所属风险名单的类型;其中,风险名单包括:黑灰名单和白名单;根据样本企业所属风险名单的类型对样本企业进行标注,得到标注后的样本特征数据;根据标注后的样本特征数据进行模型训练,得到风险源发模型。

第三方面,本发明实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面提供的任一项的方法的步骤。

第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面提供的任一项的方法的步骤。

本发明实施例带来了以下有益效果:

本发明实施例提供的一种源发风险分值的量化方法、量化装置及电子设备,能够首先获取目标企业的企业特征数据;然后根据企业特征数据和预先训练好的风险源发模型确定目标企业的源发风险分值。上述量化方法利用预先训练好的风险源发模型,将企业风险事件的定性分析转化为定量结果,即企业源发风险分值,该分值由风险源发模型得到,从而提高了企业源发风险分值的客观性、准确性和一致性。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种源发风险分值的量化方法的流程图;

图2为本发明实施例提供的一种企业风险类型划分示意图;

图3为本发明实施例提供的一种风险源发模型训练过程的流程图;

图4为本发明实施例提供的一种源发风险分值的量化装置的结构示意图;

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

风险传导模型可以很好的描述被查询企业的传导风险是如何发生并传递过来的,但是风险传导模型需要有一个输入,即发生风险的企业是什么,该风险的分值是多少,基于此,风险传导模型才可以得出被查询企业的传导风险及传导路径。举例说明,假设A公司发生了风险,该风险经量化为85分,由于A公司全资投资了B公司,导致B公司有了传导风险,所以在查询B公司时,可以看到B公司有传导风险,经传导风险模型计算后,传导风险分值为43分,传导路径为A->B。而对于A公司的85分是如何量化得到的这一问题,目前通常是基于专家经验,即人为的将企业风险事件进行分类,专家根据分类后风险事件的严重程度进行打分。比如,对于贷款五级分类,专家经验的初始风险值可以参见表1。

表1贷款五级分类与初始风险值关系对应表

但是,目前专家经验评分的主观性太强,不同的专家给出的评分不一样,且目前没有一套方法论来统一该评分标准。源发风险分值评判标准不统一,从而会导致针对不同的专家经验,源发风险分值相差很大,进而导致经风险传导模型量化后的传导风险分值差别也很大,最后导致同一家企业的风险评级在不同标准下相差万里,从而给相关业务人员带来很大的困惑。

基于此,本发明实施例提供的一种源发风险分值的量化方法、量化装置及电子设备,可以提高企业源发风险分值的客观性、准确性和一致性。

为便于对本实施例进行理解,首先对本发明实施例所公开的一种源发风险分值的量化方法进行详细介绍,参见图1所示的一种源发风险分值的量化方法的流程图,该方法可以由电子设备执行,主要包括以下步骤S102至步骤S104:

步骤S102:获取目标企业的企业特征数据。

在一种实施方式中,目标企业即为需要计算源发风险分值的风险企业,其中,企业特征数据至少包括目标企业的基本信息、风险事件、财务和信息预警的内部风险数据;具体的,企业的基本信息包括企业自身维度的数据,诸如:企业的规模、性质、行业、地位、股票以及债券等;风险信息包括企业风险类数据,诸如:新闻舆情、司法信息、处罚信息以及各类预警信号等。本发明实施例中可以通过第三渠道大智慧、汇法、元素等数据服务商获取目标企业的企业特征数据。举例说明,假设要计算A企业和B企业的源发风险得到(如果企业没有任何风险信息,源发风为0,不需要计算),那么得到的A企业和B企业的基本信息、风险信息和其他信息可以参见表2所示。

表2企业特征数据表

进一步,在得到企业特征数据后可以对企业特征数据进行预处理,包括:删除多余字段、查看数据类型、数据类型转换、统计空缺值、填充空缺值、变量编码以及生成特征数据等。

步骤S104:根据企业特征数据和预先训练好的风险源发模型确定目标企业的源发风险分值。

在一种实施方式中,风险源发模型可以是基于机器学习算法构建的,具体的可以根据数据分布和标签的分类特征,采用4种集成学习分类器(包括:AdaBoost Classifier、GDBT、Random Forest Classifier、XGboost)和一种逻辑回归分类器作为初始模型进行训练,得到风险源发模型。进一步,将获取的企业特征数据输入到风险源发模型中,风险源发模型即可输出目标企业的源发风险分值。

本发明实施例提供的一种源发风险分值的量化方法利用预先训练好的风险源发模型,将企业风险事件的定性分析转化为定量结果,即企业源发风险分值,该分值由风险源发模型得到,从而提高了企业源发风险分值的客观性、准确性和一致性。

为了便于理解,根本发明实施例还提供了一种根据企业特征数据和预先训练好的风险源发模型确定目标企业的源发风险分值的具体示例,包括:将企业特征数据输入到预先训练好的风险源发模型中,得到企业风险概率值;根据企业风险概率值确定目标企业的源发风险分值。具体的,可以预先设置企业风险概率值与源发风险分值之间的映射关系,根据通过风险源发模型得到的企业风险概率值确定目标企业未来半年内的源发风险分值,企业风险概率值越高,源发风险分值越高,企业存在的风险越高。

进一步,上述方法还包括:当企业风险概率值大于或等于预设值时,确定目标企业属于黑灰名单企业;当企业风险概率值小于预设值时,确定目标企业属于白名单企业。在一种实施方式中,预设值可以根据模型的准确率确定,也可以根据相关人员的经验确定,本发明实施例中预设值可以选择为0.5,当风险源发模型得到的企业风险概率大于或等于0.5时,输出目标企业属于黑灰名单企业;当风险源发模型得到的企业风险概率小于0.5时,输出目标企业属于白名单企业。

综上所述,本发明实施例提供的上述源发风险分值的量化方法中,风险源发模型最终输出的结果可以包括企业名称、该企业对应的源发风险分值以及该企业所属的黑灰名单类型,具体参见表3所示。

表3源发风险模型输出结果

为了便于理解,本发明实施例还提供了一种风险源发模型的训练过程,主要包括以下步骤1至步骤3:

步骤1:获取样本企业的样本特征数据和样本企业所属风险名单的类型。

其中,风险名单包括:黑灰名单和白名单。在一种实施方式中,可以通过样本企业被划分到黑灰名单的结果,探查分析在该企业被划分到黑灰名单之前某段时间内(诸如三个月、半年、一年或者两年等),该部分企业触发的风险信息的类别、数量、频次、间隔等维度,同时,分析该企业的基本信息,包括企业自身维度的数据,诸如:企业的规模、性质、行业、地位、股票以及债券等;风险信息包括企业风险类数据,诸如:新闻舆情、司法信息、处罚信息以及各类预警信号等。在实际应用中,可以通过第三方平台获取样本企业的样本特征数据以及样本企业所属风险名单的类型。

步骤2:根据样本企业所属风险名单的类型对样本企业进行标注,得到标注后的样本特征数据。

在一种实施方式中,可以利用黑灰名单作为风险标签,进行风险打标,将企业分为高风险企业和低风险企业,具体参见图2所示的一种企业风险类型划分示意图,当企业存在失信被执行人、被吊销营业执照、企业破产清算等风险时间时,该企业属于黑名单企业,被划分为高风险企业;当企业存在高级管理层或董事会成员变动频繁、企业开工率不足、半停产、借款人大宗资金被诈骗、损失等事件时,该企业属于触警企业,被划分为低风险企业。

步骤3:根据标注后的样本特征数据进行模型训练,得到风险源发模型。

在一种实施方式中,上述步骤3包括:对标注后的样本特征数据进行预处理和数据探查,得到训练数据集和测试数据集;根据训练数据集和机器学习算法对模型进行训练,并根据测试数据集对模型进行验证,得到风险源发模型。

参见图3所示的一种风险源发模型训练过程的流程图,主要包括数据准备过程、数据探查过程、模型构建过程及验证、模型结果以及模型应用。具体的,数据准备过程首先导入数据,即将获取的样本企业的样本特征数据导入到模型中,然后进行数据预处理,主要包括以下7个操作:

(1)删除多余字段。具体的,对获取的样本特征数据进行分析,将不属于企业基本信息、风险信息以及财务、预警等内部风险数据的字段删除,从而避免多余字段对结果准确度的影响。

(2)查看数据类型。具体的,数据类型可以包括日期、数值或者字符等。

(3)类型转换(日期)。具体包括根据实际需求将日期转换为日期类型,或者将数值转换为字符等。

(4)统计空缺值。

(5)填充空缺值。具体的,可以对每个风险特征进行统计,当某个风险特征缺失超过第一阈值(诸如70%或者80%)时,可以将该特征删除;当某个风险特征缺失小于第二阈值(诸如20%)时,可以采用该特征的中值或者零进行填充。

(6)变量编码。在一种实施方式中,可以采用one-hot编码的方法对风险信息进行编码,具体的,可以将所有的风险信息进行编号,诸如100个风险信息,对应编号为A001至A100,当某一个企业不存在风险信息A001时,则A001对应记为0;当该企业存在风险信息A029且次数为2次时,则A029对应标记为2,从而可以得到企业对应的风险特征向量。

(7)生成特征数据。根据经过one-hot编码后的企业的风险特征向量,生成特征数据。

进一步,为了确保数据的准确性,及时发现数据中存在的异常数据,在数据预处理之后还包括数据探查过程,主要包括:检查数据逻辑错误、风险统计、分类变量探查、数值列统计信息以及构建训练/测试数据,删除数据中的异常数据,诸如不符合逻辑的数据,并将数据划分为训练数据集和测试数据集,具体可以按照7:3的比例进行划分。

进一步,得到训练数据集和测试数据集后,可以采用机器学习算法对模型进行训练,并对模型进行验证,得到风险源发模型。在具体应用中,可以根据训练数据集对模型训练,然后根据测试数据集对模型验证。具体的,可以采用4个集成学习分类器(AdaBoostClassifier、GDBT、Random Forest Classifier、XGboost)和1个逻辑回归分类器做为初始模型进行训练,模型通过搜索得到多重组合的最优参数与最佳训练模型,将最优的F1值对应的模型,做为最佳模型,并保存该模型为bestModel。其中,F1值时综合精确率和召回率两个指标的评估指标,用于综合反映整体的指标。参见表4所示的不同模型的参数对比表,可以看出XGboost的F1值最高,故可以选择XGboost做为最优模型,并应用该模型进行源发风险分值的计算。

表4不同模型参数对比表

本发明实施例提供的风险源发模型的训练过程,通过关注企业在某个时点被划分到黑、灰名单的结果,探查分析在该结果发生前一段时间,该部分企业触发的风险信息的类别、数量、频次、间隔等维度,同时分析该企业的基本信息,进行建模评估企业的源发风险值。模型训练阶段,主要包括的企业自身维度的数据:企业的规模、性质、行业、地位、股票、债券等,企业风险类数据:新闻舆情、司法信息、处罚信息、各类预警信号等,且模型本身考虑了事件发生时间的相关信息。

综上所述,本发明实施例提供的上述源发风险分值的量化方法,从社会公认的企业所属黑灰名单结果出发,通过机器学习模型建立企业信息特征和企业黑灰名单结果的对应关系,输出不同特征对企业黑灰名单结果的影响权重,通过将概率转化为风险源发分值的方式来统一企业源发风险的评价标准,避免了标准不统一导致的评价结果不统一的缺点,同时评价标准也更客观、更科学、更合理。同时,通过机器学习得到的企业源发风险得分可以作为风险传导模型企业源发风险的输入,从而能够提高风险传导模型得输出结果的一致性和准确性。

对于前述实施例提供的源发风险分值的量化方法,本发明实施例还提供了一种源发风险分值的量化装置,参见图4所示的一种源发风险分值的量化装置的结构示意图,该装置可以包括以下部分:

数据获取模块401,用于获取目标企业的企业特征数据;其中,企业特征数据至少包括目标企业的基本信息、风险事件、财务和信息预警数据。

分值确定模块402,用于根据企业特征数据和预先训练好的风险源发模型确定目标企业的源发风险分值。

本发明实施例提供的一种源发风险分值的量化装置能够利用预先训练好的风险源发模型,将企业风险事件的定性分析转化为定量结果,即企业源发风险分值,该分值由风险源发模型得到,从而提高了企业源发风险分值的客观性、准确性和一致性。

在一种实施方式中,上述分值确定模块402包括:输入单元,用于将企业特征数据输入到预先训练好的风险源发模型中,得到企业风险概率值;确定单元,用于根据企业风险概率值确定目标企业的源发风险分值。

在一种实施方式中,上述装置还包括判断模块,用于当企业风险概率值大于或等于预设值时,确定目标企业属于黑灰名单企业;当企业风险概率值小于预设值时,确定目标企业属于白名单企业。

在一种实施方式中,上述量化装置还包括模型训练模块,用于获取样本企业的样本特征数据和样本企业所属风险名单的类型;其中,风险名单包括:黑灰名单和白名单;根据样本企业所属风险名单的类型对样本企业进行标注,得到标注后的样本特征数据;根据标注后的样本特征数据进行模型训练,得到风险源发模型。

在一种实施方式中,上述模型训练模块进一步还用于对标注后的样本特征数据进行预处理和数据探查,得到训练数据集和测试数据集;根据训练数据集和机器学习算法对模型进行训练,并根据测试数据集对模型进行验证,得到风险源发模型。

本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。

本发明实施例还提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被处理器运行时执行如上实施方式的任一项所述的方法。

图5为本发明实施例提供的一种电子设备的结构示意图,该电子设备100包括:处理器50,存储器51,总线52和通信接口53,所述处理器50、通信接口53和存储器51通过总线52连接;处理器50用于执行存储器51中存储的可执行模块,例如计算机程序。

其中,存储器51可能包含高速随机存取存储器(Random Access Memory,RAM),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。

总线52可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

其中,存储器51用于存储程序,所述处理器50在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流程定义的装置所执行的方法可以应用于处理器50中,或者由处理器50实现。

处理器50可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器50中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器50可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器51,处理器50读取存储器51中的信息,结合其硬件完成上述方法的步骤。

本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见前述方法实施例,在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号