首页> 中国专利> 基于逻辑回归评分卡的营运企业风险评估方法及系统

基于逻辑回归评分卡的营运企业风险评估方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本公开属于技术领域，提供了一种基于逻辑回归评分卡的营运企业风险评估方法及系统，包括以下步骤：获取营运企业的多维度数据，构建企业用户画像；通过无监督学习对所构建的企业用户画像进行营运企业信用等级的评定；基于逻辑回归模型和所评定的营运企业信用等级构建评分卡，实现营运企业的风险评估。

著录项

公开/公告号CN114819476A

专利类型发明专利
公开/公告日2022-07-29

原文格式PDF
申请/专利权人山东大学;
展开▼

申请/专利号CN202210226625.4
发明设计人王旭;马菲;于迪;张伟;景峻;邹博;
展开▼

申请日2022-03-07
分类号G06Q10/06(2012.01);G06Q30/00(2012.01);G06K9/62(2022.01);
代理机构济南圣达知识产权代理有限公司 37221;
代理人张勇
地址 250061 山东省济南市历下区经十路17923号
入库时间 2023-06-19 16:11:11

法律信息

法律状态公告日

法律状态信息

法律状态
2022-08-16

实质审查的生效 IPC(主分类):G06Q10/06 专利申请号:2022102266254 申请日:20220307

实质审查的生效

说明书

技术领域

本公开属于技术领域，具体涉及一种基于逻辑回归评分卡的营运企业风险评估方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

在当今的商业环境中，道路货运风险管理模式发生了转变；其特点是战略导向，即综合努力使风险管理中的不同可持续性问题保持一致。如今，不断增长的客户期望、竞争激烈的市场和环境退化使公路货运企业更频繁地面临风险。

为此，建立了公司信用评级制度，研究公司信用评级方法，建立相应的信用评分模型，对公司进行信用评级及财务危机预警研究；通过分别建立单变量判别模型、多元判别分析模型和Logistic回归模型，通过对公司进行信用评分，实现对公司进行破产及违约概率研究，建立了较完善的公司信用评级方法与模型。

目前，企业信用风险评估领域应用可通过Logistic回归模型和Z-score模型进行预测；机器学习的快速发展也让更多研究开始通过各种建模框架实现风险识别评价。常见的应用在信用风险评估问题中的人工智能模型包括决策树(Decision Tree，简称DT)、基于案例推理(Case Based Reasoning，简称CBR)、人工神经网络(Artificial NeuralNetwork，简称ANN)、支持向量机(Support Vector Machine，简称SVM)等；但是这些模型的稳定性较差，业务解释性不好，难以掌握其信用评估内部的逻辑依据；还有一些企业风险研究使用主客观赋权方法，将企业资质情况、企业财务等特征指标作为独立变量，采用层次分析法、熵权法又或者主客观结合的组合赋权法对这些指标赋予权重，代入数据计算得到企业风险。但无论采取哪种赋权方法，合理的权重分配，一直是研究的难题所在。

发明人发现，关于货运企业风险的研究较少，以前的研究主要集中在企业的财务风险评价方面，未能从运输企业内在特性出发对企业进行风险画像。

发明内容

为了解决上述问题，本公开提出了一种基于逻辑回归评分卡的营运企业风险评估方法及系统，将用户画像的概念用在运输企业，从企业内部驾驶员、车辆、危化货物以及经营情况四个维度选取16个数据标签构建企业用户画像，并利用无监督学习学习算法实现企业的月“好坏”客户评定，基于逻辑回归模型构建评分卡，实现企业的月风险画像。

根据一些实施例，本公开的第一方案提供了一种基于逻辑回归评分卡的营运企业风险评估方法，采用如下技术方案：

一种基于逻辑回归评分卡的营运企业风险评估方法，包括以下步骤：

获取营运企业的多维度数据，构建企业用户画像；

通过无监督学习对所构建的企业用户画像进行营运企业信用等级的评定；

基于逻辑回归模型和所评定的营运企业信用等级构建评分卡，实现营运企业的风险评估。

作为进一步的技术限定，所述营运企业的多维度数据包括驾驶员行为标签、车辆轨迹信息标签、危险货物标签和企业经营标签。

进一步的，所述驾驶员行为标签包括注意力分散、超速、疲劳和不良驾驶；所述车辆轨迹信息标签包括车辆离线、车辆的行驶里程、测量的前碰撞以及车辆与行人的碰撞。

进一步的，所述危险货物标签包括月运单数和危险货物的种类；所述企业运营标签包括企业资质、企业涉及案件、企业的行政处罚、企业的历史风险和企业的预警提醒。

进一步的，采用K-means++聚类算法评定营运企业信用等级。

进一步的，所述聚类的具体过程为：

(1)从所获取的营运企业的多维度数据中随机选择一个数据样本作为第一个聚类中心；

(2)计算所获取的营运企业的多维度数据中每个点与预设聚类中心之间的距离，以及所获取的营运企业的多维度数据中的该数据点被选为新的聚类中心的概率，根据轮盘法选出新的聚类中心；

(3)重复步骤(2)，直到所获取的营运企业的多维度数据中的k个初始聚类中心均被确定；

(4)提取所获取的营运企业的多维度数据中的剩余数据样本，并分别计算每个数据样本与k个初始聚类中心的距离，对所得到的距离进行距离最小的聚类中心簇的划分；

(5)计算每个簇的聚类中心；

(6)重复步骤(2)和步骤(3)，直到类内误差平方和达到最小，聚类中心不再改变，算法收敛；

(7)输出K-means++算法聚类结果，得到营运企业信用等级的评定结果。

进一步的，利用逻辑回归模型构建评分卡，通过概率与分数之间的转换把概率转换成分数，得到各营运企业信用等级的总评价得分以及分组评价得分，完成营运企业的风险评估。

根据一些实施例，本公开的第二方案提供了一种基于逻辑回归评分卡的营运企业风险评估系统，采用如下技术方案：

一种基于逻辑回归评分卡的营运企业风险评估系统，包括：

构建模块，被配置为获取营运企业的多维度数据，构建企业用户画像；

评定模块，被配置为通过无监督学习对所构建的企业用户画像进行营运企业信用等级的评定；

评估模块，被配置为基于逻辑回归模型和所评定的营运企业信用等级构建评分卡，实现营运企业的风险评估。

根据一些实施例，本公开的第三方案提供了一种计算机可读存储介质，采用如下技术方案：

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于逻辑回归评分卡的营运企业风险评估方法中的步骤。

根据一些实施例，本公开的第四方案提供了一种电子设备，采用如下技术方案：

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的基于逻辑回归评分卡的营运企业风险评估方法中的步骤。

与现有技术相比，本公开的有益效果为：

本公开以月为单位实现对运输企业的动态监管，并使企业通过自查风险消除隐患；通过所构建的评分卡，可以使企业管理者明确企业具体的风险源所在，有针对的加强企业培训和考核体系，提高企业内部驾驶员的整体安全意识。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例一中的基于逻辑回归评分卡的营运企业风险评估方法的流程图；

图2是本公开实施例一中的企业危险货物分值计算示意图；

图3是本公开实施例一中的K-means++聚类学习结果示意图；

图4是本公开实施例一中的多变量相关分析示意图；

图5是本公开实施例一中的特征变量与IV值的分布图；

图6是本公开实施例一中的KS值的分布示意图；

图7是本公开实施例一中的ROC值的分布示意图；

图8是本公开实施例一中的风险画像分值的分布示意图；

图9是本公开实施例二中的基于逻辑回归评分卡的营运企业风险评估系统的结构框图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一

本公开实施例一介绍了一种基于逻辑回归评分卡的营运企业风险评估方法。

传统关于企业风险的研究大多基于流动资产比率、资产负债率、现金流量比率等信用经营指标评估企业的财务风险，较少关注到企业内部人员特征、运营特性对社会带来的风险隐患。尤其对于危化品道路运输企业，企业内部驾驶员的危险驾驶行为、危化品引燃爆炸等造成了严重恶劣的道路交通事故，从危化企业自身运输特性层面，借助现有的海量车辆轨迹数据以及驾驶员特征信息评估该企业车辆行驶对所在道路可能造成的危害，给予道路管理者合适管理建议，成为研究的重点。

电子技术和大数据技术的不断发展下，人们的身份信息逐渐转变为数据化形成，这样能更直观、方便地获取到意愿信息，进一步提高效率、减少时间耗用。为了能在网络中更加快速精准地寻找到目标数据，就需要利用相关分类技术划分用户的身份等各类属性信息，通过画像构建可以进一步了解网络社交用户的供求信息，对行为习惯等数据进行准确定位，便于了解用户信息的全貌。“用户画像”是指管理者通过收集与分析消费者相关的各种大数据信息，完美地抽象出一个用户的商业信息全貌，并针对特定业务场景进行用户特征不同维度的重新组合，精准刻画用户的商业特征。

本实施例将用户画像的概念引入企业信用风险评估方面的应用，在对用户画像构建方法和结构进行讨论的基础上，从驾驶员行为标签、车辆轨迹信息标签、危险货物标签、企业经营标签等4大维度近16个子项构建企业信用风险画像。

对于营运企业的运输危险货物，一般仅有对应的名称以及在国际危险货物中的分类，并未给出一个具体的数值来衡量危险货物风险。因此，本实施例采用单元内各种危险化学品实际存在(在线)量与其在《危险化学品重大危险源辨识》(GB18218)中规定的临界量比值，经校正系数校正后的比值之和R作为危化品风险系数值，具体的系数见附表1：

式中，q

表1校正系数β取值表

注：危险化学品类别依据《危险货物品名表》中分类标准确定

表2常见毒性气体校正系数β值取值表

注：未在表2中列出的有毒气体可按β＝2取值，剧毒气体可按β＝4取值

如图1所示的一种基于逻辑回归评分卡的营运企业风险评估方法，包括以下步骤：

获取营运企业的多维度数据，构建企业用户画像；

通过无监督学习对所构建的企业用户画像进行营运企业信用等级的评定；

基于逻辑回归模型和所评定的营运企业信用等级构建评分卡，实现营运企业的风险评估。

下面，本实施例展开对基于逻辑回归评分卡的营运企业风险评估方法的详细介绍。

信用评分的核心功能是对客群按照风险水平进行排序，主要是依据客户的各种历史信用资料，利用一定的信用评分模型，得到不同等级的信用分数。在风控领域，根据评分卡使用场景的不同，一般分为申请评分卡(A卡)、行为评分卡(B卡)和催收评分卡(C卡)。在本实施例中，运输企业具有一系列离线预警、打电话、行人碰撞等驾驶员、车辆在途行为数据，因此采用B卡对运输企业进行信用评分。

在构建评分卡模型前，首先要知道评价对象的归类问题，即将企业或者个体消费者划分为“好”客户和“坏”客户两类。具体做法是根据历史数据中的样本，从已知的数据中找出“坏”客户及“好”客户的特征，从而总结出分类的规则结果，作为后续评分模型的训练输入，为消费信贷决策提供依据。本实施例以企业每个月的表现为基本单位，选用无监督聚类学习算法实现“好坏”客户评分。

K-means++聚类算法，作为能优化K-means初始聚类中心的提升算法，一直被广泛应用于无监督学习工程应用中。本实施例借助K-means++实现好坏客户样本评定，具体聚类过程如下：

Step 1：从样本数据集中随机选择一个样本作为第一个聚类中心C；

Step 2：对于数据集中每个点X

Step 3：重复Step2，直到k个初始聚类中心全部确定；

Step 4：提取数据集中其余样本X

Step 5：针对每个簇，重新计算聚类中心；

Step 6：重复Step2和Step3，直到类内误差平方和达到最小，聚类中心不再改变，算法收敛；

Step 7：输出K-means++算法聚类结果。

逻辑回归模型经过logit转换将相应变量Y和线性自变量相联系，得到一个线性的形式，使用线性回归模型对参数进行估计，具有可解释能力强，计算速度快等优点，在风控领域得到了广泛的应用。利用逻辑回归模型构建评分卡，通过概率与分数之间的转换算法把概率转换成分数，直接得到各对象总评价得分以及分组评价得分。

考虑具有n个独立变量的向量X＝(X

特别的，逻辑回归的对数几率为log(Odds)＝β

本实施例利用K-means++无监督学习聚类算法实现好坏客户评定，然后基于逻辑回归模型构建评分卡计算得到企业的月风险画像。

针对本实施例中所介绍的基于逻辑回归评分卡的营运企业风险评估方法，下面进行算例验证。

选择中国华东某省份的运输企业A、B进行实例验证。A企业成立于2018年，具有三年经营资质，内部具有驾驶员271名，危化品营运车辆133辆，主要2类1项、2类3项、3类、5类、6类、8类等危化品的运输；B企业成立于2012年，具有九年经营资质，内部具有驾驶员664名，危化品营运车辆247辆，主要负责2类、3类等危化品运输。本文选择企业A、B 2019年7月份～2021年9月份的数据进行评分模型检验。表3为企业属性情况，表4分别为A、B企业其余标签变量数据的描述性统计。

表3.企业属性变量

表4.企业描述性统计

计算两个企业不同月份的货物危险分值，如图2所示；B企业的R值比A企业小很多，这是由于B企业运输的危化品主要集中于油类(石油、汽油等)，而A企业运输的危化品种类繁多(液氯、石油、苯等)。随后，利用K-means++将A、B企业的各项指标数据进行聚类分析，得到好坏客户评定结果，如图3所示，作为逻辑回归评分模型的输入。

对于逻辑回归模型，输入的特征之间如果存在精确相关或高度相关关系会使模型过拟合或难以估计准确。因此，本实施例对上述16个企业标签变量进行多变量相关分析。结合图4可得，企业资质、企业历史风险、企业预警提醒次数、涉及案件数目与历史行政出发次数等企业属性变量，两两之间具有强烈的相关性，疲劳预警与注意力分散次数、月运单数量两个变量也具有较强的相关性。因此，本实施例选择不良驾驶行为、超速总次数、疲劳预警总次数、离线预警次数、前碰撞次数、行人碰撞预警次数、行驶里程、危险货物指数以及企业资质等8个变量作为输入变量，搭建评分卡模型。

在搭建逻辑回归评分卡模型时，需要进一步对输入变量进行IV值计算，衡量特征变量的预测能力。当特征变量的IV值高于0.5时，说明特征变量对评分有影响，可以用作评分。结合图5，通过计算上述8个标签变量的IV值发现，运输车辆与企业资质的IV值低于0.5，因此本实施例在下一步进行评分时舍弃这两个变量。

如图6和图7所示，模型效果评估利用KS值与ROC值进行：KS值表示了模型区分好坏客户的能力。其实质是TPR-FPR，即好坏客户阈值变化的最大值。KS的取值范围在0和1之间，值越大，模型的预测准确性越好。一般，KS>0.即认为模型有比较好的预测性能。本实施例的KS值为0.48，ROC值为0.74，从而验证了本实施例所构建的模型具有很好的预测能力，下一步可用于企业风险评估工作。

针对货运运输企业，本实施例选择构建0-100分的评分卡，设定预期基础分P

通过图8我们可以发现，从19年7月到20年12月这一年半的时间里，A企业的风险绝大多数情况下高于B企业，而自21年开始，B企业的风险分值就开始逐渐上升甚至超过A企业相应月份的风险。这可能与企业实际经营状况有关，19年A企业属于刚开始经营危化品的运输，对相关业务、驾驶员、车辆管理不够完善。

此外，观察表5发现，当车辆前碰撞次数这个指标落在(6903.333,15937.0]这个区间时对风险分值影响最大，得分为8。对应上文表4对企业的各指标描述性统计，A企业关于前碰撞这个指标的均值是7103.74，这说明A企业各月份的车辆前碰撞次数大多数属于(6903.333,15937.0]这个区间，而B企业的前碰撞次数均值则是2329.11，属于(1082.0,6903.333]这个区间，得分为0。造成这种结果的原因可能是A企业内部驾驶员的操纵特性、行驶车速以及行车安全距离认知导致的，因此对于A企业的管理者，应定期对驾驶员进行基本驾驶安全知识培训，提高驾驶员的安全责任感。

通过表5，我们还可以知道，疲劳预警次数、行驶里程与危险货物分值等运输特性指标均与企业的风险强烈相关，这也说明，对于运输企业而言，一味地仅去关注企业财务报表上反映的财务风险是远远不够的。对于运输企业而言，企业内部车辆、驾驶员的驾驶表现代表着企业的形象，影响着公众对运输企业的看法。再者，若一个企业内部的运输车辆频繁发生交通事故，严重危害道路安全，势必威胁到企业的运营。

表5企业各项风险指标区间得分

本实施例介绍了中国山东两个危化品营运企业的风险画像。将用户画像的概念用在营运企业，从驾驶员、车辆、危化品以及企业资质等四个维度选取16个子标签搭建企业风险画像。基于无监督聚类学习算法实现“好坏”客户评定，利用逻辑回归模型开发构建评分卡，KS值和ROC值的结果表明本实施例构建的评分卡具有较好的预测能力。根据本实施例的结果，我们发现危化品种类繁多的具有更高的危险货物分值，其运输货物可能发生事故的几率更大；同样，对企业进行整体风险画像发现，也是成立时间更短的A企业大多数月份具有更高的风险，这主要是由于其内部车辆、驾驶员的驾驶表现所导致。

需要说明的是，本实施例中所构建的评分卡仅选择了中国山东两个企业进行实例验证，事实上，不同的省份由于其对危化品的供需要求以及运输途径不同，在构建评分卡时可能会有不同的表现。比如，有的省份更倾向于管道运输较公路运输而言，可通过另一种选择提供更为安全简单的运输环境。此外，在分析中可以考虑更多的数据标签，以构建更为全面的企业用户画像。

企业是危险化学品管理的执行者，强化企业责任对降低事故风险具有重要作用。与发达国家相比，中国在危险化学品安全管理方面仍处于发展阶段。在中国，安全监管、公安、交通等10多个部门负责危险化学品安全的监督管理工作。对于危化品道路运输企业，其更是承担着化学品发生事故几率最高的环节—运输。

本实施例基于企业风险画像，以月为单位实现对运输企业的动态监管，并使企业通过自查风险消除隐患。通过本实施例所构建的评分卡，可以使企业管理者明确企业具体的风险源所在，有针对的加强企业培训和考核体系，提高企业内部驾驶员的整体安全意识。

实施例二

本公开实施例二介绍了一种基于逻辑回归评分卡的营运企业风险评估系统。

如图9所示的一种基于逻辑回归评分卡的营运企业风险评估系统，包括：

构建模块，被配置为获取营运企业的多维度数据，构建企业用户画像；

评定模块，被配置为通过无监督学习对所构建的企业用户画像进行营运企业信用等级的评定；

评估模块，被配置为基于逻辑回归模型和所评定的营运企业信用等级构建评分卡，实现营运企业的风险评估。

详细步骤与实施例一提供的基于逻辑回归评分卡的营运企业风险评估方法相同，在此不再赘述。

实施例三

本公开实施例三提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例一所述的基于逻辑回归评分卡的营运企业风险评估方法中的步骤。

详细步骤与实施例一提供的基于逻辑回归评分卡的营运企业风险评估方法相同，在此不再赘述。

实施例四

本公开实施例四提供了一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例一所述的基于逻辑回归评分卡的营运企业风险评估方法中的步骤。

详细步骤与实施例一提供的基于逻辑回归评分卡的营运企业风险评估方法相同，在此不再赘述。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于逻辑回归评分卡的营运企业风险评估方法及系统 [P] . 中国专利： CN114819476A . 2022-07-29
2. 基于GBDT算法与逻辑回归模型的企业违约风险评估方法设备及介质 [P] . 中国专利： CN114519519A . 2022-05-20
3. SYSTEM AND METHOD FOR BEACH RISK ASSESSMENT BASED ON MULTIPLE LINEAR REGRESSION AND COMPUTER PROGRAM FOR THE SAME [P] . 韩国专利： KR20200080466A . 2020-07-07

机译：基于多个线性回归和相同计算机程序的海滩风险评估系统和方法
4. Method and system for risk and constraint based pricing model of a catalog service to assess enterprise network transformation [P] . IN2012CH04707A . 2012-12-28

机译：基于风险和约束的目录服务定价模型评估企业网络转型的方法和系统
5. processor-based methods and systems to provide further assessment of patient hypoglycemia risk, retroactively safe patient insulin level, patient-based model '' net effect '', subsequent patient hypoglycemia risk assessment, and non-transient media computer readable [P] . BR112014004529A2 . 2017-06-13

机译：基于处理器的方法和系统，可提供进一步评估患者低血糖风险，追溯安全的患者胰岛素水平，基于患者的模型“净效应”，随后的患者低血糖风险评估以及非瞬态介质计算机可读的方法和系统