首页> 中国专利> 一种小微企业画像构建方法

一种小微企业画像构建方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及金融信贷领域，具体提供了一种小微企业画像构建方法，具有以下步骤：S1、数据汇聚融合建立标准数据库；S2、建立企业画像标签体系；S3、建立企业综合评估及维度评估指标体系；S4、特征工程形成聚类模型入模指标；S5、建立融合聚类分析模型。与现有技术相比，本发明基于企业多源数据融合，对多源数据进行数据合并、数据对齐、数据融合等操作，并在多源数据融合基础之上建立企业画像标签体系、企业综合评价和维度评价指标体系，企业画像维度更丰富、评估指标更全面，克服了单一数据源覆盖画像评估维度较片面的弊端。

著录项

公开/公告号CN113837859A

专利类型发明专利
公开/公告日2021-12-24

原文格式PDF
申请/专利权人天元大数据信用管理有限公司;
展开▼

申请/专利号CN202110979314.0
发明设计人尹盼盼;边松华;崔乐乐;
展开▼

申请日2021-08-25
分类号G06Q40/02(20120101);G06Q10/06(20120101);G06K9/62(20060101);G06F16/245(20190101);
代理机构37100 济南信达专利事务所有限公司;
代理人姜丽洁
地址 250100 山东省济南市高新区浪潮路1036号浪潮科技园S01楼23层
入库时间 2023-06-19 13:49:36

说明书

技术领域

本发明涉及金融信贷领域，具体提供一种小微企业画像构建方法。

背景技术

随着大数据、机器学习和人工智能等技术的应用，传统金融机构的服务模式、服务形态、管理运营模式等发生了革命性的变化，金融科技迅速发展，其中，大数据、人工智能技术是金融科技的重要应用技术之一。针对小微企业对象融资“短、小、频、急”的需求，基于小微企业覆盖的多源数据，建立贯穿贷前、贷中、贷后整个信贷流程的智能风控体系是主流业务模式之一。

贷前提供企业的全方位解读为银行建立对企业的初步认知，贷中提供企业相关风险的及时体现建立银行对企业经营、发展状况风险点的及时把控，方便银行对企业已实施贷款产品进行降息、调息的及时操作，对风险进行及时控制。

但是现有技术中智能风控体系中还不能准确的去解读恶意申贷用户企业的行为特征，评价特征的指标比较少，不全面。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的小微企业画像构建方法。

本发明解决其技术问题所采用的技术方案是：

一种小微企业画像构建方法，具有以下步骤：

S1、数据汇聚融合建立标准数据库；

S2、建立企业画像标签体系；

S3、建立企业综合评估及维度评估指标体系；

S4、特征工程形成聚类模型入模指标；

S5、建立融合聚类分析模型。

进一步的，在步骤S1中，通过大数据ETL技术将覆盖政府多部门以及第三方的多源数据进行融合汇聚，数据经过噪声去除、数据对齐和数据去冗余处理后存储于标准数据库中。

进一步的，在步骤S2中,企业画像标签包括企业自有数据标签和企业模型标签，其中，企业自有标签来源于标准数据库中的自有数据，而企业模型标签主要通过聚类分析方法产生，通过企业多源数据生成企业综合评估指标，调用综合聚类分析模型生成综合模型预测标签，通过企业多源数据生成企业背景、企业稳定性、企业经营能力、企业发展能力、科技创新能力共计五个维度的维度指标，调用维度聚类分析模型生成维度模型预测标签。

进一步的，在步骤S3中，企业标准数据库中的企业标准数据表格抽取企业指标，企业综合评估指标包括企业背景、企业稳定性、企业经营能力、企业发展能力、企业科技创新能力总计五个一级维度。

进一步的，在步骤S4中，企业多源数据基于步骤S3中形成的指标经过探索性数据分析和数据清洗，最终形成融合聚类模型训练所需的入模特征。

进一步的，所述探索性数据分析针对生成指标进行简单描述统计，经过对数据进行简单的统计分析之后，对特定指标数据进行数据切分，对数据的动态变化情况、某一特定条件下的取值情况进行深入的剖析，通过绘制单变量的直方图曲线、单变量与目标变量的关系曲线对入模样例指标进行可视化分析。

所述数据清洗首先对指标中的无效值进行处理，对部分可量化指标进行数值量化，然后对入模指标进行缺失值统计，去除缺失值大于80％的训练指标，针对剩余指标进行同值率的统计，去除属性只有一个值的特征，去除属性同值率大于85％的指标；针对缺失同值过滤后的评估指标进行VIF共线性分析，去除相关特征后剩余多个入模指标；多个入模指标中的缺失值默认用0值进行填充，经过数据清洗、缺失值填充的训练样例进行Z-Score标准化处理，形成标准化后的训练向量。

进一步的，在步骤S5中，采用kmeans聚类分析方法对企业综合评估指标进行聚类建模，采用Calinski-Harabasz度量方法确定K值，通过稳定性分析、聚类效果分析方法评估聚类效果，建立综合聚类分析模型；

基于企业五个维度的维度指标分别采用kmeans聚类方法进行各维度的企业聚类分析，形成各维度聚类分析模型。

进一步的，Calinski-Harabasz度量方法确定K值时，CHI分数值越大则聚类效果越好。K值取1-10区间内数值进行kmeans聚类分析，绘制聚类分析结果图，依次计算不同k取值下的CH度量指标值，结合聚类分析的可视化结果图以及CH的不同取值选取聚类效果最优的k值结果。

进一步的，选定kmeans聚类算法作为最优的聚类效果后，建模过程中聚类参数random_state不设置值，根据CH值确定最优K值，将kmeans聚类连续执行3-10次，观察每次聚类后各簇内样本分布情况是否波动很大。经过观察3-10次循环的聚类效果，每个簇的分布值顺序是随机的，但每个簇内样本的占比是相对固定的，说明基于现有特征、训练样本及确定K值选取kmeans聚类算法进行聚类分析是适合当前数据集的。

进一步的，企业背景、企业稳定性、企业经营能力、企业发展能力和企业科技创新能力总计五个一级维度企业的所有指标经过特征预处理、特征筛选去除缺失同值超出阈值、去除无用指标之后总计剩余多个入模指标，该多个入模指标作为企业的综合评估指标，基于企业的综合评估指标建立kmeans聚类分析模型，通过CH度量确定最优K值，通过聚类效果稳定性分析、聚类结果簇可视化分析评估聚类效果；

企业背景、企业稳定性、企业经营能力、企业发展能力和企业科技创新能力五个维度的筛选指标通过特征预处理、特征量化之后生成维度训练向量，基于各维度企业评估指标分别建立kmeans聚类分析模型，通过CH度量确定最优K值，通过聚类效果稳定性分析、聚类结果簇可视化分析评估聚类效果，生成共计五个维度的维度聚类分析模型，企业的综合评估模型与企业五个维度的维度聚类分析模型融合形成企业画像融合聚类分析模型；

获取五个维度的企业维度指标，针对指标进行数据预处理、特征量化之后生成维度训练向量，调用各维度聚类分析模型，划分企业维度分类簇，根据企业分类簇形成企业维度聚类分析模型标签，基于自有标签、综合聚类模型标签、维度聚类模型标签建立企业画像标签自动化生成模块，输入企业信息获取企业自有数据、综合评价指标、维度评价指标，调用融合聚类模型生成各模型标签，自动生成企业画像。

本发明的一种小微企业画像构建方法和现有技术相比，具有以下突出的有益效果：

1、相较于基于单一数据源的企业画像评估方法，该专利基于企业多源数据融合，对多源数据进行数据合并、数据对齐、数据融合等操作，并在多源数据融合基础之上建立企业画像标签体系、企业综合评价和维度评价指标体系，企业画像维度更丰富、评估指标更全面，克服了单一数据源覆盖画像评估维度较片面的弊端。

2、相较于基于有监督分类方法的企业画像建模方法，聚类分析方法能够在缺少企业标识、、企业标识不准确的情况下，仍能用于深入分析企业的分布情况，实现对小微企业的群体划分，拓展了基于高维特征、海量训练样例进行企业画像建立的实现范畴及实现场景，方法适用的范围更广。

3、对简单的kmeans聚类分析方法进行了改进，并应用融合聚类方法进行企业画像标签建设，助力企业信贷服务拓展了金融科技在信贷领域的应用场景，丰富了金融科技的内容。

4、伴随企业海量数据的汇聚、人工智能风控建模方法的引进、企业画像构建指标的不断丰富、缺少训练样本标识场景的增多以及多种算法的融合，本发明提出的方法会更适用于大数据海量企业数据的风控建模，特别针对无标签情况下的风控模型建设更加适应，其应用前景极为广阔。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1是一种小微企业画像构建方法的流程示意图；

附图2是一种小微企业画像构建方法中建立企业画像标签体系及综合评估、维度评估指标体系的示意图；

附图3是一种小微企业画像构建方法中应用场景实例图。

具体实施方式

为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

下面给出一个最佳实施例：

如图1-3所示，本实施例中的一种小微企业画像构建方法，采用非监督学习中的聚类分析方法进行企业画像的构建。通过大数据ETL技术将覆盖政府多部门以及第三方的多源数据进行融合汇聚，数据经过噪声去除、数据对齐、数据去冗余等处理后存储于标准数据库中；针对标准数据库中的小微企业数据进行筛选整理，建立企业画像的标签体系，企业画像标签主要包括企业自有数据标签及企业模型标签；标准数据库中的企业数据经过数据清洗、特征预处理等操作，一部分直接作为企业的自有标签，另一部分经过特征预处理、标准化处理之后作为无监督训练样本进行下一步的聚类建模；基于kmeans聚类方法分别建立综合特征模型和分组聚类模型，通过稳定性分析、Calinski-Harabasz度量方法确定K值、聚类效果分析等形成最终聚类模型；根据已建立的融合综合聚类及分组聚类的融合聚类模型预测企业分类簇，形成企业聚类模型标签；基于模型标签、自有数据标签建立小微企业画像标签，外部输入企业信息读取企业原始数据加工预处理，调用融合聚类模型预测企业分类簇自动生成企业画像标签。

具体的步骤如下：

S1、数据汇聚融合建立标准数据库

企业的多源数据覆盖企业政府数据包括工商、公积金、社保、发改委、银保监、行政处罚等信息，企业的互联网数据包括电商数据、上市信息、认定信息、网店信息、法律诉讼、失信被执行、招投标等信息，企业的第三方数据包括企业工商信息、人员信息、人企关系数据等信息；首先建立统一的数据标准规范对入库的多源数据进行规范化管理；其次，通过ETL等数据治理工具进行多源数据的治理加工，互联网数据等可存储数据定期拉取，实时接口数据通过内存进行处理，结合批流处理模式对数据进行数据加工处理、数据标准化、指标计算、轻特征挖掘等；最后，三方多源数据通过横纵向数据融合，融合汇聚到统一的数据仓库中，数据仓库存储多源数据融合之后的标准库数据、加工所得指标库、特征库等信息。

S2、建立企业画像标签体系

梳理标准数据库中企业覆盖的各数据源，建立企业画像标签体系，企业画像标签包括企业自有数据标签和企业模型标签。企业自有标签来源于标准数据库中的自有数据，主要包括企业的基本信息例如企业成立年限、注册资本、企业类型、企业在职人数；企业的奖惩信息例如市长质量奖企业、名牌产品称号企业、守合同重信用企业、专精特新中小企业、瞪羚企业、科技创新型企业等等；企业的纳税标识信息例如企业A级纳税人、企业最近一次的纳税信用等级为A级等；企业的负面信息例如企业最近一次纳税信用等级为C级或D级、企业是否已吊销注销、企业经营异常、企业列入严重违法企业、企业重大税收违法企业等。企业模型标签主要通过聚类分析方法产生；通过企业多源数据生成企业综合评估指标，调用综合聚类分析模型生成综合模型预测标签，通过企业多源数据生成企业背景、企业稳定性、企业经营能力、企业发展能力、科技创新能力共计5个维度的维度指标，调用维度聚类分析模型生成维度模型预测标签。

S3、建立企业综合评估及维度评估指标体系

基于企业标准数据库中的企业标准数据表格抽取企业指标，企业综合评估指标包括企业背景、企业稳定性、企业经营能力、企业发展能力、企业科技创新能力总计五个一级维度，其中企业背景主要包括企业的成立时间、注册资本、从业人数等共计20多个基本指标；企业稳定性覆盖企业的工商变更、税务变更、法人变更等共计20多个基本指标；企业经营能力又覆盖企业的管理能力、偿债能力、还款意愿、营运能力、盈利能力、企业资质等共计六个二级维度的共计200多个指标；企业的发展潜力包含企业发展能力、创新能力两个维度的共计50多个指标，企业科技创新能力包含企业专利数、软著、知识产权等共计10多个二级维度；企业五个一级维度的共计300多个指标共同形成企业的综合评价指标。

S4、特征工程形成聚类模型入模指标

基于企业多源数据抽取形成的共计300多个指标需要经过探索性数据分析、数据清洗等多个流程最终形成融合聚类模型训练所需的入模特征。

其中，探索性数据分析主要是对生成的300多个指标进行简单的描述统计，分析各指标的方差、均值、中位数、数据分布等，经过对数据进行简单的统计分析之后，对特定指标数据进行数据切分，对数据的动态变化情况、某一特定条件下的取值情况进行深入的剖析；通过绘制单变量的直方图曲线、单变量与目标变量的关系曲线等对入模样例指标进行可视化分析。

数据清洗首先对指标中的无效值进行处理，对部分可量化指标进行数值量化；然后对入模指标进行缺失值统计，去除缺失值大于80％的训练指标；针对剩余指标进行同值率的统计，去除属性只有一个值的特征，去除属性同值率大于85％的指标；针对缺失同值过滤后的评估指标进行VIF共线性分析，去除相关特征后剩余20个入模指标；20个入模指标中的缺失值默认用0值进行填充，经过数据清洗、缺失值填充的训练样例进行Z-Score标准化处理，形成标准化后的训练向量。

S5、融合聚类分析模型建立

采用kmeans聚类分析方法对企业综合评估指标进行聚类建模，采用Calinski-Harabasz度量方法确定K值，通过稳定性分析、聚类效果分析方法评估聚类效果，建立综合聚类分析模型；基于企业五个维度的维度指标分别采用kmeans聚类方法进行各维度的企业聚类分析，形成各维度聚类分析模型。

其中，Calinski-Harabasz度量方法确定K值时，确定kmeans聚类方法中k值的方法很多，本发明采用Calinski-Harabasz度量方法确定K值，CHI分数值越大则聚类效果越好。K值取1-10区间内数值进行kmeans聚类分析，绘制聚类分析结果图，依次计算不同k取值下的CH度量指标值，结合聚类分析的可视化结果图以及CH的不同取值选取聚类效果最优的k值结果。

选定kmeans聚类算法作为最优的聚类效果后，建模过程中聚类参数random_state不设置值，根据CH值确定最优K值，将kmeans聚类连续执行5次，观察每次聚类后各簇内样本分布情况是否波动很大。经过观察5次循环的聚类效果，每个簇的分布值顺序是随机的，但每个簇内样本的占比是相对固定的，说明基于现有特征、训练样本及确定K值选取kmeans聚类算法进行聚类分析是适合当前数据集的。

建立融合聚类模型：

覆盖企业背景、企业稳定性、企业经营能力、企业发展能力、企业科技创新能力总计五个一级维度企业的所有指标经过特征预处理、特征筛选去除缺失同值超出阈值、去除无用指标之后总计剩余25多个入模指标，该25个入模指标作为企业的综合评估指标，基于企业的综合评估指标建立kmeans聚类分析模型，通过CH度量确定最优K值，通过聚类效果稳定性分析、聚类结果簇可视化分析评估聚类效果。

企业背景、企业稳定性、企业经营能力、企业发展能力、企业科技创新能力五个维度的筛选指标通过特征预处理、特征量化之后生成维度训练向量，基于各维度企业评估指标分别建立kmeans聚类分析模型，通过CH度量确定最优K值，通过聚类效果稳定性分析、聚类结果簇可视化分析评估聚类效果，生成共计五个维度的维度聚类分析模型。企业的综合评估模型与企业五个维度的维度聚类分析模型融合形成企业画像融合聚类分析模型。

生成企业画像标签：

企业画像标签包括企业自有数据标签和聚类模型分析标签两部分，存储于标准数据库中的企业原始数据字段经过数据预处理、数据量化形成规范化的标签格式作为企业画像的自有标签进行生成；获取企业综合聚类模型对应指标，对指标进行数据预处理、特征量化之后生成训练向量调用综合聚类分析模型，划分企业分类簇，根据企业分类簇形成企业综合聚类分析模型标签，包括企业信用情况良好、一般、优质，企业综合情况、综合情况占比等标签信息；获取企业背景、企业稳定性、企业经营能力、企业发展能力、企业科技创新能力五个维度的企业维度指标，针对指标进行数据预处理、特征量化之后生成维度训练向量，调用各维度聚类分析模型，划分企业维度分类簇，根据企业分类簇形成企业维度聚类分析模型标签，主要包括企业具有一定规模、企业发展起步期、企业较稳定、企业科技创新能力强等等。基于自有标签、综合聚类模型标签、维度聚类模型标签建立企业画像标签自动化生成模块，输入企业信息获取企业自有数据、综合评价指标、维度评价指标，调用融合聚类模型生成各模型标签，自动生成企业画像。

上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明的一种小微企业画像构建方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种小微企业画像构建方法 [P] . 中国专利： CN113837859A . 2021-12-24
2. 一种构建客户画像的大数据平台及构建方法 [P] . 中国专利： CN111639121A . 2020-09-08
3. A DNA Construct to stably Transform plastids of multicellular plants,A method to transform plastidosempleando Construction and the Construction of a Plant transformed with DNA [P] . AR011156A1 . 2000-08-02

机译：一种稳定转化多细胞植物质体的DNA构建体，一种转化质体构建的方法和一种用DNA转化的植物的构建
4. Plant comprising in its genome a recombinant DNA construction, method of alteration of roots architecture in plants, method of evaluation of roots architecture altered in plants, method of determining alteration of at least one agronomic characteristic in one Plant, polynucleotide isolated and plant or seed comprising a construction of recombinant DNA [P] . BRPI0911739A2 . 2019-03-06

机译：在其基因组中包含重组DNA构建体的植物，植物中根系结构改变的方法，植物中根系结构改变的评估方法，确定一种植物中至少一种农学特性的改变的方法，分离的多核苷酸以及植物或种子包括重组DNA的构建
5. Self-portrait photography equipment, self-portrait imaging method and program [P] . 日本专利： JP6055794B2 . 2016-12-27

机译：自画像摄影设备，自画像成像方法和程序