公开/公告号CN114817557A
专利类型发明专利
公开/公告日2022-07-29
原文格式PDF
申请/专利权人 北京邮电大学;
申请/专利号CN202210302732.0
申请日2022-03-24
分类号G06F16/36(2019.01);G06K9/62(2022.01);G06Q40/02(2012.01);
代理机构北京清亦华知识产权代理事务所(普通合伙) 11201;
代理人单冠飞
地址 100876 北京市海淀区西土城路10号北京邮电大学新科研楼627室
入库时间 2023-06-19 16:12:48
法律状态公告日
法律状态信息
法律状态
2022-08-16
实质审查的生效 IPC(主分类):G06F16/36 专利申请号:2022103027320 申请日:20220324
实质审查的生效
技术领域
本发明涉及企业风险检测领域,尤其涉及一种基于企业征信大数据知识图谱的企业风险检测方法和装置。
背景技术
目前在基于知识图谱的企业风险检测方法中,主流的方式是提取知识图谱中企业节点属性作为基本属性特征,以及提取知识图谱图谱中企业与其余企业实体的关系作为关联关系特征,将企业的基本属性特征与关联关系特征一并作为后续风控模型的特征进行输入。有人提取企业在网络中的特征信息,包括其在网络中的一阶、二阶邻居关系中违约企业的数量和比重等作为企业的关系特征,结合企业的基本属性特征,输入梯度提升决策树分类模型。有人根据业务与数据背景,定义了与企业风险相关的三种知识图谱。知识图谱网络分别为企业上下游、投资融资、密切关联知识图谱,并使用社区发现算法获取企业之间的亲疏关系。有人通过股权关系、人事关系等数据,全面挖掘企业关联,构建企业征信知识图谱,基于图谱构建了两种模型,分别为企业关联关系分析模型,企业群体关联风险模型,帮助在商业银在信贷全流程中识别企业风险。
如上所述,目前基于知识图谱的企业风险检测方法中,方法所用到的特征主要分为两类,第一类为基本属性特征(主要是企业在金融、司法领域的数据),第二类为关联关系特征(体现知识图谱中企业实体与其余企业实体密切关系)。
但基于征信数据隐私性较强的特点,不同行业不能共享征信数据,征信数据存在不全面和信息孤岛的挑战。构建企业征信图谱的基础是企业征信数据,因此现阶段已有的企业征信图谱都存在信息缺失等问题,企业征信图谱中企业实体属性仅来源于金融、司法等领域,难以完全表示企业的信用状况,数据维度有待增加,模型效果有待提升。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于解决企业征信图谱存在信息缺失问题,提升违约企业预测的准确性,提出了一种基于企业征信大数据知识图谱的企业风险检测方法。
本发明的另一个目的在于提出基于企业征信大数据知识图谱的企业风险检测装置。
为达上述目的,本发明一方面提出了基于企业征信大数据知识图谱的企业风险检测方法,包括:
基于多个分散数据子域获得企业征信大数据统一信息模型;其中,所述企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构;通过所述层次化关键人员架构的企业信息和所述层次化企业信息架构的企业人员信息,提取关键人物与企业之间的关系,以实现企业征信大数据跨域连接;基于实现所述跨域连接的企业征信大数据统一信息模型,利用自顶向下方式构建第一企业征信大数据领域本体;以及通过自底向上的构建方式,对所述企业征信大数据领域中的数据进行实体抽取和关系抽取,选取优质新词扩充所述第一企业征信大数据领域本体规模,以构建第二企业征信大数据领域本体;基于所述第二企业征信大数据领域本体,利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中;利用所述企业征信大数据知识图谱进行企业特征数据获取,将获取的所述企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。
根据本发明实施例的基于企业征信大数据知识图谱的企业风险检测方法,通过自顶向下严格的概念定义限制和关系限制,并融合自底向上的方式扩充本体规模,极大提升了企业征信领域知识图谱本体的精确性,为之后生成高质量的知识图谱打下坚实基础,并且创新性的引入了企业研发创新能力特征作为风控模型的输入,提升了企业征信领域知识图谱本体的精确性,也提升了风控模型的性能。
另外,根据本发明上述实施例的基于企业征信大数据知识图谱的企业风险检测方法还包括:
进一步地,所述企业征信大数据统一信息模型的层级化企业信息架构,包括:企业基本信息、企业人员信息、企业经营信息、企业资产信息、企业知识产权信息、企业财务信息、企业股权信息、司法数据、企业风险信息和辅助参考信息子域中的多种。
进一步地,所述通过自底向上的构建方式,对所述企业征信大数据领域中的数据进行实体抽取和关系抽取,选取优质新词扩充所述第一企业征信大数据领域本体规模,以构建第二企业征信大数据领域本体,包括:通过自底向上构建方式,对所述户企业征信大数据领域中的数据进行实体抽取和关系抽取;基于所述实体抽取和关系抽取,识别出所述数据中的命名实体与关系实例,并对于未能识别出的所述命名实体与关系实例进行质量判定;基于所述质量判定确定质量排名,选取优质新词并扩展所述第一企业征信大数据领域本体,以构建所述第二企业征信大数据领域本体。
进一步地,所述企业特征数据获取,包括:获取企业的基本属性特征、关联关系特征和研发创新能力特征;其中,从所述企业征信大数据知识图谱中获取所述企业的基本属性特征和所述企业的研发创新能力特征;以及,通过四类关系进行企业关系特征抽取,并通过最短路径算法以及社区发现算法,提取所述企业征信大数据知识图谱中的网络特征以获取所述企业的关联关系特征;其中,所述四类关系包括参股关系、投资关系、交易关系和诉讼关系。
进一步地,所述风控模型,包括:数据预处理、特征处理工程和结果分类。
进一步地,所述数据预处理,包括:对获取的所述企业特征数据进行预处理,将日期型数据转化为字符型变量,然后对全部字符型变量进行转化,得到数值型数据,提取所述数值型数据的IV值、WOE、efficiency和rate。
进一步地,所述IV值、WOE、efficiency和rate的公式为:
其中,Good
进一步地,所述特征处理工程,包括:删除缺失值超过50%的特征、只含有唯一值的特征、和其他特征相关性高于60%的特征、在梯度增强器中特征重要性为0.0的特征,从所述梯度增强器中不贡献累积特征重要性99%的低重要性特征。
进一步地,所述结果分类,包括:获取所述企业特征数据样本和企业标签;利用所述企业特征数据样本和企业标签有监督的训练LightGBM分类模型,得到训练好的LightGBM分类模型;将所述特征处理工程处理后的特征,输入所述训练好的LightGBM分类模型,进行计算分类得到分类结果;其中,所述分类结果分为违约与正常。
为达到上述目的,本发明另一方面提出了一种基于企业征信大数据知识图谱的企业风险检测装置,包括:
信息获取模块,用于基于多个分散数据子域获得企业征信大数据统一信息模型;其中,所述企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构;
关系连接模块,用于通过所述层次化关键人员架构的企业信息和所述层次化企业信息架构的企业人员信息,提取关键人物与企业之间的关系,以实现企业征信大数据跨域连接;
本体构建模块,用于基于实现所述跨域连接的企业征信大数据统一信息模型,利用自顶向下方式确定企业征信大数据领域并构建第一企业征信大数据领域本体;以及通过自底向上的构建方式,对所述企业征信大数据领域中的数据进行实体抽取和关系抽取,选取优质新词并扩充所述第一企业征信大数据领域本体规模,以构建第二企业征信大数据领域本体;
图谱构建模块,用于基于所述第二企业征信大数据领域本体,利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中;
计算分类模块,用于利用所述企业征信大数据知识图谱进行企业特征数据获取,将获取的所述企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。
本发明实施例的基于企业征信大数据知识图谱的企业风险检测装置,通过自顶向下严格的概念定义限制和关系限制,并融合自底向上的方式扩充本体规模,极大提升了企业征信领域知识图谱本体的精确性,为之后生成高质量的知识图谱打下坚实基础,并且创新性的引入了企业研发创新能力特征作为风控模型的输入,提升了企业征信领域知识图谱本体的精确性,也提升了风控模型的性能。
本发明的有益效果:
(1)本发明提出的企业征信大数据知识图谱构建技术,解决了现阶段已有的企业征信图谱都存在信息缺失等问题;
(2)本发明提出的引入企业研发创新能力特征的风控模型,性能超越了传统的基于企业征信知识图谱的风控模型,便于提前识别违约企业,降低风险。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于企业征信大数据知识图谱的企业风险检测架构示意图;
图2为根据本发明实施例的基于企业征信大数据知识图谱的企业风险检测方法的流程图;
图3为根据本发明实施例的企业征信大数据统一信息模型的层级化企业信息的架构示意图;
图4(a)和图4(b)为根据本发明实施例的企业征信大数据统一信息模型的企业财务信息二级架构的示意图;
图5为根据本发明实施例的企业征信大数据统一信息模型的层级化关键人员的架构示意图;
图6为根据本发明实施例的自顶向下、自底向上为辅的企业征信大数据知识图谱本体的流程示意图;
图7为根据本发明实施例的风控模型设计的流程示意图;
图8为根据本发明实施例的基于企业征信大数据知识图谱的企业风险检测装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面参照附图描述根据本发明实施例提出的基于企业征信大数据知识图谱的企业风险检测方法及装置,首先将参照附图描述根据本发明实施例提出的基于企业征信大数据知识图谱的企业风险检测方法。
本发明实施例的基于企业征信大数据知识图谱的企业风险检测方法,整体流程如图1所示。在原始的风控模型基础上,本发明实施例增加了企业研发创新能力特征来增加特征的层次与维度。除了特征的增加,本发明实施例的企业风险监测方法中企业风控模型使用的是LightGBM,由于LightGBM实际上采用的是基于决策树算法的梯度提升框架。因此LightGBM在训练过程中还能可以得到特征对于模型的重要性,用于评价不同特征对企业是否违约的影响程度。
图2是本发明一个实施例的基于企业征信大数据知识图谱的企业风险检测方法的流程图。
如图2所示,该基于企业征信大数据知识图谱的企业风险检测方法包括以下步骤:
步骤S1,基于多个分散数据子域获得企业征信大数据统一信息模型;其中,企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构。
具体地,本发明实施例通过运用专家知识、研究一系列相关的企业征信数据标准体系,调研企业征信知识图谱相关的论文与专利,从现有的政务、工商、司法、舆论等各分散数据子域中提炼出“企业-关键人物“联合框架,设计出一套面向企业征信大数据场景的层次化企业信息架构和关键人员架构,以各类实体间关系的为连接边,实现了企业征信大数据的全域实体关联。
企业征信大数据统一信息模型的层级化企业信息架构由企业基本信息,企业人员信息,企业经营信息,企业资产信息,企业知识产权信息,企业财务信息,企业股权信息,司法数据,企业风险信息,辅助参考等10个信息子域共同支撑,企业征信大数据统一信息模型的层次化企业信息架构如图3所示。
如图4(a)和图4(b)所示,以企业财务数据为例,展示企业信息架构的细粒度视图。
步骤S2,通过层次化关键人员架构的企业信息和层次化企业信息架构的企业人员信息,提取关键人物与企业之间的关系,以实现企业征信大数据跨域连接。
可以理解的是,企业征信大数据统一信息模型层次化关键人员架构的视图由基础信息、工作信息、社会关系、历史风险等四个信息子域构成,借助关键人员架构里的企业信息和企业信息架构里的企业人员信息,即可打通该架构与企业架构的关联壁垒,形成实体对象之间的映射关系,从而实现征信大数据“企业-关键人员”的层次化和关联化,初步解决了企业征信大数据跨域连接难的问题。
如图5所示,为企业征信大数据统一信息模型的层次化关键人员架构的视图。
面向企业征信大数据场景的层次化企业信息架构和关键人物信息架构,希望以“双核心”的方式实现企业征信大数据全域实体关联,需要定义实体之间的关系。实体关系设置如表1。
表1:实体关系设计表
步骤S3,基于实现跨域连接的企业征信大数据统一信息模型,利用自顶向下方式构建第一企业征信大数据领域本体;以及通过自底向上的构建方式,对企业征信大数据领域中的数据进行实体抽取和关系抽取,选取优质新词扩充第一企业征信大数据领域本体规模,以构建第二企业征信大数据领域本体。
具体地,构建高质量企业征信大数据知识图谱的第一步就是定义准确清晰的知识模式(schema),即给出描述企业征信领域基本认知框架的本体。然而传统的仅聚焦于“自顶向下法”的构建方法对领域专家的依赖性较大。而“自底向上法”以及海量、多源、异构的数据,是自底向上构建本体和后续知识融合的巨大挑战。
基于单一知识图谱本体构建方法存在的缺陷,使用一种基于“自顶向下为主,自底向上为辅”的企业征信大数据知识图谱本体构建方法,通过自顶向下的方法约束概念与关系,并融合自底向上的方法扩充本体的规模,极大提升了知识图谱本体的精确度和精细程度,为之后生成高质量的知识图谱打下坚实基础,具体建设流程如图6所示。
利用自顶向下方式形成领域本体,需要挖掘领域知识库的知识和听取领域专家的建议,构建领域本体。领域知识库包括但不仅限该领域的互联网知识库、百科网站、行业权威指南、元数据国家标准和关系型数据库等。例如,本发明实施例提及的基于层次化企业信息架构和关键人员信息架构归纳的“企业-关键人员体系”,有序组织了企业征信大数据领域的海量数据资源。从该标签体系中,可以筛选出企业征信领域高质量的概念和属性,以及概念之间的相互关系,构建领域本体雏形。
利用自顶向下的方法创建的领域本体,已经能够指导构建企业征信大数据知识图谱实例库。但是由于企业征信领域数据资源规模的增长,仅由自顶向下方式构建的企业征信领域本体模型,限制于规模,无法满足后续知识图谱构建技术(如知识抽取与知识融合)的需求。企业征信领域多源、海量、异构的数据资源如果能够加以整理、利用、完善,可以为企业征信领域的知识图谱构建生成巨大的数据推动力,因此自底向上的构建方式也是企业征信大数据知识图谱本体和数据构建中的重要一环。自底向上的辅线构建流程,首先是对企业征信领域中数据进行实体抽取和关系抽取,提取出该数据中的命名实体与关系实例,对于未能识别出命名实体与关系实例进行质量判定。征信专家判定质量排名靠前的新词是否为高质量短语,并扩展当前的企业征信领域本体结构。
步骤S4,基于第二企业征信大数据领域本体,利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中。
具体地,利用上述方法构建企业征信大数据知识图谱本体后,利用已有的企业征信大数据构建知识图谱并存储进Neo4j图数据库中,为后续风控模型提供数据基础。
步骤S5,利用企业征信大数据知识图谱进行企业特征数据获取,将获取的企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。
具体地,在企业风控模型模块中,从企业征信大数据知识图谱中获取企业的基本属性特征、关联关系特征、研发创新能力特征,将其进行处理,共同做为风控模型的输入,对LightGBM分类模型做有监督训练。通过引入企业研发创新能力特征,提升了风控模型的性能。本发明实施例的处理流程如图7所示,包括:
(1)数据获取模块:
在企业征信大数据知识图谱中,企业基本属性能力特征与研发创新能力特征都以企业节点属性的形式存在,直接从Neo4j图数据库中导出即可。企业关联关系特征是为了体现该企业实体与违约企业实体的亲疏关系。由于异构网络中的节点与边的类型多种多样,提取图的特征和困难程度被提高,因此提案限定本企业征信大数据知识图谱为同构网络,限制关系两端的节点只能为企业,并将人物节点进行折叠归约,降低人物对网络的干扰,保证每条关系都介于企业间。结合已有的数据和传统认知逻辑,保留四类风险较高的企业关系:参股关系、投资关系、交易关系、诉讼关系。并基于这四类关系进行企业关系特征抽取,提取知识图谱中网络特征的方式为最短路径算法以及社区发现算法。
提取的网络特征如表2所示:
表2:企业关联关系表
研发创新能力特征如表3所示:
表3:研发创新能力类
(2)数据预处理模块:
对使用信用评分卡提取改非数据型数据的IV值(Information Value)、WOE、efficiency、rate作为模型新增的特征进行后续的处理。
企业数据中含有许多纯字符串格式的属性,例如企业类型,行业门类等特定长度代码型数据。也包含成立日期,核准日期等日期型数据。对于日期型数据,首先现对其进行转化,将其统一转化为秒单位的数值型数据,再将其转化为字符型格式。然后对全部的字符型变量进行转化,使其变成数值型数据,提取其IV值(Information Value)、WOE、efficiency、rate。
WOE、IV、Efficiency、rate的公式如下:
其中Good
(3)特征工程模块:
在特征工程环节,为了处理原始数据存在大量缺失值,且特征之间相关性过高等问题,首先需要对特征进行处理。主要步骤分为删除缺失值超过50%的特征、只含有唯一值的特征、和其他特征相关性高于60%的特征、在梯度增强器(gbm)中特征重要性为0.0的特征,从gbm中不贡献累积特征重要性99%的低重要性特征。
(4)分类模块:
该模块使用的是LightGBM算法,将特征工程模块处理过后的特征输入模型中即可得到分类结果,结果分类两种,违约与正常。由于LightGBM实际上采用的是基于决策树算法的梯度提升框架。因此LightGBM在训练过程中可以得到特征对于模型的重要性。特征的重要性程度能够作为评价不同特征对企业是否违约的影响程度。
通过上述步骤,通过自顶向下严格的概念定义限制和关系限制,并融合自底向上的方式扩充本体规模,极大提升了企业征信领域知识图谱本体的精确性,为之后生成高质量的知识图谱打下坚实基础,并且创新性的引入了企业研发创新能力特征作为风控模型的输入,提升了企业征信领域知识图谱本体的精确性,也提升了风控模型的性能。
为了实现上述实施例,如图8所示,本实施例中还提供了一种基于企业征信大数据知识图谱的企业风险检测装置10,该装置10包括:信息获取模块100,关系连接模块200,本体构建模块300,图谱构建模块400,计算分类模块500。
信息获取模块100,用于基于多个分散数据子域获得企业征信大数据统一信息模型;其中,企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构;
关系连接模块200,用于通过层次化关键人员架构的企业信息和层次化企业信息架构的企业人员信息,提取关键人物与企业之间的关系,以实现企业征信大数据跨域连接;
本体构建模块300,用于基于实现跨域连接的企业征信大数据统一信息模型,利用自顶向下方式确定企业征信大数据领域并构建第一企业征信大数据领域本体;以及通过自底向上的构建方式,对企业征信大数据领域中的数据进行实体抽取和关系抽取,选取优质新词并扩充第一企业征信大数据领域本体规模,以构建第二企业征信大数据领域本体;
图谱构建模块400,用于基于第二企业征信大数据领域本体,利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中;
计算分类模块500,用于利用企业征信大数据知识图谱进行企业特征数据获取,将获取的企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。
根据本发明实施例的基于企业征信大数据知识图谱的企业风险检测装置,通过自顶向下严格的概念定义限制和关系限制,并融合自底向上的方式扩充本体规模,极大提升了企业征信领域知识图谱本体的精确性,为之后生成高质量的知识图谱打下坚实基础,并且创新性的引入了企业研发创新能力特征作为风控模型的输入,提升了企业征信领域知识图谱本体的精确性,也提升了风控模型的性能。
需要说明的是,前述对基于企业征信大数据知识图谱的企业风险检测方法实施例的解释说明也适用于该实施例的基于企业征信大数据知识图谱的企业风险检测装置,此处不再赘述。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
机译: 利用基于大数据技术的企业新闻搜索技术预测企业信用风险的装置和方法
机译: 基于上下文的搜索引擎和企业知识管理的方法和装置
机译: 基于上下文的搜索引擎和企业知识管理的方法和装置