首页> 中国专利> 一种对具有套牌行为公司有效识别的方法

一种对具有套牌行为公司有效识别的方法

摘要

本申请提供了一种对套牌企业团伙进行有效识别的方法,该方法通过规则模型对套牌企业进行识别,同时构建企业关联信息的知识图谱,将套牌企业识别模型和知识图谱相似度结合起来,计算套牌企业与其他企业知识图谱各维度相似度,最后通过对相似度阈值筛选即可根据一个套牌企业找出该套牌企业所属套牌企业团伙。本申请的有益效果在于提供一种方便快捷且准确度较高的套牌企业团伙行为特征的评价识别模型,提升套牌团伙身份透明度,帮助金融机构提高防范洗钱风险、骗贷风险的能力和体系建设。

著录项

  • 公开/公告号CN112989067A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 杭州有数金融信息服务有限公司;

    申请/专利号CN202110324556.6

  • 发明设计人 唐杰;陈雨馨;徐超;梁协君;

    申请日2021-03-26

  • 分类号G06F16/36(20190101);G06Q10/06(20120101);

  • 代理机构11605 北京崇智知识产权代理有限公司;

  • 代理人马良

  • 地址 310000 浙江省杭州市江干区九环路九号4号楼8楼808室

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明涉及企业风控领域,尤其涉及对具有套牌企业团伙进行有效识别的方法。

背景技术

商事制度改革,促进了新设市场主体保持较快增长,企业注册手续的简化和银行开户的便捷,使得很多不法分子通过注册大量的空壳公司实施骗贷、洗钱等违法犯罪活动,隐藏了自己的真实身份,其涉及领域广泛,进而扰乱了经济秩序,危害了经济安全。其中有一种类型是“一套人马,多块牌子”,使用同一套身份信息注册多家空壳公司,开立多家银行账户,虚构多个投资项目,营造公司规模大、效益好的假象,进而非法吸收公共存款。

目前对于套牌企业识别的方法并不完善,主要集中在空壳公司的识别方法,对套牌类别的识别效果并不显著,此外在识别方法上主要是通过规则筛选,主观性较强,并且对那些刻意包装或隐藏其日常经营活动的企业无法进行有效的识别。

本申请在于将套牌企业识别模型和知识图谱相似度结合起来,通过一个套牌公司圈出与该套牌公司关联的套牌企业团伙。

发明内容

本发明针对企业风险识别而展开,提供了一种对具有套牌行为特征的企业团伙进行识别的方法。该方法通过特征筛选以及构建企业关联信息的知识图谱,对企业各维度数据进行深度挖掘和关联数据构建,增加了企业信息透明度,有效避免了套牌企业通过包装其生产经营数据进行非法吸收公共存款等行为。

为了实现以上目的,本发明提供了一种对具有套牌行为特征的企业进行识别的方法,所述方法具体步骤如下:

1.构建企业关联信息知识图谱。

企业关联知识图谱的构建由企业名作为本体,企业基本信息属性、经营活动属性和企业风险信息属性构成,这三种属性下有其对应子属性,其中企业基本信息包括企业成立日期、注册资本、注册地址、经营范围、企业所属行业,经营状态包括企业招聘数据、企业舆情数据、企业资产数据、企业资产负债率、企业投融资数量、企业发布专利数量、企业申请商标数量、企业缴纳社保情况、企业缴纳税费情况,企业风险信息包括企业企业涉诉数量、企业行政处罚数量、动产抵押信息。

企业知识谱图中基本信息属性、经营活动属性和企业风险信息属性中的子属性的信息通过爬虫技术从国家企业信用信息公示系统、司法数据(如开庭公告、执行被执行人、裁判文书、曝光台、立案信息等)和第三方信息平台爬取,数据爬取后将数据存储于Neo4j图数据库,构建了企业关联知识图谱。

2.构建套牌企业识别规则模型。

套牌企业识别规则模型的构建由企业经营状态指标、企业经营活动指标和企业风险信息三个维度度量。

企业基本信息选取企业缴纳税费情况和企业缴纳社保情况数据,根据其缴纳数额的具体数值与先定阈值进行比较,从而判断缴纳税费和缴纳社保情况是否异常。阈值的设定首先对企业注册资本和从业人数进行分类成大型、中型、小型、微型四个类型,然后将企业类型和所属行业进行分类,此时数据库里包含了所有企业实体,考虑选择3sigma法则去判断企业缴纳税费和缴纳社保的异常情况,其结果表示如下:

企业经营活动指标包括企业最新一次招聘时间、企业最近舆情发生时间、企业投融资数量、企业发布专利数量、企业申请商标数量,并将企业经营活动指标和时间颗粒度结合处理,企业风险指标包括企业涉诉数量、企业行政处罚数量、动产抵押信息,将企业经营活动指标和企业风险指标进行归一化处理。根据企业基本信息指标、企业经营活动指标、企业风险指标的重要性,给予其不同的权重,最后每个企业都会得到一个得分,给定一个阈值,将判断模型得分低于阈值的企业判定为套牌企业。整个识别模型事先流程化建模存储在计算机内,将待测试的企业特征输入模型后得出该企业是否为套牌企业的结果,命中套牌企业识别规则的企业进入下一步套牌企业团伙识别的处理,没有命中套牌企业识别规则的企业则可认定为不存在套牌企业团伙。

3.在企业关联知识图谱中搜索命中套牌企业,同时计算该套牌企业与其他企业图谱的相似度。

通过上步可以得到企业是否命中套牌企业,将命中套牌企业的企业名称放到图数据库中进行搜索得到该企业主体所有属性以及对应子属性。根据不同子属性的数据特征,选择不同的相似度计算方法,并根据属性的影响程度给结果一定的权重,并对结果整合,筛选出高于整体相似度阈值的企业,即可通过该套牌公司圈出该企业的所属套牌企业团体。

在子属性的选择上考虑所述套牌企业与关联企业高管的重合率、所述套牌企业与关联企业的注册时间差、所述套牌企业与关联企业的经营范围相似度、所述套牌企业与关联企业的注册地址相似度、所述套牌企业与关联企业的注册资本差。其中套牌企业与关联企业高管的重合率的计算方法为:

其中Q

附图说明

图1为方案具体实施流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

本实施例公开了一种对套牌企业团伙进行有效识别的方法,其步骤包括:

步骤101,通过爬虫技术从国家企业信用信息公示系统、司法数据(如开庭公告、执行被执行人、裁判文书、曝光台、立案信息等)和第三方信息平台爬取企业各维度数据,数据爬取后将数据存储于本地Neo4j图数据库,构建了企业关联知识图谱

企业关联知识图谱的构建由企业名作为本体,企业基本信息属性、经营活动属性和企业风险信息属性构成,这三种属性下有其对应子属性,其中企业基本信息包括企业成立日期、注册资本、注册地址、经营范围、企业所属行业,经营状态包括企业招聘数据、企业舆情数据、企业资产数据、企业资产负债率、企业投融资数量、企业发布专利数量、企业申请商标数量、企业缴纳社保情况、企业缴纳税费情况,企业风险信息包括企业企业涉诉数量、企业行政处罚数量、动产抵押信息。

步骤102,获取待识别企业的企业名。

步骤103,将待识别企业的企业名输入到套牌企业识别规则模型,检测待识别企业是否有套牌企业的嫌疑。

可选的,套牌企业识别规则模型由企业经营状态指标、企业经营活动指标和企业风险信息三个维度度量。企业基本信息选取企业缴纳税费情况和企业缴纳社保情况数据,根据其缴纳数额的具体数值与先定阈值进行比较,从而判断缴纳税费和缴纳社保情况是否异常,而阈值的设定考虑了企业所属行业、企业类型、企业注册资本和从业人数对其进行划分。

如待识别企业的从业人数和注册资本判断其类型是小型企业,并且该企业所属行业是互联网行业,通过3sigma法则去判断该企业的缴纳税费和缴纳社保情况是否在所有小型互联网企业缴纳税费和缴纳社保的正常范围之内,如果企业缴纳税费和缴纳社保情况正常给1,否则为0。

企业经营活动指标包括企业最新一次招聘时间、企业最近舆情发生时间、企业投融资数量、企业发布专利数量、企业申请商标数量,指标计算上可以选择多种计算方式,如最近一次招聘日期距离今天日期差、最近一次舆情日期与今天日期差、企业最近一年内的投融资数量等,并将结果进行归一化处理。

企业风险指标包括企业企业涉诉数量、企业行政处罚数量、动产抵押信息,将企业经营活动指标和企业风险指标进行归一化处理。根据企业基本信息指标、企业经营活动指标、企业风险指标的重要性,给予其不同的权重,在权重的选取上采用经验的方式以及结合数据质量的好坏程度。最后每个企业都会得到一个得分,给定一个阈值,将判断模型得分低于阈值的企业判定为套牌企业,命中套牌企业规则的企业进入步骤104。

步骤104,将命中套牌规则的企业名在图数据库中进行搜索。通过知识图谱中各维度相似度筛选与该套牌企业相似度高的企业,将这些企业打上套牌企业团伙的标签。

可选的,知识图谱各维度的相似度筛选上,其维度特征可以选择命中套牌规则企业与本地数据库中关联企业高管的重合率、命中套牌规则企业与其关联的注册时间差、所述套牌企业与关联企业的经营范围相似度、所述套牌企业与关联企业的注册地址相似度、所述套牌企业与关联企业的注册资本差。而关联企业的查找方法可以通过该企业直接/间接控股的企业,高管直接/间接控股或任职的企业等方式进行挖掘。

其中,套牌企业与关联企业高管的重合率的计算方法选择:

其中Q

可选的,计算套牌企业与关联企业的注册地址相似度首先通过对企业地址数据进行规则化处理,将其省市县区补全,并通过geohash算法计算地址的距离G

对阈值以上的企业与已检测为套牌企业的企业共同构成套牌企业团伙,这样就通过对一个套牌企业的识别从而筛选出该套牌企业所属套牌企业团伙。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号