首页> 中国专利> 一种基于大数据的金融风控数据分析系统

一种基于大数据的金融风控数据分析系统

摘要

本发明公开了一种基于大数据的金融风控数据分析系统,包括智能采集单元、信息存储单元、数据分析单元和数据应用单元,于互联网大数据中采集非结构化、半结构化的数据信息,将其存储、统一并转化成结构化的、可用于对比分析的信息数据,支持对采集信息的自动相关性过滤及结果展示,实现对元数据管理,数据标准及模型管理,依次消除信息二次加工的繁琐及非结构化信息的歧义,能有效地管理金融信用数据,为业务人员在客户的精准营销、尽职调查、贷后管理等环节提供工具支持,为授信额度提供有力地信息依据。

著录项

  • 公开/公告号CN112966024A

    专利类型发明专利

  • 公开/公告日2021-06-15

    原文格式PDF

  • 申请/专利号CN202110272719.0

  • 发明设计人 言骏飞;郭毅可;

    申请日2021-03-12

  • 分类号G06F16/2458(20190101);G06F16/248(20190101);G06Q40/02(20120101);

  • 代理机构44652 广东雅商律师事务所;

  • 代理人王向东

  • 地址 210001 江苏省南京市秦淮区光华路162号白下高新技术产业园区综合研发楼6楼

  • 入库时间 2023-06-19 11:26:00

说明书

技术领域

本发明涉及一种金融信息数据管理系统,特别是一种基于大数据的金融风控数据分析系统。

背景技术

目前,金融领域的应用趋向数据信息化、结构化,而对于客户授信额度的信用评测同样是以客户大量的个人信息为评测基础,就当前而言,越来越多的金融网络平台、终端金融软件应运而生,令网络中产生大量的数据信息,如何利用这些金融数据作客户的风控评测是金融业内需要考虑的技术问题。

发明内容

为了克服现有技术的不足,本发明提供一种结构化、集成化的基于大数据的金融风控数据分析系统。

本发明解决其技术问题所采用的技术方案是:

一种基于大数据的金融风控数据分析系统,其特征在于它包括:

智能采集单元:用于采集贷款企业信息和贷款个人信息,该单元通过直连接口以及大数据接口分别对接Oracle数据库和Hadoop平台,实现数据的获取与采集。

信息存储单元:包括识别特征和信息数据库,用于读取、标记和分类存储智能采集单元采集的贷款企业信息和贷款个人信息,对贷款企业信息和贷款个人信息包含的所有结构化数据、半结构化数据以及非结构化数据进行结构化分层处理,达到对不同结构的数据源进行统一管理。

识别特征:包括个人信息特征、消费信息特征、社会地位信息特征、社交关系信息特征和信用信息特征。可实现对数据进行标准化及主题分类,结果是业务人员可理解的数据层。

信息数据库:包括基础数据层、数据整合层、数据拆分层和数据统计层。该层是实现对信息的血统分析功能的基础,包括:数据分析、跟踪和展现。

数据分析单元:用于接收分析指令,基于采集到的数据,通过分析数据之间的关系,以图形或网状图的方式直观的展现指定实体对全局的影响,如某特征或参数的变更将如何影响个人分析结果。另一方面,可以根据分析指令调用查询工具对信息数据库进行查询,并生成数据分析报表。

数据应用单元:用于输入分析指令以及接收数据分析单元发送的数据分析报表并输出。该输出以树形结构直观的展示元数据及分析数据之间的上下级关系,用户可直观了解数据的来源、相关关系和分析结果。

信息系统工作方式如下:

(1)、智能采集单元通过爬虫工具或ETL工具采集互联网上的贷款企业信息和贷款个人信息,并发送至信息存储单元。

(2)、信息存储单元的信息数据库接收贷款企业信息和贷款个人信息后放置在基础数据层。

(3)、基础数据层将接收贷款企业信息和贷款个人信息,完成对数据的相关性过滤及初步结构化处理,并发送至数据整合层。

(4)、数据整合层调用单个或多个识别特征对贷款企业信息和贷款个人信息进行主题域内的特征识别、分类,生成主题数据后发送至数据拆分层。

(5)、数据拆分层调用单个或多个识别特征对主题数据进行业务拆分,形成结构数据。

(6)、数据应用单元分别向数据分析单元和数据统计层传递分析指令,数据统计层根据分析指令内的应用需求对结构数据进行关联统计,形成需求数据。

(7)、数据分析单元根据分析指令调用查询工具,以需求数据为基础生成数据分析报表,并发送至数据应用单元进行报表输出。

所述智能采集单元采集数据的方式包括全量抽取和增量抽取,两者之间的切换指标为万份级。

所述个人信息特征包括姓名、性别、出生年、家庭住址和家庭结构。

所述消费信息特征包括消费能力、购买渠道、消费频率和资金用途。

所述社会地位信息特征包括现任职位、工作年限社会声誉、薪资水平和财产结构。

所述社交关系信息特征包括关联企业和关联账户。

所述信用信息特征包括存续期、贷款频次、信用卡数量和违约记录。

所述查询工具为hIve工具。

本发明的有益效果是:本发明于互联网大数据中采集非结构化、半结构化的数据信息,将其存储、统一并转化成结构化的、可用于对比分析的信息数据,依次消除信息二次加工的繁琐及非结构化信息的歧义,能有效地管理金融信用数据,为业务人员在客户的精准营销、尽职调查、贷后管理等环节提供工具支持,为授信额度提供有力地信息依据。

具体实施方式

一种基于大数据的金融风控数据分析系统,包括:

智能采集单元:用于采集贷款企业信息和贷款个人信息,该单元通过直连接口以及大数据接口分别对接Oracle数据库和Hadoop平台,实现数据的获取与采集。

信息存储单元:包括识别特征和信息数据库,用于接收和划分存储智能采集单元采集的贷款企业信息和贷款个人信息,对贷款企业信息和贷款个人信息包含的所有结构化数据、半结构化数据以及非结构化数据(即杂乱数据)进行结构化分层处理,达到对不同结构的数据源进行统一管理。

识别特征/设置参数:包括个人信息特征、消费信息特征、社会地位信息特征、社交关系信息特征和信用信息特征,可实现对数据进行标准化及主题分类,结果是业务人员可理解的数据层。

信息数据库:包括基础数据层、数据整合层、数据拆分层和数据统计层;该层是实现对信息的血统分析功能的基础,包括:数据分析、跟踪和展现。

数据分析单元:用于接收分析指令,基于采集到的数据,通过分析数据之间的关系,以图形或网状图的方式直观的展现指定实体对全局的影响,如某特征或参数的变更将如何影响个人分析结果。另一方面,可以根据分析指令调用查询工具对信息数据库进行查询,并生成数据分析报表。

数据应用单元:用于输入分析指令以及接收数据分析单元发送的数据分析报表并输出,该输出以树形结构直观的展示元数据及分析数据之间的上下级关系,用户可直观了解数据的来源、相关关系和分析结果。

所述个人信息特征包括姓名、性别、出生年、家庭住址和家庭结构。

所述消费信息特征包括消费能力、购买渠道、消费频率和资金用途。

所述社会地位信息特征包括现任职位、工作年限社会声誉、薪资水平和财产结构。

所述社交关系信息特征包括关联企业和关联账户。

所述信用信息特征包括存续期、贷款频次、信用卡数量和违约记录。

本系统以大数据为基础(数据源为金融软件、经济网站、金融网站等)、机器学习及人工智能技术解决金融科技行业中大数据风控及大数据时代的个人征信的问题;利用对互联网大数据中的用户行为数据、用户消费数据、用户地理位置数据、互联网金融数据、用户社交等的数据搜集,构建金融知识图谱,以用来管理金融信用数据,为业务人员在客户的精准营销、尽职调查、贷后管理等环节提供工具支持。

信息系统工作方式如下:

(1)、智能采集单元通过公开的爬虫工具(如八爪鱼、集搜客)、API技术或ETL工具采集互联网上的贷款企业信息和贷款个人信息(支持图片、音频、视频等文件或附件的采集,附件与正文可以互相关联,能剔除清洗无关数据),也设置有直连接口和大数据接口,可对接Oracle数据库和Hadoop平台获取数据,并发送至信息存储单元,所述智能采集单元采集数据的方式包括全量抽取和增量抽取,两者之间的切换指标为万份级,即数据量为万份级以下的采集数据智能采集单元采用全量抽取方式,反之采用增量抽取,确保采集准确性的同时能有效地降低系统得数据处理压力。

(2)、信息存储单元的信息数据库接收贷款企业信息和贷款个人信息后放置在基础数据层。

(3)、基础数据层将接收的贷款企业信息和贷款个人信息,完成对数据的相关性过滤及初步结构化处理,并发送至数据整合层,可能存在以下数据内容:姓名、性别、出生年、联系方式、个人证件照、婚姻状况、消费能力、消费频率、购买渠道等、资金用途、现任职位、工作年限社会声誉、薪资水平、财产结构、关联企业、关联账户、存续期、贷款频次、信用卡数量、违约记录…。

(4)、数据整合层调用单个或多个识别特征对贷款企业信息和贷款个人信息进行主题域内的特征识别、分类,生成主题数据后发送至数据拆分层;如银行消费金融贷款中,记录有数据一:姓名、性别、出生年、家庭住址和家庭结构;数据二:消费能力、购买渠道和消费频率,则数据一被分为个人信息特征中;而对于步骤三所列举的数据被合并处理为个人消费者贷款信息:姓名,性别,出生年,联系方式,个人证件照,婚姻状况,消费能力,消费频率,购买渠道等,资金用途,现任职位,工作年限社会声誉,薪资水平,财产结构,联企业;关联账户,存续期,贷款频次,信用卡数量,是否发生过违约。

(5)、数据拆分层调用单个或多个识别特征对主题数据进行业务拆分,形成结构数据,对上步骤的数据进一步处理拆分以缓解后续计算压力,如姓名、性别、出生年、联系方式、个人证件照、婚姻状况…(个人信息);消费能力、消费频率、购买渠道等、资金用途…(消费信息);现任职位、工作年限社会声誉、薪资水平、财产结构…(社会地位信息);关联企业、关联账户…(社交关系信息);存续期、贷款频次、信用卡数量、违约记录…(信用信息)

(6)、数据应用单元分别向数据分析单元和数据统计层传递分析指令,数据统计层根据分析指令内的应用需求对结构数据进行关联统计,形成需求数据。

(7)、数据分析单元根据分析指令调用查询工具,以需求数据为基础生成数据分析报表,并发送至数据应用单元进行报表输出,为消费者进行应用信用评分时,将信息数据库所有信息进行关联统计,选取关联业务(如关联风险识别业务),统计个人消费者关联信息,与社会地位信息及社交关系信息关联统计,进行分析,通过这样的方式,将大量的数据进行关联,便可以解决不同场景的多种业务,也可以得到个人消费者金融的信息图谱,基于此金融信息图谱,便可对个人消费者的信用信息进行追踪审查,保障贷款安全,企业贷款信息则同理。

所述个人信息特征包括姓名、性别、出生年、家庭住址和家庭结构;所述消费信息特征包括消费能力、购买渠道、消费频率和资金用途;所述社会地位信息特征包括现任职位、工作年限社会声誉、薪资水平和财产结构;所述社交关系信息特征包括关联企业和关联账户;所述信用信息特征包括存续期、贷款频次、信用卡数量和违约记录。

在本系统中,以linuxCentos7.3.1611作为系统环境,采用hadoop构建数据库,所述查询工具为hIve工具,用于对数据库进行管理,可以将结构化的数据文件映射为一张数据库表,并提供查询功能,可将语句转换为任务进行运行(hIve工具为hadoop的一个数据仓库辅助工具,为现有技术,不再作具体说明);整个系统于互联网大数据中采集非结构化、半结构化的数据信息,将其存储、统一并转化成结构化的、可用于对比分析的信息数据,依次消除信息二次加工的繁琐及非结构化信息的歧义,为授信额度提供有力地信息依据,通过申请数据和申请过程识别欺诈行为,通过社交网络关联挖掘失联人,检测关键指标预警财务运营状况。

以上的实施方式不能限定本发明创造的保护范围,专业技术领域的人员在不脱离本发明创造整体构思的情况下,所做的均等修饰与变化,均仍属于本发明创造涵盖的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号