公开/公告号CN112288585A
专利类型发明专利
公开/公告日2021-01-29
原文格式PDF
申请/专利权人 中国人寿保险股份有限公司;
申请/专利号CN202011312384.2
申请日2020-11-20
分类号G06Q40/08(20120101);G06F16/28(20190101);G06F16/215(20190101);G06F16/2458(20190101);G06K9/62(20060101);
代理机构11403 北京风雅颂专利代理有限公司;
代理人李翔
地址 100033 北京市西城区金融大街16号
入库时间 2023-06-19 09:44:49
技术领域
本说明书一个或多个实施例涉及数据处理技术领域,尤其涉及一种保险业务精算数据处理方法、装置及电子设备。
背景技术
保险精算是指运用数学、统计学、金融学、保险学及人口学等学科的知识与与原理去解决商业保险与各种社会保障业务中的需要计算的项目,如死亡率的测定、生命表的构造、费率的匣定、准备金的计提以及业务盈余的分配等,以此保证保险经营的稳定性和安全性。
目前,对于保险中的短险精算数据的处理主要采用单线程逐单处理和人工处理进行数据的汇总,处理时间过长,从而导致数据汇总的效率低。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种保险业务精算数据处理方法、装置及电子设备,以解决短险精算中对于大数据处理时间长的问题。
基于上述目的,本说明书一个或多个实施例提供了一种保险业务精算数据处理方法,包括:
以预定格式从分布式面向列的数据库的表中读取保险业务数据,并将其转化成业务实体对象;
使用并行计算引擎对所述业务实体对象进行加工处理,得到精算指标;
根据预定检查规则,对所述业务实体对象的属性值进行合规性检查,并对所述合规性检查中发现的不合规的保险业务数据进行修复;
将通过所述合规性检查或经过修复的保险业务数据保存到基于分布式系统架构的数据仓库;
根据所述精算指标和所述数据仓库中保存的保险业务数据,进行保险业务精算和数据汇总。
作为一种可选的实施方式,所述分布式面向列的数据库为HBase数据库。
作为一种可选的实施方式,所述并行计算引擎为MapReduce或Spark计算引擎。
作为一种可选的实施方式,所述数据仓库为基于Hadoop的Hive库。
作为一种可选的实施方式,所述精算指标包括下列中至少一个:团体/个人标志、死亡保额、重疾保额、已决赔款和未决赔款。
作为一种可选的实施方式,对所述不合规的保险业务数据进行修复包括:利用预训练好的随机森林模型,对所述不合规的保险业务数据进行修复。
作为一种可选的实施方式,所述不合规的保险业务数据包括存在空白的必填信息栏或者填写内容的格式与信息栏的要求不符的保险业务数据。
作为一种可选的实施方式,所述不合规的保险业务数据包括生效日期和终止日期不适当的保险业务数据。
与所述获得方法相对应的,本发明实施例还提供了一种保险业务精算数据处理装置,包括:
读取模块,用于以预定格式从分布式面向列的数据库的表中读取保险业务数据,并将其转化成业务实体对象;
加工处理模块,用于使用并行计算引擎对所述业务实体对象进行加工处理,得到精算指标;
检查与修复模块,用于根据预定检查规则,对所述业务实体对象的属性值进行合规性检查,并对所述合规性检查中发现的不合规的保险业务数据进行修复;
存储模块,用于将通过所述合规性检查或经过修复的保险业务数据保存到基于分布式系统架构的数据仓库;
精算与汇总模块,用于根据所述精算指标和所述数据仓库中保存的保险业务数据,进行保险业务精算和数据汇总。
与上述获得方法相对应的,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。
从上面所述可以看出,本说明书一个或多个实施例提供的一种保险业务精算数据处理方法、装置及电子设备,通过从分布式的数据库中读取数据,并将其转化成业务实体对象,使用并行计算引擎对所述业务实体对象进行加工处理,相对于单线程处理效率有所提高,对于处理后的数据进行机器学习算法的检测和修复,对于数据的提取、检测和修复消耗的时间少,提高了数据汇总的效率。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例的保险业务精算数据处理方法的流程图;
图2为本说明书一个或多个实施例的保险业务精算数据处理装置的结构示意图;
图3为本说明书一个或多个实施例的电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本公开进一步详细说明。
为了实现上述发明目的,本发明实施例提供了一种保险业务精算数据处理方法,包括:
以预定格式从分布式面向列的数据库的表中读取保险业务数据,并将其转化成业务实体对象;
使用并行计算引擎对所述业务实体对象进行加工处理,得到精算指标;
根据预定检查规则,对所述业务实体对象的属性值进行合规性检查,并对所述合规性检查中发现的不合规的保险业务数据进行修复;
将通过所述合规性检查或经过修复的保险业务数据保存到基于分布式系统架构的数据仓库;
根据所述精算指标和所述数据仓库中保存的保险业务数据,进行保险业务精算和数据汇总。
本发明实施例中,针对保险业务数据,以预定格式对数据进行分布式的提取,并转化成实体对象,使用并行运算对实体对象进行加工处理,获得精算指标,根据预定规则对实体对象进行检测,对不合规的数据进行修复,将合规性数据或经过修复的数据保存到数据仓库,对于精算指标和数据仓库中保存的数据进行保险业务精算和数据汇总,获得数据汇总表。本发明实施例中,通过从分布式提取和并行计算处理,相对于单线程处理效率有所提高,对于处理后的数据进行机器学习算法的检测和修复,对于数据的提取、检测和修复消耗的时间少,提高了数据汇总的效率。
请参考图1,本发明实施例提供了一种保险业务精算数据处理方法,包括:
S100、以预定格式从分布式面向列的数据库的表中读取保险业务数据,并将其转化成业务实体对象。
作为一种可选的实施方式,所述分布式面向列的数据库为HBase数据库。
可选的,使用yaml从HBase数据库数据库中提取数据,并解析数据。
S200、使用并行计算引擎对所述业务实体对象进行加工处理,得到精算指标。
作为一种可选的实施方式,所述并行计算引擎为MapReduce或Spark计算引擎。
可选的,使用MapReduce进行处理,在Map阶段对于数据进行分类处理,每一类数据单独处理生成特定的指标,在Reduce阶段对于在Map阶段处理的结果进行汇总。
作为一种可选的实施方式,所述精算指标包括下列中至少一个:团体/个人标志、死亡保额、重疾保额、已决赔款和未决赔款。
S300、根据预定检查规则,对所述业务实体对象的属性值进行合规性检查,并对所述合规性检查中发现的不合规的保险业务数据进行修复。
作为一种可选的实施方式,所述不合规的保险业务数据包括存在空白的必填信息栏或者填写内容的格式与信息栏的要求不符的保险业务数据。
可选的,将保单的类型填写错误,将不同类型下的金额数混淆。
作为一种可选的实施方式,对所述不合规的保险业务数据进行修复包括:利用预训练好的随机森林模型,对所述不合规的保险业务数据进行修复。
作为一种可选的实施方式,所述不合规的保险业务数据包括生效日期和终止日期不适当的保险业务数据。
可选的,所述随机森林模型的生效日期模型的训练方法为:
获取训练集,所述训练集包括不含有生效日期且只有生效日期相关字段的数据和含有生效日期及相关字段的数据;
将所述训练集内的训练数据输入所述随机森林模型中,迭代计算,直至预测出的生效日期与实际生效日期的差值小于阈值;
获得训练好的生效日期随机森林模型。
可选的,所述随机森林模型的终止日期模型的训练方法为:
获取训练集,所述训练集包括不含有终止日期且只有终止日期相关字段的数据和含有终止日期及相关字段的数据;
将所述训练集内的训练数据输入所述随机森林模型中,迭代计算,直至预测出的终止日期与实际终止日期的差值小于阈值;
获得训练好的终止日期随机森林模型。
随机森林回归算法原理如下:
步骤1,从训练样本集S中随机抽取m个样本点,得到新的S1、S2、S3.......Sn子训练集。
步骤2,用子训练集训练CART回归树,这里在训练过程中,对每个节点的切分规则是先从所有特征中随机选取k个特征,然后在从这k个特征中选择最优的切分点再做左右子树的划分。
步骤3,根据第二步生成多个CART回归树模型。
步骤4,每一个CART回归树最终的预测结果为该样本点所到叶节点的均值。
步骤5,随机森林最终的预测结果为所有CART回归树预测结果的均值。
S400、将通过所述合规性检查或经过修复的保险业务数据保存到基于分布式系统架构的数据仓库。
作为一种可选的实施方式,所述数据仓库为基于Hadoop的Hive库。
通过hive数据仓库工具能够将结构化的数据文件映射为一张数据库表。
S500、根据所述精算指标和所述数据仓库中保存的保险业务数据,进行保险业务精算和数据汇总。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
基于上面所述的保险业务精算数据处理方法的任意一个实施例,本发明还提供一种保险业务精算数据处理装置,如图2所示,包括:
读取模块10,用于以预定格式从分布式面向列的数据库的表中读取保险业务数据,并将其转化成业务实体对象;
加工处理模块20,用于使用并行计算引擎对所述业务实体对象进行加工处理,得到精算指标;
检查与修复模块30,用于根据预定检查规则,对所述业务实体对象的属性值进行合规性检查,并对所述合规性检查中发现的不合规的保险业务数据进行修复;
存储模块40,用于将通过所述合规性检查或经过修复的保险业务数据保存到基于分布式系统架构的数据仓库;
精算与汇总模块50,用于根据所述精算指标和所述数据仓库中保存的保险业务数据,进行保险业务精算和数据汇总。
本发明实施例中,针对保险业务数据,以预定格式对数据进行分布式的提取,并转化成实体对象,使用并行运算对实体对象进行加工处理,获得精算指标,根据预定规则对实体对象进行检测,对不合规的数据进行修复,将合规性数据或经过修复的数据保存到数据仓库,对于精算指标和数据仓库中保存的数据进行保险业务精算和数据汇总,获得数据汇总表。本发明实施例中,通过从分布式提取和并行计算处理,相对于单线程处理效率有所提高,对于处理后的数据进行机器学习算法的检测和修复,对于数据的提取、检测和修复消耗的时间少,提高了数据汇总的效率。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
基于上面所述的保险业务精算数据处理方法的任意一个实施例,本发明还提供一种保险业务精算数据处理电子设备,如图3所示,包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
机译: 汽车保险业务的数据处理方法,装置和系统
机译: 保险业务数据处理方法,服务器和客户端
机译: 保险业务的数据处理方法