首页> 中国专利> 一种车辆保险电子保单文本识别和抽取方法及系统

一种车辆保险电子保单文本识别和抽取方法及系统

摘要

本发明提出了一种车辆保险电子保单文本识别和抽取方法及系统,涉及数字图像处理技术领域。一种车辆保险电子保单文本识别和抽取方法包括:构建保险行业车辆保险电子保单数据模型库;在数据模型库中抽取PDF文件中每个字符的坐标并进行处理,得到文本数据;对文本数据进行过滤,获得出车辆保险电子保单;匹配车辆保险电子保单待抽取数据集,根据解析模型提取车辆保险电子保单上的数据信息;输出结构化数据并写入可编辑文档。其能够对保险行业非车辆保险的电子保单进行提取,应用更加广泛。此外本发明还提出了一种车辆保险电子保单文本识别和抽取系统,包括:构建数据库模块、抽取模块、过滤模块、处理模块及输出模块。

著录项

  • 公开/公告号CN112906352A

    专利类型发明专利

  • 公开/公告日2021-06-04

    原文格式PDF

  • 申请/专利权人 道和云科技(天津)有限公司;

    申请/专利号CN202110247927.5

  • 申请日2021-03-06

  • 分类号G06F40/151(20200101);G06F40/103(20200101);G06F40/111(20200101);G06F40/126(20200101);

  • 代理机构51308 成都鱼爪智云知识产权代理有限公司;

  • 代理人代述波

  • 地址 300000 天津市滨海新区天津自贸试验区(东疆保税港区)重庆道以南呼伦贝尔路以西铭海中心5号楼-4、10-707(天津东疆商服商务秘书服务有限公司滨海新区分公司托管第1696号)

  • 入库时间 2023-06-19 11:14:36

说明书

技术领域

本发明涉及数字图像处理技术领域,具体而言,涉及一种车辆保险电子保单文本识别和抽取方法及系统。

背景技术

PDF(Portable Document Format,便携式文档格式)文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,其具有跨平台、高集成度和高安全性等优点。保险行业在电子化过程中,车辆保险电子保单都是采用PDF文件格式进行生成和存储。在很多情况下,我们需要从这些文档中提取保单数据信息进行统计和分析,从PDF格式文档中不能方便的将数据信息转化成可读写的信息。

现有技术中,有一些通用的PDF信息提取技术,比如通过对PDF中单元格数据进行提取,或者对指定位置的数据进行提取等。但是由于保险行业车辆保险电子保单具备明显的行业特征,电子保单数据属性、数据格式、数据内容具有业务特征和规律,但是其PDF样式多样,既有采用表格样式显示保单数据,也有采用流式布局依次显示保单数据的,通用的PDF信息提取技术不能满足保险行业车辆保险电子保单的提取需求。

发明内容

本发明的目的在于提供一种车辆保险电子保单文本识别和抽取方法,其能够使车辆保险电子保单提取准确率高,能够对保险行业所有的车辆保险电子保单进行识别和抽取,且能够对保险行业非车辆保险的电子保单进行提取,应用更加广泛。

本发明的另一目的在于提供一种车辆保险电子保单文本识别和抽取系统,其能够运行一种车辆保险电子保单文本识别和抽取方法。

本发明的实施例是这样实现的:

第一方面,本申请实施例提供一种车辆保险电子保单文本识别和抽取方法,其包括构建保险行业车辆保险电子保单数据模型库;在数据模型库中抽取PDF文件中每个字符的坐标并进行处理,得到文本数据;对文本数据进行过滤,获得出车辆保险电子保单;匹配车辆保险电子保单待抽取数据集,根据解析模型提取车辆保险电子保单上的数据信息;输出结构化数据并写入可编辑文档。

在本发明的一些实施例中,上述构建保险行业车辆保险电子保单数据模型库包括:训练并建立预设规则库、建立保险公司车辆保险产品数据集,训练并建立保险公司车辆保险产品数据解析模型库。

在本发明的一些实施例中,上述在数据模型库中抽取PDF文件中每个字符的坐标并进行处理,得到文本数据包括:对PDF文档中包含的内容进行解析生成PDF区块信息;通过预设坐标偏差阈值,将相同或相近横坐标的单字信息组合成一行文本,以及生成文本的纵向起始坐标、横向坐标。

在本发明的一些实施例中,上述对文本数据进行过滤,获得出车辆保险电子保单包括:根据预先训练并建立的预设规则库,采用排除法,排除车辆保险电子批单、电子标志、电子发票,采用匹配法,识别出车辆保险电子保单。

在本发明的一些实施例中,上述匹配车辆保险电子保单待抽取数据集,根据解析模型提取车辆保险电子保单上的数据信息包括:根据预先训练并建立的预设规则库,识别出保险公司、保险公司的车辆保险产品,根据保险公司和保险公司车辆保险产品,提取保险公司车辆保险产品数据集;根据预先训练并建立的保险公司车辆保险产品解析模型库,对保险公司车辆保险产品数据集中的数据依次解析并提取车辆保险电子保单上的数据。

在本发明的一些实施例中,上述还包括:通过数据定位获取文本模型,得到包含数据的文本集合并将文本集合按照纵向起始坐标,依序组合为一个文本信息;通过数据截取模型截取文本信息,得到数据项的值的文本信息;通过数据格式化模型格式化数据项的值的文本信息,得到格式化后的数据项值。

在本发明的一些实施例中,上述过数据定位获取文本模型,得到包含数据的文本集合并将文本集合按照纵向起始坐标,依序组合为一个文本信息包括:定位获取文本模型由多个定位获取文本函数组成,多个定位获取文本函数按照顺序执行,完成数据定位。

在本发明的一些实施例中,上述通过数据截取模型截取文本信息,得到数据项的值的文本信息包括:数据截取模型由多个数据截取函数组成,多个数据截取函数按照顺序执行,完成数据截取。

第二方面,本申请实施例提供一种车辆保险电子保单文本识别和抽取系统,其包括构建数据库模块,用于构建保险行业车辆保险电子保单数据模型库;

抽取模块,用于在数据模型库中抽取PDF文件中每个字符的坐标并进行处理,得到文本数据;

过滤模块,用于对文本数据进行过滤,获得出车辆保险电子保单;

处理模块,用于匹配车辆保险电子保单待抽取数据集,根据解析模型提取车辆保险电子保单上的数据信息;

输出模块,用于输出结构化数据并写入可编辑文档。

在本发明的一些实施例中,上述包括:用于存储计算机指令的至少一个存储器;与上述存储器通讯的至少一个处理器,其中当上述至少一个处理器执行上述计算机指令时,上述至少一个处理器使上述系统执行:构建数据库模块、抽取模块、过滤模块、处理模块及输出模块。

相对于现有技术,本发明的实施例至少具有如下优点或有益效果:

其能够使车辆保险电子保单提取准确率高,能够对保险行业所有的车辆保险电子保单进行识别和抽取,且能够对保险行业非车辆保险的电子保单进行提取,应用更加广泛。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种车辆保险电子保单文本识别和抽取方法步骤示意图;

图2为本发明实施例提供的PDF区块信息示意图;

图3为本发明实施例提供的一种车辆保险电子保单文本识别和抽取系统模块示意图。

图标:10-构建数据库模块;20-抽取模块;30-过滤模块;40-处理模块;50-输出模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是,在本文中,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1和图2,图1为本发明实施例提供的一种车辆保险电子保单文本识别和抽取方法步骤示意图,其如下所示:

步骤S100,构建保险行业车辆保险电子保单数据模型库;

具体的,训练并建立车辆保险电子保单文档识别规则库,训练并建立保险公司识别规则库,训练并建立保险公司车辆保险产品识别规则库,建立保险公司车辆保险产品数据集,训练并建立保险公司车辆保险产品数据解析模型库,解析模型包括数据定位模型、数据截取模型、数据格式化模型。

步骤S110,在数据模型库中抽取PDF文件中每个字符的坐标并进行处理,得到文本数据;

具体的,采用PDF文档解析工具,对PDF文档中包含的内容进行解析,生成PDF区块信息;其中,PDF区块信息包括:单字信息、坐标信息;通过预设坐标偏差阈值,将相同或相近横坐标的单字信息组合成一行文本,以及生成文本的纵向起始坐标、横向坐标。

在一些实施方式中,对PDF文档中包含的内容进行解析,生成PDF区块信息;其中,PDF区块信息包括:单字信息、坐标信息,如图2所示。通过预设坐标偏差阈值,将相同或相近横坐标的单字信息组合成一行文本,以及生成文本的纵向起始坐标、横向坐标;如下所示:

{

"top":202.15,

"left":44.63,

"width":128.690002441406,

"height":4.48000001907349,

"text":"被保险人卢瑞瑞"

}

步骤S120,对文本数据进行过滤,获得出车辆保险电子保单;

具体的,根据预先训练并建立的车辆保险电子保单文档识别规则库,采用排除法,排除车辆保险电子批单、电子标志、电子发票。根据预先训练并建立的车辆保险电子保单文档识别规则库,采用匹配法,识别出车辆保险电子保单,剩余情况,为未识别出PDF文档类型。

在一些实施方式中,根据预先训练并建立的车辆保险电子保单文档识别规则库,采用排除法,排除车辆保险电子批单、电子标志、电子发票;

对于pdf解析出的文本字样不包含“中国银行保险监督管理委员会监制”的,进行排除;

对于pdf解析出的文本字样存在“电子批单”、“电子标志”、“增值税电子发票”的,进行排除;

对于pdf解析出来的文本行数少于10行的,进行排除;

根据预先训练并建立的车辆保险电子保单文档识别规则库,采用匹配法,识别出车辆保险电子保单;

对于pdf解析出来的文本行数,大于10行,且包含“中国银行保险监督管理委员会监制”,且包含“保单号”,则识别为车辆保单电子保单。

步骤S130,匹配车辆保险电子保单待抽取数据集,根据解析模型提取车辆保险电子保单上的数据信息;在一些实施方式中,

具体的,根据预先训练并建立的保险公司识别规则库,识别出保险公司;

根据预先训练并建立的保险公司车辆保险产品识别规则库,识别出保险公司的车辆保险产品;

根据保险公司和保险公司车辆保险产品,提取保险公司车辆保险产品数据集;

对保险公司车辆保险产品数据集中每一项数据,根据预先训练并建立的保险公司车辆保险产品解析模型库,依次解析并提取出车辆保险电子保单上的数据。

具体的,先通过数据定位获取文本模型,得到包含数据的文本集合,并将文本集合按照纵向起始坐标,依序组合为一个文本信息。

在一些实施方式中,定位获取文本模型由多个定位获取文本函数组成,多个定位获取文本函数按照顺序执行,完成数据定位。定位函数包括但不限于:包含字符串,包含并且不包含,包含多个字符串,获取前几行的文本,获取后几行的文本,取定位行后指定的行数据,取定位行前指定的行数据,获取当前行和以当前行为起点向上或向下获取指定行数据并可以指定多行。

具体的,然后通过数据截取模型,对上述文本信息进行截取,得到数据项的值的文本信息。

在一些实施方式中,数据截取模型由多个数据截取函数组成,多个数据截取函数按照顺序执行,完成数据截取。数据截取函数包括但不限于:截取指定字符串到结尾,截取两个字符串之间的值,分割并对分割后的数据按照下标排序,替换指定字符为空字符串,替换指定字符为另一串字符串,分割并取最后一段字符,不分割返回定位行的整行数据,从开始位置截取指定长度字符串,截取后的值是否包含指定字符,校验截取后的字符长度是否符合标准,截取后判断是否不包含汉字和汉字符号,截取后判断是否不包含数字,截取后判断是否不包含字母A-Za-z,截取后判断是否不包含字母A-Za-z或者数字,倒叙截取指定长度,从指定位置向前截取指定长度的字符串。

具体的,最后通过数据格式化模型,对数据项的值的文本信息进行格式化,得到格式化后的数据项值。

在一些实施方式中,数据格式化模型由多个数据格式化函数组成,多个数据格式化函数按照顺序执行,完成数据格式化。数据格式化函数包括但不限于:去两头空格且校验是否以某个字符串开头,去两头空格且校验是否以某个字符串结尾,去所有空格且校验长度,将字符串前后以及中间位置的空格替换掉,格式化日期相关字段,格式化数值类型数据,去所有空格后转换为数字,乘法,除法,去两头空格,去除中文和中文符号,将中文金额转换成数字金额,去除数字中其他字符,只保留数字的字符,去除数字,字母以外其他字符和符号。

在一些实施方式中,根据预先训练并建立的保险公司识别规则库,识别出保险公司;通过关键字匹配,比如保险公司名称、简称、官方网站、客服网站、客服电话等,识别保险公司。

根据预先训练并建立的保险公司车辆保险产品识别规则库,识别出保险公司的车辆保险产品;根据保单号进行规则解析,得到车辆保险产品。或者枚举该保险公司的车辆保险产品名称,和电子保单提取的文本进行匹配,确定车辆保险产品。

根据保险公司和保险公司车辆保险产品,提取保险公司车辆保险产品数据集,结构如下:保单数据项名称、定位获取文本函数集合、数据截取函数集合、数据格式化函数集合。

在一些实施方式中,以提取车辆保险电子保单上的“保费”为例:

先通过数据定位模型,得到包含数据的文本集合:“保险费合计(人民币大写):陆佰陆拾伍元整(¥:665.00元)其中救助基金(%)¥:元”;

然后通过数据截取模型,对上述文本信息进行截取,得到数据项的值的文本信息:“陆佰陆拾伍元整”;

最后通过数据格式化模型,对数据项的值的文本信息进行格式化,得到格式化后的数据项值:“665.00”。

步骤S140,输出结构化数据并写入可编辑文档。

具体的,结构化数据是由数据项、数据项值组成的二维数组形式。通过编码技术,将车辆保险电子保单解析出来的结构化数据写入到所述可编辑文档中。

在一些实施方式中,以json格式,将结构化数据写入txt文档中:

{

"保单号":"1265405072020009747",

"保险产品":"机动车交通事故责任强制保险",

"投保人":"卢瑞瑞",

"被保险人":"卢瑞瑞",

"保费":"665.00"

}

实施例2

请参阅图3,图3为本发明实施例提供的一种车辆保险电子保单文本识别和抽取系统模块示意图,其如下所示:

构建数据库模块10,用于构建保险行业车辆保险电子保单数据模型库;

抽取模块20,用于在数据模型库中抽取PDF文件中每个字符的坐标并进行处理,得到文本数据;

过滤模块30,用于对文本数据进行过滤,获得出车辆保险电子保单;

处理模块40,用于匹配车辆保险电子保单待抽取数据集,根据解析模型提取车辆保险电子保单上的数据信息;

输出模块50,用于输出结构化数据并写入可编辑文档。

还包括存储器、处理器和通信接口,该存储器、处理器和通信接口相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器可用于存储软件程序及模块,处理器通过执行存储在存储器内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口可用于与其他节点设备进行信令或数据的通信。

其中,存储器可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。

处理器可以是一种集成电路芯片,具有信号处理能力。该处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解,图3所示的结构仅为示意还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述,本申请实施例提供的一种车辆保险电子保单文本识别和抽取方法及系统,其能够使车辆保险电子保单提取准确率高,能够对保险行业所有的车辆保险电子保单进行识别和抽取,且能够对保险行业非车辆保险的电子保单进行提取,应用更加广泛。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号