首页> 中国专利> 字库更新方法、身份识别方法、装置及电子设备

字库更新方法、身份识别方法、装置及电子设备

摘要

本申请提供了一种字库更新方法、身份识别方法、装置及电子设备,应用于计算机技术领域,其中该方法当目标文字编码不属于编码库范围,基于目标文字图形以及所述证件的目标文字编码更新编码库以及目标字库,从而实现了字库扩展,进而解决因字体图形库对生僻字图像不完整、字码不一致问题,导致不能识别证件中的字体,影响生僻字客户开展金融业务的问题。

著录项

  • 公开/公告号CN112800240A

    专利类型发明专利

  • 公开/公告日2021-05-14

    原文格式PDF

  • 申请/专利权人 中信银行股份有限公司;

    申请/专利号CN202110090591.6

  • 发明设计人 刘伟韡;孙炎森;徐晓剑;马良有;

    申请日2021-01-22

  • 分类号G06F16/36(20190101);G06F40/126(20200101);G06K9/00(20060101);G06F21/31(20130101);

  • 代理机构11354 北京市兰台律师事务所;

  • 代理人张峰

  • 地址 100020 北京市朝阳区光华路10号1号楼中信大厦20层

  • 入库时间 2023-06-19 10:58:46

说明书

技术领域

本申请涉及计算机技术领域,具体而言,本申请涉及一种字库更新方法、身份识别方法、装置及电子设备。

背景技术

随着OCR技术的发展,因为其能迅速将印刷字识别为电脑可识别的字符,提升了信息识别、交互的速度,其应用领域越来越广泛。超过6000 万人的名字中使用了生僻汉字,大量的港澳台地区用户,名字中包含繁体字和异形字。

然而,ORC在生僻字识别方面,由于生僻字图形较为冷僻,且数量众多,因此对于生僻字证件的识别和比对,一直存在识别差、识别错和不能识别的问题;国内字符的统一编码管理较为分散,没有统一的国家标准,仅有部分技术规范指导文档。由相关部门等权威机构发布的证件,存在一字多码(一个字体图形,多个编码)的情况。如何有效识别证件中的冷僻字成为了问题。

发明内容

本申请提供了一种字库更新方法、身份识别方法、装置及电子设备,将确定的冷僻字更新字库,从而后续能够有效识别该些冷僻字,本申请采用的技术方案如下:

第一方面,提供了一种字库更新方法,包括:

确定证件的目标文字图形以及所述证件的目标文字编码,所述目标文字编码通过对所述目标文字图形进行OCR识别得到;

判断所述目标文字编码是否属于编码库范围;

如果所述目标文字编码不属于编码库范围,则基于所述目标文字编码更新所述编码库以及基于所述证件的目标文字图形更新目标字库;

建立所述编码库中目标文字编码与目标字库中目标文字图形的关联关系。

可选地,基于所述证件的目标文字图形更新目标字库,包括:

判断所述证件的目标文字图形是否属于所述目标字库;

如果所述证件的目标文字图形不属于所述目标字库,则将所述证件的目标文字图形添加至目标字库。

可选地,该方法还包括:

如果所述证件的目标文字图形属于所述目标字库,则不用所述证件的目标文字图形替换所述目标字库的原文字图形;

所述建立所述编码库中目标文字编码与目标字库中目标文字图形的链接,包括:

建立所述目标字库中原目标文字图形与更新后的编码库中目标文字编码的映射关系。

可选地,该方法还包括:

如果所述证件的目标文字图形属于所述目标字库,则确定所述证件的目标文字图形为一字多码,并基于所述目标文字编码更新一字多码库。

可选地,所述基于所述目标文字编码更新一字多码库,包括:

将目标字库中目标文字图形对应的原始文字编码以及所述目标文字编码添加至一字多码库,并建立两者的关联关系。

第二方面,提供了一种身份识别方法,包括:

确定目标对象的证件的文字图形及第一文字编码;

将所述目标对象的证件的文字图形及第一文字编码发送至相关部门的身份校验系统进行身份校验;

如果校验失败,则基于一字多码库判断所述目标对象的证件的文字图形是否属于一字多码;

如果所述目标对象的证件的文字图形属于一字多码,则从所述一字多码库中确定一个与所述目标对象的证件的文字图形对应的第二文字编码;

将所述目标对象的证件的文字图形及所述第二文字编码发送至相关部门的身份校验系统进行身份校验。

可选地,该方法包括:

如果基于目标对象的证件的文字图形及所述第二文字编码校验失败,则从所述一字多码库中确定一个与所述目标对象的证件的文字图形对应的第三文字编码;

将所述目标对象的证件的文字图形及所述第三文字编码发送至相关部门的身份校验系统进行身份校验。

第三方面,提供了一种一种字库更新装置,其特征在于,包括:

第一确定模块,用于确定证件的目标文字图形以及所述证件的目标文字编码,所述目标文字编码通过对所述目标文字图形进行OCR识别得到;

第一判断模块,用于判断所述目标文字编码是否属于编码库范围;

第一更新模块,用于如果所述目标文字编码不属于编码库范围,则基于所述目标文字编码更新所述编码库以及基于所述证件的目标文字图形更新目标字库;

建立模块,用于建立所述编码库中目标文字编码与目标字库中目标文字图形的关联关系。

可选地,所述第一更新模块包括:

判断单元,用于判断所述证件的目标文字图形是否属于所述目标字库;

添加单元,用于如果所述证件的目标文字图形不属于所述目标字库,则将所述证件的目标文字图形添加至目标字库。

可选地,所述第一更新模块,用于如果所述证件的目标文字图形属于所述目标字库,则不用所述证件的目标文字图形替换所述目标字库的原文字图形;

所述建立模块,用于建立所述目标字库中原目标文字图形与更新后的编码库中目标文字编码的映射关系。

可选地,该装置还包括:

第二更新模块,用于如果所述证件的目标文字图形属于所述目标字库,则确定所述证件的目标文字图形为一字多码,并基于所述目标文字编码更新一字多码库。

可选地,第二更新模块,具体用于将目标字库中目标文字图形对应的原始文字编码以及所述目标文字编码添加至一字多码库,并建立两者的关联关系。

第四方面,提供了一种身份识别装置,包括:

第二确定模块,用于确定目标对象的证件的文字图形及第一文字编码;

第一发送模块,用于将所述目标对象的证件的文字图形及第一文字编码发送至相关部门的身份校验系统进行身份校验;

第二判断模块,用于如果校验失败,则基于一字多码库判断所述目标对象的证件的文字图形是否属于一字多码;

第三确定模块,用于如果所述目标对象的证件的文字图形属于一字多码,则从所述一字多码库中确定一个与所述目标对象的证件的文字图形对应的第二文字编码;

第二发送模块,用于将所述目标对象的证件的文字图形及所述第二文字编码发送至相关部门的身份校验系统进行身份校验。

可选地,该装置包括:

第四确定模块,用于如果基于目标对象的证件的文字图形及所述第二文字编码校验失败,则从所述一字多码库中确定一个与所述目标对象的证件的文字图形对应的第三文字编码;

第三发送模块,用于将所述目标对象的证件的文字图形及所述第三文字编码发送至相关部门的身份校验系统进行身份校验。

第五方面,提供了一种电子设备,该电子设备包括:

一个或多个处理器;

存储器;

一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面或第二方面所示的方法。

第六方面,提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行第一方面或第二方面所示的方法。

本申请提供了一种字库更新方法、身份识别方法、装置及电子设备,本申请通过确定证件的目标文字图形以及所述证件的目标文字编码,所述目标文字编码通过对所述目标文字图形进行OCR识别得到;判断所述目标文字编码是否属于编码库范围;如果所述目标文字编码不属于编码库范围,则基于所述目标文字编码更新所述编码库以及基于所述证件的目标文字图形更新目标字库;建立所述编码库中目标文字编码与目标字库中目标文字图形的关联关系。即当目标文字编码不属于编码库范围,基于目标文字图形以及所述证件的目标文字编码更新编码库以及目标字库,从而实现了字库扩展,进而解决因字体图形库对生僻字图像不完整、字码不一致问题,导致不能识别证件中的字体,影响生僻字客户开展金融业务的问题。

本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本申请实施例的一种字库更新方法的流程示意图;

图2为本申请实施例的一种身份识别方法的流程示意图;

图3为本申请实施例的一种字库更新装置的结构示意图;

图4为本申请实施例的一种电子设备的结构示意图;

图5为本申请实施例的一种身份识别装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例,各实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/ 或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

本申请实施例提供了一种字库更新方法,如图1所示,该方法可以包括以下步骤:

步骤S101,确定证件的目标文字图形以及所述证件的目标文字编码,所述目标文字编码通过对所述目标文字图形进行OCR识别得到;其中,该证件可以是相关身份证件。其中,可以先采集证件的图像,通过图像识别技术对采集的证件的图像进行识别,确定证件的目标文字图形(即证件中文字对应的图像)及证件的目标文字编码(即对文字图形进行识别得到的文字编码)。

步骤S102,判断所述目标文字编码是否属于编码库范围;

示例性地,编码库可以银行维护的编码库,该编码库中对应存储有各个文字图形对应的编码。

步骤S103,如果所述目标文字编码不属于编码库范围,则基于所述目标文字编码更新所述编码库以及基于所述证件的目标文字图形更新目标字库;

具体地,如果所述目标文字编码不属于编码库范围,则说明编码库未收录该目标文字编码,则基于所述目标文字编码更新所述编码库以及基于所述证件的目标文字图形更新目标字库;

步骤S104,建立所述编码库中目标文字编码与目标字库中目标文字图形的关联关系。即建立目标文字编码与目标字库中目标文字图形的索引关系,通过目标文字编码可以查找到对应的目标文字图形,可选地,也可以通过目标文字图形查找到目标文字编码。

本申请实施例还提供了一种可能的实现方式,基于所述证件的目标文字图形更新目标字库,包括:

判断所述证件的目标文字图形是否属于所述目标字库;

如果所述证件的目标文字图形不属于所述目标字库,则将所述证件的目标文字图形添加至目标字库。即说明目标文字库未收录该冷僻字,将所述证件的目标文字图形添加至目标字库,从而将该冷僻字更新到文字库中。

可选地,该方法还包括:

如果所述证件的目标文字图形属于所述目标字库,即说明该目标文字图形属于一字多码的情形,即一个文字图形可以对应有多个编码,不用所述证件的目标文字图形替换所述目标字库的原文字图形;

所述建立所述编码库中目标文字编码与目标字库中目标文字图形的链接,包括:

建立所述目标字库中原目标文字图形与更新后的编码库中目标文字编码的映射关系。

可选地,该方法还包括:

如果所述证件的目标文字图形属于所述目标字库,则确定所述证件的目标文字图形为一字多码,并基于所述目标文字编码更新一字多码库。可选地,所述基于所述目标文字编码更新一字多码库,包括:将目标字库中目标文字图形对应的原始文字编码以及所述目标文字编码添加至一字多码库,并建立两者的关联关系。即如果某一文字图形为一字多码(存在多个文字编码),通过一字多码单独建立一字多码库,从而能提升检索某一文字图形对应的文字编码的效率,进而能够提升后续身份识别的效率。

本申请提供了一种字库更新方法,本申请通过确定证件的目标文字图形以及所述证件的目标文字编码,所述目标文字编码通过对所述目标文字图形进行OCR识别得到;判断所述目标文字编码是否属于编码库范围;如果所述目标文字编码不属于编码库范围,则基于所述目标文字编码更新所述编码库以及基于所述证件的目标文字图形更新目标字库;建立所述编码库中目标文字编码与目标字库中目标文字图形的关联关系。即当目标文字编码不属于编码库范围,基于目标文字图形以及所述证件的目标文字编码更新编码库以及目标字库,从而实现了字库扩展,进而解决因字体图形库对生僻字图像不完整、字码不一致问题,导致不能识别证件中的字体,影响生僻字客户开展金融业务的问题。

实施例二

如图2所示,本申请实施例提供了一种身份识别方法,包括:

步骤S201,确定目标对象的证件的文字图形及第一文字编码;示例性地,可以是线上身份认证的场景,通过采集目标对象的证件图像,然后进行图像分析得到目标对象的证件的文字图形及第一文字编码。

步骤S202,将所述目标对象的证件的文字图形及第一文字编码发送至相关部门的身份校验系统进行身份校验;其中,身份校验系统用于验证文字图形及第一文字编码是否匹配。

步骤S203,如果校验失败,则基于一字多码库判断所述目标对象的证件的文字图形是否属于一字多码;

步骤S204,如果所述目标对象的证件的文字图形属于一字多码,则从所述一字多码库中确定一个与所述目标对象的证件的文字图形对应的第二文字编码;即如果属于一字多码的情形,身份校验系统存储的目标对象证件的文字图形对应的文字编码与第一文字编码不一样,可以通过替换为对应的其他文字编码重新进行身份认证。其中,一字多码库存储有与某一文字图形对应的多个文字编码,其中,该多个文字编码是关联存储的。

步骤S205,将所述目标对象的证件的文字图形及所述第二文字编码发送至相关部门的身份校验系统进行身份校验。

可选地,该方法包括:

如果基于目标对象的证件的文字图形及所述第二文字编码校验失败,则从所述一字多码库中确定一个与所述目标对象的证件的文字图形对应的第三文字编码;

将所述目标对象的证件的文字图形及所述第三文字编码发送至相关部门身份校验系统进行身份校验。

对于本申请实施例,当身份认证失败时,判断是否为一字多码,如果为一字多码,则确定新的的文字编码进行身份校验,从而解决因字体图形库对生僻字图像不完整、字码不一致问题,导致不能识别证件中的字体,影响生僻字客户开展金融业务的问题。

图3为本申请实施例提供的一种字库更新装置,其中,该装置30包括:

第一确定模块301,用于确定证件的目标文字图形以及所述证件的目标文字编码,所述目标文字编码通过对所述目标文字图形进行OCR识别得到;

第一判断模块302,用于判断所述目标文字编码是否属于编码库范围;

第一更新模块303,用于如果所述目标文字编码不属于编码库范围,则基于所述目标文字编码更新所述编码库以及基于所述证件的目标文字图形更新目标字库;

建立模块304,用于建立所述编码库中目标文字编码与目标字库中目标文字图形的关联关系。

可选地,所述第一更新模块包括:

判断单元,用于判断所述证件的目标文字图形是否属于所述目标字库;

添加单元,用于如果所述证件的目标文字图形不属于所述目标字库,则将所述证件的目标文字图形添加至目标字库。

可选地,所述第一更新模块,用于如果所述证件的目标文字图形属于所述目标字库,则不用所述证件的目标文字图形替换所述目标字库的原文字图形;

所述建立模块,用于建立所述目标字库中原目标文字图形与更新后的编码库中目标文字编码的映射关系。

可选地,该装置还包括:

第二更新模块,用于如果所述证件的目标文字图形属于所述目标字库,则确定所述证件的目标文字图形为一字多码,并基于所述目标文字编码更新一字多码库。

可选地,第二更新模块,具体用于将目标字库中目标文字图形对应的原始文字编码以及所述目标文字编码添加至一字多码库,并建立两者的关联关系。

本申请实施例提供了一种装置,适用于上述实施例所示的方法,在此不再赘述。其实现的有益效果相似,此处不再赘述。

实施例四

如图5所示,提供了一种身份识别装置,该装置50包括:

第二确定模块501,用于确定目标对象的证件的文字图形及第一文字编码;

第一发送模块502,用于将所述目标对象的证件的文字图形及第一文字编码发送至相关部门的身份校验系统进行身份校验;

第二判断模块503,用于如果校验失败,则基于一字多码库判断所述目标对象的证件的文字图形是否属于一字多码;

第三确定模块504,用于如果所述目标对象的证件的文字图形属于一字多码,则从所述一字多码库中确定一个与所述目标对象的证件的文字图形对应的第二文字编码;

第二发送模块505,用于将所述目标对象的证件的文字图形及所述第二文字编码发送至相关部门的身份校验系统进行身份校验。

可选地,该装置包括:

第四确定模块,用于如果基于目标对象的证件的文字图形及所述第二文字编码校验失败,则从所述一字多码库中确定一个与所述目标对象的证件的文字图形对应的第三文字编码;

第三发送模块,用于将所述目标对象的证件的文字图形及所述第三文字编码发送至相关部门的身份校验系统进行身份校验。

本申请实施例提供了一种装置,适用于上述实施例所示的方法,在此不再赘述。其实现的有益效果相似,此处不再赘述。

实施例五

本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设备40包括:处理器4001和存储器4003。其中,处理器4001和存储器4003 相连,如通过总线4002相连。进一步地,电子设备40还可以包括收发器 4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备 40的结构并不构成对本申请实施例的限定。其中,处理器4001应用于本申请实施例中,用于实现图3或图5所示模块的功能。收发器4004包括接收机和发射机。

处理器4001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。

总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码,并由处理器 4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现图3或图5所示实施例提供的装置的功能。

本申请实施例的有益效果与所示的方法实施例相似,此处不再赘述。

本申请实施例提供了一种电子设备适用于上述方法实施例。在此不再赘述。

实施例六

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例中所示的方法。

本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。本申请实施例的有益效果与所示的方法实施例相似,此处不再赘述。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号