首页> 中国专利> 字符候选提议装置、手写字符辨别系统、方法及程序

字符候选提议装置、手写字符辨别系统、方法及程序

摘要

提供更恰当地提议类似的字符串候选的技术。字符候选提议装置具备:类似字符存储部,其存储字符的外观的类似关系;实存字符存储部,其存储实际存在的字符串;受托处理部,其接收一个以上的字符并接受提出该字符的外观类似的字符候选的委托;对照处理部,其通过与所述类似字符存储部进行对照从而指定与所接收的所述字符外观类似的字符的候选,将所述外观类似的字符的候选的组合与所述实存字符存储部所存储的所述实际存在的字符串进行对照;以及候选字符发送处理部,将由所述对照处理部进行对照的结果命中的所述外观类似的字符的候选的组合作为候选字符进行输出。

著录项

  • 公开/公告号CN112789624A

    专利类型发明专利

  • 公开/公告日2021-05-11

    原文格式PDF

  • 申请/专利权人 株式会社日立系统;

    申请/专利号CN202080003974.9

  • 发明设计人 北见淳;

    申请日2020-03-16

  • 分类号G06K9/68(20060101);G06K9/72(20060101);

  • 代理机构11322 北京尚诚知识产权代理有限公司;

  • 代理人龙淳

  • 地址 日本东京都

  • 入库时间 2023-06-19 10:55:46

说明书

技术领域

本发明涉及字符候选提议装置、手写字符辨别系统、手写字符辨别方法及程序。本发明要求2019年9月9日提出的日本专利申请编号2019-163641的优先权,对于承认基于文献引用的结合的指定国,该申请中记载的内容通过引用结合在本申请中。

背景技术

专利文献1中,记载了:“信息处理装置具备:从图像数据提取字符串的字符提取部224;作成包含与输入字符对应的1个或2个以上的转换候选字符的转换候选列表的列表作成部244;通过比较所述转换候选列表中包含的所述1个或2个以上的转换候选字符与由所述字符提取部所提取的字符串从而指定转换目标的字符的指定部248;以及生成包含由所述指定部所指定的所述转换目标的字符的显示画面的显示控制部252”。

在先技术文献

专利文献

专利文献1:日本特开2018-163413号公报

发明内容

发明要解决的课题

上述技术,能够出示字符的候选,但是如果字符识别错误,则难以获得恰当的结果。

本发明的目的在于提供一种更恰当地提议类似的字符串候选的技术。

用于解决课题的方案

本申请包含多个用于解决上述课题的至少一部分的方案,但若举出其例,则如以下所述。本发明的一个方面所涉及的信息处理装置具备:类似字符存储部,其存储字符的外观的类似关系;实存字符存储部,其存储实际存在的字符串;受托处理部,其接收一个以上的字符并接受提出该字符的外观类似的字符候选的委托;对照处理部,其通过与所述类似字符存储部进行对照从而指定与所接收的所述字符外观类似的字符的候选,将所述外观类似的字符的候选的组合与所述实存字符存储部所存储的所述实际存在的字符串进行对照;以及候选字符发送处理部,将由所述对照处理部进行对照的结果命中的所述外观类似的字符的候选的组合作为候选字符进行输出。

并且,例如,也可以是,上述的字符候选提议装置具备类似字符登记处理部,在输出所述候选字符后,接受到与所述受托处理部所接收的所述字符的任一个类似的字符的情况下,如果是所述类似字符存储部未存储的类似关系则所述类似字符登记处理部使所述类似字符存储部进行存储。

并且,例如,也可以是,上述的字符候选提议装置中,所述实存字符存储部中保存有实际存在的人名的字符串,所述受托处理部作为提出所述字符候选的委托接受提出人名的委托,所述候选字符发送处理部将所述外观类似的字符的候选的组合作为人名的候选字符进行输出。

并且,例如,也可以是,上述的字符候选提议装置中,所述实际存在的人名的字符串被划分为姓和名,所述字符候选提议装置具备姓名判别处理部,所述姓名判别处理部将所接收的所述字符划分为姓和名而使所述对照处理部进行对照。

并且,例如,也可以是,上述的字符候选提议装置中,特征在于,所述姓名判别处理部,针对所接收的所述字符指定通过变化断开姓和名的位置从而划分为姓和名的组合,针对各组合的姓和名双方,在由所述对照处理部进行对照的结果获得命中的情况下作为所述候选字符。

并且,例如,也可以是,上述的字符候选提议装置中,特征在于,所述候选字符发送处理部将所述候选字符按照出现频度进行排序并输出。

并且,例如,也可以是,上述的字符候选提议装置中,特征在于,所述受托处理部接收的所述字符是读取手写字符并进行了识别的字符。

并且,本发明的另一个方面所涉及的手写字符辨别系统,该手写字符辨别系统包括:字符候选提议装置;业务终端,其通过网络与所述字符候选提议装置可通信地连接;以及读取装置,其响应来自所述业务终端的指示而读取手写字符,所述手写字符辨别系统的特征在于,所述业务终端具备:字符识别部,其从所述读取装置获得所述手写字符并进行字符识别;委托处理部,其向所述字符候选提议装置发送所述字符识别部所识别的字符并委托字符候选的提议;以及目视确认处理部,其显示所述字符候选提议装置输出的字符候选,所述字符候选提议装置具备:类似字符存储部,其存储字符的外观的类似关系;实存字符存储部,其存储实际存在的字符串;受托处理部,其接收一个以上的字符并接受提出该字符的外观类似的字符候选的委托;对照处理部,其通过与所述类似字符存储部进行对照从而指定与所接收的所述字符外观类似的字符的候选,将所述外观类似的字符的候选的组合与所述实存字符存储部所存储的所述实际存在的字符串进行对照;以及候选字符发送处理部,将由所述对照处理部进行对照的结果命中的所述外观类似的字符的候选的组合作为候选字符进行输出。

并且,本发明的另一个方面所涉及的手写字符辨别方法,是由手写字符辨别系统进行的手写字符辨别方法,所述手写字符辨别系统包括:字符候选提议装置;业务终端,其通过网络与所述字符候选提议装置可通信地连接;以及读取装置,其响应来自所述业务终端的指示而读取手写字符,所述手写字符辨别方法的特征在于,所述业务终端执行以下步骤:字符识别步骤,在该字符识别步骤中,从所述读取装置获得所述手写字符并进行字符识别;委托处理步骤,在该委托处理步骤中,向所述字符候选提议装置发送在所述字符识别步骤所识别的字符并委托字符候选的提议;以及目视确认处理步骤,在该目视确认处理步骤中,显示所述字符候选提议装置输出的字符候选,所述字符候选提议装置具备:类似字符存储部,其存储字符的外观的类似关系;以及实存字符存储部,其存储实际存在的字符串,所述字符候选提议装置执行以下步骤:受托处理步骤,在该受托处理步骤中,接收一个以上的字符并接受提出该字符的外观类似的字符候选的委托;对照处理步骤,在该对照处理步骤中,通过与所述类似字符存储部进行对照从而指定与所接收的所述字符外观类似的字符的候选,将所述外观类似的字符的候选的组合与所述实存字符存储部所存储的所述实际存在的字符串进行对照;以及候选字符发送处理步骤,在该候选字符发送处理步骤中,将在所述对照处理步骤进行对照的结果命中的所述外观类似的字符的候选的组合作为候选字符进行输出。

并且,本发明的另一个方面所涉及的程序,该程序使计算机进行支援手写字符的辨别的处理,所述程序的特征在于,所述计算机具备:类似字符存储部,其存储字符的外观的类似关系;实存字符存储部,其存储实际存在的字符串;以及处理部,所述程序使所述处理部实施以下步骤:受托处理步骤,在该受托处理步骤中,接收一个以上的字符并接受提出该字符的外观类似的字符候选的委托;对照处理步骤,在该对照处理步骤中,通过与所述类似字符存储部进行对照从而指定与所接收的所述字符外观类似的字符的候选,将所述外观类似的字符的候选的组合与所述实存字符存储部所存储的所述实际存在的字符串进行对照;以及候选字符发送处理步骤,在该候选字符发送处理步骤中,将在所述对照处理步骤进行对照的结果命中的所述外观类似的字符的候选的组合作为候选字符进行输出。

发明效果

根据本发明,能够提供能够恰当地评价文章的内容的技术。

上述以外的课题、构成以及效果通过以下实施方式的说明可得以明了。

附图说明

图1是举例示出实施方式所涉及的手写字符辨别系统的概要的框图。

图2是示出手写字符辨别系统的构成的例子的图。

图3是示出领受数据存储部的数据结构例的图。

图4是示出姓存储部的数据结构例的图。

图5是示出名存储部的数据结构例的图。

图6是示出类似字符存储部的数据结构例的图。

图7是示出候选字符存储部的数据结构例的图。

图8是示出字符存储部的数据结构例的图。

图9是示出图像存储部的数据结构例的图。

图10是示出字符候选提议装置的硬件构成例的图。

图11是示出手写字符识别的全体处理流程的例子的图。

图12是示出姓名划分对照处理的流程的例子的图。

图13是示出候选字符领受处理的流程的例子的图。

图14是示出类似字符登记处理的流程的例子的图。

图15是示出候选出示画面的例子的图。

图16是示出姓候选出示例的图。

附图标记说明:

1…手写字符辨别系统,50…网络,100…字符候选提议装置,110…存储部,111…领受数据存储部,112…实存字符存储部,113…姓存储部,114…名存储部,115…类似字符存储部,116…候选字符存储部,120…处理部,121…受托处理部,122…姓名判别处理部,123…对照处理部,124…类似字符登记处理部,125…候选字符发送处理部,130…通信部,200…业务终端,210…存储部,211…字符存储部,212…候选字符存储部,213…图像存储部,220…处理部,221…字符识别部,222…委托处理部,223…目视确认处理部,224…类似字符报告处理部,230…通信部,300…读取装置。

具体实施方式

以下,基于附图对适用本发明的一个方面所涉及的实施方式的手写字符辨别系统1进行说明。以下的实施方式中出于方便需要时分成多个部分或者多个实施方式进行说明,但是除了特别明示的情况,这些部分或这些实施方式并非处于互不相关的的关系,而是处于一方是另一方的一部分或全部的变形例、详细说明或补充说明等的关系。

并且,以下的实施方式中,言及要素的数等(包括个数、数值、量、范围等)的情况下,除了特别明示的情况及原理上认为显然是限定于特定的数的情况等之外,并不限定于该特定的数,可以是特定的数以上,也可以是特定的数以下。

而且,以下的实施方式中,除了特别明示的情况及原理上认为显然是必须的情况等之外,其构成要素(也包括要素步骤等)当然并非是必须的。

同样地,在以下的实施方式中,当言及构成要素等的形状、位置关系等时,除了特别明示的情况及原理上认为显然不是这样的情况等之外,包含实质上近似或类似于该形状等的情况等。上述数值以及范围也与此相同。

并且,用于说明实施方式的所有附图中,原则上针对相同的构件标注相同的标记,并省略其重复说明。

图1是举例示出本实施方式所涉及的手写字符辨别系统的概要的框图。对于手写字符辨别系统1,用户通过使用业务终端200通过浏览器等连接到字符候选提议装置100而进行利用,但是不限于此,也可以是,字符候选提议装置100的各功能作为应用软件搭载到业务终端200。

另外,由业务终端200连接字符候选提议装置100的情况下,通过LAN(Local AreaNetwork:局域网)、WAN(Wide Area Network:广域网)、互联网、移动电话网等、或者作为将这些复合起来的通讯网的网络50进行连接。该网络也可以是移动电话通信网等无线通信网上的VPN(Virtual Private Network:虚拟专用网络)等。

手写字符辨别系统1的应用例可以举出这样的例子,即:手写字符辨别系统1是伴随规定的书面文件(例如,保险的申请书、银行账户的开设申请书等按照规定的格式手写输入姓名的书面文件)的处理的业务系统等。

此时,就用户而言,可想到在规定的书面文件的规定的栏目手写填入姓名,要对大量的书面文件进行事务处理,通过计算机处理而进行大量的信息处理从效率方面而言大为有利,因此姓名等的手写的记述一般多通过OCR(Optical Character Recognition:光学字符识别)进行数字化。

在此,纸质文书的字符数据电子化技术在进步,但是出现一定比率的误读、未读等,并不存在对所有的手写字符能够完全地识别的技术。因此,最终通过人的目视确认字符是否一致,而这样的目视作业成为阻碍文书的字符数据电子化成本降低的原因之一。具体而言,在读取了姓名的情况下,虽然采用了与姓、名等关于姓名的数据库进行对照以提高字符的识别率的手法,但是有难以读取的字符、容易混淆的字符等,仍然发生以目视确认是否发生误读的成本。

也就是说,在所读取的字符包含误读的情况下,例如,OCR等字符识别引擎将正确的姓“川本”误读为“小木”的情况下,因为针对错误的“小木”与各数据库进行对照,因此有正确的“川本”的候选位次低劣或者候选漏掉的可能性。

并且,在采用的是对于姓名未分别明确姓部分和名部分的填写栏目而填写全名的格式的情况下,如果辨别不出正确的姓,则甚至会有察觉不到发生了误读的情况。例如,将“小山田伸”(Xiaoshantian Shen)这一全名的“田”误读为“由”,则会有将姓识别为“小山”(Xiaoshan)并将以“由”起头的“由伸”(Youshen)等名作为候选的可能性。

有鉴于此,本申请将OCR等字符识别引擎所读取的字符是错误的情况也作为前提,除了与关于姓和名的DB(数据库)进行对照,还增加与记录了过去OCR等字符识别引擎误读较多的字符的信息的类似字符进行对照。据此,恰当地扩大包含容易发生误读的字符的读取字符的候选的范围,将低劣或者有候选漏掉的可能性的字符也作为候选,并且,在进行了姓和名的判别处理的基础上进行候选字符的选别。并且,这样的类似字符,能够通过字符的目视确认作业而使新的类似字符信息不断地积累,从而达到提高字符识别的精确度。

本实施方式所涉及的业务终端200是用于将那样的规定的书面文件进行数字化的业务的终端。读取装置300是扫描器、摄像装置等,响应来自业务终端200的指示而以图像等读取规定的书面文件,并将所读取的手写字符图像递交给业务终端200。

在该业务中,业务终端200,接受到手写字符图像,则通过OCR进行数字化而转换为字符串信息,向字符候选提议装置100发送所转换的字符串并从字符候选提议装置100接受所提出的候选字符。而且,业务终端200选择性地显示候选字符,将用户所选择的候选字符作为数字化信息进行利用。

另外,读取装置300,不限于扫描器,也可以是带摄像头的移动电话终端、带摄像头的平板电脑终端等能够将图像作为数据进行读取的设备,也可以是通过网络50与业务终端200可通信地连接的构成。

并且,读取装置300不是必须的装置,也可以是,字符候选提议装置100或者业务终端200通过网络50从其他装置接收已读取的图像数据、已进行了字符识别的数据而提议字符候选。

图2是示出手写字符辨别系统的构成的例子的图。字符候选提议装置100中,存储部110、处理部120以及通信部130互相通过总线等可通信地连接。

存储部110包括领受数据存储部111、实存字符存储部112、类似字符存储部115以及候选字符存储部116。实存字符存储部112中保存实际存在的人名、固有名词等字符串。例如,实存字符存储部112包括姓存储部113以及名存储部114。例如,日本人的姓,据说有30万种以上,被确认为实际存在的姓保存于存储部113中。

图3是示出领受数据存储部的数据结构例的图。领受数据存储部111包括受托日111A、委托企业ID111B、文书编号111C、字符辨别编号111D以及识别字符代码111E。受托日111A是指定从业务终端200接受字符候选提议的委托的日期的信息。委托企业ID111B是指定委托了字符候选提议的企业的信息。文书编号111C是指定成为字符候选提议的委托对象的文书(文书的图像数据)的信息。字符辨别编号111D是指定识别对象的文书中包含的各个字符的信息。识别字符代码111E是对各个字符从外观进行识别的结果获得的字符的字符代码。

图4是示出姓存储部的数据结构例的图。姓存储部113包括姓辨别符113A、姓113B、字符数113C以及出现频度113D。姓辨别符113A是将姓从其他姓进行辨别的信息。姓113B是姓的书写信息。字符数113C是姓的书写上的字符数。出现频度113D是姓的总体中的出现频度。

图5是示出名存储部的数据结构例的图。名存储部114包括名辨别符114A、名114B、字符数114C以及出现频度114D。名辨别符114A是将名从其他名进行辨别的信息。名114B是名的书写信息。字符数114C是名的书写上的字符数。出现频度114D是名的总体中的出现频度。

图6是示出类似字符存储部的数据结构例的图。类似字符存储部115包括字符代码115A、类似字符代码115B、出现频度115C以及存储日115D。字符代码115A是互相处于类似关系的字符中作为基准的字符的代码。类似字符代码115B是与以字符代码115A指定的字符外观上类似的字符的代码。出现频度115C是在字符的使用中作为类似关系出现的频度。存储日115D是指定作为类似关系存储的日期的信息。

图7是示出候选字符存储部的数据结构例的图。候选字符存储部116包括字符辨别编号116A以及候选字符代码116B。字符辨别编号116A是指定识别对象的文书中包含的各个字符的信息。候选字符代码116B是与OCR所识别的字符不同的字符候选的代码,是类似且实际存在的字符的代码。

处理部120包括受托处理部121、姓名判别处理部122、对照处理部123、类似字符登记处理部124以及候选字符发送处理部125。

受托处理部121接受来自业务终端200的字符候选的提议委托。在接受了多个字符串的字符候选的提议的情况下,姓名判别处理部122,指定将姓名的划分位置一个字符一个字符地进行变化而断开的姓和名的组合,并判别作为姓名是否成立。对照处理部123,与实存字符存储部112进行对照,判定是否是实际存在的字符候选。类似字符登记处理部124,将作为未登记的类似关系由业务终端200报告的字符,登记到类似字符存储部115。候选字符发送处理部125,将由对照处理部123进行对照的结果命中的外观类似的字符的候选的组合作为候选字符进行输出。具体而言,候选字符发送处理部125,通过向业务终端200输出(发送)保存于候选字符存储部116的候选从而实现提出。通信部130通过网络50与其他装置进行通信。

业务终端200中,存储部210、处理部220以及通信部230互相通过总线等可通信地连接。

存储部210包括字符存储部211、候选字符存储部212以及图像存储部213。

图8是示出字符存储部的数据结构例的图。字符存储部211包括图像数据编号211A、读取日211B、字符辨别编号211C以及图像211D。

图像数据编号211A是指定读取装置300所读取的字符串的图像的信息。读取日211B是指定读取装置300读取了文书的日期的信息。字符辨别编号211C是指定识别对象的文书中包含的各个字符的信息。图像211D是指定以字符辨别编号211C指定的字符单独的图像数据(读取装置300所读取的图像的一部分)的信息。

图9是示出图像存储部的数据结构例的图。图像存储部213包括图像数据编号213A、文书编号213B、读取日213C以及图像213D。

图像数据编号213A是指定读取装置300所读取的字符串的图像的信息。文书编号213B是指定成为字符候选提议的委托对象的文书(文书的图像数据)的信息。读取日213C是指定读取装置300读取了文书的日期的信息。图像213D是指定读取装置300所读取的图像的信息。

处理部220包括字符识别部221、委托处理部222、目视确认处理部223以及类似字符报告处理部224。字符识别部221是所谓的OCR引擎,分析从读取装置300获得的手写字符图像而识别字符。

委托处理部222,为了排除因为字符识别部221误读而引起的返工、手续出错等,向字符候选提议装置100委托精确度高的候选字符的提议。

目视确认处理部223,进行选择性地显示以便能够以目视确认由字符候选提议装置100输出的各个字符候选,接受来自用户的对任一候选的选择。

类似字符报告处理部224,接受用户识别为类似的字符的字符的输入,向字符候选提议装置100进行报告以便作为类似字符进行登记。

通信部230通过网络50与其他装置进行通信。

除此之外,虽未图示,但是,业务终端200具备:输入部,其接受来自用户的输入;以及输出部,其输出画面、账表等各种输出信息。例如,输入部接受各种输入,例如打字、触摸、轻拂(flick)输入等各种接触输入、语音输入或者视线输入等。

图10是示出字符候选提议装置100的硬件构成例的图。字符候选提议装置100具备由所谓的服务器装置、工作站、个人计算机、智能手机或者平板电脑终端的壳体来实现的硬件构成。字符候选提议装置100具备运算装置101、主存储装置102、辅助存储装置103、通信装置104以及连接各装置的总线107。业务终端200也同样构成。并且,除此之外,业务终端200还具备触摸屏、键盘、麦克风、显示器等输入输出装置。

运算装置101是例如CPU(Central Processing Unit)等运算装置。

主存储装置102是例如RAM(Random Access Memory:随机存取存储器)等存储器装置。

辅助存储装置103是能够存储数字信息的所谓的硬盘(Hard Disk Drive)、SSD(Solid State Drive:固态硬盘)或者闪存等非易失性存储装置。

通信装置104,是网卡等有线通信装置,或者是无线通信装置。

上述字符候选提议装置100的受托处理部121、姓名判别处理部122、对照处理部123、类似字符登记处理部124以及候选字符发送处理部125由使运算装置101进行处理的程序来实现。该程序存储于主存储装置102、辅助存储装置103或者未图示的ROM装置内,执行之际加载于主存储装置102,由运算装置101来执行。

并且,字符候选提议装置100的存储部110由主存储装置102以及辅助存储装置103来实现。并且,通信部130由通信装置104来实现。以上是字符候选提议装置100的硬件构成例。

字符候选提议装置100的构成,按照处理内容,能够分类为更多的构成要素。并且,也能够对一个构成要素进行分类以便执行更多的处理。

并且,各处理部(受托处理部121、姓名判别处理部122、对照处理部123、类似字符登记处理部124以及候选字符发送处理部125)也可以由实现各自的功能的专用的硬件(ASIC(Application Specific Integrated Circuit:专用集成电路)、GPU(GraphicsProcessing Unit:图形处理单元)等)构筑。并且,各处理部的处理可以由一个硬件来执行,也可以由多个硬件来执行。

接着,说明本实施方式的手写字符辨别系统1的动作。

图11是示出手写字符识别的全体处理流程的例子的图。手写字符识别处理通过由用户从业务终端200指示开始而起动。

首先,业务终端200向读取装置300请求文书的图像数据的读取(步骤S10)。具体而言,字符识别部221指示读取装置300开始扫描或者摄像。

读取装置300,接受来自业务终端200的请求,读取该文书的图像,并作成图像数据向业务终端200进行应答(步骤S11)。

业务终端200的字符识别部221,领受来自读取装置300的图像数据,存储到图像存储部213,并以OCR引擎执行字符识别处理(步骤S12)。而且,将所识别的字符数据保存到字符存储部211(步骤S13)。另外,也可以构成为:该OCR引擎实装到设置于业务终端200可连接的网络上的个人计算机终端、服务器终端等,通过由业务终端200指示字符识别处理从而执行处理。

而且,在业务终端200中,由委托处理部222向字符候选提议装置100发送所识别的字符,并委托字符候选的提议处理(步骤14)。

而且,字符候选提议装置100的受托处理部121,从业务终端200领受所识别的字符并保存到领受数据存储部111(步骤S15)。

而且,对照处理部123将所领受的字符数据与实存字符存储部112以及类似字符存储部115进行对照(步骤S16)。

而且,对照处理部123,选别候选字符,并保存到候选字符存储部116(步骤S17)。

而且,候选字符发送处理部125向业务终端200发送候选字符(步骤S18)。

业务终端200的委托处理部222,领受候选字符,并保存到候选字符存储部212(步骤S19)。

而且,目视确认处理部223输出对候选字符与图像存储部的图像进行比较的画面(步骤S20)。更具体而言,例如,该画面中显示由读取装置300所读取的手写字符图像以及多个该候选字符以便能够选择输入。

在接受到来自用户的类似字符的登记指示的情况下,类似字符报告处理部224,如果除了候选字符之外有以单字符类似的字符则接受输入,并向字符候选提议装置100进行应答(步骤S21)。

字符候选提议装置100的类似字符登记处理部124,领受类似字符,在类似字符存储部115未保存的情况下,进行保存(步骤S22)。

以上是手写字符识别的全体处理流程的例子。通过手写字符识别的全体处理,能够更恰当地提议类似的字符串候选。

图12是示出姓名划分对照处理的流程的例子的图。姓名划分对照处理是将手写字符识别的全体处理流程中的步骤S16至S18的处理一连串地进行的处理的例子。

首先,姓名判别处理部122指定总字符数n(步骤S1601)。例如,在姓名“小山田伸”为候选出示的对象的字符串的情况下,姓名判别处理部122将各个汉字“小”、“山”、“田”、“伸”各作为一个字符,指定总字符数n为“4”。

而且,姓名判别处理部122进行分解为:从前头起d(d为1以上且不足n,初始值为1)个字符作为姓,剩余的字符作为名(步骤S1602)。

对照处理部123,将构成姓的字符一个字一个字地进行分解而与类似字符存储部115进行对照,将类似的字符的组合与姓存储部113进行对照而选出实际存在的姓候选(步骤S1603)。

而且,姓名判别处理部122判定类似字符存储部115中是否未有相符的姓候选(步骤S1604)。在未有姓候选的情况下(步骤S1604的“是”的情况下),姓名判别处理部122将控制推进到后述的步骤S1611。

在有姓候选的情况下(步骤S1604的“否”的情况下),姓名判别处理部122判定姓存储部113中是否有与该姓候选中的即使一个相符的姓(步骤S1605)。在姓存储部113中未有相符的姓的情况下(步骤S1605的“否”的情况下),姓名判别处理部122将控制推进到后述的步骤S1611。

在姓候选中有与姓存储部113相符的姓的情况下(步骤1605的“是”的情况下),姓名判别处理部122暂时保管所选出的所有的姓候选(步骤S1606)。

而且,对照处理部123,将构成名的字符一个字一个字地进行分解而与类似字符存储部115进行对照,将类似的字符的组合与名存储部114进行对照而选出实际存在的名候选(步骤S1607)。

而且,姓名判别处理部122,判定类似字符存储部115中是否未有相符的名候选(步骤S1608)。在未有名候选的情况下(步骤S1608的“是”的情况下),姓名判别处理部122将控制推进到后述的步骤S1611。

在有名候选的情况下(步骤S1608的“否”的情况下),姓名判别处理部122判定名存储部114中是否有与该名候选中的即使一个相符的名(步骤S1609)。在名存储部114中未有相符的名的情况下(步骤S1609的“否”的情况下),姓名判别处理部122将控制推进到后述的步骤S1611。

在名候选中有与名存储部114相符的名的情况下(步骤S1609的“是”的情况下),姓名判别处理部122暂时保管所选出的所有的名候选(步骤S1610)。

而且,姓名判别处理部122将姓的字符数d增值(+1)(步骤S1611)。

而且,姓名判别处理部122判定姓的字符数d是否与总字符数n一致(步骤S1612)。在不一致的情况下(步骤S1612的“否”的情况下),姓名判别处理部122将控制返回步骤S1602。

在姓的字符数d与总字符数n一致的情况下(步骤S1612的“是”的情况下),姓名判别处理部122判定是否有暂时保管的姓候选和名候选(姓长度+名长度与总字符数n一致的)的组,也就是说判定是否有作为结果命中的姓名的组合(步骤S1613)。

在无暂时保管的姓候选和名候选(姓长度+名长度与总字符数n一致的)的组的情况下(步骤S1613的“否”的情况下),候选字符发送处理部125向业务终端200通知不能判别(步骤S1614)。

在有暂时保管的姓候选和名候选(姓长度+名长度与总字符数n一致的)的组的情况下(步骤S1613的“是”的情况下),候选字符发送处理部125向业务终端200发送候选字符(步骤S1801)。此时,候选字符发送处理部125,针对暂时保管的每个姓候选和名候选的组,按照出现频度的顺序排序并发送。也就是说,候选字符发送处理部125按照出现频度高的字符构成的姓候选和名候选的顺序进行发送。

以上是姓名划分对照处理的流程的例子。通过姓名划分对照处理,能够针对由一个以上的字符而成的姓名,变化姓名的划分位置并适用各自的类似字符,指定实际存在的候选。例如,上述的姓名“小山田伸”的情况下,“田”与“由”是类似字符,能够指定包含以下候选的候选字符,即:将两个字符的姓“小山”和剩余部分的名“由伸”作为候选;以及将三个字符的姓“小山田”和剩余部分的名“伸”作为候选。

图13是示出候选字符领受处理的流程的例子的图。候选字符领受处理是将手写字符识别的全体处理流程中的步骤S19至S21的处理一连串地进行的处理的例子。

首先,委托处理部222使所领受的候选字符存储到候选字符存储部212(步骤S191)。

而且,目视确认处理部223对候选字符与手写字符图像进行确认显示(步骤S201)。该确认显示的画面例在后面记述。

而且,目视确认处理部223接受候选字符的选择输入(步骤S202)。据此,确定手写字符的数字化。

并且,类似字符报告处理部224判定是否有新的类似字符的输入(步骤S211)。在无新的类似字符的输入的情况下(步骤S211的“否”的情况下),类似字符报告处理部224结束候选字符领受处理。

在有新的类似字符的输入的情况下(步骤S211的“是”的情况下),类似字符报告处理部224向字符候选提议装置100发送成为新的类似字符的信息(步骤S212)。

以上是候选字符领受处理的流程的例子。通过候选字符领受处理,能够从字符候选提议装置100领受候选字符,边与手写字符进行比较边对候选进行选择输入。并且,能够在发觉到类似字符的情况下,向字符候选提议装置100进行报告,委托登记为新的类似字符。

图14是示出类似字符登记处理的流程的例子的图。在候选字符领受处理中成为类似字符的信息由业务终端200发送到字符候选提议装置100的情况下,在字符候选提议装置100开始类似字符登记处理。

首先,类似字符登记处理部124判定所领受的类似字符的信息是否已存储于类似字符存储部115(步骤S2201)。

在所领受的类似字符的信息未存储于类似字符存储部115的情况下(步骤S2201的“否”的情况下),类似字符登记处理部124一对一地指定类似字符的组合(将处于类似关系的字符分解为一对一的组合)(步骤S2202)。

并且,类似字符登记处理部124,针对互相类似的字符的双方,分别将对方作为类似保存到类似字符存储部115(步骤S2203)。

在所领受的类似字符的信息已存储于类似字符存储部115的情况下(步骤S2201的“是”的情况下),类似字符登记处理部124向业务终端200通知已有登记(步骤S2204)。

而且,类似字符登记处理部124,针对互相类似的字符的双方,分别使对方的出现频度增加规定量(步骤S2205)。

以上是类似字符登记处理的流程的例子。通过类似字符登记处理,能够在业务终端200委托登记的类似字符是新的关系的情况下登记为类似,在已有登记的情况下提高出现频度。

图15是示出候选出示画面的例子的图。候选出示画面400是在手写字符识别全体处理流程的步骤S20、候选字符领受处理的步骤S201输出的画面。进行目视确认的原数据(由读取装置300读取的手写字符图像)显示于原数据显示区域401,作为进行目视确认的对象的候选字符显示于姓候选显示区域402以及名候选显示区域403。姓候选显示区域402以及名候选显示区域403中显示字符候选提议装置100作为出现率最高的候选提议的候选字符。姓候选决定按钮404,接受到输入,则使姓候选显示区域402中所示的姓确定。名候选决定按钮405,接受到输入,则使名候选显示区域403中所示的名确定。

下个候选以下的候选字符,分别按照出现频度的顺序被排序并被可选择地列表显示于姓下个候选显示区域406以及名下个候选显示区域407。姓下个候选显示区域406以及名下个候选显示区域407接受列表的字符的选择。姓下个候选决定按钮408,接受到输入,则使姓下个候选显示区域406中被选择的姓确定。名下个候选决定按钮409,接受到输入,则使名下个候选显示区域407中被选择的名确定。

类似字符登记区域410以及类似字符登记区域411分别接受字符的输入。登记按钮412,接受到输入,则作为处于类似关系的字符接受被输入到类似字符登记区域410以及类似字符登记区域411的字符,并使向字符候选提议装置100的登记处理开始。也就是说,目视确认的结果,目视作业负责人(用户)有觉得有必要作为新的类似字符登记的字符的情况下,能够通过向类似字符登记区域410以及类似字符登记区域411输入该字符,并选择登记按钮412,从而进行登记。并且,根据需要,接受到对返回按钮413、下个画面按钮414的输入,则迁移到前后的业务画面。

图16是示出姓候选出示例的图。适用了本实施方式的手写字符辨别系统1,即使在读取装置300以及字符识别部221误读了的情况下,所出示的候选中包含正确答案的字符的可能性也会高,对此具体地进行表述。

在OCR等字符识别引擎将正确答案的姓“川本”(a)误读为“小木”(b)的情况下,如果针对误读的“小木”(b)进行与实际存在的姓之间的对照,则会有发生本来是正确答案的“川本”(a)的字符候选的位次低劣或者候选漏掉的可能性。

针对误读的“小木”(b),分解字符为“小”(c)和“木”(d),分别与类似字符存储部115进行对照,分别按照出现频度高的顺序指定类似字符(e、f)。接着,通过将出现频度高的字符彼此合成而成的姓与姓存储部113进行对照,从而选别候选字符(g)并排序。据此,即使在有误读的情况下,也能够通过执行与类似字符存储部115之间的对照,避免正确答案的“川本”(a)的位次低劣或者候选漏掉,同时可期望提高字符识别率。

以上是实施方式所涉及的手写字符辨别系统的例子。通过该实施方式所涉及的手写字符辨别系统的例子,针对读取了手写字符的图像,能够更恰当地提议类似的字符串候选,因此用户只要从出示的候选中进行选择就能够顺利地进行手写字符的读取业务。

并且,在上述实施方式的例子中,举出姓名作为手写字符的对象的例子,但是不限于此,通过更换进行对照的实存字符存储部112,也能够适用于住址等其他的所有的字符数据。

并且,上述实施方式的技术性要素,可以单独地适用,也可以分成程序部件和硬件部件这样的多个部分来适用。

以上,针对本发明,以实施方式为中心进行了说明。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号