公开/公告号CN102479326A
专利类型发明专利
公开/公告日2012-05-30
原文格式PDF
申请/专利权人 方正国际软件(北京)有限公司;方正国际软件有限公司;
申请/专利号CN201010572581.8
发明设计人 吴建宇;
申请日2010-11-30
分类号
代理机构北京天悦专利代理事务所(普通合伙);
代理人田明
地址 100080 北京市海淀区北四环西路52号中芯大厦19层
入库时间 2023-12-18 05:25:47
法律状态公告日
法律状态信息
法律状态
2016-01-20
未缴年费专利权终止 IPC(主分类):G06K9/20 授权公告日:20130724 终止日期:20141130 申请日:20101130
专利权的终止
2013-07-24
授权
授权
2012-09-05
实质审查的生效 IPC(主分类):G06K9/20 申请日:20101130
实质审查的生效
2012-05-30
公开
公开
技术领域
本发明属于校对技术领域,具体涉及一种图文识别人工校对辅助方法及 系统。
背景技术
建设数字图书馆时,往往需要将纸质图书转化为电子版的数字图书。通 常采用的方法是先将纸质图书扫描成图片格式的扫描件,然后利用OCR (Optical Character Recognition,光学字符识别)技术从扫描件中识别出字符 及版面信息等内容,从而将纸质图书转化成了数字图书。但是,对于一些古 籍,采用OCR技术识别的准确率较低,无法满足要求。
一种解决方法可以概括为:将书籍每页的扫描件切分成若干个包含若干 个字符的子图片,将这些子图片分发给不同的人进行识别,再将识别结果合 并成与扫描件对应的电子文档。但是,在对扫描件进行切分时,可能存在将 同一字符切分到两个子图片的情况,造成识别的错误。也可能存在字符识别 过程中的人为错误。因此,还需要对合成的电子文档进行校对。如果仅仅通 过人工的方式对合成的电子文档进行校对,显然工作量较大,效率较低。
发明内容
针对现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种图 文识别人工校对辅助方法与系统,该方法及系统能够向校对者提示出识别错 误的字符,提高校对的质量和效率。
为解决上述技术问题,本发明采用的技术方案如下:
一种图文识别人工校对辅助方法,包括以下步骤:
(1)叠加原始图片层、第一切分子图片层、第二切分子图片层和全文合 成层;所述切分子图片层根据其在原始图片中的位置与原始图片层对应;
所述原始图片层是指扫描的原始图片,位于最底层;所述切分子图片层 是指将所述原始图片切分成若干子图片后,再由这些子图片合成的层,还包 括从子图片中识别的、与子图片对应的字符;所述全文合成层是指根据第一 切分子图片层中识别字符,经过合并生成的与原始图片中字符对应的电子文 件层;
(2)比较第一切分子图片层、第二切分子图片层和全文合成层中相对应 位置上的字符;如果不同,则对第一切分子图片层和第二切分子图片层中该 字符所属子图片进行标注;
(3)根据标注结果,人工修改第一切分子图片层中标注位置的字符。
如上所述的图文识别人工校对辅助方法,该方法还包括对所述全文合成 层进行分词分析的操作;如果所述全文合成层中多个字符由于一个字符而不 能组成词组,则自动修改这个字符使多个字符能够组成词组,并在切分子图 片层中对自动修改的字符所属子图片进行标注。
如上所述的图文识别人工校对辅助方法,其中,第一切分子图片层中将 原始图片切分成若干子图片的方法如下:
依据字符排版方向,先将原始图片按照字符排版方向切分为若干图片条, 每个图片条包含一行或一列字符;然后再将每个图片条按照字符排版方向切 分成若干设定长度的子图片,切分图片条的过程如下:
从待切分图片条的起点开始,按照切分方向查找设定长度的预切分线; 如果预切分线上黑像素个数超过阈值M,则沿着切分方向每像素步长移动预 切分线,查找预切分线上黑像素个数不大于阈值M的位置,将该位置作为切 分位置切分图片条;否则,直接将预切分线位置作为切分位置切分图片条; 下一次切分操作从上一个切分位置开始计算设定长度;所述切分方向为待切 分图片条中字符排版方向。
如上所述的图文识别人工校对辅助方法,其中,第二切分子图片层是以 第一切分子图片层的切分线为基础再次将所述原始图片切分成若干子图片, 具体的切分方法如下:
在图片条的每一个切分位置处,根据设定长度的1/2向左右或上下查找 预切分线;如果预切分线上黑像素个数超过阈值M,则从预切分线处沿着预 切分线查找方向每像素步长移动预切分线,查找预切分线上黑像素个数不大 于阈值M的位置,将该位置作为切分位置;否则,以将预切分线位置作为切 分位置切分图片条。
如上所述的图文识别人工校对辅助方法,其中,阈值M为2。
如上所述的图文识别人工校对辅助方法,其中,对第一切分子图片层和 第二切分子图片层中的子图片进行标注的方法为:设置子图片白色区域为透 明,并依据第一切分子图片层与第二切分子图片层以及全文合成层中相对应 字符的相似度,设置透明度百分比;相似度越大,透明度百分比越大。
如上所述的图文识别人工校对辅助方法,该方法还包括根据第一切分子 图片层的修改结果自动修改全文合成层中的相应字符的步骤。
一种图文识别人工校对辅助系统,包括:
叠加装置,用于叠加原始图片层、第一切分子图片层、第二切分子图片 层和全文合成层;所述切分子图片层根据其在原始图片中的位置与原始图片 层对应;
所述原始图片层是指扫描的原始图片,位于最底层;所述切分子图片层 是指将所述原始图片切分成若干子图片后,再由这些子图片合成的层,还包 括从子图片中识别的、与子图片对应的字符;所述全文合成层是指根据第一 切分子图片层中识别字符,经过合并生成的与原始图片中字符对应的电子文 件层;
比较装置,用于比较第一切分子图片层、第二切分子图片层和全文合成 层中相对应位置上的字符;
标注装置,用于根据比较装置的比较结果,对第一切分子图片层和第二 切分子图片层中该字符所属子图片进行标注;所述子图片是指第一切分子图 片层、第二切分子图片层和全文合成层中相对应位置上字符不同时该字符所 属的子图片。
如上所述的图文识别人工校对辅助系统,该系统还包括分词装置,用于 对所述全文合成层进行分词分析,如果所述全文合成层中多个字符由于一个 字符而不能组成词组,则自动修改这个字符使多个字符能够组成词组。
如上所述的图文识别人工校对辅助系统,其中,标注装置还用于根据分 词装置自动修改的字符对切分子图片层中该字符所属子图片进行标注。
本发明所述的方法及系统,通过对第一切分子图片层、第二切分子图片 层和全文合成层的比较,可以判断出可能识别错误的字符,对可能识别错误 字符所属子图片进行标注,提示校对者关注,从而大大了提高了校对者的校 对效率。
附图说明
图1是具体实施方式中图文识别人工校对辅助系统的结构框图;
图2是具体实施方式中图文识别人工校对辅助方法的流程图;
图3A是具体实施方式中初次切分时预切分线落在字符上时对切分位置进 行调整的示意图;
图3B是具体实施方式中再次切分预切分线落在字符上时对切分位置进行 调整的示意图;
图4A是具体实施方式中原始图片的示意图;
图4B是具体实施方式中对图4A所示原始图片初次切分时切分出的子图 片示意图;
图4C是具体实施方式中对图4A所示原始图片再次切分时切分出的子图 片示意图。
具体实施方式
下面结合具体实施方式和附图对本发明进行详细描述。
图1示出了本实施方式中图文识别人工校对辅助系统的结构。如图1所 示,该系统包括叠加装置11,与叠加装置11连接的比较装置12、与比较装 置12连接的标注装置13,以及与叠加装置11和标注装置13连接的分词装 置14。
叠加装置11用于叠加原始图片层、第一切分子图片层、第二切分子图片 层和全文合成层。所述切分子图片层根据其在原始图片中的位置与原始图片 层对应。所述原始图片层是指扫描的原始图片,位于最底层。所述切分子图 片层是指将所述原始图片切分成若干子图片后,再由这些子图片合成的层, 还包括从子图片中识别的、与子图片对应的字符。第二切分子图片层是指以 第一切分子图片层的切分线为基础再次将原始图片切分成若干子图片,由这 些子图片合成的层。所述全文合成层是指根据第一切分子图片层中识别字符, 经过合并生成的与原始图片中字符对应的电子文件层;
比较装置12用于比较第一切分子图片层、第二切分子图片层和全文合成 层中相对应位置上的字符。
标注装置13用于根据比较装置12的比较结果,对第一切分子图片层和 第二切分子图片层中该字符所属子图片进行标注。所述子图片是指第一切分 子图片层、第二切分子图片层和全文合成层中相对应位置上字符不同时该字 符所属的子图片。
分词装置14用于对全文合成层进行分词分析,如果全文合成层中多个字 符由于一个字符而不能组成词组,则自动修改这个字符使多个字符能够组成 词组。
标注装置13还用于根据分词装置14自动修改的字符对第一和第二切分 子图片层中该字符所属子图片进行标注。
图2示出了采用图1所示系统辅助图文识别人工校对的方法流程。如图 2所示,该方法包括以下步骤:
(1)叠加原始图片层、第一切分子图片层、第二切分子图片层和全文合 成层;所述切分子图片层根据其在原始图片中的位置与原始图片层对应。
在对原始图片进行切分时,先对原始图片进行初次切分,切分成若干个 子图片,第一切分子图片层便是由这些初次切分出的子图片及从这些子图片 中识别的字符合成。初次切分原始图片的方法如下:
依据字符排版方向,先将原始图片按照字符排版方向切分为若干图片条, 每个图片条包含一行或一列字符;然后再将每个图片条按照字符排版方向切 分成若干设定长度的子图片,切分图片条的过程如下:
从待切分图片条的起点开始,按照切分方向查找设定长度的预切分线; 如果预切分线上黑像素个数超过阈值M,则沿着切分方向每像素步长移动预 切分线,查找预切分线上黑像素个数不大于阈值M的位置,将该位置作为切 分位置切分图片条;否则,直接将预切分线位置作为切分位置切分图片条; 下一次切分操作从上一个切分位置开始计算设定长度;所述切分方向为待切 分图片条中字符排版方向。
例如,如图3A所示,由于图3A中的预切分线31落在了字符“华”上, 即预切分线31上黑像素个数超过了阈值M,因此以像素为步长移动预切分 线31,查找到预切分线31上黑像素个数不大于阈值的位置,如图3A中的实 线位置32,作为实际切分位置。
由于图片中可能存在噪点,因此设置阈值是必要的,这样可以尽量避免 将噪点当成字符的情况发生。本实施方式中,阈值M的值设定为2。当然, 可以根据图片的具体质量情况改变阈值M的大小。
在对原始图片进行初次切分后,可能存在一种情况,左右结构和上下结 构的字符可能被切分在两个子图片中。因此为了保证同一个字符被切分在同 一个子图片中,需要以初次切分线为参照对原始图片再次进行切分,第二切 分子图片层便是由这些再次切分出的子图片合成。具体的切分方法如下:
在图片条初次切分时的每一个切分位置处,根据设定长度的1/2向左右 或上下查找预切分线;如果预切分线上黑像素个数超过阈值M,则从预切分 线处沿着预切分线查找方向每像素步长移动预切分线,查找预切分线上黑像 素个数不大于阈值M的位置,将该位置作为切分位置;否则,以将预切分线 位置作为切分位置切分图片条。
如图3B所示,虚线33为初次切分时的实际切分线,以该线为参照,向 左1/2设定长度处为左侧预切分线的位置,即虚线34为左侧预切分线;向右 1/2设定长度处为右侧预切分线的位置,即虚线35为右侧预切分线。虚线34 和虚线35之间的距离为设定长度。由于左右两侧的预切分线位置均落在了字 符当中(可以根据预切分线上黑像素个数判断出来),因此对于左侧预切分 线34以像素为步长向左移动,找到实际切分线36,对于右侧预切分线35以 像素为步长向右移动,找到实际切分线37。最终以切分线36和37位置切分 图片条。
在切分出子图片后,记录子图片在原始图片中的位置,以每个子图片的 位置为依据合并子图片及从子图片中识别出的字符。
(2)比较第一切分子图片层、第二切分子图片层和全文合成层中相对应 位置上的字符;如果不同,则对第一切分子图片层和第二切分子图片层中该 字符所属子图片进行标注。
例如,假设图4A所示的原始图片,初次切分时切分出的子图片如图4B 所示,再次切分时切出的图片如图4C所示。从图4B中识别出的字符为“中 华人民共和国的月月友”,从图4C中识别出的字符为“华人民共和国的朋”。 根据子图片的位置信息得到各层之间的对应位置关系如下表所示:
其中,第一行为原始图片中字符,第二行为第一切分子图片层中字符, 第三行为第二切分子图片层中字符,第四行为全文合成层中字符。
利用第二切分子图片层对第一切分子图片层进行校对,即比较第一切分 子图片层和第二切分子图片层相对应位置上的字符是否相同。上例中,当比 较到第7列位置处,由于“的月”与“的”不同,因此对“的月”所属子图 片进行标注;当比较到第8列时,由于“月”与“朋”不同,因此对“月” 所属子图片进行标注。标注方法如下:
设置子图片白色区域为透明,并依据第一切分子图片层与第二切分子图 片层以及全文合成层中相对应字符的相似度,设置透明度百分比;相似度越 大,透明度百分比越大。比较字符的相似度可采用现有方法。
(3)根据标注结果,人工修改第一切分子图片层中标注位置的字符,并 根据第一切分子图片层的修改结果自动修改全文合成层中的相应字符。
利用第二切分子图片层对第一切分子图片层进行校对并根据校对结果修 改全文合成层后,再对全文合成层进行分词分析操作。如果全文合成层中多 个字符由于一个字符而不能组成词组,则自动修改这个字符使多个字符能够 组成词组,并在切分子图片层中对自动修改的字符所属子图片进行标注。
例如,图4A中的“国”字,假设被错误识别成了“口”字。在进行分 词分析时,由于“中华人民共和”可以和“国”组成词组,因此自动将“口” 字修改成“国”字,并对“口”字符所属子图片进行标注,提示校对人员。
对全文合成层进行分词分析操作可在多个时机进行多次。例如,在全文 合成层合成后,便可以对其进行分词分析操作;再通过比较切分子图片中字 符、修改全文合成层后还可以对其进行分词分析操作。这样,可以提高校对 的准确率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本 发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要 求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
机译: 一种支持语音识别文本校对的方法,其回放速度适应于识别的可靠性
机译: 地名字符串校对方法,地名字符串校对设备,地名字符串识别设备和邮件分类系统
机译: 一种基于指针的对象获取方法,用于对计算机系统的信息进行有形处理,该方法基于一种自然语言,并且该机器人或机器人的人工智能系统对该计算机系统的接收信号作出反应,该计算机系统具有相应的关联机器人或机器人的人工智能,该机器人或机器人的人工智能计算机系统的相应思想得到证实