首页> 中国专利> 一种基于词匹配和语法匹配的OCR后处理方法

一种基于词匹配和语法匹配的OCR后处理方法

摘要

本发明公开一种基于词匹配和语法匹配技术的OCR后处理方法,通过单字识别获取每个字对应识别的前K个结果集合,对于每一段文本,取每个字对应最大概率的识别结果作为初步序列进行分词,对分词后的词语进行基于语料库的词匹配操作,选取前置识别模块中最大概率的字组合更新词语;对分词后的单字进行语法匹配的操作,将单字识别的K个结果分别进行语法分析匹配,取最大可能的结果更新单字。上述两步融合后作为后处理的输出结果。本发明充分挖掘了文本句法信息,对于单字和多字词分别处理,体现了良好的适应性,与传统的基于词匹配的技术相比,特别是基于质量较低的文本上,采用本方法优势更为明显,具有较高的应用价值。

著录项

  • 公开/公告号CN113269192A

    专利类型发明专利

  • 公开/公告日2021-08-17

    原文格式PDF

  • 申请/专利权人 东南大学;

    申请/专利号CN202110567957.4

  • 发明设计人 薛翔天;孔祥龙;

    申请日2021-05-24

  • 分类号G06K9/34(20060101);G06F40/211(20200101);G06F40/284(20200101);G06K9/62(20060101);

  • 代理机构32206 南京众联专利代理有限公司;

  • 代理人杜静静

  • 地址 210096 江苏省南京市玄武区四牌楼2号

  • 入库时间 2023-06-19 12:14:58

说明书

技术领域

本发明涉及一种基于词匹配和语法匹配的OCR后处理方法,属于OCR处理技术领域。

背景技术

OCR(Optical Character Recognition,光学字符识别)是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。它是一个相对很广义的问题,这类问题,在不同的特定场景的要求和标准、容错率也不一样。一般情况下OCR的流程一般分为以下几个步骤:文本检测,文本识别,后处理。后处理是OCR的重要组成部分,因为受环境噪声,或者同形字的很象文字识别的错误是非常常见的,我们往往期望通过上下文,根据语料和上下文信息进行纠错。经典的解决算法有两类:1)基于先验词典的改进BK-tree;2)基于语言模型的纠错机制。

而目前的后处理主要针对的是多字词,很少有对于单字的处理方法。针对这一问题,本发明考虑将针对多字词的词匹配技术和针对单字的语法匹配技术融合在一起,使得OCR后处理的效果更佳。

发明内容

本发明公开一种基于词匹配和语法匹配技术的OCR(Optical CharacterRecognition,光学字符识别)后处理方法,通过单字识别获取每个字对应识别的前K个结果集合。对于每一段文本,取每个字对应最大概率的识别结果作为初步序列进行分词,对分词后的词语进行基于语料库的词匹配操作,选取前置识别模块中最大概率的字组合更新词语;对分词后的单字进行语法匹配的操作,将单字识别的K个结果分别进行语法分析匹配,取最大可能的结果更新单字。上述两步融合后作为后处理的输出结果。

为了达到上述目的,本发明的技术方案如下,一种基于词匹配和语法匹配的OCR后处理方法,包括如下步骤:

步骤1)前置OCR单字识别模块,通过OCR的前置模块定位场景中的文字信息并对单字进行识别,保存最有可能的前K个识别结果及其对应概率;

步骤2)分词,取每个字最大概率的识别结果作为初始结果,使用主流分词工具对文本序列进行分词;

步骤3)基于中文词典的正向最大词匹配,对于分词后的多字词,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,对初始结果进行更正;

步骤4)多语料词法切分,根据步骤2)的结果,对单字词的K个识别结果代入文本分别进行语法切分并保存;

步骤5)基于中文语法库的语法匹配,对于分词后的单字词,根据句法先验知识,将K个不同的语法切分结果进行筛选后选取步骤1)中概率值最高的结果进行更正。

步骤6)在对单字和多字词分别处理后输出识别结果。

本发明方法的优选方案中,步骤1)中设输入文本为X=(x

本发明方法的优选方案中,步骤2)中分词工具采用jieba分词,jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG),再采用了动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。Viterbi算法通过反向指针“回溯”以确定某个隐藏状态是否是最可能的隐藏状态序列中的一员。有效孤立序列中的噪音。

本发明方法的优选方案中,步骤3)中基于中文词典的正向最大词匹配的具体流程为:

(a)假设多字词中有n个字,每个字有K个识别结果,随机组合后得到K

(b)将词组合识别概率与多字词出现概率组合,添加权重因子α,最终的词组合概率为P=αP1+(1-α)P2。最高的概率值对应的词组合作为最后的结果。该步骤综合考虑了两种判别的结果,有效减少了误差。

本发明方法的优选方案中,步骤5)中基于中文语法库的语法匹配的具体流程为:

采用北京大学的《现代汉语语法信息词典》语料库,以待识别词为中心,通过与上下文进行语法匹配检查来识别待检测字符。语法匹配主要利用了语料库中各词库所提供的语法语义知识。以名词词库为例。本文在进行语法匹配时检查的项目包括如下几种:数名、个体量词、度量词、容器量词、集体量词、种类量词、成形量词、不定量词、动时量、前名、后名、前动、前代、前代的、前接、后接。将不符合语法匹配规则的单字识别结果删去后取最大概率的识别结果更新单字。

本发明充分挖掘了文本句法信息,对于单字和多字词分别处理,体现了良好的适应性,与传统的基于词匹配的技术相比,特别是基于质量较低的文本上,采用本方法优势更为明显,具有较高的应用价值。与现有技术相比,本发明具有以下优点:

(1)将单字识别的分类概率与后处理匹配概率结合,提高结构前后的信息关联度和利用率。传统后处理方法不会使用识别分类模块的概率值,这样的话会大大降低信息的利用率,完全依赖于后处理方法的精度。本发明将单字识别模块的概率值和后处理模块的概率值相融合,有效降低了后处理模块的误检率,提高了整体结构的适应性。

(2)提高了后处理方案的准确率和完整性。传统方法针对分词后的词语进行词匹配分析,忽视了单字的处理和语法分析。本发明基于词匹配和语法匹配技术,分别对多字词和单字进行语义和语法的优化处理,使得后处理模块覆盖文本中的每一个字,提高了后处理的准确度和性能。

附图说明

图1是本发明方法的流程图;

图2是词法切分示意图。

具体实施方式:

为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。

实施例:一种基于词匹配和语法匹配的OCR后处理方法,通过单字识别获取每个字对应识别的前K个结果集合。对于每一段文本,取每个字对应最大概率的识别结果作为初步序列进行分词,对分词后的词语进行基于语料库的词匹配操作,选取前置识别模块中最大概率的字组合更新词语;对分词后的单字进行语法匹配的操作,将单字识别的K个结果分别进一,体系结构:

图1给出基于词匹配和语法匹配的OCR后处理方法的体系结构,下面给出两个主要部分的具体说明。

1、基于中文词典的正向最大词匹配:

(a)假设多字词中有n个字,每个字有K个识别结果,随机组合后得到K

(b)将词组合识别概率与多字词出现概率组合,添加权重因子α,最终的词组合概率为P=αP1+(1-α)P2。最高的概率值对应的词组合作为最后的结果。

2、基于中文语法库的语法匹配:

采用北京大学的《现代汉语语法信息词典》语料库,以待识别词为中心,通过与上下文进行语法匹配检查来识别待检测字符。语法匹配主要利用了语料库中各词库所提供的语法语义知识。以名词词库为例。本文在进行语法匹配时检查的项目包括如下几种:数名、个体量词、度量词、容器量词、集体量词、种类量词、成形量词、不定量词、动时量、前名、后名、前动、前代、前代的、前接、后接。将不符合语法匹配规则的单字识别结果删去后取最大概率的识别结果更新单字。

二、具体过程:

参见图1,一种基于重叠度计算的NLP库组合使用技术,包括如下:

步骤1)前置OCR单字识别模块,通过OCR的前置模块定位场景中的文字信息并对单字进行识别,保存最有可能的前K个识别结果及其对应概率。设输入文本为X=(x

步骤2)分词,取每个字最大概率的识别结果作为初始结果,使用主流分词工具对文本序列进行分词。

步骤3)基于中文词典的正向最大词匹配,对于分词后的多字词,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,对初始结果进行更正。

(a)假设多字词中有n个字,每个字有K个识别结果,随机组合后得到K

(b)将词组合识别概率与多字词出现概率组合,添加权重因子α,最终的词组合概率为P=αP1+(1-α)P2。最高的概率值对应的词组合作为最后的结果。

步骤4)多语料词法切分,根据步骤2)的结果,对单字词的K个识别结果代入文本分别进行语法切分并保存。根据分词后的结果,需要进行词法切分的多字词为步骤3)更新后的结果,单字词取步骤1)中获取的K种识别结果,分别进行语法切分;

步骤5)基于中文语法库的语法匹配,对于分词后的单字词,根据句法先验知识,将K个不同的语法切分结果进行筛选后选取步骤1)中概率值最高的结果进行更正。以待识别词为中心,通过与上下文进行语法匹配检查来识别待检测字符。语法匹配主要利用了语料库中各词库所提供的语法语义知识。将不符合语法匹配规则的单字识别结果删去后取最大概率的识别结果更新单字。

步骤6)在对单字和多字词分别处理后输出识别结果。

三、具体应用实施例:

为了方便描述,假定有如下简化的应用实例:选取待检测文本如下所示

X=(x

根据前面提到的计算步骤,依次实施:

第一步,前置OCR单字识别模块,保存最有可能的前K=3个识别结果及其对应概率。对应的结果为Y=(y

第二步,分词,取第一步中概率最大的识别结果作为初始结果,使用主流分词工具进行文本的分词,分词结果为“我/艾/中国”。

第三步,基于中文词典的正向最大词匹配,

(a)分词结果中只有一个两字词,每个字有3个识别结果,随机组合后得到9个多字词组合(“中国”,“中阈”,“中匡”,“串国”,“串阈”,“串匡”,“弗国”,“弗阈”,“弗匡”),将词组合中对应字概率相乘并进行归一化得到词组合识别概率P1=(0.35,0.23,0.23,0.08,0.05,0.05,0.003,0.003,0.003)。然后将多字词组合放入语料库中匹配,统计每个词组合在语料库中出现的次数记为(9,5,0,3,0,0,0,0,0),由此得到多字词出现的概率并进行归一化后结果为P2=(0.53,0.29,0,0.18,0,0,0,0,0)。

(b)将词组合识别概率与多字词出现概率组合,添加权重因子α=0.5,最终的词组合概率为P=0.5*P1+0.5*P2。P=(0.44,0.26,0.12,0.13,0.025,0.025,0.0015,0.0015,0.0015),最高的概率值对应的词组合“中国”作为最后的结果。

第四步,多语料词法切分,如图2所示,根据分词后的结果,需要进行词法切分的多字词为步骤3)更新后的结果,单字词取步骤1)中获取的3种识别结果,分别进行语法切分。

第五步,基于中文语法库的语法匹配,以待识别词为中心,通过与上下文进行语法匹配检查来识别待检测字符。语法匹配主要利用了语料库中各词库所提供的语法语义知识。将不符合语法匹配规则的单字识别结果删去后取最大概率的识别结果更新单字。在这里,我们删去x

第六步,输出后处理后的结果由原来的“我艾中国”更新为“我爱中国”。

需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号