首页> 中国专利> 一种提升体检报告OCR识别准确率的方法及装置

一种提升体检报告OCR识别准确率的方法及装置

摘要

本发明公开一种提升体检报告OCR识别准确率的方法及装置,包括以下步骤,上传报告,模板识别,OCR区域识别,语义分析识别,校验和标准化,结果输出,输出校验和标准化后体检报告最终结果。该装置包括上传报告模块,模板识别模块,OCR区域识别模块,语义分析识别模块,校验和标准化模块,结果输出模块。该方法基于周围特征的可信度评估函数,来提高体检报告,发票识别的准确率。

著录项

说明书

技术领域

本发明属于人工智能识别技术领域,具体涉及一种提升体检报告OCR识别准确率的方法及装置。

背景技术

目前体检报告识别,发票识别已经成为一项非常重要的技术和手段,该技术可以大大提升核赔核保,体检报告信息解析的效率和自动化,但是目前由于各家体检报告和体检格式具有很大的差别,所有导致最终识别的准确率很低。

现有的OCR提取技术方案,如图1所示,主要是获取体检报告特征和区域,对比格式来源后获取体检报告模板,分析定位提取文字后识别,校验和标准化目标体检报告,结果输出经过以上步骤。存在有如下缺点,目前体检报告多种多样,简单的模型和算法不能取得很好的准确率,目前通用的方法取得准确率一般在 50%左右;目前体检报告识别一般没有经过深度学习神经网络的模板判别和分类,一般都是通过简单相似度的方式对比获取模板的类别;目前的算法无法很好的解决,体检报告细项匹配错位的问题,例如,把血常规的白细胞计数,识别成尿常规的白细胞计数,而这样的错误大量的存在于体检报告中;目前算法也无法很好解决,体检报告项目和值对应出错的问题,例如白细胞技术值100,实际上项目和值匹配出错的问题。

发明内容

为解决现有技术中存在的上述技术问题,提供了一种提升体检报告OCR识别准确率的方法及装置,应用于体检报告场景,基于周围特征的可信度评估函数,来提高体检报告,发票识别的准确率。

为实现上述发明目的,本发明的技术方案是:

根据本发明的第一方面,提供了一种提升体检报告OCR识别准确率的方法,该方法包括,上传报告,用户上传体检报告;

模板识别,体检报告上传后通过深度学习分类模型,进行模板判别;

OCR区域识别,根据模板判别结果,OCR识别重点识别的区域和每个区域存储的内容分布;

语义分析识别,OCR开始提取所述重点识别的区域和每个区域存储的内容文字,根据语义分析识别出体检报告字段和值;

校验和标准化,将识别出的体检报告对比标准体检报告,进行校验和标准化;

结果输出,输出校验和标准化后体检报告最终结果。

根据本发明的第二方面,还提供了一种电子设备,该设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述提升体检报告OCR识别准确率的方法。

根据本发明的第三方面,还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本公开文本的第一方面的方法。

在一些实施例中,深度学习分类模型是使用卷积神经网络(CNN),进行图片判别分类。

在一些实施例中,模板判别是使用深度学习分类模型,识别当前OCR的体检报告页面的类别。

在一些实施例中,区域是指体检报告的内容,区域包括重点区域和非重点区域,重点区域是结构化的区域,非重点区域是无结构化的区域。

在一些实施例中,标准体检报告为根据体检标准和用户体检要求,将体检报告字段汇总后,构建一个标准体检报告,标准体检报告包括有字段,字段包括有标准分类、项目名称、编码、结果允许值、结果属性和是否长期有效信息。

在一些实施例中,在校验和标准化时,对于有歧义的体检项目,体检报告用周围项目特征判别函数进行处理。

在一些实施例中,所述周围项目特征判别函数,对样本的概率统计,计算样本所有类别出现某个项目的概率值;再接收样本OCR初步的识别结果,同时识别出周围n个项目的识别结果和值,识别项目与样本首页的识别结果和值,识别项目与样本边框的识别结果和值。样本是指标准体检报告集合,n取值范围是正整数,n越大最后的结果越精确。

在一些实施例中,提升体检报告OCR识别准确率的装置,包括上传报告模块,用户上传体检报告;

模板识别模块,所述上传报告模块上传后通过深度学习分类模型,进行模板判别;

OCR区域识别模块,根据所述模板识别模块的模板判别结果,OCR识别重点识别的区域和每个区域存储的内容分布;

语义分析识别模块,OCR开始提取所述OCR区域识别模块的所述重点识别的区域和每个区域存储的内容分布文字,根据语义分析识别出体检报告字段和值;

校验和标准化模块,将识别出所述语义分析识别模块的体检报告字段和值对比标准体检报告字段和值,进行校验和标准化;

结果输出模块,输出所述校验和标准化模块的体检报告最终结果。

周围项目特征判别函数模块,在校验和标准化时,对于有歧义的项目,体检报告用周围项目特征判别函数进行处理。

与现有技术相比较,本发明具有如下的有益效果:

本发明通过深度学习进行判别模板的策略,以及周围特征函数判别策略和流程;还构建一个标准健康档案,格式如标准体检报告。进一步提升体检报告的识别的准确率,可扩展性量化,可以灵活的适配各种体检报告情况。

附图说明

图1为现有OCR提取体检报告识别的流程示意图。

图2为本发明提升体检报告OCR识别准确率的方法的流程示意图。

图3为本发明提升体检报告OCR识别准确率的方法的标准体检报告示意图。

图4为本发明提升体检报告OCR识别准确率的方法的周围项目特征判别函数示意图。

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

参照图2所示,一种提升体检报告OCR识别准确率的方法,包括:上传报告,用户上传体检报告;

模板识别,体检报告上传后通过深度学习分类模型,进行模板判别;

OCR区域识别,根据模板判别结果,OCR需要重点识别的区域和每个区域存储的内容分布;

语义分析识别,OCR开始提取所述重点识别的区域和每个区域存储的内容文字,根据语义分析识别出体检报告字段和值;

校验和标准化,识别出体检报告字段和值对比标准体检报告字段和值,进行校验和标准化;

结果输出,输出校验和标准化后体检报告最终结果。

在一些实施例中,深度学习分类模型是使用卷积神经网络(CNN),进行图片判别分类,图片类别包括有:体检报告基础信息页,超声报告页面,血常规页面,尿常规页面。

在一些实施例中,模板判别是使用深度学习分类模型,识别当前OCR的体检报告页面的类别,就是体检报告页面属于哪一个分类。如体检报告基础信息页面,超声报告页面,血常规页面,尿常规页面。

在一些实施例中,区域是指体检报告的内容,区域包括重点区域和非重点区域,重点区域是结构化的区域,非重点区域是无结构化的区域。有的需要进行结构化,有的不需要,需要结构化的区域是重点区域,例如:基础信息区域,超声区域,体检报告结论区域;其他不需要结构化的区域非重点区域,例如,超声报告图像区域不用进行识别,属于非重点区域。

在一些实施例中,如图3所示,标准体检报告为根据体检标准和用户体检要求(即公司情况),将体检报告字段汇总后,构建一个标准体检报告,标准体检报告为现有场景的体检报告,标准体检报告包括有字段,字段包括有标准分类、项目名称、编码、结果允许值、结果属性和是否长期有效信息。体检公司的标准是主流体检公司大体检机构的共有项目。该标准体检报告有如下的项目,例如姓名,年龄,基础信息等。

在一些实施例中,如图4所示,周围项目特征判别函数,在校验和标准化时,对于有歧义的体检项目,体检报告用周围项目特征判别函数进行处理。有歧义(即置信度不高)的体检项目是指概率低项目,例如尿常规 0.5,血常规 0.5;低于0.5表示不确定有歧义。体检项目的最细的分类,如红细胞计数。置信度就是概率值,是指最后结果可信的程度,越接近于1越可信。置信度最小是0,就是肯定不属于。

在一些实施例中,所述周围项目特征判别函数就是置信度函数,对样本的概率自动统计,计算样本所有类别出现某个项目的概率值;再接收样本OCR初步的识别结果,同时识别出周围n个项目的识别结果和值,识别项目与样本首页的识别结果和值,识别项目与样本边框的识别结果和值。样本是指标准体检报告集合;n取值范围是正整数,n越大最后的结果越精确。现在扫描到性别,把附近的年龄等作为n个特征一起,组合也可以单独使用,特征是周围出现的体检项目,还有的特征是与首页边框的距离有多远,有利于可以定位确认项目的特征。

周围项目特征判别函数是基于贝叶斯理论构建的一个置信度函数。该函数的工作流程如下:

a)样本的概率统计,通过标准体检报告集合可以计算出,所有类别出现某个项目的概率值,样本是指标准体检报告集合;其格式如下:

例如:P(尿常规)|P(红细胞计数)=0.6 表示在尿常规类别中出现红细胞计数的概率0.6,

P(尿常规)=0.1 表示尿常规出现在体检报告的概率为0.6,

P(红细胞计数)|4.5~5.5=0.8 表示红细胞计数取值4.5~5.5的概率0.8,

P(红细胞计数)|0.8=0 表示0.8是红细胞计数的值的概率为0;

P(外科检查项目)|P(皮肤)=0.8 表示在外科检查项目出现皮肤类别的概率是0.8;

b)接收OCR初步的识别结果,同时拿到周围n个项目的识别结果和值。

样本通过如下的公式计算(对Bayes公式进行了简化),

P(红细胞计数)|尿常规 =P(i项目)*P(尿常规)|P(i项目)+........,

P(红细胞计数)|血常规 =P(i项目)*P(尿常规)|P(i项目)+........,

1|P(红细胞计数)=如果1 属于 4.5~5.5 范围=0.8。

其他1不属于4.5~5.5范围=0。

周围特征中选n个,i数值是1到n。

如果 P(红细胞计数)|尿常规>P(红细胞计数)|血常规,则判断当前检测的红细胞计数属于尿常规。

最后 1|P(红细胞计数)=0 则判断1不能是红细胞的值,而用其他概率更高的值。

在一些实施例中,提升体检报告OCR识别准确率的装置,包括上传报告模块,用户上传体检报告;

模板识别模块,所述上传报告模块上传后通过深度学习分类模型,进行模板判别;

OCR区域识别模块,根据所述模板识别模块的模板判别结果,OCR识别重点识别的区域和每个区域存储的内容分布;

语义分析识别模块,OCR开始提取所述OCR区域识别模块的所述重点识别的区域和每个区域存储的内容分布文字,根据语义分析识别出体检报告字段和值;

校验和标准化模块,将识别出所述语义分析识别模块的体检报告字段和值对比标准体检报告字段和值,进行校验和标准化;

结果输出模块,输出所述校验和标准化模块的体检报告最终结果。

在一些实施例中,还提供了一种电子设备,该设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述提升体检报告OCR识别准确率的方法。

在一些实施例中,还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本公开文本的第一方面的方法。

上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号