首页> 中国专利> 一种纸质水文年鉴数字化方法

一种纸质水文年鉴数字化方法

摘要

本发明涉及一种纸质水文年鉴数字化方法,在单一特征的基础上提出了互补性较强的特征融合方法,识别率得到了提高,水文过程由于受相似的季节性气候因素,以及其他随机因素影响而呈现相似性,也即其流量具有上下文相关性,所以本发明鉴于此相关性,同时提出了基于时间序列的后期纠错机制。即在分类器识别后,根据某种准则对其进行纠错处理,通过实验证明,本发明所提出的机制,有效提高了识别精度,保证了工作效率。

著录项

  • 公开/公告号CN105938547A

    专利类型发明专利

  • 公开/公告日2016-09-14

    原文格式PDF

  • 申请/专利权人 河海大学;

    申请/专利号CN201610232680.9

  • 申请日2016-04-14

  • 分类号G06K9/00(20060101);G06K9/62(20060101);

  • 代理机构32200 南京经纬专利商标代理有限公司;

  • 代理人田凌涛

  • 地址 210000 江苏省南京市江宁开发区佛城西路8号

  • 入库时间 2023-06-19 00:30:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-02-12

    授权

    授权

  • 2016-10-19

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20160414

    实质审查的生效

  • 2016-09-14

    公开

    公开

说明书

技术领域

本发明涉及一种纸质水文年鉴数字化方法,属于计算机图像处理技术和水文交叉技术领域。

背景技术

纸质水文年鉴记录了最基本的水文测验数据,这些数据中蕴涵着自然界长期的演变规律和人类活动影响的信息,在生产、科研、社会服务中发挥了重要作用。鉴于水文年鉴保存年代较为久远、使用频率高以及保存条件差等原因,纸质水文年鉴已逐渐开始损坏,而且一旦遭受人为或自然损害,将带来难以弥补的损失,抢救这些珍贵的历史资料已经成为迫在眉睫的问题。保护水文年鉴最有效的方式是对水文年鉴进行数字化扫描加工,形成电子档案。现有技术基于以上问题对水文年鉴的数字化进行了研究,提出了水文年鉴数据的智能识别,识别水文资料中的数字(即数字字符识别)是水文资料数字化的重要任务。

水文资料是一种逐年刊印的资料,以统一、科学的图表形式表达出来的成果。内容主要是上年实测的并经过严格整编审查的、普遍需要的基本水文资料;其表格特点是横排表示具体月份,竖排表示每个月份的日期,表格底部由每个月的平均流量、最大流量、最小流量、年统计及附注组成。所以本文在识别水文年鉴数字之前先对其进行版面分析,提取表格线。

水文年鉴数字字符比较规范化、笔划数也比较少,它比之汉字特征码的提取相对要容易些。但是,它们形态变化不大、笔划信息过少,在某种意义上来说导致有效的特征矢量提取的困难增大。例如,数字“8”和“6”,当它们的油墨重一点时,白正宋体的“6”有时上半部也成了个小圆圈,几乎与“8”类同。数字“1”和“3”,“2”和“7”,当油墨较重或是字型太小,很可能出现数字“1”和“3”、“2”和“7”有相同的特征矢量。因此,在实际应用中,采用现有技术针对水文资料进行识别,具有精度低、效率低的缺点。

发明内容

本发明所要解决的技术问题是提供一种采用全新特征融合设计方法,能够有效提高识别率,保证工作效率的纸质水文年鉴数字化方法。

本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种纸质水文年鉴数字化方法,包括如下步骤:

步骤001.根据纸质水文年鉴页面的版面设计,确定水文资料表格位于纸质水文年鉴 页面中的像素位置,然后进入步骤002;

步骤002.根据纸质水文年鉴页面中水文资料表格的像素位置,针对水文资料表格分别进行纵向和横向投影,并针对水文资料表格的纵向投影图、横向投影分别进行分析,分别提取水文资料表格中各条竖线的横坐标、各条横线的纵坐标,然后进入步骤003;

步骤003.根据水文资料表格的版式,以及水文资料表格中各条竖线的横坐标、各条横线的纵坐标,针对水文资料表格的投影图像,分别获得水文资料表格各个数值单元格中的数据图像,然后进入步骤004;其中,水文资料表格各个数据图像中的数值字符为白色,底色为黑色;

步骤004.分别针对各个数据图像,针对数据图像中的各个数值字符进行字符切分,获得该数据图像中的各个数值字符块,进而分别获得各个数据图像中的各个数值字符块,然后进入步骤005;

步骤005.分别针对各个数据图像中的各个数值字符块,提取数值字符块中数值字符的网格特征、傅里叶特征、轮廓矩特征,共同作为该数值字符的识别特征,进而分别获得各个数据图像中各个数值字符块中数值字符的识别特征,然后进入步骤006;

步骤006.分别针对各个数据图像中的各个数值字符块,判断是否存在由数值字符块顶边向下存在预设数量的黑色像素点,是则判定该数值字符块中为小数点,否则不做任何进一步操作;在完成分别针对各个数据图像中各个数值字符块的判断后,然后进入步骤007;

步骤007.针对所有数据图像中数值字符的所有识别特征,进行特征融合,构成水文资料表格中分别对应“0”到“9”的数值识别特征,然后进入步骤008;

步骤008.根据水文资料表格中分别对应“0”到“9”的数值识别特征,以及各个数据图像中各个数值字符块中数值字符的识别特征,通过预设分类器,分别获得各个数据图像中各个数值字符块所对应的数字,然后进入步骤009;

步骤009.根据各个数据图像中各个数值字符块所对应的数字或小数点,分别构成水文资料表格各个数值单元格中数据图像所对应的数值,再结合水文资料表格版式的各项属性,获得水文资料表格中各项属性,及其所对应的数值,并进行存储。

作为本发明的一种优选技术方案,所述步骤009之后还包括如下步骤,执行完步骤009之后,进入步骤010;

步骤010.针对所识别存储水文资料表格中各项属性、及其所对应的数值,分别针对各个月的流量数值,按如下步骤010-01至步骤010-02进行执行,进而分别获得针对各个 月每日流量数值的初步识别判断,然后进入步骤011;

步骤010-01.将当月第一日流量数值作为第一阈值,然后分别针对当月前两日流量数值,判断下一日流量数值与当日流量数值之间的差值是否小于第一阈值,是则判断当日流量数值识别无误;否则判断当日流量数值初步识别错误;由此获得分别针对当月前两日流量数值的初步识别判断,然后进入步骤010-02;

步骤010-02.分别针对当月由第三日开始的各日流量数值,判断下一日流量数值与当日流量数值之间的差值是否小于前一日流量数值,是则判断当日流量数值识别无误;否则判断当日流量数值初步识别错误;由此获得分别针对当月由第三日开始各日流量数值的初步识别判断;

步骤011.根据所识别存储水文资料表格中的各个数值,以及各个数值中各个数字的识别特征,通过预设训练器,获得所识别存储水文资料表格中各个数值中的各个数字,分别对应“0”到“9”的十个识别结果概率,然后进入步骤012;

步骤012.分别针对所识别存储水文资料表格中各个数值中的各个数字,获得数字所对应“0”到“9”十个识别结果概率中的最大识别结果概率,以及第二大识别结果概率,并获得该最大识别结果概率与该第二大识别结果概率的差值,判断该差值是否小于预设识别结果概率阈值,是则判断该数字初步识别错误;否则判断该数字识别无误;由此获得分别针对所识别存储水文资料表格中各个数值中各个数字的初步识别判断,然后进入步骤013;

步骤013.分别针对各月中各个初步识别错误的流量数值,判断初步识别错误的流量数值中是否存在初步识别错误的数字,是则判断该初步识别错误的流量数值错误,并进行报警;否则判断该初步识别错误流量数值无误;由此实现针对所识别存储水文资料表格中各个数值的检验。

作为本发明的一种优选技术方案:所述步骤011中,根据所识别存储水文资料表格中的各个数值,以及各个数值中各个数字的识别特征,通过支持向量机训练器,获得所识别存储水文资料表格中各个数值中的各个数字,分别对应“0”到“9”的十个识别结果概率。

作为本发明的一种优选技术方案:所述步骤013中,所述根据初步识别错误的流量数值中存在初步识别错误的数字,判断该初步识别错误的流量数值错误,并进行报警的同时,根据该初步识别错误数字在该初步识别错误流量数值中的位置进行分析,若该初步识别错误数字位于该初步识别错误流量数值中的整数部分,则用该初步识别错误流量数值所对应日期的前一日流量数值与后一日流量数值的平均值,替换该初步识别错误流量数值;若该 初步识别错误数字位于该初步识别错误流量数值中的小数部分,则用该初步识别错误流量数值所对应日期的前一日流量数值的小数与后一日流量数值的小数的平均值,替换该初步识别错误流量数值中的小数。

作为本发明的一种优选技术方案,所述步骤004,针对数据图像中的各个数值字符进行字符切分,获得该数据图像中的各个数值字符块,具体包括如下步骤:

步骤a01.检测获得数据图像中各数值字符内部的各个白色像素点,以及该数据图像各边缘分别相距各数值字符最小距离,所对应数值字符上的白色像素点,然后进入步骤a02;

步骤a02.针对上一步骤由该数据图像中所获各个白色像素点分别进行判断,判断像素点上、下、左、右各位置的像素点是否均为白色像素点,是则判断该像素点为数值字符内部的像素点;否则根据标识符判断该像素点为字符的边缘像素点,并获取该像素点在该数据图像中所在像素列的列号;由此针对上一步骤由该数据图像中所获各个白色像素点分别进行判断,获得该数据图像中各个数值字符上边缘像素点所在该数据图像中所在像素列的列号,然后进入步骤a03;

步骤a03.根据该数据图像中各个数值字符上边缘像素点在该数据图像中所在像素列的列号,针对该数据图像中的各个数值字符进行划分,获得该数据图像中的各个数值字符块。

作为本发明的一种优选技术方案,所述步骤005中,分别针对各个数据图像中的各个数值字符块,提取数值字符块中数值字符的网格特征,具体包括如下步骤:

步骤b01.获取数值字符块的上、下、左、右的边界,并由此获得数值字符本体图像,然后进入步骤b02;

步骤b02.针对该数值字符本体图像进行重心归一化,并将经过重心归一化的该数值字符本体图像平均分割成预设数量个子区域图像,然后进入步骤b03;

步骤b03.分别获得该数值字符本体图像中各个子区域图像中白色像素点的所占比例,共同构成该数值字符块中数值字符的网格特征。

作为本发明的一种优选技术方案,所述步骤005中,分别针对各个数据图像中的各个数值字符块,提取数值字符块中数值字符的傅里叶特征,具体包括如下步骤:

步骤c01.针对数值字符块进行二维离散傅里叶变换,然后进入步骤c02;

步骤c02.将经过二维离散傅里叶变换的该数值字符块,继续进行中心变换,即将数值字符块平均划分为四块子区域图像,并进行对角交换,获得傅里叶图像谱,然后进入步骤c03;

步骤c03.针对中心变换后的傅里叶图像谱分析其傅里叶系数,获得该数值字符块的傅里叶系数中、大于预设幅值阈值的傅里叶系数集中所在区域,构成大幅傅里叶系数区域,然后进入步骤c04;

步骤c04.由大幅傅里叶系数区域中,提取预设数量个离散傅里叶变换系数,并将其进行归一化,构成该数值字符块中数值字符的傅里叶特征。

作为本发明的一种优选技术方案:所述步骤005中,分别针对各个数据图像中的各个数值字符块,提取数值字符块中数值字符的轮廓矩特征,具体包括如下步骤:

步骤d01.针对数值字符块中的数值字符进行轮廓提取,然后进入步骤d02;

步骤d02.针对该数值字符块中数值字符的轮廓进行不变矩处理,提取预设数量个二维轮廓不变矩特征,构成该数值字符块中数值字符的轮廓矩特征。

作为本发明的一种优选技术方案,所述步骤007具体包括如下步骤:

步骤e01.根据排列组合,针对所有数据图像中数值字符的所有识别特征,进行任意两个识别特征的组合,构成所有识别特征组合,然后进入步骤e02;

步骤e02.将所有数据图像中数值字符的所有识别特征,构成水文资料表格中对应数字“0”到“9”的样本集合S,然后分别针对各组识别特征组合,根据如下公式(1):

Cij,A=E(SiSj)-E(SiSj)E(S)---(1)

获得该组识别特征组合分别相对标准数字“0”-“9”的特征互补指数Cij,A;进而分别获得各组识别特征组合分别相对标准数字“0”-“9”的特征互补指数Cij,A;然后进入步骤e03;其中,Si和Sj分别表示样本集合S被识别特征Fi与识别特征Fj错分的样本集合;E(S)表示样本集合S中的样本个数;E(Si∪Sj)表示样本集合Si与样本集合Sj之间并集中的样本个数;E(Si∩Sj)表示样本集合Si与样本集合Sj之间交集中的样本个数;A={0、1、…、9},Cij,A表示由识别特征Fi与识别特征Fj所构成识别特征组合相对标准数字A的特征互补指数;

步骤e03.分别针对各组识别特征组合,根据如下公式(2):

TCk=Σ0,ij9CijA102---(2)

分别获取各组识别特征组合相对于标准数字的整体互补指数TCk,然后进入步骤e04; 其中,k={1、…、K},K表示所有识别特征组合的组合数,TCk表示第k组识别特征组合相对于标准数字的整体互补指数;

步骤e04.针对所有识别特征组合,按其整体互补指数由大至小排序,获得排序前两个识别特征组合,然后针对该两个识别特征组合进行特征融合,构成水文资料表格中分别对应“0”到“9”的数值识别特征。

作为本发明的一种优选技术方案,所述步骤008中,根据水文资料表格中分别对应“0”到“9”的数值识别特征,以及各个数据图像中各个数值字符块中数值字符的识别特征,通过支持向量机(SVM)分类器,分别获得各个数据图像中各个数值字符块所对应的数字。

本发明所述一种纸质水文年鉴数字化方法及控制方法采用以上技术方案与现有技术相比,具有以下技术效果:本发明所设计纸质水文年鉴数字化方法,在单一特征的基础上提出了互补性较强的特征融合方法,识别率得到了提高,由于水文过程受相似的季节性气候因素,以及其他随机因素影响而呈现相似性,也即其流量具有上下文相关性,所以本发明鉴于此相关性,同时提出了基于时间序列的后期纠错机制。即在分类器识别后,根据某种准则对其进行纠错处理,通过实验证明,本发明所提出的机制,有效提高了识别精度,保证了工作效率。

附图说明

图1是本发明设计的纸质水文年鉴数字化方法及控制方法的流程图;

图2a是实施例中水文资料表格横向投影示意图;

图2b是实施例中水文资料表格纵向投影示意图;

图3是实施例中由水文资料表格中分别所提取各条竖线、各条横线组成的表格示意图;

图4是实施例中水文年鉴版面分析示意图;

图5是实施例中分别获得水文资料表格各个数值单元格中数据图像的示意图;

图6是实施例中所获数据图像中各个数值字符块的示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

在日常的商业活动中,我们每天都运用了大量的文档和表格。同时表格文档也广泛地应用于各个领域,通常人们需要手动处理表格文档,例如客户需要缴纳赋税,图书管理员需要采集纸质表格文档中所包含的数据信息。由于光学字符识别(OCR)技术的发展,人 们开始尝试利用可获得数据的标准表格图像来提取表格中的数据信息,这可以减少工作时间并减轻工作负担。在商业领域中,利用OCR技术可以提高工作质量,并且可以减少人们花费在处理表格文档上的大量时间。在OCR运用的许多领域中,我们通过获取的表格模板使用户知道图像中印刷体的目标字符串。这些字符串信息包括了许多项目内容如流量信息、文本信息和数学公式等。表格的存在阻碍了数据信息的提取,因此表格线检测是印刷体表格识别技术中一项重要任务。

在水文资料印刷体文档中,表格是其必不可少的一部分,它可以将所有的文档信息高度集中在一起,并且让读者准确地明白其表达的含义,既简明又规范。通过查阅水文年鉴各大水文站的流量表,可以发现水文年鉴流量表的版面结构是有规律可循的。我们可以利用这些规律来切割出字符。

水文年鉴是水文机构对流域内各河道水体进行水文监测、次年进行加工整理刊印形成水文监测成果的载体。其内容包括各项整编成果以及用图表和必要文字说明的汇总资料,是一部系统、规范的水文数据宝库。

1958年,水利部水文局将全国按流域水系统一划分水文资料的卷册范围,并将逐年资料统一命名为《中华人民共和国水文年鉴》全国分10卷94册。其特征如下。

颜色特征:黄底黑字。

结构特征:纸张宽度为440mm,高度为140mm,宽高比为3.14。年鉴中数字宽度约为15mm,高度约为24mm,宽高比为0.625。字符位于表格内。

纹理特征:年鉴中含有类字符区,即数字横向、竖向颜色色度呈现有规律的波峰波谷变化。

水文年鉴字符是多行水平规则排列的字符,具有比较稳定的结构和纹理特征。基于投影的自顶向下版面分析方法就是应用了这一特点。在年鉴的字符区域,字符的边缘信息非常丰富,运用一定的工具对字符边缘信息进行检测和分析,可将水文数据从背景中分离出来。水文年鉴区域的像素值将呈现特定的起伏变化,变化频率也保持在一定范围内,利用这些特征可实现水文年鉴字符定位。根据年鉴数字区域的横向、竖向特征比非数字区域丰富这一特征提出了基于横向竖向投影的字符定位算法。求出其跳变点,根据跳变点的数量和跳变点间的距离来确定可能的字符区域。

距页面上边距大概275个像素左右页面空白,随后是水文年鉴的流域名称和水文站名称加上逐日平均流量表字样。距离此字样30像素左右位置标有集水面积、流量的单位。 距离此20像素左右是表格开始位置。水文年鉴表格均由11条横线和14条竖线组成。前两条横线中间标有月份信息,前两条竖线之间标有每月日期,随后在每两条竖线之间和第三天横线之前的区域均是每个月的流量值。在随后的横线之间标有每个月的平均流量值、日期最大的流量值和日期最小的流量值、年统计和附注信息。我们的最终目的是识别流量值,因此首先必须对水文资料进行版面分析,分析其表格结构,提取表格框线,以便具体对每个月份的流量值进行定位。

如图1所示,本发明设计了一种纸质水文年鉴数字化方法,首先要针对纸质水文年鉴页面中水文资料表格进行拍照,获取水文资料表格图像,并进行预处理操作,其中包括图像二值化、灰度化、去噪、旋转和反色处理;然后针对预处理操作的水文资料表格图像,具体进行如下步骤:

步骤001.随着对文档版面分析算法的深入研究,本文在原有文档版面分割典型算法(自顶向下、自底向下)的基础上,综合两种典型算法的优点,即同时使用结构特征和纹理特征来处理水文年鉴里的文档版面。这种处理方式既考虑了分割的精确性,又兼顾了分析处理的时间消耗,因此能够快速、准确的定位表格。根据纸质水文年鉴页面的版面设计,确定水文资料表格位于纸质水文年鉴页面中的像素位置,然后进入步骤002。

步骤002.根据纸质水文年鉴页面中水文资料表格的像素位置,针对水文资料表格分别进行纵向和横向投影,横向投影如图2a所示,纵向投影如图2b所示,并针对水文资料表格的纵向投影图、横向投影分别进行分析,其中,图2a中,11个黑色点分别表示水文年鉴表格的横线,在第二个黑点之后的空心点表示每行流量值的上下位置,之后的每个波峰的两侧表示第一日到第三十一日每行的流量值的上下位置;图2b中,14个黑色点表示表格的14条竖线的横坐标,每两个黑色点之间,即每两条竖线之间的波峰两侧表示每月的流量值的左右坐标,用空心点标出。分别提取水文资料表格中各条竖线的横坐标、各条横线的纵坐标,实际应用实施例中如图3所示,其中,水文资料表格各个数据图像中的数值字符为白色,底色为黑色;因此,通过图2a和图2b可以粗略定位出每个月的流量值以及表格位置,最终水文年鉴版面分析的结果如图4所示,然后进入步骤003。

通过统计同一行或列上的黑像素数目,避免了对直线段的直接检测,对表格线的连通性要求不高,具有很好的抗干扰和泛化能力。通过该方法可反映出图像中目标的位置与尺寸等有效信息。为后续水文年鉴数字的定位处理提供了便利。

步骤003.根据水文资料表格的版式,以及水文资料表格中各条竖线的横坐标、各条横线的纵坐标,针对水文资料表格的投影图像,分别获得水文资料表格各个数值单元格中 的数据图像,实际应用实施例如图5所示,然后进入步骤004;其中,水文资料表格各个数据图像中的数值字符为白色,底色为黑色。

在纸质水位资料的数字化过程中,只有能够自适应地很好地对水文资料图像进行分割,才能保证后续提取特征的数据的精确性。纸质水位资料图像的分割是整个数字化过程的基础,数字定位出来以后的图像还是个整体,包括数字与数字之间的空白。对于已经提取出来的数字整体,需要进行字符切分。把单个字符从整体数字中分离出来。

步骤004.分别针对各个数据图像,针对数据图像中的各个数值字符进行字符切分,获得该数据图像中的各个数值字符块,具体包括如下步骤:

步骤a01.检测获得数据图像中各数值字符内部的各个白色像素点,以及该数据图像各边缘分别相距各数值字符最小距离,所对应数值字符上的白色像素点,然后进入步骤a02;

步骤a02.针对上一步骤由该数据图像中所获各个白色像素点分别进行判断,判断像素点上、下、左、右各位置的像素点是否均为白色像素点,是则判断该像素点为数值字符内部的像素点;否则根据标识符判断该像素点为字符的边缘像素点,并获取该像素点在该数据图像中所在像素列的列号;由此针对上一步骤由该数据图像中所获各个白色像素点分别进行判断,获得该数据图像中各个数值字符上边缘像素点所在该数据图像中所在像素列的列号,然后进入步骤a03;

步骤a03.根据该数据图像中各个数值字符上边缘像素点在该数据图像中所在像素列的列号,针对该数据图像中的各个数值字符进行划分,获得该数据图像中的各个数值字符块。

基于上述设计过程,进而分别获得各个数据图像中的各个数值字符块,实际应用实施例,所获得该数据图像中的各个数值字符块,如图6所示;然后进入步骤005。

若直接把预处理后的数据作为分类器的输入量,进行分类计算时数据量大,特征提取的目的就是从分析数字的拓扑结构入手,把它的某些结构特征提取出来,使数字的位移、大小变化、字形畸变等干扰相对减小,也就是把那些反映数字特征的关键信息提供给分类器,这样就等于间接地增加了分类器的容错能力,而且经过特征提取后数据量也大大减小了;特征抽取对识别起关键性的作用,它应遵循以下原则:

(1)易于提取;

(2)具有较强的分类能力,即该特征对不同的数字应表现出较大的差异,而对相同的数字则应表现出尽可能小的差异;

(3)具有较高的稳定性,尽量减小笔划断裂或粘连的影响。

步骤005.分别针对各个数据图像中的各个数值字符块,提取数值字符块中数值字符的网格特征、傅里叶特征、轮廓矩特征,共同作为该数值字符的识别特征,进而分别获得各个数据图像中各个数值字符块中数值字符的识别特征,然后进入步骤006。

其中,网格特征是一组注重字符图像整体的分布特征,此种特征对噪声具有极强的抑制能力。其提取方法的主要思想是,把数字点阵分成几个局部小区域,并把每个小区域上的点阵密度作为描述特征,即统计每个小区域图像像素所占的百分比作为特征数据;由于网格特征反映的是图像的局部统计特征,是个百分比相对值,而图像局部的形变或噪声对应数字点阵就是局部元素的“0”和“1”的值互换,所以如果图像带有局部的形变或噪声,与没有形变和噪声的原图像相比,计算出来的百分比相对值变化不大。也就是说,这个相对值对于数字图片局部笔划的形变或孤立噪声点带来的影响不敏感。因此,以网格为特征进行数字识别,具有较好的抗噪声能力。针对本文中分割出的数字,我将之划分成大小为3×3的小区域,共计9个。

上述步骤005中,分别针对各个数据图像中的各个数值字符块,提取数值字符块中数值字符的网格特征,具体包括如下步骤:

步骤b01.获取数值字符块的上、下、左、右的边界,并由此获得数值字符本体图像,然后进入步骤b02。

步骤b02.针对该数值字符本体图像进行重心归一化,并将经过重心归一化的该数值字符本体图像平均分割成预设数量个子区域图像,然后进入步骤b03。

步骤b03.分别获得该数值字符本体图像中各个子区域图像中白色像素点的所占比例,共同构成该数值字符块中数值字符的网格特征。

傅立叶变换是在图像处理中应用广泛的一种二维正交变换,傅立叶变换后平均值即直流项正比于图像灰度值的平均值,低频分量则表明了图像中目标边缘的强度和方向。数字字符一般能用很多线段构成的封闭轮廓来表示,通过映射所得到的一些离散量能够充分的反映这些封闭轮廓的变化。傅立叶系数能够很好的描述图像边界轮廓,其值与相似字形的平移、旋转、位移和尺寸大小无关。在字形表征和识别时,这些特征形成明显的数据压缩。

上述步骤005中,分别针对各个数据图像中的各个数值字符块,提取数值字符块中数值字符的傅里叶特征,具体包括如下步骤:

步骤c01.针对数值字符块进行二维离散傅里叶变换,然后进入步骤c02。

步骤c02.将经过二维离散傅里叶变换的该数值字符块,继续进行中心变换,即将数 值字符块平均划分为四块子区域图像,并进行对角交换,获得傅里叶图像谱,然后进入步骤c03。

步骤c03.针对中心变换后的傅里叶图像谱分析其傅里叶系数,获得该数值字符块的傅里叶系数中、大于预设幅值阈值的傅里叶系数集中所在区域,构成大幅傅里叶系数区域,然后进入步骤c04。

步骤c04.由大幅傅里叶系数区域中,提取预设数量个离散傅里叶变换系数,并将其进行归一化,构成该数值字符块中数值字符的傅里叶特征。

不变矩特征是图像的一种统计特征,是图像中具有平移、缩放和旋转不变性的数学特征。

上述步骤005中,分别针对各个数据图像中的各个数值字符块,提取数值字符块中数值字符的轮廓矩特征,具体包括如下步骤:

步骤d01.针对数值字符块中的数值字符进行轮廓提取,然后进入步骤d02。

步骤d02.针对该数值字符块中数值字符的轮廓进行不变矩处理,提取预设数量个二维轮廓不变矩特征,构成该数值字符块中数值字符的轮廓矩特征。

步骤006.分别针对各个数据图像中的各个数值字符块,判断是否存在由数值字符块顶边向下存在预设数量的黑色像素点,是则判定该数值字符块中为小数点,否则不做任何进一步操作;在完成分别针对各个数据图像中各个数值字符块的判断后,然后进入步骤007;

上述步骤中所获得的所有识别特征,若分别用神经网络和支持向量机分类器进行分类,分类效果不甚理想,这主要是因为很难找到一种特征分别适合于不同的数字,而前人的方法均是在分析特定的数字识别应用方面进行特征提取和融合,每个数字有不同的特点,要想正确分类需要各种特征进行组合,特征的互补性是保证提取的特征具有较高识别率和泛化能力的关键,是特征融合的依据;因此,在进行特征融合之前,必须解决特征互补性度量的问题。

步骤007.针对所有数据图像中数值字符的所有识别特征,进行特征融合,构成水文资料表格中分别对应“0”到“9”的数值识别特征,然后进入步骤008。

上述步骤007具体包括如下步骤:

步骤e01.根据排列组合,针对所有数据图像中数值字符的所有识别特征,进行任意两个识别特征的组合,构成所有识别特征组合,然后进入步骤e02。

步骤e02.将所有数据图像中数值字符的所有识别特征,构成水文资料表格中对应数字“0”到“9”的样本集合S,然后分别针对各组识别特征组合,根据如下公式(1):

Cij,A=E(SiSj)-E(SiSj)E(S)---(1)

获得该组识别特征组合分别相对标准数字“0”-“9”的特征互补指数Cij,A;进而分别获得各组识别特征组合分别相对标准数字“0”-“9”的特征互补指数Cij,A;然后进入步骤e03;其中,Cij,A越大,说明识别特征Fi和识别特征Fj相对标准数字A的特征互补性越强;反之,则特征互补性越弱;Si和Sj分别表示样本集合S被识别特征Fi与识别特征Fj错分的样本集合;E(S)表示样本集合S中的样本个数;E(Si∪Sj)表示样本集合Si与样本集合Sj之间并集中的样本个数;E(Si∩Sj)表示样本集合Si与样本集合Sj之间交集中的样本个数;A={0、1、…、9},Cij,A表示由识别特征Fi与识别特征Fj所构成识别特征组合相对标准数字A的特征互补指数。

步骤e03.分别针对各组识别特征组合,根据如下公式(2):

TCk=Σ0,ij9CijA102---(2)

分别获取各组识别特征组合相对于标准数字的整体互补指数TCk,然后进入步骤e04;其中,k={1、…、K},K表示所有识别特征组合的组合数,TCk表示第k组识别特征组合相对于标准数字的整体互补指数。

步骤e04.针对所有识别特征组合,按其整体互补指数由大至小排序,获得排序前两个识别特征组合,然后针对该两个识别特征组合进行特征融合,构成水文资料表格中分别对应“0”到“9”的数值识别特征。

上述技术方案通过将不同的特征用于分类器中分类,对单个特征的识别结果进行分析,通过上述公式计算各个特征的整体互补指数,然后将选出的特征利用某种线性关系将其融合,通过实验表明粗网格特征和傅立叶特征对水文年鉴资料的数字识别效果甚佳,而且其整体互补性较强,所以将傅立叶特征串接在粗网格特征之后,通过实验得出提出的融合特征的识别率较单个傅立叶特征提高了3.8981%,较网格特征提高了1.4033%,较轮廓矩提高了83.1956%。

步骤008.根据水文资料表格中分别对应“0”到“9”的数值识别特征,以及各个数据图像中各个数值字符块中数值字符的识别特征,通过支持向量机(SVM)分类器,分别获 得各个数据图像中各个数值字符块所对应的数字,然后进入步骤009。

步骤009.根据各个数据图像中各个数值字符块所对应的数字或小数点,分别构成水文资料表格各个数值单元格中数据图像所对应的数值,再结合水文资料表格版式的各项属性,获得水文资料表格中各项属性,及其所对应的数值,并进行存储;然后进入步骤010。

本文通过分析流量的规律,根据时间序列提出了后期排错机制。通过实验结果可知,水文年鉴的最终识别结果接近99%,错误率相对来说较低,一个流量值由4至5个数字组成,若其中一个数字识别有误,即认为结果有误,这和以往的数据集MNIST,USPS上的识别结果的错误率统计还是稍有不同的。观察识别结果可知,一个流量值一般只有一个数字识别错误,而且每个月份识别错误的流量值在3个以内,这样的话如果我们能通过一定的算法思想找到识别可靠度不高的流量值,也即找到流量值的小数点前的数字的关键位置的识别错误,通过统计每月流量的变化规律,利用平均值法进行纠错,将带来很高的应用效率。

因为得到流量的本身也是通过仪器测量得到的,本身也存在一定的误差,因此若流量在一定小范围内波动的情况下,也即在流量值的小数点后的数字识别有误的情况下,在不影响流量数据的分析和应用的前提下,我们是可以容忍的。即不认为其识别有误。

步骤010.针对所识别存储水文资料表格中各项属性、及其所对应的数值,分别针对各个月的流量数值,按如下步骤010-01至步骤010-02进行执行,进而分别获得针对各个月每日流量数值的初步识别判断,然后进入步骤011。

步骤010-01.将当月第一日流量数值作为第一阈值,然后分别针对当月前两日流量数值,判断下一日流量数值与当日流量数值之间的差值是否小于第一阈值,是则判断当日流量数值识别无误;否则判断当日流量数值初步识别错误;由此获得分别针对当月前两日流量数值的初步识别判断,然后进入步骤010-02。

步骤010-02.分别针对当月由第三日开始的各日流量数值,判断下一日流量数值与当日流量数值之间的差值是否小于前一日流量数值,是则判断当日流量数值识别无误;否则判断当日流量数值初步识别错误;由此获得分别针对当月由第三日开始各日流量数值的初步识别判断。

步骤011.根据所识别存储水文资料表格中的各个数值,以及各个数值中各个数字的识别特征,通过支持向量机训练器,获得所识别存储水文资料表格中各个数值中的各个数字,分别对应“0”到“9”的十个识别结果概率,然后进入步骤012。

步骤012.分别针对所识别存储水文资料表格中各个数值中的各个数字,获得数字所 对应“0”到“9”十个识别结果概率中的最大识别结果概率,以及第二大识别结果概率,并获得该最大识别结果概率与该第二大识别结果概率的差值,判断该差值是否小于预设识别结果概率阈值0.1-0.25,是则判断该数字初步识别错误;否则判断该数字识别无误;由此获得分别针对所识别存储水文资料表格中各个数值中各个数字的初步识别判断,然后进入步骤013。

步骤013.分别针对各月中各个初步识别错误的流量数值,判断初步识别错误的流量数值中是否存在初步识别错误的数字,具体如下两种情况:

是则判断该初步识别错误的流量数值错误,并进行报警,同时,根据该初步识别错误数字在该初步识别错误流量数值中的位置进行分析,若该初步识别错误数字位于该初步识别错误流量数值中的整数部分,则用该初步识别错误流量数值所对应日期的前一日流量数值与后一日流量数值的平均值,替换该初步识别错误流量数值;若该初步识别错误数字位于该初步识别错误流量数值中的小数部分,则用该初步识别错误流量数值所对应日期的前一日流量数值的小数与后一日流量数值的小数的平均值,替换该初步识别错误流量数值中的小数;

否则判断该初步识别错误流量数值无误;由此实现针对所识别存储水文资料表格中各个数值的检验。

通过实验对比可以发现本发明所设计的纸质水文年鉴数字化方法中,特征融合较单个特征提高了识别率,单个傅立叶特征对数字0识别效果较佳,对6和9识别效果差,而粗网格特征对数字0识别效果差,对数字6和9识别效果较佳,轮廓矩特征对数字0、6、8识别效果差。三种特征对其他数字识别的结果大体一致,通过计算特征之间的互补性指数可以发现傅立叶和粗网格特征的融合具有很好的区分不同数字的能力;将描述数字边界轮廓和数字内部的特征进行融合能够将整个数字从内到外更完整的描述出来,足以代表一个数字,所以得到了较好的识别效果。

上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号