首页> 中国专利> 文档图像压缩方法及其在文档认证中的应用

文档图像压缩方法及其在文档认证中的应用

摘要

本发明涉及文档图像压缩方法及其在文档认证中的应用。公开了一种用于对包含文本的二值文档图像进行压缩的方法。将文档图像分割为分别表示文档中的字母、数字等的符号图像。将符号图像分类为多个类别,每个类别与模板图像和类别索引相关联。通过使用包括分区轮廓、侧面轮廓、拓扑统计和低阶图像矩的多个图像特征将待分类的每个符号与现有类别的模板进行比较来进行分类。使用基于容差的方法来对这些图像特征进行比较以确定符号是否与模板匹配。在分类之后,其中分类有较少符号的某些类别可与其它类别合并。另外,对类别的模板图像进行下采样,其中,模板图像的最终大小与模板和其它模板的混淆可能性有关。

著录项

  • 公开/公告号CN103914858A

    专利类型发明专利

  • 公开/公告日2014-07-09

    原文格式PDF

  • 申请/专利权人 柯尼卡美能达美国研究所有限公司;

    申请/专利号CN201310740957.5

  • 发明设计人 田宜彬;明伟;

    申请日2013-12-27

  • 分类号G06T9/00;

  • 代理机构北京集佳知识产权代理有限公司;

  • 代理人陈炜

  • 地址 美国加利福尼亚州

  • 入库时间 2024-02-19 23:58:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-04-12

    授权

    授权

  • 2014-08-06

    实质审查的生效 IPC(主分类):G06T9/00 申请日:20131227

    实质审查的生效

  • 2014-07-09

    公开

    公开

说明书

技术领域

本发明涉及一种图像压缩方法,具体地,涉及对包含文本的文档图像 进行压缩的方法以及该方法在文档认证中的应用。

背景技术

经常打印可包括文本、图形、图片等的原始数字文档,并且分发、复 制所打印的硬拷贝等,然后经常将所分发、复制的硬拷贝扫描回数字形式。 认证扫描的数字文档是指,确定扫描的文档是否是原始数字文档的认证拷 贝,即,确定文档在硬拷贝形式下是否被更改。更改可能是蓄意而为或因 意外事件而发生。闭环处理中的文档认证是指,生成在文档本身上携带有 认证数据的打印文档以及使用从扫描的文档提取的认证数据来对扫描回 的文档进行认证。这样的打印文档被称为是自认证的,这是由于不需要除 打印文档上的信息之外的信息来对其内容进行认证。

已提出了使用条形码(特别是二维(2d)条形码)来生成自认证文档 的方法。具体地,这样的方法包括:对文档的内容(文本、图形、图片等) 进行处理并将其转换成作为文档内容的表示的认证数据、以2d条形码(认 证条形码)对认证数据进行编码以及将条形码打印在与原始文档内容相同 的记录介质上。这产生了自认证文档。为了对这样的打印文档进行认证, 对文档进行扫描以获得扫描图像。还对认证条形码进行扫描并提取其中包 含的认证数据。然后,对扫描图像进行处理并与认证数据进行比较,以确 定打印文档的任意部分是否已被更改,即,文档是否可靠。一些认证技术 能够确定什么被更改和/或哪里被更改,一些认证技术仅能确定是否发生 了任何更改。

JBIG2是用于二值图像(特别是包含文本的文档图像)的压缩的国际 标准。JBIG2利用模式匹配和替换方法,通过该方法,将图像分割为多个 符号并且开发符号字典;使得文档图像中的每个符号与字典中的符号匹 配,并且根据字典条目的索引以及图像中的符号的位置和大小对每个符号 进行编码。

发明内容

本发明涉及一种用于压缩二值图像(特别是包含文本的文档图像)的 改进的压缩方法。

本发明的目的是提供一种用于包含文本的文档的高效图像压缩方法。

本发明的另一目的是提供一种用于生成携带认证信息的自认证打印 文档的方法。

将在随后的描述中阐述本发明的附加特征和优点,并且部分特征和优 点根据该描述将变得明显,或者可通过实践本发明来学习。将通过在书面 说明书及其权利要求书以及附图中具体指出的结构来实现和获得本发明 的目的和其它优点。

为了实现所实施的以及宽泛地描述的这些和/或其它目的,本发明提 供了一种用于对表示包含文本区域的文档的二值图像进行压缩的方法,该 方法包括:(a)将文本区域分割为多个符号图像,每个符号图像表示文本 的符号,每个符号图像以具有位置和大小的边界框为界;(b)将在步骤(a) 中获得的每个符号图像分类为多个类别之一,每个类别由模板图像和类别 索引来表示,对于所分类的每个符号图像,步骤(b)包括:(b1)将符号 图像与每个模板图像进行比较以确定它们是否彼此匹配,包括将符号图像 的多个特征与模板图像的对应的多个特征进行比较,该多个特征包括密度 统计特征、侧面轮廓特征、拓扑统计特征和形状特征;(b2)如果在步骤 (b1)中找到匹配,则与所分类的符号图像相关联地记录与所匹配的模板 对应的类别索引;以及(b3)如果在步骤(b1)中没有找到匹配,则通过 使用所分类的符号图像的图像作为新类别的模板图像并为新类别分配类 别索引而将新类别添加到多个类别,以及与所分类的符号图像相关联地记 录类别索引;(c)将每个类别的模板图像的大小调整为最终大小;以及(d) 将多个类别中的每个的经大小调整后的模板图像连同其类别索引、在步骤 (a)中获得的每个符号图像的边界框的位置和大小以及在步骤(b2)或 (b3)中获得的每个符号图像的类别索引存储作为压缩的图像数据。

在一些实施例中,密度统计特征包括分区轮廓特征,并且形状特征包 括低阶矩特征。

在另一方面,本发明提供了一种用于对表示包含文本区域的文档的二 值图像进行压缩的方法,该方法包括:(a)将文本区域分割为多个符号图 像,每个符号图像表示文本的符号,每个符号图像以具有位置和大小的边 界框为界;(b)将在步骤(a)中获得的每个符号图像分类为多个类别之 一,每个类别由模板图像和类别索引来表示,对于所分类的每个符号图像, 步骤(b)包括:(b1)将符号图像与每个模板图像进行比较以确定它们是 否彼此匹配;(b2)如果在步骤(b1)中找到匹配,则与所分类的符号图 像相关联地记录与所匹配的模板对应的类别索引;以及(b3)如果在步骤 (b1)中没有找到匹配,则通过使用所分类的符号图像的图像作为新类别 的模板图像以及为新类别分配类别索引而将新类别添加到多个类别,并且 与所分类的符号图像相关联地记录类别索引;(c)将每个类别的模板图像 的大小调整为最终大小,其中,至少一些模板图像的最终大小是彼此不同 的,步骤(c)包括:(c1)计算每个模板图像与每个其它模板图像的相似 度度量;(c2)基于算出的与其它模板图像的相似度度量而确定每个模板 图像的最终大小;以及(c3)将每个模板图像的大小调整为在步骤(c2) 中确定的最终大小;以及(d)将多个类别中的每个的经大小调整后的模 板图像连同其类别索引、在步骤(a)中获得的每个符号图像的边界框的 位置和大小、以及在步骤(b2)或(b3)中获得的每个符号图像的类别索 引存储作为压缩的图像数据。

在另一方面,本发明提供了一种包括计算机可用非暂态介质(例如, 存储器或存储装置)的计算机程序产品,该计算机可用非暂态介质中嵌入 有用于控制数据处理设备的计算机可读程序代码,该计算机可读程序代码 被配置成使得数据处理设备执行上述方法。

应理解,以上的概括描述和以下的详细描述均是示例性和说明性的, 并且旨在提供要求保护的本发明的进一步说明。

附图说明

图1示意性地示出了根据本发明的实施例的用于对包含文本的文档 图像进行压缩的图像压缩方法。

图2示意性地示出了根据本发明的实施例的用于使用各种图像特征 对两个符号图像进行比较的处理。

图3A和图3B示意性地示出了用于生成和认证打印文档的处理,其 中,可应用根据本发明的实施例的图像压缩方法。图3A示出了对文档图 像进行处理以生成压缩的图像数据以及打印具有对认证数据编码的条形 码的文档的方法;图3B示出了使用以条形码编码的压缩图像来对扫描文 档进行认证的方法。

图4绘出了可用在符号比较中的两个符号的示例性侧面轮廓。

具体实施方式

这里描述的方法可以在包括处理器、存储器和存储装置的数据处理系 统中实现。该数据处理系统可以是连接到打印机、扫描仪、复印机和/或 多功能装置的独立计算机,或者可包含在打印机、扫描仪、复印机或多功 能装置中。该数据处理系统通过由处理器执行存储在存储装置中的计算机 程序来执行该方法。在一方面,本发明是由数据处理系统执行的方法。在 另一方面,本发明是在其中嵌入有用于控制数据处理设备的计算机可读程 序代码的计算机可用非暂态介质(存储装置)中实施的计算机程序产品。 在另一方面,本发明在数据处理系统中来实施。

图1示意性地示出了根据本发明的实施例的用于对包含文本的文档 图像进行压缩的图像压缩方法。首先,获得电子文档图像(步骤S101)。 这里,术语“图像”是指位图图像,其中,每个图像像素可具有二进制值、 灰度级值或颜色值。文档图像是指在其内容中包含大量文本的图像,但是 其也可包含诸如图形和图片的非文本内容。文档图像可通过扫描硬拷贝文 档、利用摄像装置拍摄硬拷贝文档的照片、从另一电子文档电子地生成图 像、从外部源接收等来获得。可选地,可对文档图像进行预处理(步骤 S102),这可包括去噪(即,去除小的、孤立的黑点)、去偏斜和/或对在 图像是由摄像装置生成的情况下的透视失真的校正。基于如下假设来执行 这些处理:文档图像通常应具有均匀且干净的背景,文本行通常是水平或 垂直的优选朝向及从无限远的正透视。可使用任意适当的技术来实现这些 预处理步骤。

分离文档图像的文本区域和非文本(例如,图片、图形)区域(步骤 S103),然后对文本区域进行二值化以生成二值图像(步骤S104)。可使 用任意适当的文本分离方法和二值化方法。将二值化后的文本区域分割为 文本行(步骤S105),将这些行分割为词(步骤S106),并且将词进一步 分割为符号(步骤S107)。每个符号是诸如字母、数字或某种其它符号的 字符,并且被表示为图像片。应注意,在本公开中,术语“词”和“符号” 是指与词或符号对应的图像片,而不是ASCII表示中的词或符号。行分 割可通过例如分析文本区域的图像的水平投影轮廓或连通区域或者其它 适当方法来执行。词和符号的分割可通过例如语形学操作和连通区域分析 或者其它适当方法来执行。作为分割的结果,获得每个文本行、词和符号 的边界框。边界框是界定文本行、词或符号的框。每个边界框由其位置和 大小限定。

然后,将每个符号分类为由模板表示的多个类别之一(步骤S108至 S111)。模板是文档图像中的特有符号的图像。针对文档图像建立模板集 (有时称为字典),其中,如以稍后将描述的特征的组合所衡量的,字典 中的每个模板与其它模板不同。字典中的每个模板具有相应的类别索引。 在分类处理中,将待分类的符号与字典中已有的每个模板进行比较,以确 定待分类的符号是否与任意模板匹配(步骤S108)。如果找到一个匹配(步 骤S109中为“是”),则将该符号分类为由所匹配的模板表示的类别,并 且记录相应的类别索引以及该待分类的符号的边界框(位置和大小)(步 骤S110)。如果通过比较步骤找到多个匹配,则将该符号分类为得到最佳 匹配的类别。如果没有找到匹配(步骤S109中为“否”),则将该符号作 为分配有新的类别索引的新模板添加到字典(步骤S111),并且记录新添 加的类别的类别索引和符号的边界框(步骤S110)。文档的字典最初是空 的,并且在对文档图像中的符号进行处理时这样建立。重复步骤S108至 S111,直到处理了文档图像的所有符号。

比较步骤S108使用符号的多个图像特征的组合。特征包括例如分区 轮廓、侧面轮廓、拓扑统计、低阶图像矩等。

通过将符号的像素块(例如,100×100的像素块)划分为多个分区 (诸如m×n个分区(垂直方向m个分区和水平方向n个分区))来生成 分区轮廓。分区的平均密度构成被称为分区轮廓的m×n矩阵。

符号的侧面轮廓是从符号的边界框的一侧(诸如左侧、右侧、顶部和 底部)观看的符号的轮廓。图4绘出了两个符号“a”和“A”及其四个 侧面轮廓。为了进行比较,可以将侧面轮廓归一化(例如,归一化为0 与1之间);通过将原始侧面轮廓除以符号的高度(对于左侧轮廓和右侧 轮廓)或者除以符号的宽度(对于顶部轮廓和底部轮廓)来进行归一化。 侧面轮廓也可以被置于数量比符号的高度或宽度的像素数量小的窗口 (bin)中。

符号的拓扑统计可包括例如符号中的孔的数量、分支点的数量、端点 的数量等。符号的分支点是如下点:该点在符号骨干上,并且其相邻点中 的至少三个也在骨干上。符号的端点是如下点:该点在符号骨干上,并且 相邻点中的一个且仅一个也在骨干上。例如,符号“6”具有一个孔、一 个分支点和一个端点;符号“a”具有一个孔、两个分支点和两个端点等。

通用图像矩被定义为:

M(p,q)=Σy=1HΣx=1Wf(xp,yq)I(x,y)

其中,f(xp,yq)是xp和yq的函数,H和W是图像的高度和宽度,并且I(x, y)是(x,y)处的图像像素值。依据f(xp,yq)的具体格式,在文献中描述了多 个距,诸如几何矩、Zernike(泽尔尼克)矩、Chebyshev(切比雪夫)矩、 Krawtchouk矩等。低阶矩是其阶数(由(p+q)表示)低(诸如低于5)的 矩。与高阶矩相比,低阶矩对微小的图像失真较不敏感。这些矩优选地被 归一化。

可使用各种不同的途径,来利用以上图像特征对待分类的符号和字典 中的符号模板进行比较。在一个示例中,计算每个特征的差别度量,并且 为差别度量设置阈值。可顺序地评估多个特征,以使得如果该特征的差别 度量超过相应阈值,则确定该模板为不匹配而不用评估剩余特征,并且比 较继续至下一模板。在另一示例中,可根据多个特征的差别度量来计算总 体差别度量,并且使用阈值来确定匹配。也可使用其它组合特征的方式。 以下详细描述一种途径,即使用特征的组合的基于容差的比较。

对于每个符号,可以针对每个种类的特征计算多个特征值:

分区轮廓:(z1,z2,…,zk),k个特征值

侧面轮廓:(s1,s2,…,sn),n个特征值

拓扑统计:(t1,t2,…,tp),p个特征值

低阶矩:(m1,m2,…,mq),q个特征值

特征值的总数是(k+n+p+q)。对于每个种类的特征,可设置一个或 多个容差水平。例如,可针对分区轮廓种类中的所有特征值设置单个容差 水平Lz,可针对侧面轮廓种类中的所有特征值设置另一单个容差水平Ls, 可针对低阶矩种类中的所有特征值设置又一单个容差水平Lm。对于拓扑 统计种类,由于这些特征值可能显著变化,因此优选地设置多个容差水平 (Lt1,Lt2,…,Ltp)。替选地,每个种类中的每个特征值可具有其自己的容 差水平;在这样的情况下,将为总共(k+n+p+q)个特征值设置总共 (k+n+p+q)个容差水平。容差水平可预先设置,或者借助于统计分析或 者使用不同字体和大小的大量符号图像样本的多种机器学习方法来以经 验确定。

对于待分类的每个符号,将其多个特征值与每个现有模板的这些特征 值进行比较。对于每个特征,确定表达式1是否成立。

|x-x0x0|>L

其中,x是待分类的符号的特征值,x0是待比较的现有模板的相应特 征值,并且L是该特征值的容差。换言之,如果符号的特征值与模板的 特征值之间的差大于模板的特征值的给定比例(L),则确定该特征值超 过容差。针对每个种类的特征累积超过其容差的特征值的数量(称为不同 特征的数量或者为了方便称为ND)。

使用这些ND值以多种方式来判定符号图像与模板图像相同还是不 同。在一种实现中,如果至少一个种类的不同特征的数量大于该种类中的 特征的数量的给定比例,则待分类的符号被视为与模板不同(表达式2)。

IsDiff=(NDz>TND,z)|(NDs>TND,s)|NDt>TND,t)|(NDm>TND,m)

其中,NDz、NDs、NDt和NDm分别是四个种类(分区轮廓、侧面轮廓、 拓扑统计和低阶矩)中的不同特征的数量,并且TND,z、TND,s、TND,t和 TND,m是相应差别数量的阈值。这些阈值可被设置为相应种类中的特征值 的数量的比例,例如,TND,z可被设置为预定比例k等。四个种类的比例 的全部或一部分可相同。由于值k、n、p和q是预先已知的,因此将阈 值设置为这些数字的预定比例等同于将阈值设置为预定值。与容差水平L 类似,这些阈值是预先确定的或者根据不同字体和大小的大量符号图像样 本以经验确定的。在以上表达式中,“|”表示“或(OR)”。

等效表述是,如果对于每个种类的特征,不同特征的数量小于或等于 该种类中的特征数量的给定比例,则待分类的符号被视为与模板相同(表 达式3):

IsSame=(NDz≤TND,z)&(NDs≤TND,s)&(NDt≤TND,t)&(NDm≤TND,m)

其中,“&”表示“与(AND)”。

在另一实现中,如果所有种类中的不同特征的总数小于总特征数的给 定比例,则待分类的符号被视为与模板相同(表达式4):

IsDiff=(NDz+NDs+NDt+NDm)≤TND

或者等同地(表达式5):

IsDiff=(NDz+NDs+NDt+NDm)≤TND

其中,TND是不同特征值的总数的阈值。该阈值可被设置为特征值的总数 (即,(k+n+p+q))的预定比例,或者可被设置为预定值。

在另一实现中,以级联方式评估多个种类的特征以加速计算。在图2 的流程图中示出了示例。可以以多种不同的方式来布置级联的顺序,诸如 以特征种类的计算复杂度的升序(即,越快的特征被越早评估),或者以 特征种类的区分能力的升序(即,可以分离越多符号的特征越早被评估), 或者上述的组合。

在待分类的符号被视为(通过以上比较方法)与两个或更多个模板相 同的情况下,在步骤S109中使用导致最低差别(例如,不同特征的总数 (即,NDz+NDs+NDt+NDm)的最小值)的模板作为匹配模板。

在比较处理期间存储比较步骤S108中所使用的模板的特征值。每个 模板的特征值可被计算为来自当前被分类为该类别的所有符号的平均特 征值,或者被计算为被分类为该类别的第一符号的特征值。如果使用平均 方法,则每次符号被分类为该类别时更新模板的特征值。

尽管以上描述给出了用在优选实施例中的各种图像特征的细节,应注 意,也可使用其它适合的图像特征。例如,分区轮廓是密度统计的示例, 并且也可使用其它密度统计。低阶图像矩是形状特征的示例,并且也可使 用其它形状特征。在优选实施例中,使用不同类型的特征(包括密度统计 (例如,分区轮廓特征)、侧面轮廓特征、拓扑统计和形状特征(例如, 低阶矩))来更全面地捕获符号图像的特性以得到更准确的比较。

应注意,步骤S108中所使用的比较方法可以对两个符号的形状进行 匹配而不管它们的相对大小如何。因此,例如,具有相同字体但不同大小 的两个字母将被分类为同一类别(同一模板)。对于每个符号,在步骤S110 中记录其位置和大小(如边界框所述)。

可选地,在将文档图像中的所有符号分类为类别之后,可将其中分类 有非常少数量的符号的一些类别与其它类别合并(步骤S112)。为此,保 持已被分类为每个类别的符号数量的记录;在对每个符号分类之后,在步 骤S110中更新该记录。另外,在比较步骤S108中,将与L、TND,z、TND,s、 TND,t和TND,m等的值对应的更严格容差或阈值的集合设置为指示分类的 置信水平。即,即使在容差和阈值(L和T)的第一集合下符号被视为与 特定模板相同(因此,该符号被分类为该模板的类别中),如果符号在容 差和阈值的更严格集合下不能被视为与模板相同,则可将该符号的分类标 记为“低置信度”。然后,在步骤S112中,如果分类为特定类别的符号的 总数低(低于预设阈值),并且该类别的低置信度符号分类的数量高(高 于另一阈值,其可被设置为被分类为该类别的符号数量的百分比),则该 类别可与其它类别合并。

为了确定要并入哪些其它类别,诸如通过使用与在步骤S108中所使 用的图像特征相同的图像特征,来将待合并的类别的模板图像与字典中的 其它模板进行比较,并且可选择相对于待合并的模板具有最小差别的模板 作为要并入的类别。然而,如果不存在相对于待合并的模板具有足够小的 差别的其它模板,则将不执行合并。

在替选实现中,计算每对模板之间的相似度度量(或混淆可能性), 并且可将彼此具有高相似度的对合并到一个类别中。两个模板之间的相似 度可由它们之间的不同特征值的总数(即,(NDz+NDs+NDt+NDm))或者 该数量与比较中的特征值的总数(即,k+n+p+q)的比率来衡量。

可通过删除第一类别的模板图像并以到第二类别的模板图像的链接 替换第一类别的模板图像,来将第一类别合并到第二类别中。这样,不需 要对已被分类为第一类别的符号的已分配的类别索引进行改变;替代地, 第一类别的类别索引现在将与第二类别的模板图像相关联。

类别的合并具有益处但是也具有折衷。合并类别的主要益处在于通过 减少要存储的模板图像的数量而减小了压缩数据的大小。因此,仅需要在 类别的数量过高超过压缩数据的数据量的特定上限的情况下才执行合并。 例如,在如稍后将更详细地描述的文档认证应用中,限制用于存储认证数 据的条形码的数量和大小;合并类别将有助于将压缩数据减小到特定大 小。另一方面,误分类的可能性随着合并而增加。然而,在某些情形中, 例如,当原始图像质量差时,同一符号的不同实例可能被分类为不同的类 别,从而导致对于同一实际符号的多个类别。在这样的情形下,类别的合 并可使得多个类别中的一些类别被合并为同一类别。这实际上可导致更准 确的分类,并且将有助于减少认证处理中的错误肯定。总之,在输出中的 类别数量与误分类的误差率之间存在折衷。出于这些原因,合并步骤是可 选的;当使用合并步骤时,应该适当地设置用于确定合并的各种容差和/ 或阈值以平衡该折衷。

在对所有符号分类之后,调整表示模板的图像的大小(步骤S113)。 调整大小的一个目的在于通过减小模板图像大小来减少要存储的数据量。 可使用任何适当的下采样方法来调整模板图像的大小,包括传统的近邻 法、双线性内插法或双三次内插法。优选地,使用拓扑保留下采样方法以 使得在下采样之后字符的细线不会变得断开。

在一个实施例中,将所有模板图像的大小调整为同样的最终大小。经 大小调整后的模板图像的大小可由用户设置或者可基于压缩数据的目标 大小而自动设置。

在另一(优选的)实施例中,将模板图像的大小调整为由各种因素确 定的不同最终大小。这被称为模板相关的可变下采样。可用于确定每个模 板的最终大小的一个因素是每个模板图像与同一文档的其它模板图像的 相似度度量(或混淆可能性)。两个模板图像之间的相似度可由它们之间 的不同特征值的总数((即,(NDz+NDs+NDt+NDm))或者该数量与比较 中的特征值的总数(即,(k+n+p+q))的比率来衡量。可以与步骤S108 类似的方式来计算差值数量NDz、NDs、NDt和NDm

一般地,对于与其它模板图像具有较高相似度(混淆可能性)的模板 图像给予较大的最终模板图像大小,以减少混淆。在一个实现中,基于模 板与其它模板的混淆可能性而将模板分为两组;对一组(具有较低混淆可 能性)较多地进行下采样以得到较小的模板图像(例如,15×15像素), 而对另一组(具有较高混淆可能性)较少地进行下采样以得到较大的模板 图像(例如,25×25像素)。

替选地,最终模板图像大小可能取决于被分类为类别的符号的总数; 对于其中分类有相对少的符号的类别,优选较大的模板图像大小。另外, 最终模板图像大小还可能取决于符号类型(诸如数字相对于字母)、预定 义的精度、用户预先指定的数据位置等。优选地,如果最终模板图像大小 是系统自动确定的,则应设置预定义的最小大小来实现所需的准确度。

上述图像压缩方法生成构成文档图像的压缩数据的以下数据:具有相 应的类别索引的模板图像,以及对于文档图像中的每个符号,符号的边界 框(位置和大小)以及在分类处理(步骤S110)中所分配的类别索引。

为了对图像解压缩,通过将与符号的类别索引对应的模板图像放置在 符号的边界框中来恢复文档的每个符号。这包括将模板图像的大小调整为 符号的边界框的大小。

尽管上述图像压缩方法与JBIG2具有某些相似性,但是其使用新颖 的符号比较方法来比较符号图像与模板图像。另外,其使用可变下采样来 改进压缩效率。

该图像压缩方法的一个实际应用是文档认证,其中,使用该图像压缩 方法来生成自认证打印文档。图3A示意性地示出了这样的方法。对于要 打印的文档,获得文档图像(步骤S301)。使用上述压缩方法对文档图像 进行压缩以生成认证数据(步骤S302)。可选地,对认证数据进行加密(步 骤S303),并且将其编码为条形码(步骤S304)。将文档图像和条形码打 印在用作自认证打印文档的同一介质上(步骤S305)。条形码(包括一个 或多个条形码戳)可打印在文档的正面和/或背面。

图3B示意性地示出了对携带有使用图3A的处理生成的条形码的打 印文档进行认证的处理。对打印文档进行扫描、拍照或成像以生成电子文 档图像(步骤S306)。可选地,对扫描图像进行包括去噪、去歪斜和/或透 视失真的校正的预处理,和二值化(步骤S307)。对扫描图像(目标文档 图像)中的条形码和文本区域进行分离(步骤S308)。对条形码进行解码 并且在必要时对数据进行解密以获得其中包含的认证数据(步骤S309)。 对数据进行解压缩以生成原始文档图像(步骤S310)。将原始文档图像和 目标文档图像进行比较以检测任何更改(步骤S311)。在该步骤中可使用 任何适当的图像压缩方法。

本领域技术人员显然可知,在不背离本发明的精神或范围的情况下, 可以在本发明的文档认证方法和设备中进行各种修改和改变。因此,本发 明旨在覆盖落入所附权利要求及其等同物的范围内的修改和变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号