首页> 中国专利> 用于西文水印处理的水印图像分块方法和装置

用于西文水印处理的水印图像分块方法和装置

摘要

本发明提供了一种用于西文水印处理的水印图像分块方法,包括:将西文图像通过行列切分得到多个字符图像块;从字符图像块中识别有效字符图像块;对有效字符图像块的尺寸进行统计,以确定西文图像是大字号文档或是小字号文档;针对大字号字符文档和小字号字符文档分别采用不同数目的单词进行分组;均分单词组为多份,以份对应水印图像块。本发明还提供了一种用于西文水印处理的水印图像分块装置。本发明保证了水印嵌入处理的可操作性。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-04

    专利权的转移 IPC(主分类):G06T 1/00 专利号:ZL201010620424X 登记生效日:20220921 变更事项:专利权人 变更前权利人:北大方正集团有限公司 变更后权利人:新方正控股发展有限责任公司 变更事项:地址 变更前权利人:100871 北京市海淀区成府路298号方正大厦9层 变更后权利人:519031 广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007 变更事项:专利权人 变更前权利人:北京大学 北大方正信息产业集团有限公司 北京北大方正电子有限公司 变更后权利人:北京大学 北京北大方正电子有限公司

    专利申请权、专利权的转移

  • 2014-05-14

    授权

    授权

  • 2013-10-02

    专利申请权的转移 IPC(主分类):G06T1/00 变更前: 变更后: 登记生效日:20130911 申请日:20101223

    专利申请权、专利权的转移

  • 2012-09-12

    实质审查的生效 IPC(主分类):G06T1/00 申请日:20101223

    实质审查的生效

  • 2012-07-11

    公开

    公开

说明书

技术领域

本发明涉及数字排版领域,具体而言,涉及用于西文水印处理 的水印图像分块方法和装置。

背景技术

随着电子商务及电子政务的发展,企事业单位、党政机关以及 国家安全等有关部门将处理大量的文字材料,这其中包括合约、涉 密等等的重要文件。这些文本文件的版权保护和内容安全是一个重 要的问题,数字水印技术为上述问题的解决提供了一种途径。

数字水印是指将特定的信息嵌入数字信号中,数字信号可能是 音频、图片或是影片等。若要拷贝有数字水印的信号,所嵌入的信 息也会一并被拷贝。数字水印可分为浮现式和隐藏式两种,前者是 可被看见的水印(visible watermarking),其所包含的信息可在观看 图片或影片时同时被看见。一般来说,浮现式的水印通常包含版权 拥有者的名称或标志。电视台在画面角落所放置的标志,也是浮现 式水印的一种。

隐藏式的水印是以数字数据的方式加入音频、图片或影片中, 但在一般的状况下无法被看见。隐藏式水印的重要应用之一是保护 版权,期望能借此避免或阻止数字媒体未经授权的复制和拷贝。隐 写术(Steganography)也是数字水印的一种应用,双方可利用隐藏 在数字信号中的信息进行沟通。数字照片中的注释数据能记录照片 拍摄的时间、使用的光圈和快门,甚至是相机的厂牌等信息,这也 是数字水印的应用之一。某些文件格式可以包含这些称为 “metadata”的额外信息。

另外,很多文本文件不仅以数字形式存在,它还会通过打印、 复印等途径以纸张的形式传播,这其中不乏大量的西文文档。随着 国际化程度越来越高,西文文档的交流也变得日趋频繁,因此对于 此类文档的安全保护的需求也变得更加强烈。而随着数字化技术的 迅猛发展,这种方式已经变得相当普遍,这也使得很多重要或者机 密信息以纸质文件为传播途径而泄漏出去。因此,研究基于纸质文 件的能够抵抗打印和复印的二值文本水印技术显得尤为重要。

1、申请号为200710121642.7的专利文献公开了一种二值图像 中数字水印的嵌入方法,该方法为:将二值图像的部分或全部划分 为至少两个水印图像块,根据每个水印图像块中的黑色像素点个数 得到分组,对所述每个分组中的数据进行哈达玛(Hadamard)变换。 使用量化方法,将待嵌入水印信号嵌入,进行逆哈达玛变换得到每 个水印图像块中需要改变的像素点个数从而达到嵌入、提取水印的 目的。

2、申请号为200810055770.0的专利文献公开了一种二值文本 图像中数字水印的嵌入方法和装置,该方法包括:将二值文本图像 的部分或全部划分为嵌入部分和调整部分,计算所述嵌入部分和调 整部分每个集合所包含的黑色像素点个数的平均值,根据所述平均 值和嵌入部分每个集合所包含的黑色像素点的个数计算颜色改变 参数,根据所述颜色改变参数改变嵌入部分和调整部分每个集合所 包含的黑色像素点的个数,实现水印的嵌入。

3、申请号为200610114048.0的专利文献公开了一种黑白二值 文本图像中数字水印嵌入与提取的方法及装置,其中嵌入方法包括 定位文本图像中的有效字符区域;将有效字符区域进行分组,并统 计各字符区域中的黑点个数;根据分组内的各字符区域内黑点个数 之间的相对关系、水印信息位串、以及第一步长计算出每个字符区 域内需要翻转的像素第一个数;按第一个数翻转每个字符区域内的 像素。提取方法包括定位文本图像中有效字符区域;将有效字符区 域进行分组,并统计各字符区域中的黑点个数;根据每个分组中字 符区域黑点个数之间的相对关系及第一步长提取嵌入的水印信息 位串。

在上述的二值文本水印技术中,水印图像块作为水印的嵌入区 域显得尤为重要。可以看出,在上述专利申请1中,水印图像块直 接作为水印嵌入区域。在专利申请2中,二值文本图像部分划分为 嵌入部分,即为水印图像块。在专利申请3中,文本图像中分组后 的有效字符区域作为水印图像块。以上专利申请均通过改变水印图 像块内的黑色像素点个数来嵌入水印,通过量化水印图像块内的黑 色像素点个数来提取水印。

因此,上述方法都是基于两个前提:1、正确的字符切分结果。 目前的字符切分算法大多依赖于光学字符识OCR(Optical Character  Regnition)系统的字符识别结果,但是考虑到OCR识别的速度和 效率问题,一般不会在数字水印系统中引入OCR机制,并且对于 粘连的西文字符而言,OCR识别也存在一定的错误率;2、水印图 像块的黑色像素点个数波动范围不大。比如在中文文档中,采用的 是基于一个汉字为一个水印图像块。中文是方块字,各个字符的面 积大小差别不大,因此水印图像块中的黑色像素点个数差别不大, 从而保证了水印嵌入和提取的正确率。

但是,上述方法不太适合于西文文档。面临的困难有:

a)西文字母在打印前后的粘连现象普遍,无法保证打印扫描 前后的字符切分的一致性。例如:“mn”、“tt”等。如果将单个西文 字母作为水印图像块,字母的粘连必然影响水印嵌入和提取前后的 字符图像块切分序列的再同步性,从而影响水印嵌入和提取的成功 率。

b)西文单词的长度差别较大,单词所含字符图像块的黑点个 数波动比较大。例如:“My extraordinary power”,其中各单词长度 差别数倍。如果将单个西文单词作为水印图像块,那么水印图像块 中的黑色像素点个数差别很不稳定,无法完成水印操作。

c)西文文档中的字号变化造成的字符大小变化。例如:“Here” 和“Here”,所包含的黑色象素点个数相差甚远。针对不同字号的文 档,需要采取不同的量化方法。

因此,针对西文文本文档,获得的水印图像块需要满足以下条 件:

1、能够避免因字符粘连带来的水印图像块不同步的影响。

2、水印图像块中的黑色像素点个数差别不大。

3、针对不同字号的文档,可按大小自适应地划分水印图像块。

发明内容

本发明旨在提供一种用于西文水印处理的水印图像分块方法 和装置,以解决现有技术对于西文图像难以正确划分水印图像块的 问题。

在本发明的实施例中,提供了一种用于西文水印处理的水印图 像分块方法,包括:将西文图像通过行列切分得到多个字符图像块; 从字符图像块中识别有效字符图像块;对有效字符图像块的尺寸进 行统计,以确定西文图像是大字号文档或是小字号文档;针对大字 号字符文档和小字号字符文档分别采用不同数目的单词进行分组; 均分单词组为多份,以这些份对应水印图像块。

在本发明的实施例中,提供了一种用于西文水印处理的水印图 像分块装置,包括:切分模块,用于将西文图像通过行列切分得到 多个字符图像块;识别模块,用于从字符图像块中识别有效字符图 像块;统计模块,用于对有效字符图像块的尺寸进行统计,以确定 西文图像是大字号文档或是小字号文档;分组模块,用于针对大字 号字符文档和小字号字符文档分别采用不同数目的单词进行分组; 均分模块,用于均分单词组为多份,以这些份对应水印图像块。

本发明上述实施例的用于西文水印处理的水印图像分块方法 和装置,因为根据字符大小合理地设置水印图像块,所以解决了现 有技术对于西文图像难以正确划分水印图像块的问题,保证了水印 嵌入处理的可操作性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申 请的一部分,本发明的示意性实施例及其说明用于解释本发明,并 不构成对本发明的不当限定。在附图中:

图1为本发明实施例提供的一种用于西文水印处理的水印图像 分块方法的流程图;

图2为本发明实施例提供的一种大小字号字符文档判别方法的 流程图;

图3为本发明实施例提供的一种有效字符区域分组方法的流程 图;

图4A为本发明实施例中的西文二值图像行高和中心线示意 图;

图4B为本发明实施例中的西文二值图像有效字符图像块示意 图;

图5为本发明实施例中的西文二值图像字符切分结果示意图;

图6为本发明实施例中的西文二值图像单词分组结果示意图;

图7A为本发明实施例中的计算单词分组中字符有效长度的示 意图;

图7B为本发明实施例中的获得水印图像块示意图;

图8A为本发明实施例中的西文小字号字符文档的水印图像块 示意图;

图8B为本发明实施例中的西文小字号字符文档打印扫描后的 水印图像块示意图;

图8C为本发明实施例中的西文小字号字符文档在不正常间距 和部分字符粘连下的水印图像块示意图;

图8D为本发明实施例中的西文大字号字符文档的水印图像块 示意图;

图8E为本发明实施例中的西文大字号字符文档打印扫描后的 水印图像块示意图;

图9为本发明实施例中的计算单词切分中切分阈值的示意图;

图10为本发明实施例提供的一种用于西文水印处理的水印图 像分块装置的示意图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。

图1为本发明实施例提供的一种用于西文水印处理的水印图像 分块方法的流程图,包括:

步骤S10,将西文图像通过行列切分得到多个字符图像块;

步骤S20,从字符图像块中识别有效字符图像块;

步骤S30,对有效字符图像块的尺寸进行统计,以确定西文图 像是大字号文档或是小字号文档;

步骤S40,针对大字号字符文档和小字号字符文档分别采用不 同数目的单词进行分组;

步骤S50,均分单词组为多份,以这些份对应水印图像块。

该实施例对有效字符图像块的尺寸进行统计,这充分考虑了西 文单词在不同字体下行列切分的特性,区分大字号字符文档和小字 号字符文档。自适应地采用不同数目的单词分组,获得的水印图像 块中的黑色像素点个数差距较小,保证了水印嵌入处理的可操作 性。

另外,本实施例均分单词组为多份,这充分考虑了西文字符间 隙打印前后不稳定的特性,在嵌入端,确定扩间距字符和缩间距字 符进行适当修正。从而保证打印扫描前后的西文单词切分结果的一 致性,使得该水印图像块的再同步性较强,并使得水印嵌入和提取 处理的健壮性更好。

优选地,本方法在步骤S10之前还包括:获取西文图像;对西 文图像进行降噪处理,得到二值化的西文图像。该步骤是实现了对 西文图像的预处理,很容易在计算机上实现。本优选实施例通过降 噪处理,可以得到较好的西文二值文本图像。

优选地,步骤S20包括:将字符图像块区分为标点图像块和有 效字符图像块。西文文本主要包括标点和字母,标点通常较小,不 适合嵌入水印。本优选实施例对字符图像块进行区分,可以排除标 点。

优选地,将字符图像块区分为标点图像块和有效字符图像块包 括:

判断以下条件:

条件1、w>Nt1×H;

条件2、U的底边与顶边均落在m的同侧;

条件3、U的底边与顶边分别落在m的两侧,且w<Nt2×H;

其中,U为字符图像块的集合Ω中的字符图像块的外接矩形框, H为U所处行的行高,m为U所处行的中线位置,h、w分别为U 的高度、宽度,Nt1和Nt2为预设的系数;

如果条件1-3中任一条成立,则确定U对应的字符图像块为标 点图像块,如果条件1-3均不成立,则确定U对应的字符图像块为 有效字符图像块。

本优选实施例给出了具体的数值化判断流程,有利于在计算机 中编程实现。

优选地,设置Nt1=4,Nt2=0.35。本优选实施例是发明人经过 大量艰苦的试验后得到的最佳系数。当然,将系数设置在以上数值 附近范围也是可行的,这仍然属于本发明的精神范围。

优选地,步骤S30包括:计算其中, h1、h2、…、hm分别是U所处行的有效字符图像块1、2、…、m的高度;如 果Hs≥Thsize,则确定U所处行是大字号字符行,否则是小字号字 符行,其中Thsize是预设阈值;统计西文图像中大字号字符行的行 数Nlarge和小字号字符行的行数Nsmall;如果Nlarge≥Nsmall,则确定西 文图像是大字号字符文档,否则是小字号字符文档。

本优选实施例给出了具体的数值化判断流程,有利于在计算机 中编程实现。

优选地,设置Thsize=88。本优选实施例是发明人经过大量艰苦 的试验后得到的最佳阈值。当然,将阈值设置在以上数值的附近范 围也是可行的,这仍然属于本发明的精神范围,应当受到权利要求 的保护。

图2为本发明实施例提供的一种大小字号字符文档判别方法的 流程图。本实施例通过初步的行列切分获得若干字符图像块的外接 矩形框。通过字符图像块的统计特征判断大字号字符行和小字号字 符行,然后确定大字号字符文档和小字号字符文档的类型。具体包 括以下步骤:

S201、获取字符图像块。

通过初步的行列切分获得若干字符图像块的外接矩形框。如图 4A所示,对当前字符图像块集合Ω,H为当前行的行高,m为当 前行的中线位置。如图4B所示,字符图像块U即为Ω中任意一个 外接矩形框。h、w分别为U的高度、宽度。

S202、区分标点字符图像块。

字符图像块U如果满足以下3个条件中的任意一项,标记U 为标点字符图像块,否则,标记为有效字符图像块。

条件1、w>Nt1×H;

条件2、该字符图像块U的底边与顶边均落在中心线同侧;

条件3、该字符图像块U的底边与顶边分别落在中心线异侧, 且w<Nt2×H。

一般地,Nt1=4,Nt2=0.35。

其中,条件1是筛选形如下划线“_______”的标点符号;条 件2是筛选形如逗号、句号、引号的标点符号;条件3是筛选形如 连词符号“-”的标点符号。

显然,经过该步骤,所有的字符图像块U都被区分成标点图像 块和有效字符图像块两类。

S203、计算有效字符图像块的统计特征。

不妨设当前行中,有效字符图像块U的个数为m。那么当前行 的有效字符图像块的有效高度Hs为:

Hs=h1+h2+···+hmm

其中,h1、h2、…、hm分别是当前行的有效字符图像块1、2、…、m的 高度。

S204、判断大字号字符行或小字号字符行。

如果Hs≥Thsize,那么当前行属于大字号字符行,否则,属于 小字号字符行。一般地,Thsize=88。

S205、判断文档类型。

分别统计文档中大字号字符行的行数Nlarge和小字号字符行的 行数Nsmall,如果Nlarge≥Nsmall,那么该文档属于大字号字符文档, 否则,属于小字号字符文档。

优选地,步骤S50包括:将单词组按照其中单词列投影下的有 效长度均分成固定份数;以份所占的宽度和所在字符的最大高度组 合成外接矩形框,外接矩形框对应水印图像块。

图3为本发明实施例提供的一种有效字符区域分组方法的流程 图。针对大字号字符文档和小字号字符文档,分别采用不同数目的 单词为一组,每组按照其中单词列投影下的有效长度均分成固定份 数,每份所占的宽度和所在字符的最大高度组合成一个新的外接矩 形框,每个新外接矩形框对应一个水印图像块,以完成有效区域分 组。具体包括以下步骤:

S301、获取文档类型和单词切分结果。

通过步骤S30已获得文档类型,即为大字号字符文档或小字号 字符文档。关于单词切分,将一行内所有相邻有效字符图像块的外 接矩形框之间的距离由小到大排序,可以认为这个新序列包含了两 类数据,一类是单词内字符间距,另一类是单词间距。显然单词间 距要大于单词内字符间距。如图9所示,将在这个由小到大排列的 序列中选取一个切分阈值来区分上述两种类型的数据。所以,获得 准确稳定的切分阈值是单词切分的关键。

可通过大津法或双峰法等图像二值化方法来区分上述序列中 的两类数据。另外,也可以考虑切分阈值的左右子序列的方差均较 小的这一统计特征,通过计算序列中左右方差之和最小的点的方法 来确定最佳的切分阈值。获得切分阈值后,将小于切分阈值的字符 间距对应的字符图像块合并为一个单词。最终得到如图5所示的单 词切分结果。

S302、部分字符局部调整。

将处在单词切分阈值大小附近的有效字符图像块归为扩间距 字符,将有效字符图像块间距非常小,在打印后非常容易造成字符 粘连的有效字符图像块归为缩间距字符。根据所得的有效字符图像 块属性,在原始文档序列中,移动相对应的字符。扩间距字符向右 移动,在扩间距字符右侧的所有文档内容均向右移动。缩间距字符 向左移动,在缩间距字符右侧的所有文档内容均向左移动。

S303、单词分组。

如图6所示,针对大字号字符文档和小字号字符文档,分别采 用不同数目的单词为一个单词分组G。大字体字符文档采用Nt3个 单词分为一组,小字号字符文档采用Nt4个单词分为一组。一般地, Nt3=3,Nt4=4。

S304、计算字符有效长度。

如图7A所示,对某单词分组G,组中共m个有效字符图像块 U的有效长度L为:将该组均分成固定份数S。那么, 每一份的有效长度Ls=L/S。这里S的取值根据水印处理而定。例 如,在申请号为200710121642.7的专利中,S的取值与使用的哈达 玛矩阵的阶数相同。一般地,S=4。

S305、获得水印图像块。

如图7B所示,按每一份的有效长度Ls对应到有效字符图像块 序列上进行划分,同时将每份所含字符的最大高度组合成一个新的 外接矩形框,每个新的外接矩形框对应一个水印图像块。

将每S个水印图像块分为一组,基于分组的水印图像块进行数 字水印嵌入和提取处理。

图8A、图8B分别为小字号字符文档打印扫描前后获得的水印 图像块。图8C为文档中存在不正常间距和部分字符粘连下获得的 水印图像块。图8D、图8E分别为大字号字符文档打印扫描前后获 得的水印图像块。可以看出,本发明所获得的水印图像块可以抵抗 打印扫描操作,以及避免字符粘连和大小字号字符文档的干扰。

图10为本发明实施例提供的一种用于西文水印处理的水印图 像分块装置的示意图,包括:

切分模块10,用于将西文图像通过行列切分得到多个字符图像 块;

识别模块20,用于从字符图像块中识别有效字符图像块;

统计模块30,用于对有效字符图像块的尺寸进行统计,以确定 西文图像是大字号文档或是小字号文档;

分组模块40,用于针对大字号字符文档和小字号字符文档分别 采用不同数目的单词进行分组;

均分模块50,用于均分单词组为多份,以这些份对应水印图像 块。

该实施例保证了水印嵌入处理的可操作性,使得该水印图像块 的再同步性较强,并使得水印嵌入和提取处理的健壮性更好。

优选地,识别模块20包括:判断模块,用于判断以下条件: 条件1、w>Nt1×H;条件2、U的底边与顶边均落在m的同侧;条 件3、U的底边与顶边分别落在m的两侧,且w<Nt2×H;其中,U 为字符图像块的集合Ω中的字符图像块的外接矩形框,H为U所处 行的行高,m为U所处行的中线位置,h、w分别为U的高度、宽 度,Nt1和Nt2为预设的系数;确定模块,用于如果条件1-3中任一 条成立,则确定U对应的字符图像块为标点图像块,如果条件1-3 均不成立,则确定U对应的字符图像块为有效字符图像块。

优选地,统计模块30包括:计算模块,用于计算 其中,h1、h2、…、hm分别是U所处行的有效字 符图像块1、2、…、m的高度;行确定模块,用于如果Hs≥Thsize,则 确定U所处行是大字号字符行,否则是小字号字符行,其中Thsize是预设阈值;行数统计模块,用于统计西文图像中大字号字符行的 行数Nlarge和小字号字符行的行数Nsmall;文档确定模块,用于如果 Nlarge≥Nsmall,则确定西文图像是大字号字符文档,否则是小字号字 符文档。

从以上的描述中可以看出,本发明上述的实施例最终提高了西 文图像水印处理的提取正确率。在本发明中充分考虑西文单词在不 同字体下行列切分的特性,得到区分大字号字符文档和小字号字符 文档的阈值,通过阈值判断大字号字符文档和小字号字符文档的类 型。根据文档类型不同采用不同数目的单词分组,分组后的水印图 像块中的黑色像素点个数差值较小,从而使得水印处理的鲁棒性得 到很大提高。在本发明中充分考虑西文字符间距在打印前后距离不 稳定的情况,在水印嵌入时,考虑西文单词切分阈值的局部特性, 对阈值附近的西文单词的内部字符之间的距离进行微调,从而保证 打印扫描前后的西文单词切分结果的一致性,使得该水印图像块的 再同步性较强,并进一步提高水印嵌入和提取处理的健壮性。

显然,本领域的技术人员应该明白,上述的本发明的各模块或 各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算 装置上,或者分布在多个计算装置所组成的网络上,可选地,它们 可以用计算装置可执行的程序代码来实现,从而可以将它们存储在 存储装置中由计算装置来执行,或者将它们分别制作成各个集成电 路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块 来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发 明,对于本领域的技术人员来说,本发明可以有各种更改和变化。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进 等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号