首页> 中国专利> 一种基于同义词替换的文本可恢复水印方法和装置

一种基于同义词替换的文本可恢复水印方法和装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种基于同义词替换的文本可恢复水印方法和装置，属于计算机文本版权保护技术领域。文本可恢复水印是一种嵌入秘密信息到文本中，并且在提取相应水印信息的同时恢复原始文本的技术。本发明所述的方法及装置通过将文本中有同义词的词模拟成像素值对，利用整数可逆变换，嵌入或提取版权信息，并在提取版权信息的同时，恢复原始文本。本发明的优点是在提取版权信息的同时恢复原始文本。本发明能够在军事、法律和文学等对文本内容要求甚高的领域中，既保证文档的版权，又不会导致合法用户的歧义理解。

著录项

公开/公告号CN102194205A

专利类型发明专利
公开/公告日2011-09-21

原文格式PDF
申请/专利权人湖南大学;
展开▼

申请/专利号CN201010127144.5
发明设计人孙星明;刘志杰;付章杰;刘玉玲;
展开▼

申请日2010-03-18
分类号G06T1/00(20060101);
代理机构
代理人
地址 410082 湖南省长沙市岳麓区湖南大学
入库时间 2023-12-18 03:13:16

法律信息

法律状态公告日

法律状态信息

法律状态
2015-05-06

未缴年费专利权终止 IPC(主分类):G06T1/00 授权公告日:20130522 终止日期:20140318 申请日:20100318

专利权的终止
2013-05-22

授权

授权
2013-03-27

著录事项变更 IPC(主分类):G06T1/00 变更前: 变更后: 申请日:20100318

著录事项变更
2013-03-27

专利申请权的转移 IPC(主分类):G06T1/00 变更前: 变更后: 登记生效日:20130307 申请日:20100318

专利申请权、专利权的转移
2011-11-23

实质审查的生效 IPC(主分类):G06T1/00 申请日:20100318

实质审查的生效
2011-09-21

公开

公开

查看全部

说明书

技术领域

本发明属于计算机文本版权保护技术领域，尤指一种基于同义词替换的文本可恢复水印方法和装置。

技术背景

随着计算机技术和网络技术的飞速发展，信息安全的重要性显得日益突出。版权保护技术是信息安全领域的一个重要分支，它可以有效的保护各种信息载体的版权免受侵犯。文本文档是互联网上应用最为广泛且使用最为频繁的一种载体，因此文本版权保护显得尤为重要。近几年，作为文本版权保护技术重要分支的文本水印技术变得越来越实用，催生了大量的有关文本水印的研究。

目前，文本水印大致可以分为三大类：1)文本图像数字水印，即将文本视为一种特殊的二值图像，借鉴图像数字水印方法而嵌入一定量的信息；2)基于文本格式的数字水印：一种是基于不可见字符的方法，它是将空格等不可见字符加在句末或行末等位置而不会显著改变文本的外观，现有的大部分软件如Wbstego、Snow等主要就是采用的这类方法隐藏信息；另一种是Brassil等人根据格式化文本的特征提出了字移编码、行移编码和特征编码等三种水印技术。3)基于自然语言的数字水印，首先由Mercan Topkara等人提出，主要是利用现有的自然语言处理技术，在保证句子意思和整个文本意义大致不变的前提下，通过同义词替换、语法替换、语义替换等方法来嵌入水印信息。比较文本水印的这三类方法，我们可以发现：前两类方法的文本水印存在鲁棒性差，不能抵御常见的OCR(光学字符识别)，重拷贝和格式变换的攻击，而且不能适用于纯文本；而基于自然语言的文本水印，鲁棒性强，隐蔽性好，因而基于自然语言的文本水印技术是当前文本水印领域研究最为热门和最为看好的部分，大量的研究成果已经显现出来。然而基于自然语言的文本水印也有其缺点：基于自然语言的文本水印会扭曲词句甚至整个文本的意思(我们把它叫做意义扭曲)。一个典型的方法-同义词替换，通过用文本中的词的同义词来替换原来的词来做到嵌入信息，容易导致文本语义的改变。

通常，基于自然语言的文本水印产生的意义扭曲是很小也是不可见的，但是在军事、法律和文学等领域，即使是很微小的文本内容的改变也是不希望发生的。例如，法律文件采用基于自然语言的文本水印技术来嵌入作者信息的话，就可能导致意义扭曲，从而导致法官做出错误的判决。

为此，有必要结合图像可恢复水印的概念来对基于自然语言的文本水印进行进一步的研究。

可恢复水印的出现主要是为了在保护版权信息的同时，将原始数据(图像)恢复出来。可恢复水印的概念第一次被Honsinger et al使用，他们嵌入到图像中的水印是完全可见的，由于水印以一种可恢复的形式嵌入的，因而是可以移除的。近年来，许多研究者提出了许多针对图像、音频和视频的可恢复水印算法。较早的可恢复水印算法包括C.W.Honsinging Honsinger等人提出的像素值翻转技术，它利用模为256的模加运算逐像素嵌入水印数据位。只要不在边界值附近，该算法就可以取得较好的效果。然而，对于含有较多边界值附近像素的图像，翻转运算会引起可见的椒盐噪声。为了解决此问题，后来的学者提出了其它解法。J.Fridrich，M.Goljan和R.Du等人先提出了利用图像的位平面进行无损数据嵌入，之后对该方法进行了改进，将图像分成n个像素一组的不相交组，再通过定义区分函数和翻转函数，将认证信息比特嵌入到符合条件的像素组。Jun Tian提出一种基于整数小波变换的可逆数据嵌入方法，利用高频分量系数的扩展获得高嵌入容量。Celik对Jun Tian的方法进行了推广。Yongjian Hu等人研究了可恢复可见水印嵌入的算法，进一步研究了图像在数据嵌入后的误差分散，降低引起视觉上的图像形变。Kamastra利用LSB预测和差值预测分别改进了J.Fridrich，M.Goljan和Jun Tian的方法。也有算法通过改变(替代)图像特征来嵌入数据，例如，直方图修改技术就是利用直方图中的冗余刻度点，但这种技术需要附加通道(边信息)记录峰值点和零点的位置。

尽管可恢复水印在图像、音频和视频载体中取得了一定的研究成果，但目前还没有研究人员针对文本进行可恢复水印的研究。

本发明的目标便在于提出一种基于同义词替换的文本可恢复水印方法和装置。

发明内容

本发明的目的在于提出文本可恢复水印的概念和文本可恢复水印的一般流程，并提供一种基于同义词替换的文本可恢复水印方法和装置。该发明提供的算法能够在隐藏信息的过程中将用于恢复原始文本的信息嵌入文本中，但却不影响阅读者的视觉效果。在提取秘密信息时，利用嵌入的用于恢复原始文本的信息恢复出原始文本。

与图像中可恢复水印概念一样，我们定义文本可恢复水印的概念如下：文本可恢复水印是一种嵌入秘密信息到文本中，并且在提取相应水印信息的同时恢复原始文本的技术。这里，恢复原始文本指的是恢复在嵌入过程中被改变的词句。

文本可恢复水印基于改变文本内容的自然语言水印技术。目前最常用的自然语言水印技术是同义词替换：对于一个有同义词的词w和一些需要嵌入的信息b，同义词替换方法将w替换成它的同义词序号为b的同义词。假设词w的同义词数量为n，同义词替换算法能够嵌入位信息。本发明提出的方法就是基于同义词替换技术。

可恢复水印技术除了满足鲁棒性，不可见性，和易于嵌入和提取的特性外，还拥有以下与传统不可恢复水印技术不同的特性：

●盲嵌入和提取，原始内容应该在提取水印的时候恢复出来；

●高嵌入容量，以便有足够的容量来嵌入有效信息；

嵌入和提取流程跟传统不可恢复水印技术一样，但可恢复文本水印能在提取水印信息的同时恢复原始文本内容。如图1、图2所示。

本发明中采用的整数可逆变换如下：

假设(x₁，x₂)是定义在D＝[0，2^L-1]×[0，2^L-1]的整数对，其中L是控制嵌入单元长度的嵌入层(Embedding Level)；n是一个正整数常量。我们定义如下的整数变换

$(\begin{matrix} x_{1}^{'} = (n + 1) x_{1} - {nx}_{2} \\ x_{2}^{'} = - {nx}_{1} + (n + 1) x_{2} \end{matrix}) - - - (1)$

为了保证(x₁，x₂)属于D，我们定义以下不等式组作为(1)的限制条件：

$(\begin{matrix} 0 \leq x_{1}^{'} \leq 2^{L} - 1 \\ 0 \leq x_{2}^{'} \leq 2^{L} - 1 \end{matrix}) - - - (2)$

变换(1)的可逆变换定义如下：

这里是取整数下界函数。

根据以上提出的整数可逆变换，我们定义来替换(3)中的(x′₁，x′₂)并且假设(x′₁，x′₂)∈D：

如果LSB(x′₁)+LSB(x′₂)＝0，那么从(3)中计算得到的(x₁，x₂)跟(1)中的一样；

如果LSB(x′₁)+LSB(x′₂)≠0，那么从(3)中计算得到的(x₁，x₂)比(1)中的要小(1，1)；

由以上结论得知，我们可以利用(x₁，x₂)的最低有效位(LSB)来嵌入信息。首先通过(1)将(x₁，x₂)转换为(x′₁，x′₂)。如果(x′₁，x′₂)∈D并且LSB(x′₁)+LSB(x′₂)＝0，那么(y→x是指将y的值赋x)并且将LSB(x′₂)用于嵌入一位有效信息；如果(x′₁，x′₂)∈D并且LSB(x′₁)+LSB(x′₂)≠0，那么并且将LSB(x′₂)用于嵌入一位有效信息；如果那么记录LSB(x₁)以便恢复原来的x₁并且

我们知道，通过(1)转换而来的整数对中存在一些连续的不满足(2)的整数对。为了恢复原来的整数对，我们必须嵌入这些连续的不满足(2)的整数对的第一个元素的LSB。

为了提高嵌入容量，我们只嵌入在奇数位置对的第一个元素的LSB。也就是说，我们将连续不可嵌入对分成由以下元素组成的对：嵌入LSB对和不嵌入LSB对。这样，我们就可以节省最多c/2字节来嵌入有效载荷(c是连续不可嵌入对的数量)。

本发明提出的方法的总体步骤如下：

a)将文本中有同义词的词的同义词序号转换成像素值；

b)利用上面的整数可逆变换和同义词替换算法来嵌入信息、提取信息和恢复原始文本；

c)将像素值重新转换成同义词序号并且替换为相应的词，得到嵌入信息的文本或原始文本；

本发明的优点和积极效果

本发明基于同义词替换提出一种利用整数可逆变换实现文本可恢复水印方法和装置。该方法的水印嵌入方法是：首先将文本中有同义词的词的序号模拟而来的像素列表表示成整数对的形式，根据需要嵌入的信息，利用上述整数可逆变换，将信息隐藏到整数对中；最后将整数对恢复成词，得到相应的嵌入水印的文本。该方法的水印提取和原始文本恢复方法是：首先将文本中有同义词的词的序号模拟而来的像素列表表示成整数对的形式，利用上述整数可逆变换，将信息从整数对中提取出来，得到相应的水印信息和用于恢复原始文本的信息；最后利用用于恢复原始文本的信息恢复出原始文本。

该方案的主要特点是能够在提取隐藏信息的同时，将原始文本恢复出来。

本发明使基于自然语言的文本水印实用化，其基本应用如下：

1.版权保护。同传统的文本水印一样，文本可恢复水印也嵌入了水印信息，因而可以做到文本内容的版权信息保护。

2.公文的追踪。可以在公文中先嵌入可恢复水印，如果公文在传输和存储过程中泄漏，那么可以根据其中的水印追踪来源，公文的最终用户也可以通过合法密钥恢复公文的精确原始版本，不至于由于水印的干扰而对公文内容产生歧义。

3.文件完整性验证。类似于图像可恢复水印，使用可恢复水印也使得在数字水印中保存整个文件的完整性校验数据成为可能。而如果只使用不可恢复水印的话，试图保存整个文件的完整性数据到水印中是不可能的，不可恢复水印只能保存与水印嵌入位置数据无关部分的信息的校验。

4.原始内容的访问控制。也就是说只有经过授权的用户才可以访问到原始文本内容，非授权用户则只能看到嵌入水印后的文本内容。在传统意义上的水印算法，任何数据的接收者都不可能看到数据的原始版本；而可恢复水印嵌入后，一个授权的用户可以在移除水印后访问到原始数据，而水印内容则是对所有人都有用。

附图说明

图1为嵌入水印流程图

图2为提取水印流程图

具体实施方式

为使本发明的目的、技术方案更加清晰，下面就本发明实施例所提出的信息嵌入和提取过程进行详细说明。

原始隐蔽载体文档为任何格式的带文字的电子文档。该电子文档应当具有相当量的同义词来嵌入版权信息。拟隐藏的版权信息经编码后转换为二进制表示：如00101101。

以下4个算法是本发明中装置的总体步骤的具体实现。

在嵌入或提取隐藏信息之前，我们需要将文本中有同义词的词的同义词序号形成的整数列转换成像素值的形式，也就是具有相同嵌入层的数列。如算法1所描述。

算法1模拟像素值

输入：文本T，同义词库DB，嵌入层L。

输出：同义词列表synonyms；模拟的灰度级为L的像素值列表P。

步骤：

1.找到文本T中有同义词的词添加到synonyms；

2.对synonyms中的每个词w：

2.1.找到w的同义词序号，记为i；

2.2.找到w的同义词数量，记为n；

2.3.计算i的二进制表示(如果i的位数不等于在前面添’0’)，记为binInd；

2.4.将binInd添加到binList；

3.将binList的连接成一个字符串str；

4.以L为单位将str分裂，并取相应的十进制值添加到P。

在嵌入或提取完隐藏信息之后，我们同样需要将模拟而来的像素值恢复成相应的同义词序号为像素值的词。如算法2所描述。

算法2恢复同义词

输入：同义词列表synonyms；模拟的灰度级为L的像素值列表P；同义词库DB，嵌入层L。

输出：嵌入水印的文本T_w或者原始文本T。

步骤：

1.对P中的每个元素p：

1.1.计算p的二进制表示，记为binInd(如果binInd的位数不等于L，在前面添’0’)；

1.2.将binStr连接成str；

2.对synonyms中的每个元素w：

2.1.找到w的同义词数量，记为n；

2.2.取str的头位作为同义词序号i；

2.3.取w的同义词序号为i的同义词，并用它替换文本中的词w；

3.得到T_w或者T。

在进行完算法1后，我们便可以在模拟来的像素值列表中嵌入隐藏信息，该隐藏信息包括版权信息和用于恢复原始文本的信息。如以下算法所描述。

算法3隐藏水印

输入：模拟的像素值列表P，同义词库DB，嵌入层L，水印信息W

输出：更新的列表P

步骤：

1.将P分为带2个元素的对，第i个对表示为p_i＝(x_i，x_i+1)，其中N是P的元素数量；

2.设p″_i＝(x″_i，x″_i+1)作为嵌入信息后的二进制对并初始化(″″，″″)→p″_i；

3.设连续不可嵌入对的数量为c并初始化0→c；

4.对每个p_i：

4.1.通过(1)将p_i转换为p′_i＝(x′_i，x′_i+1)；

4.2.如果

4.2.1.如果c％2＝0，将LSB(x_i)作为隐藏信息的一部分，并置和c+1→c；

4.2.2.如果c％2＝1，置c+1→c；

4.3.如果p′_i∈D：

4.3.1.如果LSB(x′_i)+LSB(x′_i+1)＝0，用替换p_i其中b是当前嵌入的比特位，并且置0→c；

4.3.2.如果LSB(x′_i)+LSB(x′_i+1)≠0，用替换p_i其中b是当前嵌入的比特位，并且置0→c；

4.4.插入LSB(x_i)，LSB(x_i+1)到x″_i，x″_i+1的开头，

并置(x_i＞＞1，x_i+1＞＞1)→(x_i，x_i+1)；

4.5.置L-1→L；如果L≥1，继续步骤4.1；

5.取p_i的十进制表示添加到P。

同样地，在进行完算法1后，我们便可以在模拟来的像素值列表中提取隐藏信息得到版权信息和用于恢复原始文本的信息，并恢复原始文本中的有同义词的词的同义词序号。如以下算法所描述。

算法4提取水印和恢复原始文本

输入：模拟的像素值列表P，同义词库DB，嵌入层L

输出：提取的水印信息W和更新的列表P

步骤：

1.将P分为带2个元素的对，第i个对表示为p″_i＝(x″_i，x″_i+1)，其中N是P的元素数量；

2.设p_i＝(x_i，x_i+1)是相应的原始对并且初始化(MSB(x″_i)，MSB(x″_i+1))→p_i，其中MSB(x)表示取x的最高有效位；

3.设连续不可嵌入对的数量为c并初始化0→c；

4.设当前嵌入层为1并且初始化0→1；

5.对每个p″_i：

5.1.如果LSB(x_i)≠0：

5.1.1.如果c≠0，取LSB(x_i+1)作为W一位并且置0→c；

5.1.2.如果c≠0，置c+1→c；

5.2.如果LSB(x_i)＝0，置

5.2.1.如果(x′_i，x′_i+1)∈D，取LSB(x_i+1)作为W一位并且用(x′_i，x′_i+1)作为输入从(3)中更新(x_i，x_i+1)并置0→c；

5.2.2.如果：

5.2.2.1.如果c％2＝0，从W中恢复x_i并恢复x_i+1为x′_i+1和置c+1→c；

5.2.2.2.如果c％2＝1，置c+1→c；

5.3.置1+1→1；

5.4.如果1≤L，置(x″_i＜＜1，x″_i+1＜＜1)→(x″_i，x″_i+1)

和(2×x_i+MSB(x″_i)，2×x_i+1+MSB(x″_i+1))→(x_i，x_i+1)，并继续步骤5.1；

6.将P＝{p_i}作为输出。

以上所述，仅为本发明较佳的具体实施方式。但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于同义词替换的文本可恢复水印方法和装置 [P] . 中国专利： CN102194205B . 2013.05.22
2. 一种基于同义词替换的文本可恢复水印方法和装置 [P] . 中国专利： CN102194205A . 2011-09-21
3. A READABLILTY INDEXING SYSTEM BASED ON LEXICAL DIFFICULTY AND THESAURUS [P] . 韩国专利： KR20050122571A . 2005-12-29

机译：一种基于词法难度和同义词库的可恢复性索引系统
4. Systems and methods for subtext searching data using synonym-enriched predicative phrases and substituted pronouns [P] . 美国专利： US8516013B2 . 2013-08-20

机译：使用富含同义词的谓语短语和替换代词进行文本搜索数据的系统和方法
5. SYSTEMS AND METHODS FOR SUBTEXT SEARCHING DATA USING SYNONYM-ENRICHED PREDICATIVE PHRASES AND SUBSTITUTED PRONOUNS [P] . 美国专利： US2012150894A1 . 2012-06-14

机译：使用富含同义词的预期短语和替换代词进行子文本搜索数据的系统和方法