法律状态公告日
法律状态信息
法律状态
2015-02-04
未缴年费专利权终止 IPC(主分类):G06F21/62 授权公告日:20130605 终止日期:20131214 申请日:20091214
专利权的终止
2013-06-05
授权
授权
2013-01-02
专利申请权的转移 IPC(主分类):G06F21/24 变更前: 变更后: 登记生效日:20121204 申请日:20091214
专利申请权、专利权的转移
2012-11-14
专利申请权的转移 IPC(主分类):G06F21/24 变更前: 变更后: 登记生效日:20121011 申请日:20091214
专利申请权、专利权的转移
2011-08-10
实质审查的生效 IPC(主分类):G06F21/24 申请日:20091214
实质审查的生效
2011-06-15
公开
公开
查看全部
技术领域
本发明涉及以电子文档为载体进行隐蔽通信的信息安全领域,尤指一种基于word2007文本切分的信息隐藏方法和装置。
技术背景
随着计算机技术和网络技术的飞速发展,信息安全的重要性显得日益突出。信息隐藏技术是信息安全领域的一个重要分支,它可为国防、军事、商业等的机密信息的秘密安全可靠传输提供技术保障。文本文档是互联网上应用最为广泛且使用最为频繁的一种载体类型,因此以文本文档为隐蔽载体进行秘密信息的隐蔽传输更加不容易引起攻击者的怀疑。而Office文档又是互联网上使用最广泛的文本文档类型,因此研究以Office文档为隐蔽载体的信息隐藏技术与装置具有非常重要的现实意义。
Office系列软件尤以Office Word这种电子文档类型使用最为广泛。且随着技术的发展与市场需求的变化,Office系列产品所采用的格式与技术也随之改变。Office软件以前的版本,如Office97-2003,采用的是复合文档结构,而从2007年开始,微软推出的Office2007以及联合苹果公司开发的Office2008等版本引入了一种新的文件格式,即Open Office XML文件格式。这种文档格式完全不同于之前的复合文档所采用的二进制格式,采用该格式的电子文档是基于XML和ZIP技术创建的,每一个office2007文件实际上都是一个由许多部件组成的ZIP文档包,比如document.xml就是一个word2007文件包中的一个主要部件,它定义了该word文档的所有文本内容。这种格式可以大大减少Office文档文件的容量,而且还能避免文件传输和处理中可能出现的错误,因此在以后的Office软件开发中也将被广泛采用。
国内外利用文本文档作为隐蔽载体进行信息隐藏的研究已经有很多,比如国内的廖继旺等人利用Office Word文档的ASCII编码内容源码结束处到整个文档结尾处的冗余空间嵌入信息,国外的Castiglione等提出一种针对所有Office复合文档的信息隐藏方法,就是将待隐藏的数据覆盖复合文档中的未使用空间。
这类方法的缺点在于:
1、鲁棒性不够好,如果隐藏的秘密信息的容量稍大,就容易被统计分析软件所查获并进行攻击。
2、如果嵌入的秘密信息的容量显著增大,那么整个文件的大小也就随之显著增大,这在一定程度上增加了该文件的可疑性,也即是隐蔽性不够好。
3、更重要的是这类方法针对的是采用复合文档格式的电子文档,不能适用于采用新Open Office XML格式的电子文档类型,比如Office 2007、Office 2008等。
另外很多研究人员针对采用复合文档格式的Office Word文档和PowerPoint文档,提出了基于字间距、字符颜色、字体类型、字体大小、下划线、字符缩放的方法等等。这些方法针对的都是Office 97-2003的文档,而不能应用于Office 2007、Office 2008等新格式的电子文档类型。
针对Open Office XML文件格式的文档,目前也有个别研究人员提出了一些信息隐藏方法。美国的Simson L.Garfinkel等人提出了在office 2007系统中利用注释进行信息隐藏。韩国的Bora Park等人提出了一种基于插入未知部件和未知关系的office2007文档信息隐藏方法。
前一种方法的缺点是:
1、鲁棒性较差,不能抵抗另存为、删除、编辑等攻击。
2、理论上隐藏容量是无限的,但在实际中,如果通过注释的方式隐藏的信息量稍大,就容易引起怀疑(人眼的怀疑和分析软件的怀疑)。
3、在隐蔽性方面,虽然该方法不影响word文档的任何显示内容,但容易被一些信息检测工具所查获。
后一种方法的鲁棒性较好,能够抵抗另存为、删除、编辑等攻击,但它的局限性在于:
1、由于要插入一个没有被调用的包含有秘密信息的未知部件,因此容易被统计分析软件所查获。
2、它的秘密信息的隐藏容量在理论上是无限的,但在实际中,如果包含有秘密信息的未知部件的大小超出原电子文档载体大小一定的比例,就很容易引起怀疑,因为一个电子文档的容量与它的显示内容紧密相关的。
本发明针对采用新Open Office XML格式的Office Word电子文档类型,提出一种基于word2007文本切分的信息隐藏方法及其装置。本发明没有更改word电子文档任何显示内容,具有很强的隐蔽性,并且通过增加鲁棒标记,增强了隐藏信息的鲁棒性,可用于国防、政治、商业等机密信息的隐蔽传输。
发明内容
本发明的目的在于提供一种基于word2007文本切分的信息隐藏方法和装置,能够利用明文电子文档来隐蔽的传输秘密信息。信息隐藏的过程没有更改电子文档的任何显示内容,具有很强的隐蔽性,同时通过增加鲁棒标记,增强了隐藏信息的鲁棒性,可以抵抗另存为、删除、编辑等攻击,甚至是“copy”攻击。
为达到以上目的,本发明采用如下方案:
一种基于word2007文本切分的信息隐藏方法和装置,秘密信息的隐藏方法是根据所要传输的秘密信息的编码要求,以段落为单位,通过切分每个段落中的run元素的个数,将秘密信息转换为数值从而嵌入到每个段落的run数量中。同时,为了提高该种隐藏方法的鲁棒性,本发明在分割后的奇数个或偶数个run元素的属性中添加一些鲁棒属性,这些鲁棒属性不会影响文本的显示效果。秘密信息的提取过程是嵌入的反过程。
上述方法的信息嵌入过程实现步骤如下:
1.首先是根据Open Office XML格式规范,读取隐蔽载体(word2007)文档包中的主要部件document.xml文件,并提取出该部件中的根节点(document),容器(body),段落(paragraph),文本及其属性集(run)以及纯文本(text)。
2.针对每一段落,来提取文本及其属性集(run)以及纯文本(text)标记所定义的文本内容,并提取该文本的所有格式信息。
3.计算纯文本(text)标记对内的显示字符的空格个数,也即计算出纯文本(text)标记所定义的单词个数。
4.如果该标记对内显示字符的空格数大于等于N个(即单词个数大于等于N个,N为部件document.xml中所定义的最小单词数),则进行文本的分割。
5.根据秘密信息的嵌入要求来分割纯文本(text),直到秘密信息的嵌入完成。
根据秘密信息的编码规则,word2007电子文档的显示文本的分割原则如下:
a.不改变原有的任何文本内容和格式。
b.每一个分割出来的标记对(也叫子标记对)都必须带有其父标记对内的所有格式信息。
c.定义<w:rPr><w:rFonts w:hint=″eastAsia″/></w:rPr>为鲁棒标记,因为该标记在另存为、编辑、删除、修改、甚至是清楚格式等所有的格式攻击后仍然存在。
d.定义<w:t xml:space=″preserve″>为子附加标记,因为所有的子标记对内的内容都是以空格来结尾的,为了使这个空格字符不丢失,必须在每一个子标记对中加上这个标记。
e.为了防止具有相同格式信息的相邻标记合并,我们只在奇数个或者偶数个分割标记对的格式信息后面附加上鲁棒标记<w:rPr><w:rFontsw:hint=″eastAsia″/></w:rPr>和子附加标记<w:txml:space=″preserve″>。
对上述方法隐藏的信息的提取,实现步骤如下:
1.读取待提取隐蔽信息的word2007文档ZIP包中的主部件document.xml文件,或者先对word2007文档进行清楚格式等操作,然后读取主部件。
2.读取每一个纯文本(text)标记对以及各自的属性信息。
3.找出相邻的两个属性信息完全相同的纯文本(text)标记对。
4.再从相邻的两个属性信息完全相同的纯文本(text)标记对中,查找含有“子附加标记”和“鲁棒标记”的标记对,并计算该标记对内的单词个数。
5.根据约定的秘密信息和单词数量的对应关系,还原出秘密信息,并进行完整性校验。
本发明的优点和积极效果:
本发明针对Open Office XML格式的word文档提出一种基于文本切分的信息隐藏方法及其装置。该方法以段落为单位,通过切分每个段落中的run元素的个数,将秘密信息转换为数值从而嵌入到每个段落的run中。同时,为了提高该种隐藏方法的鲁棒性,本发明在分割后的奇数个或偶数个run元素的属性中添加一些鲁棒属性,这些鲁棒属性不会影响文本的显示效果。本发明没有更改电子文档任何显示内容,具有很强的隐蔽性,并且增加了鲁棒标记,增强了隐藏信息的鲁棒性。
该方案有两个主要特点:一是基于文本切分的方法来隐藏信息;二是加入鲁棒标记来提高鲁棒性。
附图说明
图1为一个Open Office XML格式word文档的ZIP包结构图
图2为本发明实施例秘密信息和单词数量之间的对应关系图
图3为本发明实施例节点结构示意图
图4为本发明实施例嵌入8位秘密信息后的主文档结构图
具体实施方式
为使本发明的目的、技术方案更加清晰,下面结合附图对本发明实施例所提出的信息嵌入和提取过程进行详细说明。
原始隐蔽载体文档为采用Open Office XML格式的word电子文档,其ZIP包文档结构如附图1所示。拟隐藏的秘密信息经编码后转换为8位二进制数据:00101101。拟隐藏的秘密信息和所需单词数量之间的对应关系如图2所示。则将该秘密信息隐藏到word2007电子文档中的步骤为:
第一步,读取隐蔽载体word2007文档包中的主要部件document.xml文件,并提取出该部件中的根节点(document),容器(body),段落(paragraph),文本及其属性集(run)以及纯文本(text)。图3所示为各个节点结构的示意图。
第二步,以段落元素(paragraph element)为单元,依次提取出该单元中的每一个run element节点及其属性集,即标记<w:rPr></w:rPr>所包含的格式信息。
第三步,依次读取每一个单元中的每一对<w:r><w:t></w:t></w:r>标记所定义的文本内容,以及该标记对的所有格式信息,并统计该标记对内的文本显示字符的空格个数(也即计算出单词个数)。
第四步,如果该标记对内文本显示字符的空格数大于等于4个(即单词个数大于等于4个)则执行第五步;如果小于4,则返回到第二步。
第五步,依次读取秘密信息,每次读取两位,并作以下判断:
a:如果秘密信息是00,则由原来的一对<w:r><w:t></w:t></w:r>标记分割为两对标记,且第一对标记内只包含原标记对内显示字符的第一个单词和其后的一个空格,其余的显示字符全部包含在第二对分割标记里面,两个分割出来的子标记都要加上一个子附加标记,并且在第二对分割标记里面加入鲁棒标记;
b:如果秘密信息是01,则由原来的一对标记分割为两对标记,且第一对标记内只包含原标记对内显示字符的前两个单词以及每个单词后的空格,其余的显示字符全部包含在第二对分割标记里面,两个分割出来的子标记都要加上一个子附加标记,并且在第二对分割标记里面加入鲁棒标记;
c:如果秘密信息是10,则由原来的一对标记分割为两对标记,且第一对标记内只包含原标记对内显示字符的前三个单词以及每个单词后的空格,其余的显示字符全部包含在第二对分割标记里面,两个分割出来的子标记都要加上一个子附加标记,并且在第二对分割标记里面加入鲁棒标记;
d:如果秘密信息是11,则由原来的一对标记分割为两对标记,且第一对标记内只包含原标记对内显示字符的前四个单词以及每个单词后的空格,其余的显示字符全部包含在第二对分割标记里面,两个分割出来的子标记都要加上一个子附加标记,并且在第二对分割标记里面加入鲁棒标记;
第六步,计算上次分割后的第二对标记对内的显示字符的单词个数,并执行第四步,直到全部的8位秘密信息都嵌入到满足条件的标记中。图4所示为嵌入了8位秘密信息00101101的主文档结构图。
接收方接收到含有秘密消息的电子文档后,首先根据密钥进行解压,根据分割的单词数量和信息编码的对应关系获得秘密信息。秘密信息提取过程是嵌入的反过程,具体操作步骤如下:
第一步,读取待提取隐蔽信息的word2007文档ZIP包中的主部件document.xml文件,或者先对word2007文档进行清楚格式等操作,然后读取主部件。
第二步,读取每一个纯文本(text)标记对和它的上级run标记对,以及它们的属性信息。
第三步,找出相邻的两个属性信息完全相同的纯文本(text)标记对。
第四步,再从相邻的两个属性信息完全相同的纯文本(text)标记对中,查找含有“子附加标记”和“鲁棒标记”的标记对,并计算该标记对内的单词个数。
第五步,根据约定的秘密信息和单词数量的对应关系,还原出秘密信息00101101 10111010。
综上所述,本发明实施例针对Open Office XML格式的word文档提出一种基于文本切分的信息隐藏方法,根据分割的单词数量和信息编码的对应关系,将秘密信息编码后隐藏到word2007文档中并提取出来。本发明实施例没有更改电子文档任何显示内容,并且通过增加鲁棒标记增强了隐藏信息的鲁棒性。
以上所述,仅为本发明较佳的具体实施方式。但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
机译: 用于开发单语文档的基于计算机的系统和方法基于计算机的系统,用于翻译外语源中的文本输入,并且基于计算机的单,多语翻译方法涉及用于翻译语言源中的文本的计算机。一种基于计算机的语言开发方法用于文档开发单,多语言翻译和领域模型三方
机译: 为语音到文本转换提供匿名和安全机制的新颖创新方法。本发明提供了一种通用且可扩展的隐私层,其利用了现有的基于云的自动语音识别(ASR)服务,并且可以适应新兴的语音到文本技术,例如自然语言处理(NLP),语音机器人和其他基于语音的人工语言。智能接口。本发明还允许在不牺牲法律,医学,金融和其他隐私敏感领域的情况下应用最新和最好的语音技术。
机译: 一种基于生物数据识别的电子文档验证方法和一种基于生物数据完整性的电子签名方法,该方法将电子文档的原始文本与标记,验证码和标记一起使用,并以此为目的进行验证,验证,确认服务器和计算机