首页> 中国专利> 基于HTML标签属性序列的信息隐藏及提取方法

基于HTML标签属性序列的信息隐藏及提取方法

摘要

本发明公开了一种基于HTML标签属性序列的信息隐藏及提取方法,步骤一、确定要隐藏的信息,转化为二进制Unicode;步骤二、确定“0”和“1”对应标签属性对表示方法。“0”由不同标签的二个属性表示,“1”由同一标签的二个属性表示;步骤三、确定序列码K;Unicode由8位二进制数组成,选取9个1(多一位),中间随机插入若干个0,组成本次信息隐藏序列码K;步骤四、参照序列码K确定9个标签属性按顺序放在“1”的位置,补充其余标签属性按顺序放在“0”位置,合成HTML文件标签属性序列;步骤五、根据合成HTML文件标签属性序列编写代码。本发明有益效果是:不需要数据库的支持,大大提高了网页执行效率。

著录项

  • 公开/公告号CN104915409A

    专利类型发明专利

  • 公开/公告日2015-09-16

    原文格式PDF

  • 申请/专利权人 浙江大学城市学院;

    申请/专利号CN201510299008.7

  • 发明设计人 陈国宏;

    申请日2015-06-03

  • 分类号

  • 代理机构杭州九洲专利事务所有限公司;

  • 代理人张羽振

  • 地址 310015 浙江省杭州市湖州街50号

  • 入库时间 2023-12-18 10:55:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-05-17

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2015102990087 申请日:20150603 授权公告日:20180206

    专利权的终止

  • 2018-02-06

    授权

    授权

  • 2015-10-14

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150603

    实质审查的生效

  • 2015-09-16

    公开

    公开

说明书

技术领域

本发明涉及信息隐藏及提取方法,更具体说,它涉及一种基于HTML标签属性序列的信息 隐藏及提取方法。

背景技术

HTML(Hyper Text Markup Language,超文本标记语言)是随着因特网技术而发展起来的, 是一种信息组织与管理技术,用于制作网页或作为电子邮件等在网上传递信息的一种超文本 标记语言。由于HTML可实现相关文字和数据的链接及文件与文件之间的超级链接。与文本相 比,超文本具有更丰富的多媒体内容和效果;与其它字处理文件相比,信息量又相对较小, 这一点对于网上传递多媒体信息是十分重要的。由于这些突出的特点,使得这种格式文件在 因特网的网站以及E-mail上广泛使用,而相应的信息安全问题也同时出现。因此,HTML信 息隐藏技术的研究也就应运而生。

HTML页面是由一系列标签组合而成的,可以用来表示层次结构。每个标签可以有属性, 也可以有子标签、文本或者两者都有。超文本文件不同于一般的纯文本文件,它是由标签和 数据两部分组成。标签是用于控制数据显示格式和效果的,由浏览器解析执行的命令,相当 于程序的指令;数据即是文件中包含的能够在浏览器上显示出来的文字、图片和动画等多媒 体资料。标签用“<”和“>”括起来,有单标签和双标签两种类型。单标签只需单独使用, 格式是:<标签名称>,如<BR>标签表示换行的意思;双标签必须是起始标签和结束标签成对 出现,格式是:<标签>内容</标签),如<HTML>—</HTML)标签。大部分标签还可以具有属性 和属性值,带属性的标签的格式是:<标签名称属性名称=“属性值”>。

HTML标记元素分为以上几种类型:

(1)结构性标记,用来描述文字的意图。比较常用的结构性标记有html元素(标记HTML内 容的开始和结束)、head元素(标记HTML文件头)、title(标记HTML文件的标题)、body元 素(标记HTML文件正文的开始和结束)。一个基本的HTML文档至少包括<html>,<head>和 <body>三个标签。

(2)呈现性标记,用来描述文字的外观。如<b>bold</b>表示给文字加粗,<i>italic</i> 表示设置文字为斜体。

(3)超文本标记,用来将文档的一部分关联到其他文档。如<a href=“aa.html”></a>等 超链接标记。

(4)框架页面标记,用来描述如何显示框架网页,较低版本的浏览器并不支持该功能。如 <frameset></frameset>等框架标记。每个HTML文档都是以标签<html>开始,由标签</html> 结束。每个HTML文档由文档头(head)和正文(body)两个部分组成,并分别用<head>和</head> 以及<body>和</body>来做标记。文档头标签<head>和</head>之间可包含文档的名称 (title),用<title>和</title>标记。正文标签<body>与<body>之间含有用各种HTML标签做 标记的段落、列表以及其他元素组成的实际文档。

网页信息隐藏技术是将信息隐藏到网页文件中,隐藏的信息与网页原始文件数据紧密结 合,同时要求隐藏的信息不破坏原始文件的结构及质量,不使文件所表征内容的视觉特性产 生异常。现有的基于HTML标签的网页信息隐藏方法主要分为以下三种:

(1)基于不可见字符的方法:早在2001年,就有研究人员提出通过在每行行末加入不可见 字符如空格键和Tab键,可以将信息隐藏在网页中而又不影响网页在浏览器中的显示效果, 如已经商品化的网页信息隐藏软件Invisible Secret,Wbstego,FFEncode等都是利用这种 方法来隐藏信息的。

(2)基于标记中字母大小写变化的方法:使用主成分分析方法提取出网页的摘要信息,然 后利用网页中标签的大小写无关字符插入隐藏信息的方法。

(3)基于属性对顺序的方法:一种基于等价标记的网页信息隐藏算法。该方法将待隐藏的 秘密信息转变为一个大整数,按照嵌入规则,采用等价标记置换原标记的方法将大整数隐藏 在网页中。该算法没有增加网页文件的长度,具有较高的隐蔽性和安全性。

对以上三种信息隐藏方法的优缺点进行比较分析,如表1所示。

表1 三种信息隐藏方法的优缺点分析

从表1中可以看出,不可见字符方法和标记大小写方法隐藏算法主要存在的缺陷:增加 文件长度、易检测、易攻击等缺陷。而基于属性对顺序方法虽然抗检测性较好,但隐藏容量 较小,而且信息提取时需原始数据库支持。如果能克服隐藏容量较小和需要数据库支持的缺 点,基于属性对顺序的隐藏算法无疑是三种方法中最好的。本文提出了一种基于标签属性序 列的方法,该方法能较好解决隐藏容量较小的问题,而且不需要数据库支持,大大提高了算 法的执行效率。

发明内容

本发明的目的是克服现有技术中的不足,提供一种能较好解决隐藏容量较小的问题,而且 不需要数据库支持,大大提高了算法的执行效率的基于HTML标签属性序列的信息隐藏及提取 方法。

这种基于HTML标签属性序列的信息隐藏方法,包括如下步骤:

步骤一、确定要隐藏的信息,转化为二进制的Unicode;

步骤二、确定“0”和“1”对应的标签属性对表示方法。“0”由不同标签的二个属性来表 示,“1”由同一标签的二个属性来表示;

步骤三、确定序列码K;Unicode由8位二进制数组成,选取9个1(多一位),然后中间 随机插入若干个0,组成本次信息隐藏的序列码K;

步骤四、参照序列码K确定9个标签属性按顺序放在“1”的位置上,补充其余标签属性 按顺序放在“0”位置上,合成HTML文件的标签属性序列;

步骤五、根据合成HTML文件的标签属性序列编写HTML代码。

一种基于HTML标签属性序列的信息提取方法,包括如下步骤:

步骤一、从隐藏信息的HTML代码中按顺序提取所有标签属性;

步骤二、序列码K和标签属性序列按位匹配;

步骤三、删除“0”位置所在的标签属性,确定保留的标签属性序列;

步骤四、根据标签属性序列确定隐藏的二进制序列;不同标签的二个属性来表示“0”,同 一标签的二个属性来表示“1”;

步骤五、二进制序列转化为Unicode对应的字符,从而提取出隐藏的信息。

本发明的有益效果是:基于网页标签的信息隐藏方法是目前基于HTML信息隐藏中用的比 较多的方法。其中基于不可见字符的方法,可以通过连续插入任意多个符号使得隐藏的容量 可以任意,该方法除了会增加网页的大小之外,如果以二进制形式打开网页代码,当看见许 多连续的空格时,会非常容易发现此处隐藏了信息。基于标记中字母大小写变化的方法,如 果改变字母的大小写太有规律,或者太杂乱无章,也比较容易被攻击者发现隐藏了信息。而 常用的基于标签属性对顺序的方法,虽然实现简单,隐蔽性好,不增加文件大小。但是需要 数据库记录原始属性对顺序,如果隐藏信息量多的话,数据库文件大小也会随之增长,会降 低网页执行效率。基于HTML标签属性序列的信息隐藏方法不需要数据库的支持,隐藏信息量 大的话也没有后顾之忧,大大提高了网页执行效率。

附图说明

图1是本发明信息隐藏算法流程图;

图2是本发明信息提取算法流程图;

图3是具体实施方式中提取算法步骤4示意图;

具体实施方式

下面结合附图和实施例对本发明做进一步描述。虽然本发明将结合较佳实施例进行描述, 但应知道,并不表示本发明限制在所述实施例中。相反,本发明将涵盖可包含在有附后权利 要求书限定的本发明的范围内的替换物、改进型和等同物。

本方法充分利用HTML标签属性顺序在HTML文件里隐藏信息,HTML常用标签属性顺序如 表2所示。

表2 HTML常用标签属性表

以下通过一个例子说明该信息隐藏方法,由信息隐藏算法和信息提取算法二部分组成。

1.信息隐藏算法举例

(1)确定要隐藏的信息。比如,要隐藏的信息是大写字母“W”,转化为二进制的Unicode 为01010111。

(2)确定“0”和“1”对应的标签属性对表示方法。在例子1中,第1个“0”由<html> 标签中的属性“lang”和<body>标签中的属性“bgcolor”表示,第1个“1”由<body>标签 中的二个属性bgcolor和background表示,大写字母“W”的Unicode 01010111可以按顺序 表示为<html>lang、<body>bgcolor、<body>background、<article>dir、<article>title、 <h1>class、<h1>align、<h1>style和<h1>id。

(3)确定序列码K。Unicode由8位二进制数组成,选取9个1(多一位),然后中间随机插 入若干个0,组成本次序列码K,例子1中确定序列码K为100110111111。

(4)按照第3步的序列码K把9个标签属性在“1”位置上按顺序排列:<html>lang、0、 0、<body>bgcolor、<body>background、0、<article>dir、<article>title、<h1>class、 <h1>align、<h1>style、<h1>id。在3个“0”位置上补充3个标签属性:<meta>http-equiv、 <meta>content和<body>text。合成后的12个标签属性序列为:<html>lang、 <meta>http-equiv、<meta>content、<body>bgcolor、<body>background、<body>text、 <article>dir、<article>title、<h1>class、<h1>align、<h1>style、<h1>id

(5)根据第4步的12个标签属性序列编写HTML代码,如例子1所示。

例子1:

2.信息提取算法举例

(1)从隐藏信息的HTML代码中按顺序提取所有标签属性。例子1中的所有标签属性序列 为:<html>lang、<meta>http-equiv、<meta>content、<body>bgcolor、<body>background、 <body>text、<article>dir、<article>title、<h1>class、<h1>align、<h1>style、<h1>id

(2)序列码K和标签属性序列按位匹配。例子1中,序列码K和标签属性序列按位匹配如 下:

lang http-equiv content bgcolor background text dir title class align style id 1 0 0 1 1 0 1 1 1 1 1 1

(3)删除“0”位置所在的标签属性,确定保留的标签属性序列。例子1中,保留的标签 属性序列为:lang bgcolor background dir title class align style id

(4)根据标签属性序列确定隐藏的二进制序列。不同标签的二个属性来表示“0”,同一标 签的二个属性来表示“1”,例子1中保留的标签属性序列如图3所示。

(5)例子1中的二进制序列01010111对应Unicode的字符为大写字母“W”,也就是说, 该HTML文件隐藏的信息为大写字母“W”。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号