首页> 中国专利> 基于HTML标签属性序列的信息隐藏及提取方法

基于HTML标签属性序列的信息隐藏及提取方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于HTML标签属性序列的信息隐藏及提取方法，步骤一、确定要隐藏的信息，转化为二进制Unicode；步骤二、确定“0”和“1”对应标签属性对表示方法。“0”由不同标签的二个属性表示，“1”由同一标签的二个属性表示；步骤三、确定序列码K；Unicode由8位二进制数组成，选取9个1(多一位)，中间随机插入若干个0，组成本次信息隐藏序列码K；步骤四、参照序列码K确定9个标签属性按顺序放在“1”的位置，补充其余标签属性按顺序放在“0”位置，合成HTML文件标签属性序列；步骤五、根据合成HTML文件标签属性序列编写代码。本发明有益效果是：不需要数据库的支持，大大提高了网页执行效率。

著录项

公开/公告号CN104915409A

专利类型发明专利
公开/公告日2015-09-16

原文格式PDF
申请/专利权人浙江大学城市学院;
展开▼

申请/专利号CN201510299008.7
发明设计人陈国宏;
展开▼

申请日2015-06-03
分类号
代理机构杭州九洲专利事务所有限公司;
代理人张羽振
地址 310015 浙江省杭州市湖州街50号
入库时间 2023-12-18 10:55:13

法律信息

法律状态公告日

法律状态信息

法律状态
2022-05-17

未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2015102990087 申请日:20150603 授权公告日:20180206

专利权的终止
2018-02-06

授权

授权
2015-10-14

实质审查的生效 IPC(主分类):G06F17/30 申请日:20150603

实质审查的生效
2015-09-16

公开

公开

说明书

技术领域

本发明涉及信息隐藏及提取方法，更具体说，它涉及一种基于HTML标签属性序列的信息隐藏及提取方法。

背景技术

HTML(Hyper Text Markup Language，超文本标记语言)是随着因特网技术而发展起来的，是一种信息组织与管理技术，用于制作网页或作为电子邮件等在网上传递信息的一种超文本标记语言。由于HTML可实现相关文字和数据的链接及文件与文件之间的超级链接。与文本相比，超文本具有更丰富的多媒体内容和效果；与其它字处理文件相比，信息量又相对较小，这一点对于网上传递多媒体信息是十分重要的。由于这些突出的特点，使得这种格式文件在因特网的网站以及E-mail上广泛使用，而相应的信息安全问题也同时出现。因此，HTML信息隐藏技术的研究也就应运而生。

HTML页面是由一系列标签组合而成的，可以用来表示层次结构。每个标签可以有属性，也可以有子标签、文本或者两者都有。超文本文件不同于一般的纯文本文件，它是由标签和数据两部分组成。标签是用于控制数据显示格式和效果的，由浏览器解析执行的命令，相当于程序的指令；数据即是文件中包含的能够在浏览器上显示出来的文字、图片和动画等多媒体资料。标签用“<”和“>”括起来，有单标签和双标签两种类型。单标签只需单独使用，格式是：<标签名称>，如<BR>标签表示换行的意思；双标签必须是起始标签和结束标签成对出现，格式是：<标签>内容</标签)，如<HTML>—</HTML)标签。大部分标签还可以具有属性和属性值，带属性的标签的格式是：<标签名称属性名称＝“属性值”>。

HTML标记元素分为以上几种类型：

(1)结构性标记，用来描述文字的意图。比较常用的结构性标记有html元素(标记HTML内容的开始和结束)、head元素(标记HTML文件头)、title(标记HTML文件的标题)、body元素(标记HTML文件正文的开始和结束)。一个基本的HTML文档至少包括<html>，<head>和 <body>三个标签。

(2)呈现性标记，用来描述文字的外观。如<b>bold</b>表示给文字加粗，<i>italic</i> 表示设置文字为斜体。

(3)超文本标记，用来将文档的一部分关联到其他文档。如<a href＝“aa.html”></a>等超链接标记。

(4)框架页面标记，用来描述如何显示框架网页，较低版本的浏览器并不支持该功能。如 <frameset></frameset>等框架标记。每个HTML文档都是以标签<html>开始，由标签</html> 结束。每个HTML文档由文档头(head)和正文(body)两个部分组成，并分别用<head>和</head> 以及<body>和</body>来做标记。文档头标签<head>和</head>之间可包含文档的名称 (title)，用<title>和</title>标记。正文标签<body>与<body>之间含有用各种HTML标签做标记的段落、列表以及其他元素组成的实际文档。

网页信息隐藏技术是将信息隐藏到网页文件中，隐藏的信息与网页原始文件数据紧密结合，同时要求隐藏的信息不破坏原始文件的结构及质量，不使文件所表征内容的视觉特性产生异常。现有的基于HTML标签的网页信息隐藏方法主要分为以下三种：

(1)基于不可见字符的方法：早在2001年，就有研究人员提出通过在每行行末加入不可见字符如空格键和Tab键，可以将信息隐藏在网页中而又不影响网页在浏览器中的显示效果，如已经商品化的网页信息隐藏软件Invisible Secret，Wbstego，FFEncode等都是利用这种方法来隐藏信息的。

(2)基于标记中字母大小写变化的方法：使用主成分分析方法提取出网页的摘要信息，然后利用网页中标签的大小写无关字符插入隐藏信息的方法。

(3)基于属性对顺序的方法：一种基于等价标记的网页信息隐藏算法。该方法将待隐藏的秘密信息转变为一个大整数，按照嵌入规则，采用等价标记置换原标记的方法将大整数隐藏在网页中。该算法没有增加网页文件的长度，具有较高的隐蔽性和安全性。

对以上三种信息隐藏方法的优缺点进行比较分析，如表1所示。

表1 三种信息隐藏方法的优缺点分析

从表1中可以看出，不可见字符方法和标记大小写方法隐藏算法主要存在的缺陷：增加文件长度、易检测、易攻击等缺陷。而基于属性对顺序方法虽然抗检测性较好，但隐藏容量较小，而且信息提取时需原始数据库支持。如果能克服隐藏容量较小和需要数据库支持的缺点，基于属性对顺序的隐藏算法无疑是三种方法中最好的。本文提出了一种基于标签属性序列的方法，该方法能较好解决隐藏容量较小的问题，而且不需要数据库支持，大大提高了算法的执行效率。

发明内容

本发明的目的是克服现有技术中的不足，提供一种能较好解决隐藏容量较小的问题，而且不需要数据库支持，大大提高了算法的执行效率的基于HTML标签属性序列的信息隐藏及提取方法。

这种基于HTML标签属性序列的信息隐藏方法，包括如下步骤：

步骤一、确定要隐藏的信息，转化为二进制的Unicode；

步骤二、确定“0”和“1”对应的标签属性对表示方法。“0”由不同标签的二个属性来表示，“1”由同一标签的二个属性来表示；

步骤三、确定序列码K；Unicode由8位二进制数组成，选取9个1(多一位)，然后中间随机插入若干个0，组成本次信息隐藏的序列码K；

步骤四、参照序列码K确定9个标签属性按顺序放在“1”的位置上，补充其余标签属性按顺序放在“0”位置上，合成HTML文件的标签属性序列；

步骤五、根据合成HTML文件的标签属性序列编写HTML代码。

一种基于HTML标签属性序列的信息提取方法，包括如下步骤：

步骤一、从隐藏信息的HTML代码中按顺序提取所有标签属性；

步骤二、序列码K和标签属性序列按位匹配；

步骤三、删除“0”位置所在的标签属性，确定保留的标签属性序列；

步骤四、根据标签属性序列确定隐藏的二进制序列；不同标签的二个属性来表示“0”，同一标签的二个属性来表示“1”；

步骤五、二进制序列转化为Unicode对应的字符，从而提取出隐藏的信息。

本发明的有益效果是：基于网页标签的信息隐藏方法是目前基于HTML信息隐藏中用的比较多的方法。其中基于不可见字符的方法，可以通过连续插入任意多个符号使得隐藏的容量可以任意，该方法除了会增加网页的大小之外，如果以二进制形式打开网页代码，当看见许多连续的空格时，会非常容易发现此处隐藏了信息。基于标记中字母大小写变化的方法，如果改变字母的大小写太有规律，或者太杂乱无章，也比较容易被攻击者发现隐藏了信息。而常用的基于标签属性对顺序的方法，虽然实现简单，隐蔽性好，不增加文件大小。但是需要数据库记录原始属性对顺序，如果隐藏信息量多的话，数据库文件大小也会随之增长，会降低网页执行效率。基于HTML标签属性序列的信息隐藏方法不需要数据库的支持，隐藏信息量大的话也没有后顾之忧，大大提高了网页执行效率。

附图说明

图1是本发明信息隐藏算法流程图；

图2是本发明信息提取算法流程图；

图3是具体实施方式中提取算法步骤4示意图；

具体实施方式

下面结合附图和实施例对本发明做进一步描述。虽然本发明将结合较佳实施例进行描述，但应知道，并不表示本发明限制在所述实施例中。相反，本发明将涵盖可包含在有附后权利要求书限定的本发明的范围内的替换物、改进型和等同物。

本方法充分利用HTML标签属性顺序在HTML文件里隐藏信息，HTML常用标签属性顺序如表2所示。

表2 HTML常用标签属性表

以下通过一个例子说明该信息隐藏方法，由信息隐藏算法和信息提取算法二部分组成。

1.信息隐藏算法举例

(1)确定要隐藏的信息。比如，要隐藏的信息是大写字母“W”，转化为二进制的Unicode 为01010111。

(2)确定“0”和“1”对应的标签属性对表示方法。在例子1中，第1个“0”由<html> 标签中的属性“lang”和<body>标签中的属性“bgcolor”表示，第1个“1”由<body>标签中的二个属性bgcolor和background表示，大写字母“W”的Unicode 01010111可以按顺序表示为<html>lang、<body>bgcolor、<body>background、<article>dir、<article>title、 <h1>class、<h1>align、<h1>style和<h1>id。

(3)确定序列码K。Unicode由8位二进制数组成，选取9个1(多一位)，然后中间随机插入若干个0，组成本次序列码K，例子1中确定序列码K为100110111111。

(4)按照第3步的序列码K把9个标签属性在“1”位置上按顺序排列：<html>lang、0、 0、<body>bgcolor、<body>background、0、<article>dir、<article>title、<h1>class、 <h1>align、<h1>style、<h1>id。在3个“0”位置上补充3个标签属性：<meta>http-equiv、 <meta>content和<body>text。合成后的12个标签属性序列为：<html>lang、 <meta>http-equiv、<meta>content、<body>bgcolor、<body>background、<body>text、 <article>dir、<article>title、<h1>class、<h1>align、<h1>style、<h1>id

(5)根据第4步的12个标签属性序列编写HTML代码，如例子1所示。

例子1：

2.信息提取算法举例

(1)从隐藏信息的HTML代码中按顺序提取所有标签属性。例子1中的所有标签属性序列为：<html>lang、<meta>http-equiv、<meta>content、<body>bgcolor、<body>background、 <body>text、<article>dir、<article>title、<h1>class、<h1>align、<h1>style、<h1>id

(2)序列码K和标签属性序列按位匹配。例子1中，序列码K和标签属性序列按位匹配如下：

lang http-equiv content bgcolor background text dir title class align style id 1 0 0 1 1 0 1 1 1 1 1 1

(3)删除“0”位置所在的标签属性，确定保留的标签属性序列。例子1中，保留的标签属性序列为：lang bgcolor background dir title class align style id

(4)根据标签属性序列确定隐藏的二进制序列。不同标签的二个属性来表示“0”，同一标签的二个属性来表示“1”，例子1中保留的标签属性序列如图3所示。

(5)例子1中的二进制序列01010111对应Unicode的字符为大写字母“W”，也就是说，该HTML文件隐藏的信息为大写字母“W”。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于HTML标签属性序列的信息隐藏及提取方法 [P] . 中国专利： CN104915409B . 2018.02.06
2. 基于HTML标签属性序列的信息隐藏及提取方法 [P] . 中国专利： CN104915409A . 2015-09-16
3. GEOMETRIC INFORMATION HIDING METHOD AND GEOMETRIC INFORMATION EXTRACTING METHOD FOR COPYRIGHT PROTECTION OF NG I ASC II FORMAT BASED DIGITAL MAP, AND RECORDING MEDIUMS STORING HIDING AND EXTRACTING PROGRAMS OF GEOMETRIC INFORMATION [P] . 韩国专利： KR20100111063A . 2010-10-14

机译：基于NG I ASC II格式的数字地图的版权保护的几何信息隐藏方法和几何信息提取方法，以及记录存储，隐藏和提取几何信息程序的介质
4. METHOD FOR EXTRACTING SPEECH PROCESSING SEGMENTS BASED ON SEQUENTIAL STATISTICAL ANALYSIS [P] . 俄罗斯专利： RU2684576C1 . 2019-04-09

机译：基于序列统计分析的语音处理段提取方法
5. Time Series Data Learning System and Method for Semantic-based Metadata Extraction [P] . 韩国专利： KR20180061813A . 2018-06-08

机译：时间序列数据学习系统和基于语义的元数据提取方法