首页> 中文学位 >基于网络爬虫的数字隐写图像采集系统设计与实现
【6h】

基于网络爬虫的数字隐写图像采集系统设计与实现

代理获取

目录

声明

摘要

1.1 研究背景

1.2 研究现状

1.2.1 主题爬虫研究现状

1.2.2 图像检索研究现状

1.3 研究内容及组织结构

1.3.1 论文主要研究内容

1.3.2 论文结构安排

第2章 Web图像采集相关技术

2.1 网络爬虫

2.1.1 Heritrix

2.2 网页信息抽取相关技术

2.2.1 文档对象模型

2.2.2 Jsoup解析器

2.2.3 网页信息抽取方法介绍

2.4 基于内容的图像检索技术

2.4.1 基于颜色特征的图像检索

2.4.2 基于纹理的图像检索

2.4.3 相似度衡量技术

2.5 本章小结

第3章 基于网络爬虫的热门图像采集系统设计

3.1 热门图像采集系统设计概述

3.2 网页采集模块设计

3.3 网页信息解析处理模块

3.3.1 网页分类

3.3.2 基于Jsoup的相关信息获取

3.4.3 计算热门图像

3.4.3 采集信息数据库设计

3.4 图像检索设计

3.4.1 索引器

3.4.2 检索器

3.5 本章小结

第4章 系统实现与测试

4.1 系统实现开发环境

4.2 数据采集模块实现与测试

4.2.1 数据采集模块实现

4.2.2 数据采集模块运行展示与测试

4.3 网页信息分析处理模块实现与测试

4.3.1 网页信息抽取实现与测试

4.3.2 文档去重实现与结果展示

4.4 图像检索实现与测试

4.4.1 图像特征的提取实现

4.4.2 索引器的实现

4.4.3 检索器的实现

4.4.4 图像检索模块运行结果与测试

4.5 本章小结

5.1 总结

5.2 展望

参考文献

致谢

展开▼

摘要

作为一种新型的信息隐藏技术,无载体信息隐藏技术近年来逐渐成为信息隐藏领域的研究热点之一。基于图像的无载体信息隐藏的重要特点是不修改原图像的任何数据,而是构建图像和隐秘信息之间的映射关系,或者利用秘密消息构造图像实现信息隐藏。为了进一步降低受到攻击和分析的可能性,不引起第三方注意,无载体信息隐藏通常采用存在网络上的、热门图像作为载体。热门图像,一般依附于Internet文本信息而存在,比如热门新闻,热门微博等。然而数以亿计的图像分布在Internet的各个角落,因此如何有效地从Internet中采集到热门图像成为了无载体信息隐藏的一个重要的问题。
  目前,按照特定的策略持续进行资源发掘和收集的功能模块比较多,网络爬虫是公认最有效的工具之一。又由于基于图像的无载体信息隐藏的一个重要指标就是不引起非合作方的怀疑。在通过传递图像的组合来表示秘密消息时,若所选图像在内容等方面存在逻辑的不合理性时,无载体信息隐藏极容易引起非合作方的怀疑,对所传递的图像进行攻击。所以在构建图像组合时必须是逻辑、内容合理的图像进行组合,即在无载体信息隐藏时,应该将内容相关的一组图像作为备选图像,这样就会涉及到图像相似度的计算和图像的检索。因此,本文综合运用主题网络爬虫、网页信息抽取、文档去重、检索等技术,设计并实现一个热门图像的采集系统,为无载体信息隐藏构建完备的图像集合。
  本文实现的热门图像采集系统包括网页数据采集模块、网页信息抽取与分析模块、图像检索模块等。其中,网页数据采集模块是对Heritrix爬虫进行扩展,负责采集目标网站的网页;网页信息抽取分析模块主要是利用抽取规则和Jsoup解析器,将所需信息从网页中抽取出来,并对网页进行去重,计算出热门新闻;图像检索模块是通过Lucene索引工具,将颜色特征和纹理特征建立索引,达到图像相似度检索的功能。论文重点分析了上述各模块的实现机理,并利用相应的开发工具实现了各个模块,从实测结果看,论文所构建的热门图像采集系统能自动收集热门图像,并根据图像的基本特征,为所收集的图像建立索引,满足了实际项目的需求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号