声明
摘要
1.1 研究背景
1.2 研究现状
1.2.1 主题爬虫研究现状
1.2.2 图像检索研究现状
1.3 研究内容及组织结构
1.3.1 论文主要研究内容
1.3.2 论文结构安排
第2章 Web图像采集相关技术
2.1 网络爬虫
2.1.1 Heritrix
2.2 网页信息抽取相关技术
2.2.1 文档对象模型
2.2.2 Jsoup解析器
2.2.3 网页信息抽取方法介绍
2.4 基于内容的图像检索技术
2.4.1 基于颜色特征的图像检索
2.4.2 基于纹理的图像检索
2.4.3 相似度衡量技术
2.5 本章小结
第3章 基于网络爬虫的热门图像采集系统设计
3.1 热门图像采集系统设计概述
3.2 网页采集模块设计
3.3 网页信息解析处理模块
3.3.1 网页分类
3.3.2 基于Jsoup的相关信息获取
3.4.3 计算热门图像
3.4.3 采集信息数据库设计
3.4 图像检索设计
3.4.1 索引器
3.4.2 检索器
3.5 本章小结
第4章 系统实现与测试
4.1 系统实现开发环境
4.2 数据采集模块实现与测试
4.2.1 数据采集模块实现
4.2.2 数据采集模块运行展示与测试
4.3 网页信息分析处理模块实现与测试
4.3.1 网页信息抽取实现与测试
4.3.2 文档去重实现与结果展示
4.4 图像检索实现与测试
4.4.1 图像特征的提取实现
4.4.2 索引器的实现
4.4.3 检索器的实现
4.4.4 图像检索模块运行结果与测试
4.5 本章小结
5.1 总结
5.2 展望
参考文献
致谢