首页> 中文学位 >Hadoop平台下基于BoVW模型的图像检索研究与实现
【6h】

Hadoop平台下基于BoVW模型的图像检索研究与实现

代理获取

目录

声明

第1章 绪论

1.1 课题来源

1.2 研究背景和意义

1.3 国内外研究现状

1.4 视觉词袋模型的研究分析

1.5 论文组织结构

第2章 基于Hadoop的SIFT特征提取

2.1 Hadoop平台

2.2 Hadoop处理图像数据

2.3 SIFT特征提取

2.4 本章小结

第3章 基于Hadoop的视觉词典构建

3.1 传统的视觉词典构建

3.2 改进的并行视觉词典构建

3.3 实验结果与分析

3.4 本章小结

第4章 基于Hadoop的图像表示及检索

4.1 图像表示

4.2 TF-IDF加权

4.3 基于倒排索引的并行图像检索

4.4本章小结

第5章 性能测试与分析

5.1 检索框架

5.2 集群配置与实验数据

5.3 SIFT特征提取

5.4 视觉词典构建

5.5 图像在线查询

5.6 本章小结

第6章 总结与展望

6.1 工作总结

6.2 工作展望

致谢

参考文献

攻读学位期间发表的学术成果及参与的科研项目

展开▼

摘要

如今计算机技术的蓬勃发展,使得图像数量不断增大,图像语义信息也变得更加丰富,导致图像检索的效率问题日益突出。本文在大数据时代的背景下,针对传统基于单节点架构的图像检索方法效率低下的问题,基于BoVW模型具有原理简单且性能良好的特点,利用Hadoop平台具有优秀的大规模数据处理能力、良好的可扩展性和可靠性,实现分布式的图像检索。本文的主要研究工作如下: (1)针对Hadoop不适合处理大量图像小文件的问题,本文采用将大量图像小文件合并成SequenceFile文件的方法,提高Hadoop处理图像的性能。由于大规模图像的局部特征提取计算复杂、耗时长,实现了SIFT特征提取的并行化。 (2)视觉词典的构建是BoVW模型的关键,针对传统的视觉词典构建方法效率低下的问题,本文从三个方面进行了改进。首先,利用局部敏感哈希函数在大数据挖掘中具有良好的保持高维数据相似性的特点,将其应用于海量高维特征向量的划分,通过从分区中选取样本点从而降低数据规模;然后,为了提高初始中心点的质量,采用并行化的最大最小距离算法优化初始中心点的选取;最后,在迭代时利用Combine函数对中间结果进行本地合并,减少Map节点和Reduce节点之间的传输量和计算量。实验结果表明,与传统的视觉词典构建方法相比,本文改进的并行视觉词典构建方法能够取得与之相当的检索效果,但是在构建效率方面能够提高一倍。 (3)由于特征量化过程中每个视觉单词对图像的重要程度不同,本文实现了基于Hadoop的TF-IDF算法并行化。通过对图像的词频向量表示进行加权,提高了BoVW模型的描述能力。实验结果表明,与无权BoVW相比,加权BoVW能够提高图像检索的准确率。 (4)针对海量高维稀疏向量之间相似度计算复杂的问题,本文设计了一种基于倒排索引的并行图像检索方法。根据生成的倒排索引文件并行计算两张图像之间共同包含的视觉单词的权重之和,得到图像之间的相似度。该方法不仅通过倒排索引技术降低了候选图像集的数量,而且通过并行化搜索,大幅度提高了图像检索的效率。如果集群节点数继续增加,图像检索的效率将达到更高。

著录项

  • 作者

    朱邦培;

  • 作者单位

    武汉理工大学;

  • 授予单位 武汉理工大学;
  • 学科 信息与通信工程
  • 授予学位 硕士
  • 导师姓名 杨杰;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    平台; 模型; 图像;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号