首页> 中文学位 >基于深度神经网络的跨模态检索技术研究
【6h】

基于深度神经网络的跨模态检索技术研究

代理获取

目录

声明

1 概述

1.1 研究背景

1.2 国内外研究现状

1.3 本文主要工作

1.4 本文的章节安排

2 相关算法与理论基础

2.1 深度学习与神经网络

2.2 递归循环神经网络

2.3 跨模态问答

2.4 检测与识别

2.5 度量学习

3 基于文本与图像的视觉问答

3.1 问题提出

3.2 跨模态视觉问答网络

3.3 空间离散余弦哈希(Spatial-DCTHash)卷积层

3.4 实验结果与分析

4 基于包含文字图像的跨模态检索

4.1 问题提出

4.2 数据集采集

4.3 跨模态招牌检索算法

4.4 实验与结果分析

结论

参考文献

附录

附录1 数据集中杭州80条街道行政区

附录2 数据集图片部分示例(已裁剪)

附录3 中文招牌店铺GPS坐标分布

致谢

在读期间公开发表论文(著)及科研情况

展开▼

摘要

近年来,随着深度学习的应用和多模态的深入研究,与此对应的问答系统也从传统的文本问答扩展到结合图片的视觉问答,成为计算机视觉与自然语言理解的交叉研究热点之一。现有视觉问答处理方法的基本思想是通过融合提取后的图像和文本特征来实现对答案的预测。但是此类方法一般会忽视了图像的空间分布信息,未能够合理的利用图像的空间分布信息与文本之间的关系。本文通过对视觉问答中的图像和文字信息开展多模态的研究,提出了一种新的空间离散余弦哈希动态参数网络方法,所提方法可同时结合问题特征和图像特征实现视觉答案的预测。进一步,针对招牌检索这一实际应用问题,本文在前期视觉问答跨模态研究的基础上,结合目前计算机视觉学术界广泛使用的深度学习方法提出一种能处理多角度、多模态信息的招牌检索算法。
  本文对跨模态问答和检索问题研究的主要工作如下:
  1、提出了在不增加网络参数的情况下采用全卷积的方式来完成对图像的空间分布信息的提取。同时采用空间离散余弦哈希动态参数网络来动态结合问题特征和图像特征,从而使得答案的预测能够充分考虑图像的局部空间信息。
  2、本文整理了多角度的、多信息的招牌数据集(总计店铺约2400家,图片约23000张),数据集中每间店铺包含多张图片,且含有该店铺的GPS信息以及店铺名称街道名称等特征。
  3、采用多模态信息对招牌进行识别,本文提出CMR-Net模型有效地结合了招牌的图像特征和文本特征,从而能够完成处于不同环境下招牌检索任务,并且在本文的招牌数据集上已经能达到商用精度。
  最后本文在视觉问答公开数据集上(MSCOCO-VQA,COCOqa)进行实验,实验表明本文的方法较以往的方法有性能上的提升,能够达到更高的准确率。同时本文还在自己的招牌数据集上对本文的招牌检索算法和一些常见的图像检索算法进行性能对比,实验表明本文的跨模态招牌检索模型具有比较好的检索效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号