基于深度神经网络的跨模态检索技术研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

近年来，随着深度学习的应用和多模态的深入研究，与此对应的问答系统也从传统的文本问答扩展到结合图片的视觉问答，成为计算机视觉与自然语言理解的交叉研究热点之一。现有视觉问答处理方法的基本思想是通过融合提取后的图像和文本特征来实现对答案的预测。但是此类方法一般会忽视了图像的空间分布信息，未能够合理的利用图像的空间分布信息与文本之间的关系。本文通过对视觉问答中的图像和文字信息开展多模态的研究，提出了一种新的空间离散余弦哈希动态参数网络方法，所提方法可同时结合问题特征和图像特征实现视觉答案的预测。进一步，针对招牌检索这一实际应用问题，本文在前期视觉问答跨模态研究的基础上，结合目前计算机视觉学术界广泛使用的深度学习方法提出一种能处理多角度、多模态信息的招牌检索算法。
　　本文对跨模态问答和检索问题研究的主要工作如下：
　　1、提出了在不增加网络参数的情况下采用全卷积的方式来完成对图像的空间分布信息的提取。同时采用空间离散余弦哈希动态参数网络来动态结合问题特征和图像特征，从而使得答案的预测能够充分考虑图像的局部空间信息。
　　2、本文整理了多角度的、多信息的招牌数据集（总计店铺约2400家，图片约23000张），数据集中每间店铺包含多张图片，且含有该店铺的GPS信息以及店铺名称街道名称等特征。
　　3、采用多模态信息对招牌进行识别，本文提出CMR-Net模型有效地结合了招牌的图像特征和文本特征，从而能够完成处于不同环境下招牌检索任务，并且在本文的招牌数据集上已经能达到商用精度。
　　最后本文在视觉问答公开数据集上（MSCOCO-VQA，COCOqa）进行实验，实验表明本文的方法较以往的方法有性能上的提升，能够达到更高的准确率。同时本文还在自己的招牌数据集上对本文的招牌检索算法和一些常见的图像检索算法进行性能对比，实验表明本文的跨模态招牌检索模型具有比较好的检索效果。

著录项

作者
孟祥申;
展开▼
作者单位

江西师范大学;

展开▼
授予单位江西师范大学;
学科计算机科学与技术
授予学位硕士
导师姓名王明文,曾锦山;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
深度神经网络; 跨模态检索; 计算机视觉; 图像特征; 文本特征;

相似文献

中文文献
外文文献
专利

1. 基于深度神经网络的多模态信息检索 [J] . 李光宇 . 计算机应用与软件 . 2022,第1期
2. 基于文本引导对抗哈希的跨模态检索方法 [J] . 朱杰 . 计算机应用研究 . 2022,第2期
3. 基于对抗投影学习的跨模态哈希检索 [J] . 曾超 ,白琮 ,马青 . 计算机辅助设计与图形学学报 . 2021,第006期
4. 基于跨模态语义增强的图像检索方法 [J] . 王琪 ,王睿 ,王力 . 南阳理工学院学报 . 2021,第002期
5. 基于网络搜索引擎的跨模态信息检索在翻译实践中的应用 [J] . 李家元 ,匡存玖 . 九江职业技术学院学报 . 2021,第001期
6. 基于深度神经网络的诗词检索 [C] . 梁健楠 ,孙茂松 ,矣晓沅 . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于哈希学习的跨模态检索技术研究 [A] . 李逸凡 . 2018

基于深度神经网络的跨模态检索技术研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅