基于Spatial-DCTHash动态参数网络的视觉问答算法

摘要

近年来,随着深度学习的应用和多模态的深入研究,问答系统从传统的文本问答扩展到结合图片的视觉问答,成为计算机视觉与自然语言理解的交叉研究热点之一.Hyeonwoo Noh等人在CVPR2016中提出一种简单、有效的动态参数预测模型(Dynamic Parameter Prediction Network,DPPnet),但是此模型仅在空域滤波器上进行Hash,得到权重位置是随机的,没有考虑利用图像的空间信息.对于如何利用图像的空间信息以提高模型性能,本文采用类似Fully Convolutional Network的方式改造传统的VGGnet卷积神经网络,提取具有空间信息的图像特征,在此基础上,提出一种新的空间离散余弦哈希动态参数网络来结合问题特征和图像特征预测视觉答案.本文在COCOqa和MSCOCO-VQA数据集上与已有的方法进行了对比实验,实验结果表明本文的算法在性能上有较大提高.

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号