首页> 中文期刊> 《智能计算机与应用》 >融合多标签和双注意力机制的图像语义理解模型

融合多标签和双注意力机制的图像语义理解模型

     

摘要

针对现有图像语义理解模型存在描述不充分以及视觉属性冗余的问题,提出了一种带有视觉三元组标签且能够挖掘潜在信息的图像语义理解模型VT-BLSTM。首先,使用卷积神经网络提取图像的全局特征和视觉三元组标签;其次,构建双向长短期神经网络,并利用改进的双注意力模型分别获得动态视觉特征和动态文本特征,融合该两者特征得到视觉语义上下文;最后,融合视觉语义上下文、视觉三元组和神经网络隐含层特征,比较前向和后向长短期神经网络的输出结果,得到对应时刻的单词。在Flickr8K和Flickr30K数据集上的实验结果表明,本文提出的双注意力模型VT-BLSTM能够自主地选择文本特征和视觉特征参与生成单词的比例,并且结合历史时刻和未来时刻获得更丰富的视觉信息,在少量视觉属性的前提下也能生成质量较高的句子,并在多个统计指标上超过同类其他方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号