首页> 中国专利> 基于样本自适应语义引导的自注意力机制的图像描述方法

基于样本自适应语义引导的自注意力机制的图像描述方法

页面导航

摘要
著录项
说明书
相似文献

摘要

基于样本自适应语义引导的自注意力机制的图像描述方法，属于人工智能技术领域。针对传统采用自注意力机制的方法对于每个样本参数固定的缺点，包括以下步骤：1)采用目标检测器提取待描述图像的若干个候选区对应的特征；2)采用语义概念检测器针对待描述图像提取若干个语义概念；3)将步骤1)和2)提取的特征分别通过不同的自注意力网络进行特征强化；4)利用步骤3)强化过后的语义概念特征和一个参数生成网络，生成一个的自注意网络的参数；5)将步骤3)强化过的视觉特征输入到生成的自注意力网络中，通过语义生成的自注意力网络来实现更好的视觉表达；6)将步骤5)输出的视觉特征输入到解码器中，生成图像的描述语句，并定义损失函数。

著录项

公开/公告号CN113837233A

专利类型发明专利
公开/公告日2021-12-24

原文格式PDF
申请/专利权人厦门大学;
展开▼

申请/专利号CN202111005897.3
发明设计人纪荣嵘;纪家沂;李毅男;
展开▼

申请日2021-08-30
分类号G06K9/62(20060101);G06F40/284(20200101);G06F40/30(20200101);G06N3/04(20060101);G06N3/08(20060101);
代理机构35200 厦门南强之路专利事务所(普通合伙);
代理人马应森;曾权
地址 361005 福建省厦门市思明区思明南路422号
入库时间 2023-06-19 13:49:36

说明书

技术领域

本发明涉及人工智能领域中的图像自动描述，特别是涉及用自然语言对图像客观内容进行描述的一种基于样本自适应语义引导的自注意力机制的图像描述方法。

背景技术

图像自动描述(Image Captioning)是近年来人工智能界提出的一个机器终极智能任务，它的任务是将于一张给定图像，用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展，完成目标检测、识别、分割等任务已经不能满足人们的生产需求，对如何自动客观的对图像内容自动描述有迫切的需求。与目标检测及语义分割等任务不同，图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述，该任务是计算机视觉理解的重要方向之一，被视为人工智能的一个重要标志。

较早的图像自动描述方法主要采用基于模板的方法和基于检索的方法实现。近年来受自然语言处理发展的影响，开始使用基于编码器-解码器框架的方法，通常采用预训练卷积神经网络(CNN)的变体作为图像编码器，同时使用递归神经网络(RNN)作为解码器。并引入注意力机制以及以强化学习为基础的目标函数，使得该任务取得极大的进展。

Xu等人[1]首次在图像描述任务中引入注意力机制，以在每个生成步骤中专注于最相关的区域。Lu等人[2]开发自适应注意来确定在每个解码步骤中是依赖视觉特征还是语言模型状态。Rennie等人[3]将强化学习技术引入到图像描述任务中，极大的提升图像描述方法的性能。最近，Anderson等人[4]还提出自下而上的注意力技术，以基于图像的区域特征来找到最相关的显着区域。Huang等人[5]则首次引入自然语言处理中的transformer模型到图像描述任务中，Pan等人[6]和Cornia[7]等人都使用Transformer模型来代替递归神经网络并取得最好的性能。此外，Liu等人[8][9]和Li等人[10]使用Transformer来集成视觉信息和外部标记器提供的语义概念来完成图像描述任务。然而，在这些针对图像描述任务的模型中，测试阶段的模型参数是固定的，这限制模型的泛化能力。

参考文献：

[1].Xu,K.；Ba,J.；Kiros,R.；Cho,K.；Courville,A.；Salakhudinov,R.；Zemel,R.；and Bengio, Y.2015.Show,attend and tell:Neural image caption generationwith visual attention.In ICML.

[2].Lu,J.；Xiong,C.；Parikh,D.；and Socher,R.2017.Knowing when to look:Adaptive attention via a visual sentinel for image captioning.In CVPR.

[3].Steven J Rennie,Etienne Marcheret,Youssef Mroueh,JerretRoss,andVaibhava Goel. 2017.Self-critical sequence training forimage captioning.InCVPR.

[4].Anderson,P.；He,X.；Buehler,C.；Teney,D.；Johnson,M.；Gould,S.；andZhang,L.2018. Bottom-up and top-down attention for image captioning andvisual question answering.In CVPR.

[5].Huang,L.；Wang,W.；Chen,J.；andWei,X.-Y.2019.Attention on Attentionfor Image Captioning.In ICCV.

[6].Yingwei Pan,Ting Yao,Yehao Li,and Tao Mei.2020.X-linear attentionnetworks for image captioning.In CVPR.

[7].Cornia,M.；Stefanini,M.；Baraldi,L.；and Cucchiara,R.2020.Meshed-Memory Transformer for Image Captioning.In CVPR.

[8].Fenglin Liu,Yuanxin Liu,Xuancheng Ren,Xiaodong He,and XuSun.2019.Aligning visual regions and textual concepts forsemantic-groundedimage representations.In NeurIPS.

[9].Fenglin Liu,Xian Wu,Shen Ge,Xiaoyu Zhang,Wei Fan,and YuexianZou.2020. Bridging the gap between vision and language domains for improvedimage captioning.In ACM MM.

[10].Guang Li,Linchao Zhu,Ping Liu,and Yi Yang.2019.Entangledtransformerfor image captioning.In ICCV.

发明内容

本发明的目的在于针对传统基于transformer的图像描述方法在测试阶段参数固定泛化性下降的问题，以及当前使用语义信息的模型中语义噪声过大等问题，提供一种基于样本自适应语义引导的自注意力机制的图像描述方法。本发明通过一个参数生成网络，利用每一个输入样本的语义概念信息生成不同的自注意网络的参数，通过这个生成的自注意网络来用语义引导视觉特征的互相关注，加强视觉特征的语义信息，从而提高生成描述的准确性。

本发明包括以下步骤：

1)采用目标检测器随机提取待描述图像的若干个候选区和各个候选区对应的特征A＝{a

2)采用语义概念检测器随机提取待描述图像的若干个语义概念C＝{c

3)将步骤1)和2)提取的特征分别通过不同的自注意力网络进行特征强化；

4)利用步骤3)强化过后的语义概念特征和一个参数生成自注意力网络，生成自注意力网络的参数；

5)将步骤3)强化过的视觉特征输入到步骤4)生成的自注意力网络中，提取语义引导的视觉特征；

6)将步骤5)输出的视觉特征输入到解码器中，生成图像的描述语句，并定义损失函数。

在步骤1)中，所述目标检测器的训练方法是：目标检测器采用Faster-RCNN框架，其骨架网络是深度卷积残差网络，首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练，然后在多模态数据集Visual Genome上进一步训练微调网络参数。

在步骤2)中，所述语义概念检测器的训练方法是：语义概念检测器采用框架，其骨架网络是VGG16网络，首先在ImageNet数据上对骨架网络预训练，然后再使用noise-OR版本的弱监督训练方法，在MSCOCO数据集上进行微调网络参数。

在步骤3)中，所述将步骤1和步骤2提取的特征分别通过不同的自注意力网络进行特征强化的具体过程为：将视觉特征A或者语义概念特征C输入到不同的自注意网络中进行特征强化，所使用的到的自注意网络为：

针对给定的索引Q，键K，以及值V，

MultiHead(Q,K,V)＝Concat(H

其中，Q是一个具有n

在步骤4)中，所述将强化后的语义概念特征和一个参数生成网络，生成一个的自注意网络的参数。所述参数生成网络为：

针对给定的语义强化特征

其中，z为语义概念特征的平均值，

在步骤5)中，所述将步骤3强化过的视觉特征输入到步骤4生成的自注意力网络中，提取语义引导的视觉特征，即：

V＝XW

其中，X为步骤3强化的视觉特征，PE是位置信息编码，W

在步骤6)中，将步骤5输出的视觉特征输入到解码器中，生成图像的描述语句，定义生成语句的损失函数，具体流程为：

首先假设t为句子序列的第t个词，w

与编码器相同，解码器也是由L层相同的结构组成，定义第l+1的输入为

其中，W

其中，T为句子长度；通过监督学习和强化学习两个阶段对模型进行训练；在监督学习阶段，采用交叉熵，对于给定的目标句子

在强化学习阶段，采用强化学习进行训练，其损失函数的梯度定义为：

其中，

本发明的优点如下：

通过本发明所提出的方案能够获得一个动态的，样本自适应的语义引导的图像描述方法。本发明在充满噪声的语义概念中，使用一种间接的语义引导方法，通过使用不同样本的不同语义概念来构造样本自适应的自注意网络参数，让每个样本对应的视觉特征接受对应的语义信息的引导来进行自注意，减少直接将语义概念加入到视觉自关注中造成的噪声引入而产生的精度损失。同时，本发明具有很强的迁移性，能够适用于任何一个基于Transformer 结构的图像描述模型，并可以泛化到视觉问答和视觉定位任务，取得最好的性能。

附图说明

图1是本发明基于样本自适应语义引导的自注意力机制的图像描述方法的流程图；

图2是参数生成网络的流程图；其中ReLU和Sigmoid是两种经典的激活函数的名称；

图3是传统自注意网络和本发明的样本自适应语义引导的自注意网络的对比图；

图4是不同的图像描述模型生成的句子对比图；其中Transformer是一种经典的基线方法，MIA是直接将语义概念引入自注意网络的方法，每张图的右下角为不同图的不同语义概念生成的参数矩阵的热力图；

图5是基线模型和本发明模型在生成某个单词时关注区域的可视化的对比图。

具体实施方式

以下实施例将结合附图，对本发明进行详细说明。

本发明实施例包括以下步骤：

1)对于图像库中的图像，首先使用卷积神经网络抽取相应的图像特征A；

2)对于图像库中的图像，使用语义概念提取器提取语义概念C；

3)将图像特征A和语言概念C分别送入不同的自注意网络，将特征进一步编码，得到对应的隐藏特征

4)将前述的语义概念隐藏特征

5)将前述的图像隐藏特征

6)将前述的图像隐藏特征O输入到解码器中，生成图像的描述语句，定义损失函数。

本发明上述整体流程的流程图如图1所示，方法涉及的具体模块详述如下：

1、深度卷积特征抽取与描述数据预处理

对所有训练数据中的文本内容进行去停用词处理，并将所有英文词汇进行小写化；然后对文本内容按空格进行分词，得到10201个单词，对数据集描述中出现次数小于五的单词进行剔除，使用“”进行替代，同时加入开始符“”和结束符“”分别在描述句子的开头和结尾。

先使用预训练好的目标检测器提取36个固定的候选区或将图像分成7×7的特征区域，并使用残差深度卷积网络提出各个候选区相对应的特征

再使用预训练好的语义概念检测器提取49个固定的语义概念，提取出的语义概念包括动词，名词和形容词。这些词中剔除掉'a','on','of','the','in','with','and','is', 'to','an','two','at','next','are'这些没有具体实际意义的语义概念，且提取出的语义概念只会是在数据集中出现次数前1000的词。

2、特征强化自注意网络

使用特征强化自注意网络，对输入的图像特征和语义概念特征进行强化编码。针对给定的索引Q，键K，以及值V，

MultiHead(Q,K,V)＝Concat(H

其中，Q是一个具有n

3、参数生成网络

针对得到的语义强化特征

其中，z为语义概念特征的平均值，

4、使用生成参数的语义引导的自注意网络

使用生成的自注意力网络，提取语义引导的视觉特征，即：

V＝XW

其中，X为步骤3强化的视觉特征，PE是位置信息编码，W

5、描述语句的生成和损失函数

首先假设t为句子序列的第t个词，w

与编码器相同，解码器也是由L层相同的结构组成，定义第l+1的输入为

其中,W

其中，T为句子长度；通过监督学习和强化学习两个阶段对模型进行训练；在监督学习阶段，采用交叉熵，对于给定的目标句子

在强化学习阶段，采用强化学习进行训练，其损失函数的梯度定义为：

其中，

为验证本发明提出的方法的可行性和先进性，在通用的评估图像描述方法的数据集 MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示，可以看到在多种评估指标上以及不同的图像特征上，本发明所提出的方法在所有的指标上都具有很高的优势。此外，如图4所示，通过可视化输入图像所生成的文本描述(示例给出的描述为英文，中文描述自动生成过程同理)，可以看到由于本发明的方法采用语义概念引导，和没有使用语义概念的方法(Transformer)相比，其在图像描述上取得很明显的增强；和直接使用语义概念的方法(MIA)对比，本发明并不直接将语义概念加入到自注意的输入，而是构造自注意的网络参数，实现间接的语义概念引入，且由于使用的语义概念存在非常多的噪声，直接使用语义概念的方法生成的描述语句会引入噪声，而本发明的方法解决这一问题。图5为基线方法(Transformer)和本发明方法对解码器关注区域的可视化的两种方法的对比，该结果表明本发明方法在语义概念的指导下，可以更准确的定位到要描述的区域。

表1本发明方法与当前最先进方法的比较

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于样本自适应语义引导的自注意力机制的图像描述方法 [P] . 中国专利： CN113837233A . 2021-12-24
2. 一种基于语义信息引导的视频内容描述方法 [P] . 中国专利： CN107038221A . 2017-08-11
3. METHOD FOR CONTEXT BASED SAMPLE ADAPTIVE OFFSET FILTER DIRECTION ESTIMATION AND ADAPTIVE SELECTION IN A VIDEO AND A DEVICE THEREOF FOR SUPPLYING IMPROVED IMAGE QUALITY BY IMPROVING CODING EFFICIENCY [P] . 韩国专利： KR20130070195A . 2013-06-27

机译：视频中基于上下文的样本自适应偏移滤波器方向估计和自适应选择的方法及其通过提高编码效率来提高图像质量的装置
4. AN IMAGE TRANING APPARATUS EXTRACTING HARD NEGATIVE SAMPLES BEING USED TO TRAINING A NEURAL NETWORK BASED ON SAMPLING AND A THRESHOLD ADJUSTING ADAPTIVELY AND A METHOD PERFORMED BY THE IMAGE TRAINING APPARATUS [P] . 韩国专利： KR102167011B1 . 2020-10-16

机译：一种基于自适应采样和阈值调整的用于训练神经网络的硬负样本的图像跟踪装置及由图像训练装置执行的方法
5. AN IMAGE TRANING APPARATUS EXTRACTING HARD NEGATIVE SAMPLES BEING USED TO TRAINING A NEURAL NETWORK BASED ON SAMPLING AND A THRESHOLD ADJUSTING ADAPTIVELY AND A METHOD PERFORMED BY THE IMAGE TRAINING APPARATUS [P] . 韩国专利： KR20190107984A . 2019-09-23

机译：一种基于自适应采样和阈值调整的用于训练神经网络的硬负样本的图像跟踪装置及由图像训练装置执行的方法