公开/公告号CN115239944A
专利类型发明专利
公开/公告日2022-10-25
原文格式PDF
申请/专利权人 中国矿业大学;
申请/专利号CN202210661517.X
申请日2022-06-13
分类号G06V10/25(2022.01);G06V10/40(2022.01);G06V10/82(2022.01);G06V10/764(2022.01);G06V10/44(2022.01);G06V10/80(2022.01);G06V20/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);G06N5/04(2006.01);
代理机构南京瑞弘专利商标事务所(普通合伙) 32249;
代理人李悦声
地址 221116 江苏省徐州市大学路1号中国矿业大学
入库时间 2023-06-19 17:25:42
法律状态公告日
法律状态信息
法律状态
2022-11-11
实质审查的生效 IPC(主分类):G06V10/25 专利申请号:202210661517X 申请日:20220613
实质审查的生效
技术领域
本发明涉及一种图像标题自动生成方法,尤其适用于在图像字幕中使用的基于因果图的因果推理图像字幕生成方法。
背景技术
现有的图像字幕方法通常遵循编码器-解码器架构,其中图像由CNN提取的特征被送入一个RNN(通常基于LSTM)生成相应的句子。由于基于RNN的模型受限于其顺序结构,卷积语言模型已经探索出替代传统RNN的方法。因此,与卷积的操作本质不同,新的基于Transformer的字幕模型基于多头注意力的范式取得了相当的成果。
然而,大多数基于Transformer的图像描述模型可能仍然学习到隐藏的混淆因子带来的数据集偏差,如何应对由视觉和视觉信息引起的数据集偏差所造成图像字幕中的语言混淆仍然存在,并且还没有被探索。在视觉表现方面,大多数模型采用预先训练好的检测器,这些模型忽略了图像中纠缠的视觉特征问题。在模型结构改进方面,当前大多数基于Transformer的图像描述看起来都有两种难以捉摸的混淆因子:视觉混淆和语言混淆,这通常在训练中会导致产生偏差,在测试过程中会产生虚假的相关性并降低模型的泛化能力。因此,需要提出一种新的方法来解决这些图像描述模型可能学习到的混淆因子带来的虚假相关性和数据集偏差。
如今,有一种趋势是将因果推理引入到不同的深度学习模型。这些努力使赋予深度神经网络学习因果效应成为可能。因果效应显著提高了许多计算机视觉(CV)和自然语言处理 (NLP)模型的性能,包括图像分类,图像语义分割,视觉特征表示、视觉对话、图像字幕和对话生成。现有的研究通过因果关系分析了视觉特征和字幕之间的虚假相关性,并提出了一种图像字幕的解构方法(DIC)解决混淆因子的框架,但仍然有一些局限性。在它们的因果图中,整体数据集被认为是混淆因子,这是很难确定的分层,并且必须通过基于附加调解器的复杂前门调整来消除混淆因子。DIC重点在于消除解码器的混淆因子,而忽略了编码器中的视觉特征的混淆因子,导致性能严重退化。
发明内容
技术问题:针对上述技术的不足之处,提出一种基于因果推理的图像标题自动生成方法,能够同时处理句子生成过程中的视觉和语言混淆因子,显示更详细的因果图,显著提高基于 Transformer的图像描述模型的性能。
技术方案:为实现上述技术目的,本发明的基于因果推理和Transformer的图像标题自动生成方法,其特征在于:构建基于详细的因果图的因果推理方法图像字幕CIIC框架,因果图包括视觉混淆因子和文本混淆因子;
所述因果推理方法图像字幕CIIC框架包括顺序连接的非对齐特征Transformer编码器 UFT和干预式Transformer解码器ITD,其中非对齐特Transformer解码器包括顺序连接的 FASTER R-CNN、干预式目标检测器IOD和标准的Transformer编码器;干预式Transformer 解码器为在标准的Transformer解码器的前馈神经网络层模块之后插入一个因果干预CI模块组成;干预式目标检测器IOD和干预式Transformer解码器ITD联合控制视觉混淆因子和文本混淆因子对输入图像先进行编码,然后进行解码;
其中非对齐特征Transformer编码器UFT先将IOD提取到的解混淆视觉特征与从同一幅图像中提取的自底向上特征送入两个线性层映射生成Q,K,V向量,通过自注意力和交叉注意力进行集成,再进行传统Transformer中的AddNorm操作和前馈传播操作,得到的输出传到下一层编码块中,一共为L块,即叠加L次编码;干预式Transformer解码器ITD输入为当前生成的句子部分,经过位置嵌入与掩码层与编码端最终输出进行交叉注意,进行AddNorm 操作和前馈传播操作,通过因果干预CI模块消除解码过程中的视觉和语言混淆,再进行 AddNorm操作,同样重复L次解码,得到最终预测输出;因果干预CI模块将融合的视觉和语言的特征h
干预式目标检测器IOD通过消除视觉混淆因子来分离基于区域的视觉特征:通过干预式对象感知器对感兴趣区域特征进行分离,然后与更快的区域卷积神经网络FASTERR-CNN的自底向上特性相结合,作为Transformer编码器的输入;干预式目标检测器IOD将因果推理整合到FASTER R-CNN提取到的图像特征中来应对传统预训练模型提取到的视觉上的混淆,从而获得基于区域的非纠缠表示;将解码阶段产生的结果输入干预式Transformer解码器ITD,将因果干预引入传统的图像标题生成用到的Transformer解码器中,减轻解码过程中的视觉和语言混淆;
通过编码器和解码器同时建立视觉和语言概念,减轻干预式目标检测器IOD和干预式 Transformer解码器ITD之间未被观察到的混淆因子,消除视觉和语言混淆,有效地消除发生在视觉特征表示和标题生成中的伪相关,最终生成更真实的图像标题。
具体步骤如下:
将所要生成标题的图像分别通过FASTER R-CNN提取出图像特征,利用干预式目标检测器IOD消除图像特征中视觉混淆的区域特征;
具体来说,由于FASTER R-CNN目标检测器使用似然性估计法P(Y|X)作为分类器的训练目标,导致混淆因子Z引起的伪相关,
P(Y|X)=∑
其中X为基于输入图像的区域视觉特征,Z图像的视觉混淆因子,Y为类别标签;
因此使用因果推理干预P(Y|do(X))作为对象检测的新分类器,其中do算子do(·)起切割链接Z→X的作用,由于实际训练需要通过抽样来估计P(Y|do(X)),训练时间过长,因此通过应用归一化加权几何平均NWGM近似值,干预式目标检测器输出的类别概率为:
其中concat表示矩阵拼接,
将其中的混淆因子近似为固定混淆因子字典
利用干预式目标检测器IOD从所有兴趣区域RoI的候选区域中提取出解混淆的对象特征作为IOD的特征,由于提取自底向上的特征具有不同目标属性的判别能力,将IOD特征与从同一幅图像中提取的自底向上特征送入两个线性层映射生成Q,K,V向量,其中Q表示查询向量,K表示查询信息与其他信息相关性的向量,V表示被查询信息的向量,通过自注意力和交叉注意力进行集成,以促进CIIC模型的视觉表示;由于自底向上的特征和IOD特征不对齐,因此引入了多视角Transformer编码器即非对齐特征Transformer编码器UFT来调整它们,将自底向上的特征和IOD特征输入UFT编码器进行对齐和融合操作:
设从图像中提取的自底向上特征和IOD特征分别为
其中MultiHead(·)表示标准Transformer的多头注意力函数,
三个
其中LayerNorm表示层标准化,最后,将融合后的特征信息F送入作为Transformer中的前馈神经网络的FFN模块,生成UFT的编码结果;
为了缓解参与的视觉特征和对应含义的单词之间的虚假相关性,构建标准Transformer解码器结构,基于标准Transformer解码器结构将因果干预模块CI整合到每个Transformer解码器层中,将编码器中获得基于区域的非纠缠表示与文本作为解码器的输入,通过因果干预模块CI消除解码过程中的视觉和语言混淆,产生最终的图像标题语言描述。
进一步,利用结构因果模型SCM构建参与视觉特征V、视觉上下文D
其中,混淆因子D
因此,根据公式中的调整,图像生成描述模型(P(W|do(V),do(h
P(W|do(V),do(h
其中g(·)表示全连接层,
进一步,非对齐特征Transformer编码器包括FASTER R-CNN、干预式目标检测器IOD 和包括多头注意层、残差标准层和前馈神经网络层的标准的Transformer编码器;
干预式Transformer解码器为在标准Transformer解码器的前馈神经网络层模块之后插入一个因果干预CI模块构成,标准的Transformer解码器包括掩盖注意层、多头注意层、残差标准层和前馈神经网络层;
其中非对齐特征Transformer编码器的多头注意层、残差标准层和前馈神经网络层构成的部分堆叠L次;干预式Transformer解码器的掩盖注意层、多头注意层、残差标准层和前馈神经网络层和因果干预CI模块构成的部分堆叠L次;
Transformer解码器与Transformer编码器都包括多头注意层、残差标准层和前馈神经网络层,干预式Transformer解码器通过视觉词典D
训练好的非对齐特征Transformer编码和干预式Transformer解码器,先将输入图像经过 FASTER R-CNN提取自底向上特征、干预式目标检测器IOD提取RoI候选区域中提取解混淆的对象特征,UFT编码器以自底向上的特征和IOD特征为输入进行对齐和融合操作,干预式 Transformer解码器以进行集成后的视觉特征为输入,在每个时间步同时结合输入的单词信息,最后一个解码器层的输出随后被线性嵌入层投影到N维空间,其中N是词表大小;最后使用 softmax操作来预测词汇表中单词的概率产生最终的预测单词,即训练时每个时间步单词来自真实标注句子,最终预测时输入为上个时间步的输出单词。
进一步,对因果推理方法图像字幕CIIC框架进行预训练:
首先采用单词级的交叉熵进行预训练,训练集包含图像和对应的描述句子,损失函数为:
其中θ为因果推理方法图像字幕CIIC框架模型全部参数,包含权重和偏置,w*
其中奖励r(·)是CIDEr-D得分;
对训练好的因果推理方法图像字幕CIIC框架进行测试:使用束搜索按顺序逐字生成句子,训练好的模型输入待识别的图像,然后图像通过一系列处理输入解码器,在第一个解码步骤,考虑前k个候选者。为这k个第一个单词生成k个第二个单词。考虑获得的分数,选择前k个[第一个单词,第二个单词]组合。对于这k个第二个单词,选择k个第三个单词,选择最上面的k个[第一个单词,第二个单词,第三个单词]组合。重复每一个解码步骤。结束k 个序列后,选择综合得分最好的序列,得到最后一束中概率最大的序列。
有益效果:
1)本方法采用从因果关系角度来看一个新的基于Transformer图像描述架构CIIC,将因果干预无缝地结合到目标检测和描述生成中,共同缓解混淆效应。一方面,所提出的IOD有效地解开了视觉特征纠缠,并促进了图像描述的解混淆。另一方面,所提出的ITD采用因果干预,以同时处理句子生成过程中的视觉和语言混淆因子;
2)本方法将混淆因子分解为视觉和文本混淆因子,并显示更详细的因果图。
3)本方法可以显著提高基于Transformer的图像描述模型的性能,并在MS-COCO数据集的单模型设置下获得了当前最好的图像描述性能。
附图说明
图1是本发明基于因果推理的图像标题自动生成方法使用的图像字幕框架图。
图2是本发明方法使用的干预式目标检测器的结构示意图。
图3是本发明中图像描述中的因果干预示意图。
具体实施方式
下面结合说明书附图对本发明作更进一步的说明:
如图1所示,本发明的基于因果推理的图像标题自动生成方法,首先划分混淆因子,将现有的因果图分为两类:视觉混淆和文本混淆。基于因果图的因果推理方法图像字幕(CIIC) 框架结构:通过干预式目标检测器(IOD)和干预式Transformer解码器(ITD)共同面对两种混淆。IOD将因果推理整合到FASTER R-CNN中来应对视觉上的混淆,目的是获得基于区域的非纠缠表示。ITD通过在Transformer解码器阶段对视觉和语言混淆进行消除。首先,通过干预式对象感知器(IOD)对感兴趣区域特征进行分离,然后与FASTER R-CNN的自底向上特性相结合,作为Transformer编码器的输入。在CIIC中,我们提出了一个因果干预模块来应对单词预测中的视觉和语言混淆。我们的CIIC能够有效地消除发生在视觉特征表示和标题生成中的伪相关,以获得更真实的图像标题。
干预式目标检测器(IOD)的,其中,FASTER R-CNN用作视觉主干来提取特征图上的感兴趣区域(RoI)。使用每个RoI特征来分别预测类概率输出y
通过干预式对象感知器对感兴趣区域特征进行分离,然后与FASTER R-CNN的自底向上特性相结合,作为Transformer编码器的输入。在CIIC中,提出了一个因果干预模块Casual Intervention应对单词预测中的视觉和语言混淆。图1中符号“L×”表示虚线框中的编码块(包含多头注意层、残差标准层和前馈神经网络层)和解码块(包括掩盖注意层、多头注意层、残差标准层和前馈神经网络层和因果干预CI模块)堆叠L次。CIIC能够有效地消除发生在视觉特征表示和标题生成中的伪相关,以获得更真实的图像标题。
其中具体来说:
将所要生成标题的图像分别通过FASTER R-CNN提取出图像特征,通过干预式目标检测器(IOD)提出的消除了视觉混淆的区域特征。
使用的干预式目标检测器具体采用方法如下:
传统的目标检测器,如FASTER R-CNN,基本上使用了似然性估计法P(Y|X)作为分类器的训练目标,导致混淆因子Z引起的伪相关。
P(Y|X)=∑
其中X为基于输入图像的区域视觉特征,Z图像的视觉混淆因子,Y为类别标签。
我们建议使用因果推理干预P(Y|do(X))作为对象检测的新分类器,其中do算子do(·)起切割链接Z→X的作用。由于实际训练需要费时费力的抽样来估计P(Y|do(X)),这将使训练时间望而却步,因此通过应用归一化加权几何平均(NWGM)近似值:
其中concat表示矩阵拼接,
将其中的混淆因子近似为固定混淆因子字典
步骤三、利用IOD提取器从所有RoI候选区域中提取出解混淆的对象特征,即IOD特征,考虑到提取的自底向上特征具有不同目标属性的判别能力,将IOD特征与从同一幅图像中提取的自底向上特征送入两个线性层映射生成Q,K,V向量,其中Q表示查询向量,K表示查询信息与其他信息相关性的向量,V表示被查询信息的向量。通过自注意力和交叉注意力进行集成,以促进CIIC模型的视觉表示;由于自底向上的特征和IOD特征是不对齐的,因此引入了一个多视角Transformer编码器即非对齐特征Transformer编码器UFT来调整它们,UFT编码器以未对齐的视觉特征(指自底向上的特征和IOD特征)为输入,同时进行对齐和融合操作:
设
其中MultiHead(·)表示标准Transformer的多头注意力函数,
注意
其中LayerNorm表示层标准化,最后,将融合后的特征信息F送入FFN模块(Transformer 中的前馈神经网络),生成UFT的编码结果;
步骤四、为了缓解参与的视觉特征和它们对应的单词之间的虚假相关性,构建一个基于 Transformer的解码器结构,基于Transformer的解码器结构将因果干预模块整合到每个 Transformer解码器层中,以应对图像描述中的视觉和语言混淆,如图1所示,在传统的 Transformer解码器中引入一个因果干预模块,将编码器中获得基于区域的非纠缠表示与文本作为解码器的输入,通过因果干预模块消除解码过程中的视觉和语言混淆,产生最终的图像描述。
图像描述中的因果干预:如图3所示,分别通过切断D2→h1、D1→V这两个环节,阻断后门路径V←h1←D2→W、V←D1→W,捕捉真正的因果效应V→W。
利用SCM(结构因果模型)构建参与视觉特征V、视觉上下文D
具体来说,因果效应V→W表示所参与的视觉特征导致相应单词的产生,D
其中,混淆因子通常通过P(d
因此,根据公式中的调整,图像生成描述模型(P(W|do(V),do(h
P(W|do(V),do(h
其中g(·)表示全连接层,
Transformer解码器架构:Transformer解码器架构如图1所示,其中非对齐特征Transformer (UFT)编码器由FASTER R-CNN(更快的区域卷积神经网络)、干预式目标检测器IOD和标准的Transformer编码器(包括多头注意层、残差标准层和前馈神经网络层)组成,干预式 Transformer解码器为在标准Transformer解码器的前馈神经网络层模块之后插入一个因果干预CI模块构成,(对应图1中间虚线框解码器上方的浅红色层),其中符号“L×”表示虚线框中的编码块(包含多头注意层、残差标准层和前馈神经网络层)和解码块(包括掩盖注意层、多头注意层、残差标准层和前馈神经网络层和因果干预CI模块)堆叠L次。一般的Transformer 解码器与Transformer编码器类似都包括多头注意层、残差标准层和前馈神经网络层,只是多了个掩盖自注意层,都由L个相同的解码器层按顺序堆叠,我们在经典的Transformer解码器基础上创新,在Transformer解码器的FFN(前馈神经网络层)模块之后插入一个CI(因果干预)模块,通过视觉词典D
对CIIC模型进行预训练,本模型首先采用单词级的交叉熵进行预训练(训练集是包含图像和对应的描述句子),损失函数为:
其中θ为模型(CIIC模型)所有参数(包括权重和偏差),w*
其中奖励r(·)是CIDEr-D得分;
在测试阶段,使用束搜索按顺序逐字生成句子,训练好的模型输入待识别的图像,然后图像通过一系列处理输入解码器,在第一个解码步骤,考虑前k个候选者。为这k个第一个单词生成k个第二个单词。考虑获得的分数,选择前k个[第一个单词,第二个单词]组合。对于这k个第二个单词,选择k个第三个单词,选择最上面的k个[第一个单词,第二个单词,第三个单词]组合。重复每一个解码步骤。结束k个序列后,选择综合得分最好的序列,得到最后一束中概率最大的序列。
为了表示图像特征,首先在MSCOCO数据集上训练提出的IOD来提取置信度最高的前 100个对象的1024维IOD特征。然后使用预训练的Up-Down模型提取被检测对象2048维自底向上特征。最后将这两个特征线性投影到输入维数d=512的模型,并将它们输入UFT编码器。在实验中分别使用one-hot向量和预先训练好的GloVe词嵌入来表示单词。两者都线性投影到ITD的512维输入向量上。为了表示句子中的单词位置,在第一个解码层之前将输入向量和它们的正弦位置编码相加。词汇表外的单词表示为全零向量。在训练阶段使用Adam优化器,批量大小为10,束大小为5。使用一个预热等于20000的阶跃衰减计划来改变学习速率。所有模型首先用交叉熵损失对30个epoch进行训练,然后用CIDEr奖励对另外30个学习率为5×10
综上,用从因果关系角度来看一个新的基于Transformer图像描述架构CIIC,将因果干预无缝地结合到目标检测和描述生成中,共同缓解混淆效应。一方面,所提出的IOD有效地解开了视觉特征纠缠,并促进了图像描述的解混淆。另一方面,所提出的ITD采用因果干预,以同时处理句子生成过程中的视觉和语言混淆因子,实验结果表明本方法显著提高基于Transformer的图像描述模型的性能,并在MS-COCO数据集的单模型结构中实现一个新的先进水平。
机译: 用于基于从网络检索的数据自动生成标题并回答与标题相关的问题的方法和装置
机译: 通过使用语义本体自动生成特定域图像标题的设备和方法
机译: 使用语义本体自动生成域特定图像标题的装置和方法