技术领域
本发明属于图像生成领域,具体涉及一种知识图谱指导的多张场景图像生成方法。
背景技术
知识图谱是以三元组为单位的数据库,三元组中储存了实体的信息,还有实体与实体之间的关系信息,在知识图谱的方法应用中,trans系列中的KG2E方法是经典的知识表示方法之一,该方法能够将图谱中的实体与关系都嵌入表示成一个高维高斯分布,模型训练时利用KL散度使得头实体减去尾实体的分布,尽可能趋近于关系的分布。这种知识表示方法能够将图谱中的信息以分布的形式引入其他模型,也是本发明在提取图谱信息时采用的方法。
跨模态转换是多模态学习中的经典任务,文本、声音等各模态到图像的生成都属于这个领域。现阶段,这些工作主要是利用生成对抗网络来实现图像的生成,生成对抗网络由生成器和鉴别器两部分组成,具体设计由任务决定,生成器一般由多层感知机与深度卷积网络组成,输入由文本或声音提取的特征向量,输出生成的图像;鉴别器由浅层卷积网络组成,输入图像,输出图像的真假评分,更细致地还能够输出图像对应的类别。在训练过程中,鉴别器希望能够将生成图像判定为低分,而真实图像判定为高分,达到“评价鉴别”的作用;而生成器则希望生成图像能够被鉴别器判定为高分,达到“以假乱真”的作用。生成器与鉴别器交替训练,互相对抗,从而保证图像的生成质量。
目前文本合成场景图像的方法,大多存在着以下几个问题:(1)目前的文本往往是一句话,用户在生活中实际应用时需要给出一句话才能生成图像,是比较不便的;(2)符合描述文本的图像应该不止一个,但目前大多数方法都只能实现一对一的生成任务,且在生成具有很多物体的、复杂的场景图像时表现不好,无法生成良好的布局。(3)文本与图像属于不同模态,文本信息能够提供的信息量不足以支撑生成高质量的图像。
发明内容
发明目的:本发明主要针对上述文本到图像生成方法的不足之处进行改善,提出了一种知识图谱指导的多张场景图像生成方法,将标签作为输入,利用知识图谱得到布局关系,实现一对多的生成,同时在生成对抗网络中加入知识信息以提升图像生成质量。
为了实现上述目的,本发明采用如下技术方案:
一种知识图谱指导的多张场景图像生成方法,其步骤包括:
步骤S1:构建知识图谱,以(头实体、关系、尾实体)的形式,提取所需的三元组,整合成为一个小型知识图谱;
步骤S2:将一组物体标签输入布局搜索模块,得到多张符合事实的布局关系图;
进一步,所述步骤S2具体为:
步骤S21:将物体标签输入构建的知识图谱中进行图谱搜索,搜索出所有包含输入标签之间关系的三元组,并根据出现的频率对搜索到的三元组进行排序;
步骤S22:根据参数设置,选择需要的三元组数量组成最可能的布局关系图,同时以随机组合的方式生成其他多张不同的布局关系图;
步骤S3:将每张布局关系图输入预训练好的知识模块中,得到物体知识矩阵与全局知识向量;
进一步,所述步骤S3具体为:
步骤S31:利用经典的知识表示方法KG2E对知识图谱进行预训练,用不同的高斯分布来代表图谱内所有物体与关系对应的知识表示;
步骤S32:将布局关系图进行数据处理,分解成图内物体标签与图内关系标签;
步骤S33:输入图内物体标签与图内关系标签,从预训练好的物体与关系的KG2E知识表示中采样,得到物体知识矩阵与关系知识矩阵;
步骤S34:将物体知识矩阵与关系知识矩阵加和称为全局知识矩阵,经过全连接层生成全局知识向量,代表整个布局关系图从图谱中提取到的知识信息;
步骤S4:在生成器中加入物体知识矩阵与全局知识向量;
进一步,所述步骤S4具体为:
步骤S41:将分解得到的图内物体标签与图内关系标签进行初始化嵌入,得到物体初始矩阵与关系初始矩阵;
步骤S42:将物体、关系的初始矩阵输入5层深度的图卷积网络中,得到物体、关系的更新矩阵;
步骤S43:将知识模块中输出的物体知识矩阵与物体更新矩阵连接到一起,得到物体预测矩阵;
步骤S44:物体矩阵经过多层感知机1生成物体边框位置的数值,经过多层感知机2生成物体形状掩膜,再经过映射组合,生成场景布局张量;
步骤S45:将知识模块中输出的全局知识向量自动扩充与图片大小相同的维度,并与场景布局张量连接到一起,输入级联生成网络中,生成场景图像;
步骤S5:在鉴别器中加入物体知识矩阵与全局知识向量;
进一步,所述步骤S5具体为:
步骤S51:对图像中的不同物体进行鉴别时,将场景图像经过数据处理后得到的图像切片与物体知识矩阵同时输入卷积神经网络1中,得到物体图像切片的真假评分,与物体类别预测;
步骤S52:对整张图像进行鉴别时,将场景图像与全局知识向量同时输入卷积神经网络2中,得到图像的真假评分;
步骤S6:根据整体的损失函数交替训练生成器与鉴别器,在保证整张图像的生成质量的同时,也保证物体图像切片复合标签对应的类别。所得的生成器即为完成布局关系图到场景图像生成的工具。
本发明与现有技术相比具有以下有益效果:
(1)与大多数方法中一句话的文本输入不同,本发明的输入是一组可选择的标签,这对于用户的使用更加便捷;(2)大多数方法只能完成一对一的生成任务,而本发明通过引入整合构建的知识图谱,实现了由一组标签生成多张布局关系图,从而生成多张场景图像,完成了一对多的生成任务,同时也能够保证每张图像都具有合理的布局;(3)本发明的生成对抗网络中,生成器与鉴别器都增加了由知识表示方法KG2E得到的图谱中的知识信息,从局部物体的角度增加了物体知识矩阵,从全局布局的角度增加了全局知识向量,弥补了文本信息不够充分的不足,也提升了图像的生成质量。这也是知识图谱中的知识表示在图像生成领域的首次应用。
附图说明
图1是本发明设计的整体结构。
图2是本发明设计的布局搜索模块。
图3是本发明设计的知识模块。
图4是本发明设计的图像生成模块中的生成器结构。
图5是本发明设计的图像生成模块中的鉴别器结构。
具体实施方法
下面将结合具体实施例和附图对本发明的技术方案进行进一步的说明。
一种知识图谱指导的多张场景图像生成方法,步骤如下:
步骤S1:提取VG数据集中所有的三元组(头实体,关系,尾实体),其中头实体与尾实体的集合包含所有的标签物体,关系包括“相邻”、“在...上方”、“在...后方”等能够表示物体布局关系的词语,将提取到所有三元组,整合成一个小型知识图谱;
步骤S2:如图2所示,将一组共n个物体标签输入布局搜索模块,得到m张符合事实的布局关系图;
进一步,所述步骤S2具体为:
步骤S21:将n个物体标签输入构建的知识图谱中进行图谱搜索,搜索出所有包含输入标签之间关系的三元组,并根据出现的频率从高到低对搜索到的三元组进行排序;
步骤S22:根据参数设置,根据排序选择需要的三元组数量组成最可能的布局关系图,代表n个标签最可能出现的布局关系图,同时以随机组合的方式生成其他多张不同的布局关系图,一共得到m张布局关系图;
步骤S3:如图3所示,将布局关系图输入利用知识图谱预训练好的知识模块中,得到对应的物体知识矩阵与全局知识向量;
进一步,所述步骤S3具体为:
步骤S31:利用经典的知识表示方法KG2E对知识图谱进行预训练,从而得到图谱中所有的N个实体对应的d维高斯分布(μ
步骤S32:将布局关系图进行数据处理,分解成图内物体标签与图内关系标签。
步骤S33:输入图内物体标签与图内关系标签,从预训练好的物体与关系的KG2E知识表示中采样,得到物体知识矩阵O
步骤S34:将物体知识矩阵O
步骤S4:如图4所示,在生成器中加入物体知识矩阵与全局知识向量,输入一张布局关系图,生成一张场景图像。
进一步,所述步骤S4具体为:
步骤S41:将分解得到的n个图内物体标签与k个图内关系标签进行初始化嵌入,得到物体初始矩阵O
步骤S42:将物体、关系的初始矩阵O
步骤S43:将步骤S3知识模块中输出的物体知识矩阵O
步骤S44:将物体预测矩阵O
步骤S45:将步骤S3知识模块中输出的全局知识向量G
步骤S5:如图5所示,在鉴别器中加入物体知识矩阵与全局知识向量。
进一步,所述步骤S5具体为:
步骤S51:对图像中的不同物体进行鉴别时,将场景图像I∈R
步骤S52:对整张图像进行鉴别时,将场景图像I∈R
步骤S6:交替训练生成器与鉴别器,最小化整体损失函数:
L=λ
其中L
以上所述步骤S4与步骤S5中生成器与鉴别器是以sg2im为基线的拓展模型,仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
机译: 指导图像生成装置,指导图像生成方法以及指导图像生成程序
机译: 用于通过使用Z缓冲在目标场景中渲染目标像素的图像生成设备,图像生成方法,图像生成程序和集成电路
机译: 一种用于在虚拟现实场景中提供交互式内容以安全地指导现实世界中的HMD用户的方法