首页> 中国专利> 基于文本-物体-场景关系的物体和场景的图像理解方法

基于文本-物体-场景关系的物体和场景的图像理解方法

摘要

本发明涉及一种基于文本-物体-场景关系的物体和场景的图像理解方法,通过一个条件随机场融合三个域的信息:场景、物体和文本;不同域的特征通过三种关系相互关联:场景与物体,场景与文本,物体与文本;文本以两种不同的方式与物体和场景相关联。文本和物体的关系通过名词和物体的匹配概率来表示,而文本和场景的关系通过名词在不同场景的描述中出现的概率来表示。其中文本和物体的匹配概率通过求解弱监督条件下的受约束的双向匹配优化问题得到。这种方法仅仅需要简单的标注信息,提高了精度,能够充分借助网络资源用于图像理解,节省了巨大的人力标注开销。

著录项

  • 公开/公告号CN104573711A

    专利类型发明专利

  • 公开/公告日2015-04-29

    原文格式PDF

  • 申请/专利权人 上海交通大学;

    申请/专利号CN201410831227.0

  • 发明设计人 熊红凯;王博韬;

    申请日2014-12-22

  • 分类号G06K9/62(20060101);

  • 代理机构31236 上海汉声知识产权代理有限公司;

  • 代理人徐红银;郭国中

  • 地址 200240 上海市闵行区东川路800号

  • 入库时间 2023-12-18 08:25:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-12-15

    授权

    授权

  • 2015-05-27

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20141222

    实质审查的生效

  • 2015-04-29

    公开

    公开

说明书

技术领域

本发明涉及一种信号处理的计算机视觉技术领域的方法,具体是一种基于 文本-物体-场景关系的物体和场景的图像理解方法。

背景技术

在大数据时代,互联网上的图像数据呈现爆炸式增长,迫切需要一种能够 自动提取图像中语义信息的智能视觉系统。经过计算机视觉领域的不懈努力, 目前已经在诸多关键任务,如物体检测,场景分类,人脸识别上取得了显著的 进步。然而,作为计算机视觉领域的终极目标,图像理解仍然是一个极具挑战 的问题。当面对网络上海量的图像理解,这一问题变得更为艰巨。人们无法再 像过去那样依靠精确标注的图像数据集来训练模型,因为对包含了上千类物体 的上百万图像做精确标注耗费巨大。相比传统图像数据,网络图像数据的一个 显著特点是它们往往伴随着描述性的文本,例如图像标题,关键词和发布者的 说明。这些文本提供了与图像语义高度相关的重要信息。

经过对现有技术的文献检索发现,传统的利用文字进行图像理解的方法主 要分为三类:基于特征的方法,基于主题模型的方法和基于条件随机场的方 法。基于特征的方法先从图像和文本提取特征,然后在特征层面进行融合。Li 等人在2009年ICCV会议上发表的“Landmark classification in large-scale image  collections”论文中提出,将文本特征和视觉特征拼接成最终的特征向量用于训 练支持向量机。Wang等人在2009年CVPR会议上发表的“Building text features  for object image classification”论文中提出,将文本特征和视觉特征分别训练分类 器,然后再训练一个分类器用于融合上述两个分类器的分类结果。基于主题模 型的方法主要通过LDA方法对图像和文本联合建模。Barnard在2003年JMLR 期刊上发表的“Matching words and pictures”论文中提出利用LDA方法建立图像 和文本的联合概率分布。后来,Blei等人在2003年ACM SIGIR会议上发表的 “Modeling annotated data”论文中基于文本主题和视觉主题的一一对应的假设, 提出了Corr-LDA方法。近年来流行的条件随机场也用于建模图像和文本。 Fidler等人在2013年的CVPR会议上发表的“A sentence is worth a thousand  pixels”论文中提出了通过解析文本建立语义图模型的方法对图像进行联合分 割、物体检测和分类。然而该方法的主要不足在于需要物体和文本实例的一一 对应关系来训练模型,并且在预测过程中需要手动标定名词所对应的物体。

发明内容

本发明针对现有技术的不足,提供了一种基于文本-物体-场景关系的物体 和场景的图像理解方法,通过利用描述性文本,结合视觉信息和文本信息,对 图像做出更有效的理解。

本发明是通过以下技术方案实现的:利用条件随机场建模场景、物体和文 本的联合概率密度函数,联合预测图像的场景类别和图像中存在的物体。弱监 督的条件下学习出不同域之间的关系,包括:场景-物体关系,场景-文本关系 和文本-物体关系。

本发明所述的基于文本-物体-场景关系的物体和场景的图像理解方法,对 于输入的图像-文本对,具体处理步骤如下:

第一步:用物体检测器计算图像中各类物体存在的可能性大小,进而确定 物体势函数。

第二步:将文本用自然语言分析工具提取其中的名词信息,确定文本节点 的取值。

第三步:用场景分析算法计算图像属于各种场景类别的概率,确定场景势 函数。

第四步:根据文本节点的值和文本与场景的关系计算场景-文本势函数。

第五步:根据场景和物体的关系计算场景-物体势函数。

第六步:根据物体和文本的对应关系计算文本-物体势函数。

第六步:将上述第一步~到第五步中确定的五种势函数用条件随机场联合概 率建模,求解最大后验概率,得到物体节点和场景节点的值,即图像中存在哪 些物体和图像属于的场景类别。

所述方法对于输入的图像-文本对,具体处理步骤如下:

第一步:用物体检测器计算图像中各类物体存在的可能性大小,进而确定 物体势函数;

第二步:将文本用自然语言分析工具提取其中的名词信息,确定文本节点 的取值;

第三步:用场景分析算法计算图像属于各种场景类别的概率,确定场景势 函数;

第四步:根据文本节点的值和文本与场景的关系计算场景-文本势函数;

第五步:根据场景和物体的关系计算场景-物体势函数;

第六步:根据物体和文本的对应关系计算文本-物体势函数;

第六步:将上述第一步~到第五步中确定的五种势函数用条件随机场联合概 率建模,求解最大后验概率,得到物体节点和场景节点的值,即图像中存在哪 些物体和图像属于的场景类别;

所述用条件随机场联合概率建模,是指:每个图像-文本对用条件随机场模 型建模文本、场景和物体之间的联合概率密度分布函数,条件随机场由三种类 型的节点和三种类型的边组成;三种类型的节点分别为:场景节点、物体节点 和文本节点;三种类型的边为:场景-物体边、场景-文本边和文本-物体边。

优选的,所述的用条件随机场联合概率建模,其中场景节点有一个,用随 机变量s表示改图像的场景类别。

优选的,所述的场景节点的一元势函数(对应第三步得到的势函数)由一 组线下场景检测器定义,该势函数有S种可能的取值,S为场景类别的数量, 每种取值为对应的场景分类器对该类场景的判别值。

优选的,所述的用条件随机场联合概率建模,其中物体节点有O个,其中 O是物体类别的数量,每个物体节点用随机变量z表示相应物体在图像中存在 与否。

优选的,所述的物体节点的一元势函数(对应第一步得到的势函数)由一 组线下物体检测器定义,每个物体检测器对一幅图像返回多个该物体可能存在 的位置,每个位置都伴有一个判别值指示物体存在于该位置的可能性大小,势 函数取所有判别值中的最大值一个作为图像中存在该类物体的指示。

优选的,所述的用条件随机场联合概率建模,其中文本节点有N个,其中 N是名词类别的数量,每个文本节点用随机变量q表示相应名词在图像的文字 描述中存在与否。

优选的,所述的用条件随机场联合概率建模,其中场景-物体边:场景和物 体之间的关系用场景-物体边对应的二元势函数(对应第五步得到的势函数)表 征,具体表示为各类物体在不同场景中出现的概率。

优选的,所述的用条件随机场联合概率建模,其中场景和文本之间的关系 用场景-文本边对应的二元势函数(对应第四步得到的势函数)表征,具体表示 为各类名词在不同场景中出现的概率。

优选的,所述的用条件随机场联合概率建模,其中文本-物体边:文本和物 体之间的关系用文本-物体边对应的势函数(对应第六步得到的势函数)表征, 具体表示为名词和物体之间的相关概率。

优选的,所述的文本和物体之间的相关概率,其表示方法是通过对每个图 像-文本对求解受约束的双向匹配优化问题得到样本级的名词与物体的映射关 系;具体如下:

(1)用自然语言分析工具提取文本中的名词及其数量,其中名词为文本中 词性标签为NN,NNS,NNP的单词;名词的数量有两类,第一类为精确数 量,包含了单数名词和指出数量的复数名词;第二类为模糊数量,包含了未给 出数量的复数名词,这类名词的数量为2;

(2)求出名词和物体之间的初始相关概率,具体为其共同出现在一个样本 中的概率;

(3)建立受约束的文本-物体的优化问题,其中,约束一要求映射到某物体 的名词的个体数量不能大于该物体的数量;约束二要求一个名词只能映射到一 个类别的物体;

(4)重新估计文本-物体间的相关概率,即在训练集中统计某名词的所有个 体中被映射到某物体的个体的比例。

与现有技术相比,本发明具有以下有益效果:

本发明基于文本-物体-场景关系的弱监督学习的物体和场景实现图像理 解,利用条件随机场建模场景、物体和文本的联合概率密度函数,联合预测图 像的场景类别和图像中存在的物体;在弱监督的条件下学习出不同域之间的关 系,包括:场景-物体关系,场景-文本关系和文本-物体关系。这种方法仅仅需 要简单的标注信息,用于训练的每张图像只需要知道其包含了哪些物体,而不 需要具体指出每个物体在哪里,且提高了精度。这种简单的标注信息广泛地存 在于互联网上,从而使得本发明能够充分借助网络资源用于图像理解方法,节 省了巨大的人力标注开销。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的 其它特征、目的和优点将会变得更明显:

图1是本发明的训练过程方法流程图;

图2是本发明的测试过程方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域 的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是, 对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若 干变形和改进。这些都属于本发明的保护范围。

本发明通过一个条件随机场融合三个域的信息:场景、物体和文本。不同 域的特征通过三种关系相互关联:场景与物体,场景与文本,物体与文本。文 本以两种不同的方式与物体和场景相关联。文本和物体的关系通过名词和物体 的匹配概率来表示,而文本和场景的关系通过名词在不同场景的描述中出现的 概率来表示。其中文本和物体的匹配概率通过求解弱监督条件下的受约束的双 向匹配优化问题得到。

基于上述技术思路,本发明对于输入的图像-文本对:

(1)用一组现有的物体检测器(如DPM,)计算图像中各类物体存在的可 能性大小,进而确定了物体势函数。

(2)将文本用自然语言分析工具提取其中的名词信息,进而确定文本节点 的取值。

(3)用现有的场景分析算法(如SPM)计算图像属于各种场景类别的概 率,进而确定了场景势函数。

(4)根据文本节点的值和文本与场景的关系计算场景-文本势函数。

(5)根据场景和物体的关系计算场景-物体势函数。

(6)根据物体和文本的对应关系计算文本-物体势函数。

(7)将上述五种势函数用条件随机场联合概率建模,求解最大后验概率, 得到物体节点和场景节点的值,即图像中存在哪些物体和图像属于的场景类 别。

进一步的,对上述技术细节详细说明如下:

(1)一个场景节点,表示图像的场景类别,用随机变量s:1≤s≤S表 示,其中S是场景类别的数量。场景节点的势函数为

fs(s)=Ds,1≤s≤S

它由一个线下场景分类器定义,其中Ds为场景分类器将图像分类为场景s的判别 值。fS根据图像的视觉特征倾向于选择判别值高的场景类别。

(2)N个文本节点,其中N是所有文本中所含的名词类别的数量。每个文 本节点用随机变量q∈{0,1}表示其对应的名词在文本中的存在与否。文本节 点的取值由文本分析得到。

(3)O个物体节点,其中O是物体类别的数量。每个物体节点用随机变量 z∈{0,1}表示该物体在图像中的存在与否。物体节点的势函数为

fO(zo)=zo(do-Lo),1oO

其中zo表示第o类物体在图像中是否存在,Lo为第o类物体的预定阈值,可通过 梯度下降算法求得最优值。fO由一系列线下物体检测器定义。do为物体o的检测 器对图像输出的最大判别值,表示根据图像视觉特征判断物体o存在的可能性。 当判别值足够大(即大于阈值),fO倾向于判断物体存在于图像中。

(4)O个场景-物体边,每条边连接场景节点和一个物体节点。场景-物体边 用势函数fSO(s,z)表示:

fSO(s,zo)=FO(s,o)zo+(1-Fo(s,o))(1-zo)

其中zo表示物体o在图像中存在与否。若存在,zo=1;反之zo=0。s代表场景类 别,FO(s,o)为物体o出现在场景s中的概率。fSO反映了在某类场景中特定物体存 在与否的可能性。

(5)N个场景-文本边,每条边连接场景节点和一个文本节点。场景-文本边 用势函数fST(s,q)表示:

fST(s,qu)=FT(s,u)qu+(1-FT(s,u))(1-qu)

其中u表示名词的类别,s代表场景类别,qu表示名词u在文本中存在与否。FT(s, u)表示名词u在对场景s的图像的描述中出现的概率。fST反映了在对某类场景图 像的文字描述中特定名词被提到的概率。

(6)N×O个文本-物体边,每条边连接一个文本节点和一个物体节点。文 本-物体边用势函数fTO(q,z)表示:

fTO(qu,zo)=max(P(u,o)-T,O)quZo

其中qu表示名词u是否存在,zo表示物体o是否存在,P(u,o)为名词u和物体o的匹 配概率,T为预定阈值,在实验中通过交叉验证法确定,使得匹配的精度在0.8 左右为宜。fTO反映了某个名词的在文本描述中的存在与否对特定物体在图像中 存在与否的暗示程度。若名词和物体的相关性足够强,则该名词在图像描述中 的出现暗示着相应物体存在于图像中。

最终,物体节点z=[z1,...,zO]和场景节点s的最优值可通过最大化该图模型 的联合概率密度函数得到,采用max-product方法计算。

文本中的名词和物体类别的匹配概率通过逐样本匹配名词和物体实例得 到,具体过程为:

(1)利用文本分析工具提取文本中的名词和数量。其中名词为词性标签为 NN,NNS,NNP的单词。名词的数量有两种类型:第一类为精确数量,包括 单数名词和说明个数的复数名词;第二类为不精确数量,包括数量未被说明的 复数名词,这类名词的数量设为其下限2。最终得到名词的数量ci。物体的数量 Cj由标注得到。

(2)建立受约束的双向匹配优化问题

其中是文本中提取出的名词集合,ui是第i个名词的类别,ci表示第i 个名词的数量,是图像中存在的物体的集合,oj表示第j个物体的类 别,Cj表示第j个物体的数量,X为二元匹配矩阵,b0为初始名词和物体的匹配 概率。约束1表明被匹配到某物体的名词的个体总数量不能超过该物体的个体 总数量。约束2表明某名词只能被匹配到一个物体类别。匹配概率的初始值bo为名词和物体共同出现的概率

bo(u,o)=Σt=1n1(uNt)1(oOt)Σt=1n1(uNt).

(3)对于训练集中的每个图像-文本对求解上述匹配问题,得到匹配矩阵 重新估计匹配概率

其中n为训练集的样本数,为第t个样本的名词集合,为第t个样本的物 体集合,为第t个样本的第i个名词的数量,为第t个样本的第i个名词 的类别,为第t个样本的第j个物体的类别,1(条件)是一个布尔函数,条件 为真时取值为1,条件为假时取值为0。公式中分母为名词u的个体数量,分子 为名词u和物体o的匹配对的数量。

最终,将场景与物体、场景与文本、文本与物体之间的联合概率密度用本 发明提出的场景-物体,场景-文本,文本-物体的关系建模,建立综合场景-文本 -物体三者的概率密度分布,通过求解最大后验概率可以得到图像中包含了哪些 物体、该图像刻画了哪类场景,即对图像内容作出了语义层面的理解。

本发明上述方法在一具体实施例中实施时,可以分为训练过程和测试过程 两个模块。其中模型的参数通过训练过程确定。测试过程即模型的实际应用场 景,用于衡量本发明的有效性。

如图1所示,本实施例训练过程包括如下步骤:

步骤一,对文本的语法分析:对训练集中的文本利用自然语言分析工具抽 取名词及其数量;

步骤二,根据训练集中每个样本的场景类别和步骤一中抽取出的名词,计 算出场景和文本的相关概率FT,即知道了对于某一类场景图像的描述中各类名 词被提及的概率;

步骤三,根据训练集中标注信息指出的每个样本的场景类别和所包含的物 体计算出场景和物体的相关概率,即知道了某一类图像场景中各类物体出现的 概率;

步骤四,根据步骤一中抽取的名词及数量和标注给出的物体及数量,按照 抽约束的双向匹配优化问题求解名文本和物体的匹配概率,即得到了文本和物 体的相关关系,如名词“的士”和物体“车”的相关性高,而与物体“牛”的相关性 低;

步骤五,对输入图像的场景分类、物体检测:利用线下物体检测器和场景 分类器分析图像,求出各物体和场景的判别值。这是根据图像低层特征通过判 别性方法计算出的图像中物体和图像的场景的判断。结合步骤一至步骤四得到 的各量值,建立条件随机场模型,按照最大似然概率准则,利用随机梯度下降 法求解最优势函数权重w,它反映了不同线索在推断图像中包含的物体和图像 场景时的相对贡献。

如图2所示,本实例测试过程包括如下步骤:

步骤一,利用自然语言分析工具从输入的图像文本描述中提取名词,得到 条件随机场中文本节点的值q,即知道了哪些名词用来描述该幅图像;

步骤二,利用线下物体检测器和场景分类器对图像计算出各物体和场景的 判别值,得到场景节点和物体节点的势函数值,即通过图像低层特征判断图像 中从存在哪些物体以及图像所属的场景;

步骤三,根据最大后验概率准则计算条件随机场的场景节点和物体节点的 最优取值。通过综合分析来自图像低层特征所显示的和文本内容蕴含的关于图 像中物体和图像场景的判断,最终确定图像最有可能包含了哪些物体记忆图像 所描述的场景。

实施效果

根据上述步骤,实验采用UIUC公开数据集进行测试。

1.实验用全部样本计算文本和物体的匹配概率,初始匹配概率bo的平均精 度为0.579,而通过本发明提出受约束的双向匹配优化问题求出的匹配概率P的 平均精度为0.732,相较初始匹配概率提高了26%。

2.在场景分类的测试中,采用学界流行的DPM作为物体检测器,以及三 种最新的场景分类方法:SPM,ScSPM和LLC。关键参数设置为:

(a)数据集中60%的样本用作训练,40%的样本用作测试;

(b)图像的局部描述子为C-SIFT,每隔8像素均匀采样;

(c)用三层空间金字塔计算图像最终的特征向量;

(d)分类器为线性支持向量机。

实验结果为:

(1)三种场景分类器,独立使用的平均精度为0.446,0.510和0.565;

(2)物体检测与场景分类器结合,平均精度为0.729,0.721和0.729;

(3)文本分析和场景分类器结合,平均精度为0.880,0.888和0.889;

(4)三者结合,最终的平均精度为0.921,0.916和0.914,相较场景分类器 的结果分别提升了107%,80%和62%。

3.在物体分类的测试中,分别采用两种基本的物体检测器:DPM和 exemplar SVM。实验结果为:

(1)单独使用两种物体检测器,平均精度为0.498和0.395;

(2)单独使用文本和物体的匹配概率的平均精度为0.845;

(3)综合基于图像的物体检测器和文本-物体的匹配概率得到的平均精度为 0.879和0.881,相较单独使用物体检测器分别提升了77%和123%。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不 局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出 各种变形或修改,这并不影响本发明的实质内容。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号