首页> 中国专利> 结合图像内部空间关系及视觉共生关系的图像标注方法

结合图像内部空间关系及视觉共生关系的图像标注方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种结合图像内部空间关系及视觉共生关系的图像标注方法，该方法包括图像分割、特征提取及标注算法三部分组成，首先利用过分割方法将图像过分割为若干区域，然后对每个区域提取视觉特征，最后通过结合利用图像中各区域之间的空间位置关系以及视觉共生关系等上下文信息建立一个图像标注分类模型。本发明的优点是图像标注准确率高，能够充分有效的利用图像中空间位置关系以及视觉共生关系两种不同类型的上下文信息来提高图像标注的准确性。

著录项

公开/公告号CN102495865A

专利类型发明专利
公开/公告日2012-06-13

原文格式PDF
申请/专利权人南京大学;
展开▼

申请/专利号CN201110382735.1
发明设计人郭乔进;李宁;丁轶;
展开▼

申请日2011-11-28
分类号G06F17/30(20060101);G06K9/62(20060101);
代理机构南京苏高专利商标事务所(普通合伙);
代理人柏尚春
地址 210046 江苏省南京市仙林大道163号南京大学仙林校区机关603号信箱
入库时间 2023-12-18 05:25:47

法律信息

法律状态公告日

法律状态信息

法律状态
2018-01-12

未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20130807 终止日期:20161128 申请日:20111128

专利权的终止
2013-08-07

授权

授权
2012-07-18

实质审查的生效 IPC(主分类):G06F17/30 申请日:20111128

实质审查的生效
2012-06-13

公开

公开

说明书

技术领域

本发明涉及一种基于上下文信息的图像标注算法，尤其涉及一种结合图像内部空间关系及视觉共生关系的图像标注方法，属于图像处理技术领域。

背景技术

随着Internet和数字图像技术的发展，图像数据海量增长，对图像的组织、分析、检索和管理等都是一个巨大的挑战。人们对于图像所包含的语义概念的兴趣更加达到了前所未有的规模，从而迫切需要一种符合人类感知和认知机理、基于语义概念理解的图像管理方法。图像标注通过建立低层视觉特征与高层语义之间的映射关系，可以在一定程度上解决图像检索中存在的“语义鸿沟”问题。图像标注可以分为手动标注和自动标注两类。使用人工的方式进行图像标注是最直接也是最有效的方式，但是这也是非常耗时耗力的一项工作，因此目前有很多目前有很多网站和组织鼓励web上的广大用户为其提供的图像进行标注。然而随着图像数量的急剧增长，光靠人工标注是不能满足要求的，这也推动了图像的自动标注方法的研究。

Hanbury等根据标注的形式将图像的标注分为三种，基于关键词的标注、基于本体的标注和基于自然语言的标注。在图像标注的研究工作中，目前研究最多的是基于关键词的标注。而图像的区域标注是基于关键词的图像标注中常见的一种形式，上下文信息，包括空间关系、共生关系等在图像区域标注中被广泛的应用，并且有效的提高了图像标注的准确性。其主要流程包括三部分：图像分割、特征提取及标注算法。但现有图像标注方法不能同时利用图像中各种不同上下文信息。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种能同时利用图像中各种不同上下文信息的结合图像内部空间关系及视觉共生关系的图像标注方法。

技术方案：一种结合图像内部空间关系及视觉共生关系的图像标注方法，包括如下步骤：

(1)利用过分割方法将每幅图像分割为若干区域，该分割的目标是将图像中的不同物体分割到不同的区域，使每个分割区域中只包含单一类别的物体；

(2)针对图像中的每个区域，提取颜色、纹理、形状、空间位置等特征信息，构成一组连续值的特征向量；

(3)利用Kmeans对所有的连续值的特征向量进行聚类，得到K个聚类中心，构成词汇表V；

(4)利用词汇表V对每个区域的特征向量进行量化，从而得到每个像素的视觉关键词W；

(5)针对图像中所有分割区域的空间位置关系，考虑相邻区域之间的空间关系，建立一阶马尔可夫网络模型；

(6)根据图像中所有区域的视觉关键词，统计其视觉关键词直方图，利用隐含狄利克雷分配对视觉关键词之间的共生关系进行建模；

(7)结合图像中各区域之间的空间关系和共生关系，建立一种结合一阶马尔可夫网络和隐含狄利克雷分配的概率图模型；

(8)利用人工标注的图像数据集按照所述步骤(1)至(7)，分割、提取特征、量化、构造和训练模型，得到一组模型的参数；

(9)针对未标注的图像，利用训练得到的参数初始化模型，并根据所提取的特征和视觉关键词，对每个分割区域进行标注。

本发明的方法包括图像的分割、特征提取及量化、一阶马尔可夫网络模型及隐含狄利克雷分配的构造、模型参数的训练以及未标注图像的分类四个部分，其中步骤(1)至(4)描述了图像的分割和视觉特征的提取以及视觉关键词的构造过程，步骤(5)至(7)描述了一阶马尔可夫网络模型及隐含狄利克雷分配的构造，以及两种概率图模型的结合，步骤(8)至(9)描述了如何基于上述概率图模型进行图像标注的训练和分类问题。

有益效果：本发明的方法与现有技术相比，其显著优点是：能够有效解结合图像中的空间位置信息以及视觉共生关系两种不同的上下文信息来提高图像标注的准确性，通过使用一阶马尔可夫网络模型来描述图像中相邻区域的空间位置关系，以及通过利用隐含狄利克雷分配对图像中的视觉共生关系进行建模，并据此结合两种不同的概率图模型，根据训练数据集进行参数的优化，从而达到了更好的图像标注准确性。

附图说明

图1是本发明实施例中的隐含狄利克雷分配模型；

图2是本发明实施例中的一阶马尔可夫网络模型；

图3是本发明实施例中的一阶马尔可夫网络和隐含狄利克雷分配的构造；

图4是本发明实施例中结合一阶马尔可夫网络模型及隐含狄利克雷分配模型的分类模型：隐含狄利克雷马尔可夫网络模型。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

在利用隐含狄利克雷分配模型对图像中的目标进行检测、识别和定位时，忽略了图像中各个区域之间的空间位置信息，同时需要对每个区域的视觉特征进行量化，只能处理离散化的视觉关键词，而一阶马尔可夫网络模型能够处理连续值的视觉特征(或特征向量)，同时可以处理区域之间的空间关系，因此，本发明提出了一种结合隐含狄利克雷分配模型和一阶马尔可夫网络模型的图像标注模型，利用隐含狄利克雷分配模型生成的主题信息来描述图像中的视觉共生关系，从而改进一阶马尔可夫网络模型的分类效果，同时利用隐含狄利克雷分配模型生成每个区域的主题信息时，不仅考虑每个节点对应的关键词，还加入了对应的类别信息，从而进一步提高图像标注的准确性。

本发明方法的详细流程如下：

本方法包括下列步骤：

步骤(1)利用过分割方法将每幅图像分割为若干区域，该分割的目标是将图像中的不同物体分割到不同的区域，使每个分割区域中只包含单一类别的物体；

步骤(2)针对图像中的每个区域，提取颜色、纹理、形状、空间位置等特征信息，构成一组连续值的特征向量；

步骤(3)：利用Kmeans对所有的连续值特征向量进行聚类，得到K个聚类中心，构成词汇表V。针对当前图像中所有像素的27维的连续值特征向量，利用Kmeans进行聚类，得到K个聚类中心(c₁，c₂，...，c_K)，构成视觉词汇表 V＝{c₁，c₂，...，c_K}。

步骤(4)：利用词汇表V对每个连续值特征向量H_i进行量化，针对每个像素的连续值特征向量H_i在词汇表中选择欧式距离最小的视觉关键词从而将原始图像转换为由每个像素的视觉关键词组成的图像。

步骤(5)针对图像中所有分割区域的空间位置关系，考虑相邻区域之间的空间关系，建立一阶马尔可夫网络模型，如图3所示。一阶马尔可夫网络模型模型同样是最早用于自然语言的标注，处理图像数据需要用到二维的一阶马尔可夫网络模型，其结构如图2所示，其中分别代表图像中每个区域的视觉特征和类别，图像的一组标注序列对应的概率为：

$P (c | x) = \frac{\exp (\underset{i \in N}{Σ} uF (x_{i}, c_{i}) + \underset{ij \in E}{Σ} vF (x_{i}, x_{j}, c_{i}, c_{j}))}{Z (x)} . - - - (1)$

$Z (x) = \underset{c}{Σ} \exp (\underset{i \in N}{Σ} uF (x_{i}, c_{i}) + \underset{ij \in E}{Σ} vF (x_{i}, x_{j}, c_{i}, c_{j})) . - - - (2)$

其中N和E分别代表一阶马尔可夫网络模型中的节点(Node)和边(Edge)的集合，u为每个节点的视觉特征对应的权重，v为边界特征对应的权重，F(x_i，c_i)对应当前节点的特征，F(x_i，x_j，c_i，c_j)对应当前边界的特征。

步骤(6)根据图像中所有区域的视觉关键词，统计其视觉关键词直方图，利用隐含狄利克雷分配对视觉关键词之间的共生关系进行建模。隐含狄利克雷分配是自然语言处理中的一种常用的主题模型，通过统计文档中的关键词出现频率等信息来得到不同关键词在不同文档中的主题信息P(w_n|z_k，d)。在利用隐含狄利克雷分配来处理图像数据时，首先需要将图像进行分块，然后对每个分块区域提取特征，并量化为若干关键词。这里假设词汇表中共有N个关键词w_n，n＝1，...，N 表示第k个主题，K为主题的数量，d＝1，...，D代表D个文档。隐含狄利克雷分配的概率图结构如图1所示，其中α为K维向量，P(θ|α)满足Dirichlet 分布，P(z|θ)满足多项式分布，β_kn＝P(w＝n|z＝k)。P(w_n|z_k，d)表示在文档d 中，对应主题z_k的关键词为w_n的概率。根据先验知识人工的确定分割区域的数量为K，根据文集C，训练一个主题数量为K隐含狄利克雷分配，从而获得每个区域中各像素属于不同主题的概率

步骤(7)结合图像中各区域之间的空间关系和共生关系，建立一种结合一阶马尔可夫网络和隐含狄利克雷分配的概率图模型。这里我们使用一阶马尔可夫网络模型来处理空间关系和连续值特征(或特征向量)，同时每个节点的类别还会受到主题信息的影响，隐含狄利克雷马尔可夫网络的条件概率公式为：

$p (c | z, x, u, v) = \frac{\exp (Σ_{k = 1}^{K} \underset{i}{Σ} δ (z_{i} = k) u_{k} F (x_{i}, c_{i}) + \underset{ij}{Σ} vF (x_{i}, x_{j}, c_{i}, c_{j}))}{Z (u, v, x, z)} . - - - (3)$

$δ (x - a) = (\begin{matrix} 1 & if>=a \\ 0 & o . w . \end{matrix}) . - - - (4)$

从图4中可以看出，与隐含狄利克雷分配模型相比，在生成每个区域的主题信息时，不仅仅考虑到每个区域对应的视觉关键词，还会利用每个区域的类别标签，而区域之间的类别标签存在着空间关系，从而弥补了隐含狄利克雷分配无法利用空间位置信息的不足；与一阶马尔可夫网络模型模型相比，在对每个区域进行分类时，不仅仅考虑到当前节点和邻域节点的视觉特征，还会利用当前区域的主题信息来辅助进行分类。从而通过结合两种模型的优点来改进图像标注的效果。

步骤(8)利用人工标注的图像数据集，按照上述步骤，分割、提取特征、量化、构造和训练模型，得到一组模型的参数。训练隐含狄利克雷马尔可夫网络的目标是为了寻找参数{α，β，s}＝argmax_{{α，β，s}}logP(D|α，β，s)，为此，我们首先建立扩展一阶马尔可夫网络模型模型，然后利用变分方法(Variational Methods)和扩展一阶马尔可夫网络模型来进行求解参数。扩展一阶马尔可夫网络模型的条件概率分布为：

$P (c | x, φ, s) = \frac{\exp (\underset{i}{Σ} {(\begin{matrix} φ_{i 1} \\ M \\ φ_{ik} \end{matrix})}^{T} (\begin{matrix} u_{1} \\ M \\ u_{k} \end{matrix}) F (x_{i}, c_{i}) + \underset{ij}{Σ} vF (x_{i}, x_{j}, c_{i}, c_{j}))}{Z (x, φ, s)} . - - - (5)$

其中φ_ik＝P(z_i＝k)为节点i对应第k个主题的概率。可以看出，扩展一阶马尔可夫网络模型利用主题的概率对一阶马尔可夫网络模型的节点特征进行了扩展。

隐含狄利克雷马尔可夫网络的训练步骤如下表所示：

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 结合图像内部空间关系及视觉共生关系的图像标注方法 [P] . 中国专利： CN102495865B . 2013.08.07
2. 结合图像内部空间关系及视觉共生关系的图像标注方法 [P] . 中国专利： CN102495865A . 2012-06-13
3. VIDEO IMAGE POSITIONAL RELATIONSHIP CORRECTION APPARATUS, STEERING ASSIST APPARATUS HAVING THE VIDEO IMAGE POSITIONAL RELATIONSHIP CORRECTION APPARATUS AND VIDEO IMAGE POSITIONAL RELATIONSHIP CORRECTION METHOD [P] . 韩国专利： KR100834323B1 . 2008-06-02

机译：视频图像位置关系校正装置，具有视频图像位置关系校正方法的转向辅助装置和视频图像位置关系校正方法
4. VIDEO IMAGE POSITIONAL RELATIONSHIP CORRECTION APPARATUS, STEERING ASSIST APPARATUS HAVING THE VIDEO IMAGE POSITIONAL RELATIONSHIP CORRECTION APPARATUS AND VIDEO IMAGE POSITIONAL RELATIONSHIP CORRECTION METHOD [P] . 欧洲知识产权局专利： EP1709810A4 . 2007-02-28

机译：视频图像位置关系校正装置，具有视频图像位置关系校正方法的转向辅助装置和视频图像位置关系校正方法
5. VIDEO IMAGE POSITIONAL RELATIONSHIP CORRECTION APPARATUS, STEERING ASSIST APPARATUS HAVING THE VIDEO IMAGE POSITIONAL RELATIONSHIP CORRECTION APPARATUS AND VIDEO IMAGE POSITIONAL RELATIONSHIP CORRECTION METHOD [P] . 韩国专利： KR20060132887A . 2006-12-22

机译：视频图像位置关系校正装置，具有视频图像位置关系校正方法的转向辅助装置和视频图像位置关系校正方法