首页> 中国专利> 一种图像局部不变特征的语义映射方法及语义映射系统

一种图像局部不变特征的语义映射方法及语义映射系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明适用于图像处理技术领域，提供了一种图像局部不变特征的语义映射方法，所述语义映射方法包括以下步骤：步骤A：对彩色图像局部不变特征提取及描述；步骤B：提取局部不变特征后，基于监督模糊谱聚类算法对彩色图像提取的局部不变特征生成视觉词典，所述视觉词典包含有视觉特征与视觉单词的隶属关系;步骤C：根据步骤B生成的视觉词典对步骤A提取的局部不变特征所隶属图像进行语义映射以及图像描述。采用所述的图像局部不变特征的语义映射方法能消除语义鸿沟问题，提高图像分类、图像检索以及目标识别的准确性，可以促进机器视觉的理论和方法的发展。

著录项

公开/公告号CN103530633A

专利类型发明专利
公开/公告日2014-01-22

原文格式PDF
申请/专利权人深圳大学;
展开▼

申请/专利号CN201310468210.9
发明设计人李岩山;谢维信;
展开▼

申请日2013-10-09
分类号G06K9/46(20060101);G06F17/30(20060101);
代理机构深圳市恒申知识产权事务所(普通合伙);
代理人陈健
地址 518060 广东省深圳市南山区南海大道3688号
入库时间 2024-02-19 22:49:04

法律信息

法律状态公告日

法律状态信息

法律状态
2023-01-20

专利权的转移 IPC(主分类):G06K 9/46 专利号:ZL2013104682109 登记生效日:20230110 变更事项:专利权人变更前权利人:王魁广变更后权利人:湖南植保无人机技术有限公司变更事项:地址变更前权利人:410100 湖南省长沙市长沙县黄花镇岐山社区黄花综合保税区综合大楼606室变更后权利人:410000 湖南省长沙市雨花区洞井街道中意一路798号冠铭商务中心4栋1008-09

专利申请权、专利权的转移
2022-12-06

专利权的转移 IPC(主分类):G06K 9/46 专利号:ZL2013104682109 登记生效日:20221124 变更事项:专利权人变更前权利人:深圳高科新农技术有限公司变更后权利人:王魁广变更事项:地址变更前权利人:518000 广东省深圳市南山区科丰路2号特发信息港大厦A栋八楼北801-805单元变更后权利人:410100 湖南省长沙市长沙县黄花镇岐山社区黄花综合保税区综合大楼606室

专利申请权、专利权的转移
2018-09-04

专利权的转移 IPC(主分类):G06K9/46 登记生效日:20180816 变更前: 变更后: 申请日:20131009

专利申请权、专利权的转移
2017-01-18

授权

授权
2014-02-26

实质审查的生效 IPC(主分类):G06K9/46 申请日:20131009

实质审查的生效
2014-01-22

公开

公开

查看全部

说明书

技术领域

本发明属于图像处理技术领域，尤其涉及一种图像局部不变特征的语义映射方法及语义映射系统。

背景技术

随着多媒体和互联网技术的迅猛发展，图像资源与日俱增，如何让计算机自动处理和分析这些海量数据已经成为计算机视觉中的一个难题。由于计算机仅能对图像的低层视觉特征，如颜色、纹理、形状等进行处理，而人类对图像的理解总是从图像表达的语义信息进行理解。如果计算机像人类一样能从图像中提取和理解图像的语义信息，那么计算机对图像的自动分析与理解的难题将能得到很好的解决。因此，如何使计算机提取和理解图像语义信息是计算机视觉领域一直关注的热点问题。从图像的低层特征提取语义已成为解决图像低层视觉特征与高级语义之间存在着的差距即“语义鸿沟”的关键技术，它从图像的本质属性中提取特征信息,通过低层特征信息到高层语义的传递、映射和融合过程，形成对图像的语义的描述。图像的语义映射技术已经成为基于内容的图像分类、检索、识别等技术的关键技术之一。

图像的局部不变特征是指描述了图像局部稳定的特性并且具有良好的可区分性的特征，它的核心是不变性，也就是说在发生光照变化、旋转、裁剪、缩放、视角等变化时，所提取的特征都不会发生变化，它对混叠和遮挡也具有很好的克服作用。目前较常用的有SIFT，SURF，SUSAN等等。正是由于图像局部不变特征的这些优良特性，它已经被广泛的应用于图像语义信息提取的研究中。

然而，图像局部不变特征存在低层特征与高层语义之间的“语义鸿沟”，局部不变特征和图像语义没有直接的对应关系。国内外学者提出对局部不变特征的集合通过机器学习构成视觉词典，通过视觉词典来实现语义信息的提取，已经取得了较好的效果。但是由于图像的局部特征很不稳定，同样的物体可能产生出不同的局部特征，相同的局部特征也可能是出自不同的物体，导致视觉词典中的多个视觉单词表示相同的概念即“一义多词”和一个视觉单词对应图像中的不同概念即“一词多义”，从而造成视觉词典中的视觉单词不能准确的表达图像或事物，提取的语义不准确，影响图像分类和目标识别的精确度。

目前，国内外有一大批研究机构在进行图像局部不变特征的语义映射的研究工作，其中包括普林斯顿大学计算机系，美国加州大学伯克利分校的计算机系，斯坦福大学的计算机系，伊利诺斯州立大学的Beckman学会，瑞典的IDIAP 研究学会，中国科学院，浙江大学，北京交通大学，上海交通大学，西安电子科技大学等。目前在局部不变特征语义映射方面主要包括采用统计模型和采用概率生成模型两种方法。统计模型主要有词袋模型（Bag of Words,BOW）和潜在语义分析（Latent Semantic Analysis,LSA）,概率生成模型主要有概率潜在语义分析（PLSA）、潜在狄里克雷分布（LDA）。下面对现有的比较有代表性的理论和算法进行介绍。

（1）基于统计模型的算法的研究现状

Josef等人提出BOW模型，先对训练图像集进行视觉特征提取、聚类形成视觉词典(visual dictionary)或码本(Code book)，词典中的每个视觉单词 (Visual Word)，对应于图像中的一个局部块特征，再分别把各图像按视觉词典进行量化来表示。这种方法的缺点是未考虑“一义多词”（多个视觉单词表示相同的概念）和“一词多义”（一个视觉单词对应图像中的不同概念）问题。此外，由于图像的量化表示的维数太高，相当于视觉词典容量，导致分类性能低下。Jingen将图像表示成最大化互信息共聚类方式来学习潜在语义，对视觉单词聚类的同时，完成图像场景分类。FeiFei等提出了一种分层的Bayesian模型从低层图像特征提取图像语义,在场景分类中取得了良好的应用效果。 Vailaya等提出了由图像的低层基本特征到高层语义分类特征之间进行映射的一种可行的数据描述方法,并通过基于Bayes概率公式的方法加以实现。

国内研究者也较早的开始了这方面的研究，近年来更是涌现了一大批优秀的算法。石跃祥、蔡自兴等从高级信息的角度来描述图像语义,建立图像语义的特征矢量空间和语义划分的结构关系,实现了图像与语义值的结构表达,构建了低层特征到高层语义的映射结构与计算表达式,并将特征值应用于图像检索。莫浩澜等通过在低层视觉特征上提取图像的局部颜色和纹理特征,再利用模糊神经网络建立低层视觉特征和高层语义特征之间的映射,实现了图像属性信息的有效传递和可靠检索。段菲和章毓晋提出了一种基于有监督子空间建模和稀疏表示的场景分类算法。该算法将采用非监督方式求取所有场景类别公共字典的稀疏编码模型分解为一系列各目标函数相互独立的多目标优化问题，实现了各类别字典的有监督学习。在所有类别的字典学习完毕后，再以各子空间和的基集来对每幅图像中所有局部特征进行协同编码，并借助空间金字塔表示 (SPR)和特征各维最大汇总(max pooling)构成最终图像的全局特征表示。傅光磊、蒋兴浩等人提出了分层语义模型，将复杂语义进行解析从而形成层次化结构，并提出了与分层语义模型相对应的语义绑定的分层视觉词汇库，给出了构建词汇库的方法，并在基于内容和语义的图像检索系统进行了应用。赵春晖和王莹提出了一种基于兴趣区域(Region Of Interest,ROI)提取以及金字塔匹配原理的优化方法，在此基础上构建了词袋模型。王宇新和郭禾等人以传统的词袋模型为基础，根据同类场景图像具有空间相似性的特点，提出了一种用于图像场景分类的空间视觉词袋模型。首先将图像进行不同等级的空间划分，针对对应空间子区域进行特征提取和k均值聚类，形成该区域的视觉关键词，进而构建整个训练图像集的空间视觉词典。贾世杰和孔祥维提出基于数据驱动的核函数构建方法;并结合词包(BOW)模型，设计了一种基于TF-IDF规则的加权二次卡方(Weighted QuadriticChisquared,WQC)距离的直方图核函数。朱旭锋，马彩文和刘波为了解决飞机、直升机、导弹等三类空中目标图像的自动分类问题，提出了一种基于改进词袋模型的空中目标识别方法。庄凌和庄越挺等人提出通过研究文本与图像两种模态之间关系来构建反映两者间潜在语义关联的有效模型的思路，该模型使用稀疏的相关性分析方法提高模型可解释性和保证检索结果稳定性。

（2）基于概率生成模型的算法的研究现状

概率生成模型主要包括概率潜在语义分析(probabilistic LatentSemanticAnalysis，PLSA)和潜在狄利克雷分布 (LatentDirichletAllocation，LoA)等。将图像看作是由多个语义主题所构成的场景，也可把其中发现的语义主题看作是目标类，那么一幅包含多个目标实例的场景可认为是由一组主题混合构建的概率模型而形成，通过场景中语义主题的分布划分语义类别。Pedro和Anna等学者认为PLSA模型在生成鲁棒的低维场景表示的同时，可以捕获有意义的场景主题。他们在使用灰度SIFT特征的基础上建立Bow描述，采用PLSA模型来产生图像场景的潜在语义信息，实现场景类的判别。Florent等人根据所有待考察的场景内容，在利用高斯混合模型 (GaussianMixtureModel，GMM)对视觉词汇表进行建模的基础上，定义了一个通用视觉词典，在此基础上调整生成类视觉词典，并采用一组直方图，每个直方图对应某一类别，以判断图像适合采用何种视觉词典进行建模。FeifeiLi和 Lijia Li提出了两种LDA的变形模型用于场景分类。在场景主题分布不变的前提下，通过对各场景类图像进行有监督的模型学习，将局部区域聚类为不同的主题(局部语义概念)。局部区域和中层语义的分布通过概率生成模型学习，避免了人为的图像标注过程。Anna Bosch等人首先利用概率潜在语义分析（PLSA）在每个图像数据上发现主题语义，然后利用多类分类器对每副图像的主题分布矢量进行分类。李志欣和施智平等人在概率潜语义分析的基础上，提出了一种融合语义主题的方法以进行图像的标注和检索，设计了一个概率模型分别从视觉模态和文本模态中捕获潜在语义主题，并提出了一种自适应的不对称学习方法融合两种语义主题，于是融合之后的概率模型适当地关联了视觉模态和文本模态的信息。

发明内容

本发明所要解决的技术问题在于提供一种图像局部不变特征的语义映射方法及语义映射系统，旨在解决局部不变特征与图像语义之间的映射的一词多义和一义多词的问题。

本发明是这样实现的，一种图像局部不变特征的语义映射方法，包括以下步骤：

步骤A：对彩色图像局部不变特征提取及描述；

步骤B：提取局部不变特征后，基于监督模糊谱聚类算法对彩色图像提取的局部不变特征生成视觉词典，所述视觉词典包含有视觉特征与视觉单词的隶属关系;

步骤C：根据步骤B生成的视觉词典对步骤A提取的局部不变特征所隶属图像进行语义映射以及图像描述。

进一步地，所述步骤A包括以下步骤：

步骤A1：对彩色图像建立彩色图像矢量场模型；

步骤A2：建立并分析所述彩色图像矢量场模型中的矢量场尺度空间,在所述矢量场尺度空间中搜索与定位局部不变特征；

步骤A3：对提取的所述局部不变特征进行描述。

进一步地，所述步骤A1包括以下步骤：

步骤A11：对彩色图像f建立的所述彩色图像矢量场模型为：其中e₁,e₂,e₃为超虚构单元；f(x,y)表示彩色图像像素值，x表示像素点的x坐标，y表示像素点的y坐标，f_i(x,y)表示彩色图像第i通道的像素值；

步骤A12：对所述彩色图像f进行变换，f(x,y)=f_lu(x,y)e_lu+f_ch(x,y)E_ch，其中所述的彩色图像f分成两个量，分别为f_lu亮度量、f_ch色度量，f_lu(x,y)中x表示x轴坐标，y表示y轴坐标，f_ch(x,y)中x表示x 轴坐标，y表示y轴坐标，e_lu表示亮度投影轴，E_ch表示色度投影平面，e₁,e₂,e₃为超虚构单元。

进一步地，所述步骤A2包括以下步骤：

步骤A21：根据如下公式得到所述彩色图像f的矢量场尺度空间L_c： L_c={L_c(x,y,k∑)|k=1,2,....,m}，其中g_k表示g_k(x,y,∑),f_k表示 f_k(x-i-p,y-j-q)，g'_l表示g'_l(p,q,∑)，M和N表示卷积窗口尺寸，G_n+2(·)和 f(·)的积是几何积，G₃₊₂(x,y,∑(i))表示高斯核， $G_{3 + 2} (x, y, Σ (i)) = Σ_{i = 1}^{3} (\frac{1}{2 π {(Σ (i))}^{2}} \exp (- \frac{(x^{2} + y^{2})}{{2 (Σ (i))}^{2}})) e_{i},$ G₃₊₂(x,y,∑(i))中x表示x轴坐标，y表示y轴坐标，f(x,y)表示彩色图像，x表示x轴坐标，y表示y轴坐标，∑(i)=σ_i， 0≤i≤n,σ_i是第i个通道的图像的高斯滤波函数的方差，为了表示的方便在文中用∑来表示∑(i)；

步骤A22：在所述矢量场尺度空间L_c中，通过相邻尺度图像的差分，获得矢量高斯差分图，表示为D(x,y,∑)，其中D(x,y,∑)=L_c(x,y,k∑)-L_c(x,y,∑)，k为两相邻尺度空间尺度的倍数，

其中D_i,j是矢量空间中的多维矢量，m和n是图像的尺寸。

进一步地，所述步骤A3包括以下步骤：

步骤A31：对于在L_c(x,y,Ω)中的一个特征点，其幅值和m(x,y)和方向θ(x,y)表示为：

$m (x, y) = \sqrt{{(| L_{c} (x + 1, y, Σ) - L_{c} (x - 1, y, Σ) |)}^{2} + {(| L_{c} (x, y + 1, Σ) - L_{c} (x, y - 1, Σ) |)}^{2}},$

$θ (x, y) = \arccos (\frac{(L_{c} (x + 1, y, Σ) - L_{c} (x - 1, y, Σ)) \cdot (L_{c} (x, y + 1, Σ) - L_{c} (x, y - 1, Σ))}{| (L_{c} (x + 1, y, Σ) - L_{c} (x - 1, y, Σ)) | | (L_{c} (x, y + 1, Σ) - L_{c} (x, y - 1, Σ)) |})$

步骤A32：通过方向直方图来对特征点周围的方向进行统计，具有最大统计值的方向作为所述特征点的主方向，并形成特征描述矢量。

进一步地，所述步骤B包括以下步骤：

步骤B1：根据数据集构造一个无向加权图G={V,E}，其表示形式为一对称矩阵W=[W_ij]_n×n，称该矩阵为相似矩阵，其中Z是顶点的集合，W_ij表示连接顶点 i与j的权值，W_ij的值由测度函数决定；

步骤B2：根据每个特征的类别信息建立每个特征对应类别的隶属度函数，根据隶属度函数重新调整相似矩阵W，生成模糊相似矩阵W’；

步骤B3：构造矩阵V=[v₁,v₂,…,v_q]∈R^n×q，其中，v_i为列向量，v₁,v₂,…,v_q为H的q个最大特征值所对应的特征向量，L为对角度矩阵 w′_ij=f(w_ij,μ_ik,μ_jk)；

步骤B4：将矩阵V的行向量规范化，得到矩阵Y，其中将Y 的每一行看成是R^q空间内的一点，使用核模糊C均值聚类将其聚为q类，图像局部不变特征在经过模糊谱聚类后形成q个聚类中心矢量，所述中心矢量即视觉单词，属于同一类物体目标的特征形成一个特定的单词词典，这些视觉单词词典组成一个视觉词典集合VW={VW₁,VW₂,...,VW_m}，其中VW_i={vw_i1,vw_i2,...,vw_ik}为每个物体的视觉词典。

进一步地，所述步骤C包括以下步骤：

步骤C1：根据步骤A的方法提取测试图像f的局部不变特征，得到特征集合为：S={s₁,s₂,...s_n}，其中s_i为提取的局部不变特征，n为提取的特征个数；

步骤C2：定义视觉特征s_i到视觉单词v_jt的隶属度函数为μ(s_i,v_jt,L)，其中L为视觉特征s_i到视觉单词v_jt在空间上的拓扑关系；

设置隶属度函数为：

$μ_{{vw}_{ik}} ({st}_{i}) = (\begin{matrix} \frac{1}{1 + {[α (d^{'} - γ)]}^{β}}, & d^{'} > γ \\ 1, & d^{'} \leq γ \end{matrix})$

其中d_i=|vw_ik,st_i|，是vw_ik,st_i的欧式距离，d_max是D中的最大值，(α,β,γ) 为（2.36881,1.40572,160079）；

步骤C3：一个视觉特征对每个属于不同物体类别的视觉单词具有一个在 [0,1]间的隶属度值，将测试图片中提取的所有特征点到视觉单词的隶属度值累加，形成视觉单词隶属度直方图，通过统计方法提取测试图像f含有的语义信息。

本发明还提供一种图像局部不变特征的语义映射系统，包括：

提取及描述模块，用于对彩色图像局部不变特征提取及描述；

视觉词典生成模块，利用模糊集理论基于有监督模糊谱聚类的方法生成视觉词典；

映射及描述模块，用于对基于局部不变特征隶属度的图像进行语义映射以及图像描述。

进一步地，所述提取及描述模块包括：

模型建立模块，用于对彩色图像建立彩色图像矢量场模型；

矢量场尺度空间建立与分析模块，用于建立并分析所述彩色图像矢量场模型的矢量场尺度空间，在所述矢量场尺度空间模块中搜索与定位局部不变特征；

特征提取和描述模块，用于对提取的所述局部不变特征进行矢量描述；

所述模型建立模块包含矢量场模型建立模块和图像变换模块；

所述矢量场模型建立模块生成的彩色图像矢量场模型为：其中e₁,e₂,...,e_n为超虚构单元；f(x,y)表示彩色图像像素值，x表示像素点的x坐标，y表示像素点的y坐标，f_i(x,y)表示彩色图像第i通道的像素值；

所述图像变换模块，对所述彩色图像f进行变换 f(x,y)=f_lu(x,y)e_lu+f_ch(x,y)E_ch，其中所述的彩色图像f分成两个量，分别为f_lu亮度量、f_ch色度量，f_lu(x,y)中x表示x轴坐标，y 表示y轴坐标，f_ch(x,y)中x表示x轴坐标，y表示y轴坐标，e_lu表示亮度投影轴，E_ch表示色度投影平面，e₁,e₂,...,e_n为超虚构单元；

所述矢量场尺度空间建立与分析模块包含矢量场尺度空间建立模块和彩色图像SIFT特征提取模块；

所述矢量场尺度空间建立模块，根据公式L_c={L_c(x,y,kΩ)|k=1,2,....,m} 得到矢量场尺度空间，其中g_k表示g_k(x,y,∑),f_k表示 f_k(x-i-p,y-j-q)，g'_l表示g'_l(p,q,∑)，M和N表示卷积窗口尺寸，G_n+2(·)和 f(·)的积是几何积，G₃₊₂(x,y,∑(i))表示高斯核， $G_{3 + 2} (x, y, Σ (i)) = Σ_{i = 1}^{3} (\frac{1}{2 π {(Σ (i))}^{2}} \exp (- \frac{(x^{2} + y^{2})}{{2 (Σ (i))}^{2}})) e_{i},$ G₃₊₂(x,y,∑(i))中x表示x轴坐标，y表示y轴坐标，f(x,y)表示彩色图像，x表示x轴坐标，y表示y轴坐标，∑(i)=σ_i， 0≤i≤n,σ_i是第i个通道的图像的高斯滤波函数的方差，后续用∑来表示∑(i)；

所述彩色图像SIFT特征提取模块，在所述矢量场尺度空间L_c中，通过相邻尺度图像的差分，获得矢量高斯差分图，表示为D(x,y,∑)，其中 D(x,y,∑)=L_c(x,y,k∑)-L_c(x,y,∑)，k为两相邻尺度空间尺度的倍数，

其中D_i,j是矢量空间中的多维矢量，m和n是图像的尺寸；

所述特征提取和描述模块包含特征点描述模块和彩色图像SIFT特征描述模块；

所述特征点描述模块，对于在L_c(x,y,Ω)中的一个特征点，其幅值和m(x,y)和方向θ(x,y)表示为：

$m (x, y) = \sqrt{{(| L_{c} (x + 1, y, Σ) - L_{c} (x - 1, y, Σ) |)}^{2} + {(| L_{c} (x, y + 1, Σ) - L_{c} (x, y - 1, Σ) |)}^{2}},$

所述彩色图像SIFT特征描述模块，通过方向直方图来对特征点周围的方向进行统计，以具有最大统计值的方向作为所述特征点的主方向，并形成特征描述矢量。

进一步地，所述视觉词典生成模块包含：

对称矩阵模块，根据数据集构造一个无向加权图G={V,E}，其表示形式为一对称矩阵W=[W_ij]_n×n，其中V是顶点的集合，W_ij表示连接顶点i与j的权值， W_ij的值由测度函数决定；

模糊相似矩阵模块，根据每个特征的类别信息建立每个特征对应类别的隶属度函数，根据隶属度函数重新调整相似矩阵W，生成模糊相似矩阵W’；

构造矩阵模块，用于构造矩阵V=[v₁,v₂,…,v_q]∈R^n×q，其中，v_i为列向量， v₁,v₂,…,v_q为H的q个最大特征值所对应的特征向量，L为对角度矩阵w′_ij=f(w_ij,μ_ik,μ_jk)；

单词词典模块，将所述矩阵V的行向量规范化，得到矩阵Y，其中将Y的每一行看成是R^q空间内的一点，使用核模糊C均值聚类将其聚为q类，图像局部不变特征在经过模糊谱聚类后形成q个聚类中心矢量，所述中心矢量即视觉单词，属于同一类物体目标的特征形成一个特定的单词词典，这些视觉单词词典组成一个视觉词典集合VW={VW₁,VW₂,...,VW_m}，其中VW_i={vw_i1,vw_i2,...,vw_ik} 为每个物体的视觉词典；

所述映射及描述模块包含：特征集合模块，根据步骤A的方法提取测试图像f的局部不变特征，得到特征集合为：S={s₁,s₂,...s_n}，其中s_i为提取的局部不变特征，n为提取的特征个数；

隶属度函数模块，定义视觉特征s_i到视觉单词v_jt的隶属度函数为μ(s_i,v_jt,L)，其中L为视觉特征s_i到视觉单词v_jt在空间上的拓扑关系；

设置隶属度函数为： $μ_{{vw}_{ik}} ({st}_{i}) = (\begin{matrix} \frac{1}{1 + {[α (d^{'} - γ)]}^{β}}, & d^{'} > γ \\ 1, & d^{'} \leq γ \end{matrix}),$ 其中 $d_{i} = \frac{d_{i}}{d_{\max}},$ d_i=|vw_ik,st_i|，是vw_ik,st_i的欧式距离，d_max是D中的最大值，(α,β,γ)为（2.36881,1.40572,160079）；

语义信息模块，根据视觉特征对每个属于不同物体类别的视觉单词具有一个在[0,1]间的隶属度值，将测试图片中提取的所有特征点到视觉单词的隶属度值累加，形成视觉单词隶属度直方图，并通过统计方法提取测试图像f含有的语义信息。

本发明所述的图像局部不变特征的语义映射方法通过分析图像局部不变特征的语义鸿沟问题，采用模糊集理论进行图像局部不变特征的语义的提取，消除语义鸿沟问题，提高图像分类、图像检索、目标识别的准确性，可以促进机器视觉的理论和方法的发展。

附图说明

图1是本发明图像局部不变特征的语义映射方法的步骤流程图；

图2是本发明具体实施例的方案流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明所述图像局部不变特征的语义映射方法及语义映射系统在模糊集理论的框架下，解决了局部不变特征与图像语义之间的映射的一词多义和一义多词的问题，解决的技术问题主要有：模糊视觉词典的生成方法；基于局部不变特征隶属度的图像语义映射以及图像描述方法。

如图1、图2所示，一种图像局部不变特征的语义映射方法，包括以下步骤：步骤A：对彩色图像局部不变特征提取及描述。在执行步骤A之前需要执行输入训练图像201和输入测试图像202。目前，特征提取算法都是针对灰度图像进行的，在处理彩色图像时，将彩色图像转换为灰度图像或在彩色图像的RGB三个通道上分别进行特征提取，这导致彩色图像的色彩信息丢失，从而使提取的特征的鲁棒性下降。本发明在提取彩色图像的局部不变特征时充分利用色彩信息，对基于彩色矢量分析的彩色图像局部不变特征提取及描述方法进行研究，以提高特征的独特性和鲁棒性，以及特征和语义的对应性。在几何代数的分析理论下，首先建立彩色图像矢量场模型，然后对彩色图像的矢量场尺度空间理论展开研究，接着在矢量场尺度空间中搜索与定位局部不变特征，并对提取的局部不变特征进行矢量描述。具体包括：

对彩色图像建立彩色图像矢量场模型，提取抗亮度变化的色彩成分。

在几何代数中，对彩色图像f建立的所述彩色图像矢量场模型为：其中e₁,e₂,...,e_n为超虚构单元；f(x,y)表示彩色图像像素值，x 表示像素点的x坐标，y表示像素点的y坐标，f_i(x,y)表示彩色图像第i通道的像素值，n为彩色图像的波段数。

通过运用Young-Helmholtz彩色模型理论对所述彩色图像f进行变换，得到： f(x,y)=f_lu(x,y)e_lu+f_ch(x,y)E_ch，其中e_lu表示亮度投影轴，E_ch表示色度投影平面，e₁,e₂,...,e_n为超虚构单元，所述的彩色图像f分成两个量，分别为f_lu亮度（强度）量、f_ch色度（颜色信息）量，这种颜色变换是一个线性映射，所述线性映射是由对角矢量e_lu=(1,1,1)=i_R+i_G+i_B上颜色空间的颜色矢量值像素和二维平面π_ch(C)完成的，所述二维平面π_ch(C)和所述对角矢量 e_lu垂直：π_ch(C)⊥e_lu，所述对角矢量e_lu称作亮度白矢量，所述二维平面π_ch(C)称作RGB空间的色度平面。因此，每一个像素同时被表示为一个实数f_lu和一个复数f_ch，分别对应亮度和色度信息。

分析所述彩色图像矢量场模型中的矢量场尺度空间。传统的图像尺度空间是建立在灰度图像即标量图像上的，而本发明提出在矢量场上建立尺度空间因此所建立起来的尺度空间中的各个尺度图像都是一个矢量场，称它为矢量场尺度空间。

传统的灰度图像的尺度空间是定义为原始图像I(x,y)与一个可变尺度的二维高斯函数G(x,y,delta)卷积运算。在几何代数的彩色空间中，卷积运算定义为：v_n(r)=∫∫∫_ΩQ_n(ξ)V(r-ξ)dξ，其中Q_n(ξ)和V(r-ξ)均为几何代数空间中的n维多维矢量，他们之间的乘积为几何代数积。

在卷积运算定义的基础上，彩色图像f和高斯核G_n+2(x,y,αΩ的卷积可以表示为： $G_{n + 2} (x, y, Ω) \otimes f (x, y) = \frac{1}{MN} Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} (G_{n + 2} (i, j, Ω) f (x - i, y - j)) .$

所述彩色图像f的矢量场尺度空间L_c可以由彩色图像f和高斯核G_n+2(x,y,Ω) 的卷积得到，为L_c={L_c(x,y,k∑)|k=1,2,....,m}，其中

g_i表示g_i(x,y,∑),f_i表示 f_i(x-i-p,y-j-q)，g'_i表示g'_i(p,q,∑)，g_k表示g_k(x,y,∑),f_k表示 f_k(x-i-p,y-j-q)，g'_l表示g'_l(p,q,∑)，M和N表示卷积窗口尺寸，G_n+2(·)和 f(·)的积是几何积，G₃₊₂(x,y,∑(i))表示高斯核， $G_{3 + 2} (x, y, Σ (i)) = Σ_{i = 1}^{3} (\frac{1}{2 π {(Σ (i))}^{2}} \exp (- \frac{(x^{2} + y^{2})}{{2 (Σ (i))}^{2}})) e_{i},$ G₃₊₂(x,y,∑(i))中x表示x轴坐标，y表示y轴坐标，f(x,y)表示彩色图像，x表示x轴坐标，y表示y轴坐标，∑(i)=σ_i， 0≤i≤n,σ_i是第i个通道的图像的高斯滤波函数的方差，为了表示方便，在文中用∑来表示∑(i)。

在所述矢量场尺度空间L_c中，通过相邻尺度图像的差分，获得矢量高斯差分图，表示为D(x,y,∑)，其中D(x,y,∑)=L_c(x,y,k∑)-L_c(x,y,∑)，k为两相邻尺度空间尺度的倍数，其中D_i,j是矢量空间中的多维矢量，m和n是图像的尺寸。

特征搜索策略可以采用SIFT算法的策略，在GA-DoG中进行极值点的搜索和定位。

在所述矢量场尺度空间中搜索与定位局部不变特征，并对提取的所述局部不变特征进行矢量描述。对提取的特征进行矢量化描述对特征的抗色彩变化、抗几何变化、唯一性和后续的计算复杂性等具有极大的影响，本发明从色彩分布、幅值、方向等方面展开特征描述。

对检测到的特征的描述，主要通过为每个特征点分配一个或多个方向和幅值来描述，对于在L_c(x,y,Ω)中的一个特征点，其幅值和m(x,y)和方向θ(x,y)表示为： $m (x, y) = \sqrt{{(| L_{c} (x + 1, y, Σ) - L_{c} (x - 1, y, Σ) |)}^{2} + {(| L_{c} (x, y + 1, Σ) - L_{c} (x, y - 1, Σ) |)}^{2}},$

然后通过方向直方图来对特征点周围的方向进行统计，具有最大统计值的方向作为所述特征点的主方向，并形成特征描述矢量。所述的步骤即为彩色图像SIFT特征提取203。

步骤B：提取局部不变特征后，基于监督模糊谱聚类算法对彩色图像提取的局部不变特征生成视觉词典，所述视觉词典包含有视觉特征与视觉单词的隶属关系。

针对语义鸿沟的问题，本发明利用模糊集理论擅长处理不确定性问题的优势，提出基于有监督模糊集谱聚类204的视觉词典生成方法，并对特征相似度度量函数，模糊相似度矩阵生成方法进行分析。

设从n幅p类彩色图像中提取的局部不变特征集合为S={s₁,s₂,…,s_n}，这些特征所属的类为：C={c₁,c₂,...,c_p}，其中提取的每个特征是m维向量，即 s_i={s_i1,s_i2,…,s_im}，每个特征向量都有类别标签信息。根据给定的数据集构造一个无向加权图G={V,E}，其表示形式为一对称矩阵：W=[W_ij]_n×n，称该矩阵为相似矩阵，其中Z是顶点的集合，W_ij表示连接顶点i与j的权值，W_ij的值由测度函数决定。

W_ij的值由测度函数决定，由于谱聚类算法是一种配对聚类方法，因而相似性度量的选择与算法在实际问题中的性能有着直接的关系，利用好的相似性度量不仅能够获得好的聚类性能，而且可以克服谱聚类算法对尺度参数选择较为敏感这一缺陷。因此在本发明中将对彩色图像的局部不变特征的结构关系，设计测度函数

由于特征存在对应多个语义，一个语义对应多个特征的不确定性问题，根据每个特征的类别信息建立每个特征对应类别的隶属度函数，根据隶属度函数重新调整相似矩阵，生成模糊相似矩阵，其设计方法如下：

由于提取出的局部不变特征有接近的特征，根据他们的距离将接近的特征归为同一个特征。设提取的彩色图像局部不变特征s_i∈c_a，s_j∈c_b，则当d_ij=|s_is_j|<ε，则s_i=s_j，其中ε为阈值，d_ij为欧式距离。

设与s_i的距离小于ε的特征集合为：S'_i={s_i,s_j|d_ij<ε}，这些特征属于的类c_k的集合为：C'_k={c_k|s_j∈c_k,s_j∈S'_i}，则s_i属于C'_k的隶属度函数为其中 count(S'_i)为S'_i中的元素个数，根据上式可以得到隶属度矩阵Τ={μ_ik}。

用μ_ik作为权值通过以下函数调整相似矩阵W：w′_ij=f(w_ij,μ_ik,μ_jk)。

通过函数f调整连接顶点i与j的权值，从而得到模糊相似矩阵W’。

构造Laplacian矩阵其中L为对角度矩阵求H的 q个最大特征值所对应的特征向量v₁,v₂,…,v_q,构造矩阵：V=[v₁,v₂,…,v_q]∈R^n×q，其中，v_i为列向量。

规范化V的行向量，得到矩阵Y,其中将Y的每一行看成是R^q空间内的一点,使用核模糊C均值聚类将其聚为q类。如果Y的第i行属于第j 类,则将原数据点x_i也划分到第j类。

生成视觉词典205，图像局部不变特征在经过上述的模糊谱聚类204后形成 q个聚类中心矢量，这些中心矢量即视觉单词，属于同一类物体目标的特征形成一个特定的单词词典,这些视觉单词词典组成一个视觉词典集合 VW={VW₁,VW₂,...,VW_m}，其中VW_i={vw_i1,vw_i2,...,vw_ik}为每个物体的视觉词典。

步骤C：根据步骤B生成的视觉词典对步骤A提取的局部不变特征所隶属图像进行语义映射以及图像描述。

设测试图像f，使用本发明所述的彩色图像特征提取方法提取203f的局部不变特征，得到特征集合为：S={s₁,s₂,...s_n}，其中s_i为提取的局部不变特征，n 为提取的特征个数。

设由前面所提视觉词典生成算法得到的视觉词典集合为{VW₁,VW₂,...,VW_m}，其中VW_i为一个物体目标的视觉词典，它由若干个视觉单词组成，即： VW_i={vw_i1,vw_i2,...,vw_ik}，其中vw_ij为视觉单词，k为VW_i中的视觉单词的数量。

特征与视觉单词的相似度度量206，由于传统的视觉特征到视觉单词的映射过程中，存在视觉特征与多个视觉单词存在不同程度的相似度，采用精确的阈值进行划分容易造成图像描述不准确，因此本发明采用模糊多值逻辑方法进行特征到视觉单词的映射，定义视觉特征s_i到视觉单词v_jt的隶属度函数为μ(s_i,v_jt,L)，其中L为视觉特征s_i到视觉单词v_jt在空间上的拓扑关系。

视觉单词隶属度直方图描述图像207，一个视觉特征对每个属于不同物体类别的视觉单词具有一个在[0,1]间的隶属度值，将测试图片中提取的所有特征点到视觉单词的隶属度值累加，从而形成视觉单词隶属度直方图，通过统计方法提取测试图像f含有的语义信息。

基于上述图像局部不变特征语义映射方法的基础上，本发明还提供了图像局部不变特征的语义映射系统，包括：提取及描述模块、视觉词典生成模块和映射及描述模块。所述提取及描述模块用于对彩色图像局部不变特征提取及描述，所述视觉词典生成模块利用模糊集理论基于有监督模糊谱聚类的方法生成视觉词典，所述映射及描述模块用于对基于局部不变特征隶属度的图像进行语义映射以及图像描述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种图像局部不变特征的语义映射方法及语义映射系统 [P] . 中国专利： CN103530633B . 2017.01.18
2. 一种图像局部不变特征的语义映射方法及语义映射系统 [P] . 中国专利： CN103530633A . 2014-01-22
3. METHODS AND SYSTEM DESIGN FOR INDOOR NAVIGATION OF AN AUTONOMOUS ROBOT WITH LOCALIZATION USING SEMANTIC MAPS AND THE USE THEREOF [P] . SG10201605032TA . 2018-01-30

机译：语义映射局部化自主机器人室内导航的方法和系统设计及其应用
4. System and method for automated semantic map generation [P] . US10989555B2 . 2021-04-27

机译：自动语义映射生成的系统和方法
5. System and Method for Semantic Mapping of Natural Language Input to Database Entries via Convolutional Neural Networks [P] . 美国专利： US2018268023A1 . 2018-09-20

机译：通过卷积神经网络将自然语言语义映射到数据库条目的系统和方法