首页> 中国专利> 基于空间Fisher向量的图像分类方法

基于空间Fisher向量的图像分类方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于空间Fisher向量的图像分类方法，主要解决现有技术中图像“前景和背景视觉歧义”问题和图像描述向量中缺乏特征点空间分布信息的问题，其实现步骤为：(1)提取所有图像的“尺度不变特征转换”特征点；(2)在训练集图像的特征点空间中，利用高斯混合聚类算法对特征点进行聚类，得到码书；(3)利用梯度向量和柯列斯基分量，生成每幅图像的Fisher向量；(4)对每幅图像进行2×2空间区域划分，分别统计各小区块的特征点个数和坐标；(5)利用各小区块的Fisher向量，拼接生成每幅图像的空间Fisher向量；(6)利用支持向量机构建分类超平面，实现图像分类。本发明能更精确的描述图像信息，提高了图像分类的准确率，可用于大规模图像分类与检索系统的构建。

著录项

公开/公告号CN103295032A

专利类型发明专利
公开/公告日2013-09-11

原文格式PDF
申请/专利权人西安电子科技大学;
展开▼

申请/专利号CN201310180579.X
发明设计人崔江涛;汪鹏;毕源良;崔苗苗;王阳;
展开▼

申请日2013-05-15
分类号G06K9/66;
代理机构陕西电子工业专利中心;
代理人王品华
地址 710071 陕西省西安市太白南路2号
入库时间 2024-02-19 20:52:29

法律信息

法律状态公告日

法律状态信息

法律状态
2022-04-26

未缴年费专利权终止 IPC(主分类):G06K 9/66 专利号:ZL201310180579X 申请日:20130515 授权公告日:20160413

专利权的终止
2016-04-13

授权

授权
2013-10-16

实质审查的生效 IPC(主分类):G06K9/66 申请日:20130515

实质审查的生效
2013-09-11

公开

公开

说明书

技术领域

本发明涉及图像处理技术领域，涉及图像分类方法，可用于影像智能化分类管理及web图片推送。

背景技术

图像分类是计算机视觉领域中的典型问题，而且随着多媒体数据的海量增长，该问题显得尤为突出。图像分类通常是根据图像的语义内容，比如特定场景、特定包含物等，给图像加上不同的类别标签，实现图像分类。图像经常受到视角、光照、遮挡等成像因素的影响，给图像的分类带来了很大的挑战。

目前，图像分类的方法主要有基于文本标签的图像分类方法和基于内容的图像分类方法。

基于文本标签的图像分类方法，主要有关键字标记法和映射划分法。

基于内容的图像分类方法主要有基于边缘特征的图像分类方法、基于颜色直方图的图像分类方法以及基于局部特征的图像分类方法。Bag of Features（BOF）方法是一种基于局部特征的分类方法，这种方法由于其简单性和高性能性而备受推崇，在图像分类和检索方面使用十分广泛。例如，清华大学和东莞理工学院联合申请的发明专利“基于视觉词典的图像分类方法”（专利申请号：CN201110175101.9，公开号：CN 102208038A）。该专利首先从图像中抽取局部关键区域，并用仿射不变性描述算子建立这些区域的特征向量，然后通过向量矢量化方法建立视觉词典(Visual Code Book)，并将图像用基于该视觉词典的频率直方图表示，最终建立分类模型实现对图像分类。该专利存在的主要不足是：第一，在将特征点分配到视觉词典中每个单词上时，使用的是“一个特征点对应一个单词”的硬分配方式，一个特征点只能被分配到一个码字上，忽略了真实图像中存在的“前景和背景视觉歧义”现象；第二，在图像矢量化时构建的频率直方图，实际上是一个局部特征点在码书上的无序集合，完全没有考虑特征点的空间布局信息，对于有明显层次特性的图像，特征点的空间布局信息可能包含了对分类产生判别性作用的信息，忽略了这一信息，将导致生成的频率直方图中的每个频率分量完全无序，无法描述出图像中相应物体在图像空间的位置范围。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于带有特征点空间分布信息的空间Fisher向量的图像分类方法，以使生成的图像描述向量能够描述出真实图像中存在的“前景和背景视觉歧义”现象，同时，使图像描述向量中频率分量相对有序，能清楚描述出图像中的物体在图像空间的位置区域。

本发明的技术方案是这样实现的：

本发明是对Bag of Features（BOF）方法的一种改进，通过使用“一个特征点对应多个单词”的软分配思想和对图像特征点进行“特征点空间划分”的思想，构成图像的空间Fisher向量，具体步骤包括如下：

（1）将待分类图像集M划分成训练集M₁和测试集M₂，提取图像集M中所有图像的“尺度不变特征转换”特征点；

（2）利用高斯混合聚类算法对训练集图像M₁中的特征点进行聚类，得到码书 λ＝{(w₁,μ₁,Σ₁),(w₂,μ₂,Σ₂),...,(w_i,μ_i,Σ_i),...,(w_K,μ_K,Σ_K)}，i＝1,...,K，K表示码书尺寸和高斯分量的个数，w_i表示第i个高斯分量的权重，μ_i表示第i个高斯分量的均值，Σ_i表示第i个高斯分量的协方差；

（3）根据码书λ生成图像集M中每幅图像的Fisher向量F₀：

3a）设图像集M中一幅图像I的特征点X={x_n,n=1,...,N}在码书λ上的概率密度函数为u_λ(X)，计算每个特征点在码书λ中第i个码字上的梯度向量：

$G_{λ_{i}} = \frac{1}{N} ▿_{λ_{i}} \log u_{λ_{i}} (X) = \frac{1}{N} Σ_{n = 1}^{N} ▿_{λ_{i}} \log (Σ_{i = 1}^{K} w_{i} u_{i} (x_{n} | λ_{i})),$

其中，N表示一幅图像中特征点的个数，表示梯度算子，K表示码书的尺寸， λ_i＝{w_i,μ_i,Σ_i}表示码书λ的第i个码字，i＝1,2,...,K，所有权重之和为1，即u_i(x_n|λ_i)表示以λ_i为参数的高斯函数；

3b）计算概率密度函数的Fisher信息矩阵：

$F_{λ_{i}} = E_{X} [▿_{λ_{i}} \log u_{λ_{i}} (X) ▿_{λ_{i}} \log u_{λ_{i}} {(X)}^{T}],$

其中，Τ表示矩阵转置运算，E_X表示概率密度函数为u_λ(X)的期望值；

3c）对信息矩阵进行柯列斯基分解，得到柯列斯基分量，即利用柯列斯基分量和步骤3a)中得到的梯度向量相乘，得到图像I的Fisher向量 $F_{0} : F_{0} = [L_{λ_{1}} G_{λ_{1}}, L_{λ_{2}} G_{λ_{2}}, . . ., L_{λ_{K}} G_{λ_{K}}];$

（4）对图像集M中每幅图像进行2×2空间区域划分，得到4个小区块B_j， j＝1,...,4，统计每个小区块中特征点个数和坐标信息；

（5）根据码书λ生成图像集M中每幅图像的空间Fisher向量SF：

5a）将每个小区块B_j看成一个分块图像，根据步骤（4）中统计出的小区块特征点的个数和坐标信息，利用步骤（3）中的方法，生成每个分块图像B_j的Fisher向量F_j；

5b）将步骤3c）中得到的图像集M中每幅图像的Fisher向量F₀和步骤5a）中得到的每个分块图像的Fisher向量F_j,j＝1,...,4进行水平顺序拼接，得到图像的空间 Fisher向量SF＝[F₀,F₁,F₂,F₃,F₄]；

（6）利用开源支持向量机系统在训练集图像M₁的空间Fisher向量SF上，构建支持向量，在测试集图像M₂上通过该支持向量得到分类超平面，实现图像分类。

本发明与现有技术相比具有以下优点：

第一，本发明使特征点以一定的概率分配到每个码字上。通过这种方式，可以在得到的Fisher向量中体现出图像中存在的“前景和背景视觉歧义”现象，更为精确的描述图像信息；

第二，本发明通过对特征点进行区块划分，统计各个小区块的特征点，能够体现出特征点在图像空间的空间布局信息；

第三，本发明通过对图像整体的Fisher向量和图像小区块的Fisher向量的水平顺序拼接，体现出了小区块的相对位置信息，使得生成的空间Fisher向量可以描述出图像中物体在图像空间的位置，更为精确的描述出图像信息，提高了图像分类的准确性。

附图说明

图1是本发明的流程图；

图2是本发明的仿真效果图。

具体实施方式

下面结合附图对本发明方案和效果作进一步详细描述。

参照图1，对本发明的实现步骤如下：

步骤1，将待分类图像集M划分成训练集M₁和测试集M₂，提取图像集M中所有图像的“尺度不变特征转换”特征点。

本步骤的实现可采用现有的尺度不变特征转换方法、SURF方法和Daisy方法，本实例采用尺度不变特征转换方法，其步骤如下：

1a）利用高斯卷积核生成图像集M中一幅图像的高斯差分尺度空间D(x,y,σ)：

D(x,y,σ)＝(G(x,y,kσ)-G(x,y,σ))*I(x,y)，

其中，*表示卷积运算，I(x,y)表示图像集M中的图像，σ表示尺度坐标， $G (x, y, σ) = \frac{1}{2 π σ^{2}} e^{- (x^{2} + y^{2}) / 2 σ^{2}}$ 表示尺度可变高斯函数， $k \in [2^{1 / 3}, 2^{1 / / 4}, 2^{1 / 5}];$

1b）在高斯差分尺度空间D(x,y,σ)和图像空间I(x,y)中，将每一个像素点(x,y)与其图像空间中的8个邻域点和高斯差分尺度空间中的18个邻域点进行比较，如果像素点(x,y)的像素值为最大值或者为最小值，则像素点(x,y)就是一个特征点，否则就不是特征点；

1c）利用特征点的梯度大小和方向给极值点指定方向参数：

$m (x, y) = \sqrt{{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L + (x, y + 1) - L (x, y - 1))}^{2}}$

θ(x,y)＝tan^-1((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))，

其中，m(x,y)表示极值点的梯度大小，θ(x,y)表示极值点的梯度方向，这样就得到特征点的位置、尺度和方向；

1d）以特征点为中心取16×16的邻域作为采样窗口，在每4×4的像素块上计算8 个方向的梯度方向直方图，绘制每个梯度方向的累加值，即可形成一个种子点。每个兴趣点取4×4共16个种子点，每个种子点含8个方向信息，于是产生一个128维度的“尺度不变特征转换”特征点。

“尺度不变特征转换”特征点对旋转变换、尺度变换和仿射变换具有不变性，一幅图像能提取到2000～4000个“尺度不变特征转换”特征点，每个特征点为128维。

步骤2，利用高斯混合聚类算法对训练集图像M₁中的特征点进行聚类，得到码书 λ。

2a）设训练集图像M₁中的特征点组成的集合为Y，Y中所有特征点由K个高斯分布混合生成，特征点的概率分布函数p(x)如下：

$p (x) = Σ_{i = 1}^{K} w_{i} u_{i} (x | μ_{i}, Σ_{i}),$

其中， $u_{i} (x | μ_{i}, Σ_{i}) = \frac{\exp {- \frac{1}{2} {(x - μ_{i})}^{T} Σ_{i}^{- 1} (x - μ_{i})}}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}}$ 表示高斯函数，D表示特征点x的维数，每个高斯分布作为一个聚类；

2b）利用K-means聚类算法对特征点进行聚类，得到K个聚类，计算第i个聚类中特征点个数与特征点集合Y中特征点的个数的比值，计算第i个聚类的均值与协方差 $Σ_{i}^{0}, i = 1,2, . . ., K;$

2c）构造特征点集合Y的对数似然函数为：

$L (Y | λ) = Σ_{s = 1}^{S} \log Σ_{i = 1}^{K} w_{i} u_{i} (x_{s} | μ_{i}, Σ_{i}),$

其中，S为集合Y的特征点个数；

2d）将步骤2b)中计算得到的和分别作为每个聚类的权重、均值和方差的迭代初始值，并带入对数似然函数L(Y|λ)中，计算得到对数似然函数值的初值；

2e）对每个聚类的权重w_i、均值μ_i和协方差Σ_i进行迭代更新：

2e1）利用贝叶斯公式，计算集合Y中特征点x_s由第i个高斯分布生成的后验概率 $γ_{s} (i) = \frac{w_{i} u_{i} (x_{s} | μ_{i}, Σ_{i})}{Σ_{k = 1}^{K} w_{k} u_{k} (x_{s} | μ_{i}, Σ_{i})};$

2e2）设第j次迭代得到的每个聚类的权重、均值和协方差分别为j＝0,1,2,3,...，利用下面的公式进行迭代更新，得到第j+1次迭代时每个聚类的权重、均值和协方差为：

$w_{i}^{j + 1} = N_{i}^{j + 1} / S$

$μ_{i}^{j + 1} = \frac{1}{N_{i}^{j + 1}} Σ_{s = 1}^{S} γ_{s} (i) x_{s}$

$Σ_{i}^{j + 1} = \frac{1}{N_{i}^{j + 1}} Σ_{s = 1}^{S} γ_{s} (i) (x_{s} - μ_{i}^{j}) {(x_{s} - μ_{i}^{j})}^{T}$

其中，表示第j次迭代完成后，每个聚类中特征点的个数，将更新得到的和带入对数似然函数L(Y|λ)中，计算第j+1次的对数似然函数值；

2f）将第j+1次迭代得到的对数似然函数值与第j次迭代得到的对数似然函数值相比，如果二者的差值变化在设定阈值T＝10^-5范围内，则迭代结束，得到每个聚类的权值、均值和协方差，即为生成的码书λ＝{w_i,μ_i,Σ_i,i=1,...,K}；否则，返回步骤2e)，继续执行对每个聚类的权值、均值和协方差进行迭代更新。

步骤3，根据码书λ生成图像集M中每幅图像的Fisher向量F₀。

3a)设图像集M中一幅图像I的特征点X={x_n,n=1,...,N}在码书λ上的概率密度函数为u_λ(X)，计算每个特征点在码书λ中第i个码字上的梯度向量：

$G_{λ_{i}} = \frac{1}{N} ▿_{λ_{i}} \log u_{λ_{i}} (X) = \frac{1}{N} Σ_{n = 1}^{N} ▿_{λ_{i}} \log (Σ_{i = 1}^{K} w_{i} u_{i} (x_{n} | λ_{i})),$

3b)计算概率密度函数的Fisher信息矩阵：

$F_{λ_{i}} = E_{X} [▿_{λ_{i}} \log u_{λ_{i}} (X) ▿_{λ_{i}} \log u_{λ_{i}} {(X)}^{T}],$

其中，Τ表示矩阵转置运算，E_X表示概率密度函数为u_λ(X)的期望值；

3c）对信息矩阵进行柯列斯基分解，得到柯列斯基分量，即利用柯列斯基分量和步骤3a)中得到的梯度向量相乘，得到图像I的Fisher向量 $F_{0} : F_{0} = [L_{λ_{1}} G_{λ_{1}}, L_{λ_{2}} G_{λ_{2}}, . . ., L_{λ_{K}} G_{λ_{K}}] .$

步骤4，对图像集M中每幅图像进行2×2空间区域划分，得到4个小区块B_j， j＝1,...,4，统计每个小区块中特征点个数和二维坐标信息。

步骤5，根据码书λ，生成图像集M中每幅图像的空间Fisher向量SL。

5a）将每个小区块B_j看成一个分块图像，根据步骤4中统计出的小区块特征点的个数和二维坐标信息，利用步骤3中的方法，生成每个分块图像B_j的Fisher向量F_j；

5b）将步骤3中得到的图像集M中每幅图像的Fisher向量F₀和步骤5a)中得到的每个分块图像的Fisher向量F_j,j＝1,...,4进行水平拼接，得到图像的空间Fisher向量 SF＝[F₀,F₁,F₂,F₃,F₄]。

步骤6，利用开源支持向量机系统在训练集图像M₁的空间局部聚合向量上构建支持向量，在测试集图像M₂上通过该支持向量得到分类超平面，实现图像分类。

所述的开源支持向量机系统是一个成熟优秀的开源系统，其依靠小样本学习后的模型参数对大样本参数进行估计，可用来进行数据分类和回归。本发明正是利用该系统在图像的空间局部聚合描述向量学习得到分类超平面，实现图像分类。

利用支持向量机系统中两个库函数，按以下步骤实现对测试集图像M₂的分类：

6a）利用支持向量机系统库函数svmtrain产生分类模型文件m_file：[m_file] =svmtrain(ops,tr_file)，其中，tr_file表示训练集图像M₁的局部聚合描述向量构成的集合，ops表示可用选项，包括支持向量机类型和核函数类型，m_file表示训练得到的分类模型文件；

6b)利用支持向量机系统库函数svmpredict对测试集图像M₂分类：[o_file]= svmpredict(m_file,te_file)，其中，te_file表示测试集图像M₂的局部聚合描述向量构成的集合，o_file表示得到的测试集图像M₂中每幅图像的类别标签。

本发明的优点可通过如下仿真进一步说明：

1、仿真内容：

用本发明和现有的BOF方法对从公用图像数据集Scene-15中选取的15个场景类别进行图像分类。这15个类别的图像张数分别为216，241，311，210，289，360， 328，260，308，374，410，292，356，215，315，其中，每个类别中各选取100张构成训练集图像M₁，剩下的图像构成测试集图像M₂，分类结果如图2。图2分别统计本发明和现有的BOF方法在码书尺寸分别为50,100,150,200,250,300,350,400这8 种情况下各自的平均分类准确率，其中，带三角的实线表示本发明的平均分类准确率曲线，带叉的虚线表示传统BOF方法的平均分类准确率曲线。

2、仿真结果：

从图2可见，本发明在码书尺寸为100时取得最佳的分类准确率为85.77%，之后分类准确率呈现下降趋势。而传统BOF方法在码书尺寸高达400时才取得最佳分类准确率，仅为82.75%。

从图2中还可以明显看到，在同一码书尺寸下，本发明的分类准确率明显高于传统BOF方法的分类准确率，能够更准确的实现图像分类。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于空间Fisher向量的图像分类方法 [P] . 中国专利： CN103295032B . 2016.04.13
2. 一种基于共享参数空间的核集成支持向量机图像分类方法 [P] . 中国专利： CN113902017A . 2022-01-07
3. Adaptive vocabulary for matching image signatures with Fisher vectors [P] . 日本专利： JP6687364B2 . 2020-04-22

机译：用于将图像签名与Fisher向量匹配的自适应词汇
4. METHOD FOR PRODUCING TWO-DIMENSIONAL SPATIOSPECTRAL ERD/ERS PATTERNS FROM ELECTROENCEPHALOGRAM, METHOD FOR CLASSIFYING MENTAL TASKS BASED ON THE TWO-DIMENSIONAL SPATIOSPECTRAL PATTERNS AND BRAIN-COMPUTER INTERFACE SYSTEM USING CLASSIFIED ELECTROENCEPHALOGRAM BY THE CLASSIFYING METHOD AS INPUT SIGNAL [P] . 韩国专利： KR101205892B1 . 2012-11-28

机译：从电子病历中生成二维空间ERD / ERS模式的方法，基于二维空间谱模式对心理任务进行分类的方法以及通过分类方法在计算机上使用分类方法分别对脑电接口系统进行分类的方法
5. Image recognition method and apparatus utilizing edge detection based on magnitudes of color vectors expressing color attributes of respective pixels of color image [P] . 美国专利： US6885771B2 . 2005-04-26

机译：基于边缘向量的图像识别方法和装置，所述边缘检测基于表示彩色图像的各个像素的颜色属性的颜色向量的大小