首页> 中国专利> 基于短语包模型的图像类别标注方法

基于短语包模型的图像类别标注方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明为一种基于短语包模型的图像类别标注方法，该方法在现有的字包模型表示的基础上，引入视觉字之间的位置信息，提出了短语包模型表示策略。本发明有效的解决了传统字包模型缺乏位置信息导致判别性不足与加入分块的位置信息后对目标位移敏感之间的矛盾；使得图像在引入视觉字之间的位置信息而增加了判别性的同时，消除了对目标在图像中位移的敏感性，有效地提高了图像类别标注系统的性能，具有重要的应用价值。

著录项

公开/公告号CN101894264A

专利类型发明专利
公开/公告日2010-11-24

原文格式PDF
申请/专利权人中国科学院自动化研究所;
展开▼

申请/专利号CN201010195097.8
发明设计人肖柏华;张琳波;王春恒;惠康华;邵允学;蔡新元;
展开▼

申请日2010-05-31
分类号G06K9/62;
代理机构中科专利商标代理有限责任公司;
代理人梁爱荣
地址 100080 北京市海淀区中关村东路95号
入库时间 2023-12-18 01:09:32

法律信息

法律状态公告日

法律状态信息

法律状态
2023-06-09

未缴年费专利权终止 IPC(主分类):G06K 9/62 专利号:ZL2010101950978 申请日:20100531 授权公告日:20121114

专利权的终止
2012-11-14

授权

授权
2011-01-05

实质审查的生效 IPC(主分类):G06K9/62 申请日:20100531

实质审查的生效
2010-11-24

公开

公开

说明书

技术领域

本发明属于模式识别与信息处理技术领域，涉及基于短语包模型的图像类别标注方法，具体的是一种图像分类方法。

背景技术

由于数码相机等数码产品的低廉价格，图片、视频数据可以很方便的拍摄并保存成方便计算机处理的电子形式。同时，互联网资源的迅猛发展，使得广大用户开始面临一个庞大的数据资源。单纯的利用人力来维护和组织这些数据已经变得不现实。因此，开发一种技术来完成图像、视频数据的自动标注，成了一个热点问题。

总的来说，如何合理的表示图像比后来用于对这些表示进行分类的分类技术更为重要。道理可以通过一个例子来说：两幅不同类别的图像，由于表示策略不好，被表示成了相同的向量；此时，即使使用一个万能的分类器对这种情况也是无能为力的。因此，图像内容表示，是图像类别标注技术中核心的问题之一。

最初，人们更喜欢使用从整幅图像抽取的全局特征来表示图像。但是这种全局特征在表示图像方面遇到很多问题，比如它对目标轻微的遮挡以及复杂背景的混淆缺乏鲁棒性。另一方面，基于局部图像块的方法，却受到了越来越多的关注。人体生理学家发现，人类视觉早期分为“留意前”阶段(pre-attentive stage)和“留意”阶段(attentive stage)。在“留意前”阶段，一些比较特别的局部特征开始捕获人的注意力；然后，在“留意”阶段，人类视觉器官开始注意这些局部特征之间的关系。在这种思想的影响下，图像内容分类取得了重大进展。

对应着“留意前”阶段，大量的局部特征检测子和局部特征描述子被提出，用来捕获图像中比较特别的局部特征。例如，目前的检测子有：角点检测子、区域检测子、水滴状形状检测子，边缘检测子等等。而为了对这些检测到的区域进行向量化描述，研究者又提出了大量局部特征描述子，包括：基于滤波的描述方法、基于统计的描述方法，基于边缘的描述方法以及基于矩的描述方法等等。这些方法各有优缺点，被广泛的应用于局部特征的提取过程之中。

得到上面提到的局部特征以后，如何组织这些特征以利于分类开始提上日程，也即，对应着人类视觉中的“留意”阶段。为了有效地组织这些局部特征，大量的组织模型在过去的几年被先后提出。总的来说，这些模型大致可以分为一下几个大类：字包(bag-of-words)模型、部分-全局(part-structure)模型、轮廓片段相关的模型、语义场景相关的模型、生物感知相关的模型等等。在这些模型当中，字包模型以其计算简单，性能鲁棒等优点，在过去的几年取得了很大的成功。

字包模型首先被应用于文本分类领域，它的主要思想是：建立一个码本，码本中包含对分类具有判别性的字；然后统计码本中的每个字在当前文本中出现的次数，形成一个出现次数直方图向量。然后这个向量被用作文本的表示向量，输入分类器进行分类。

然后，这种思想被引入计算机视觉。其中的文本与字分别对应着计算机视觉领域的图像和局部特征(又称视觉字)，码本在计算机视觉领域也成为码本，只是它是由一系列具有代表性的局部特征/视觉字构成；相应的，图像被表示成了码本中的局部特征在图像中出现次数形成的直方图向量。这些向量可以代表图像直接被输入分类器进行分类。

但是，正如众多研究者指出的那样，字包模型把图像中重要的位置信息丢掉了。为了引入部分位置信息，有的研究者提出把原图像分块，然后在每个块内分别建立直方图的方式。但是，随着分块的增多，分类结果对目标在图像中的位置变得越来越敏感，使得字包模型对目标在图像中位置鲁棒的优点消失殆尽。

发明内容

为了解决现有字包模型存在的问题，本发明目的是在不影响现有的字包模型鲁棒性的同时引入局部特征点之间的结构位置信息，提高图像表示的质量，进而提高自动标注系统的性能，为此本发明提供一种基于短语包模型的图像类别标注方法。

为了达到所述目的，本发明提供一种基于短语包模型的图像类别标注方法，该图像类别标注方法，通过分析字包模型中视觉字之间的位置关系，将视觉字发展为视觉短语，进而提出基于短语包模型的图像内容表示，然后利用短语包模型的表示结果训练分类器以及输入分类器进行类别标注。

其中，所述基于短语包模型的图像内容表示包括步骤如下：

步骤S1：对任意图像I_i，利用局部特征点检测子，得到图像中所有的局部特征点P_i＝{p_ij}，j＝1，2，...，N_i，其中N_i为在图像I_i中检测到的所有局部特征点的个数；

步骤S2：对步骤S1得到的局部特征点p_ij利用局部特征描述子，描述它周围局部区域的纹理特征，形成局部特征点p_ij的向量描述f_ij，将向量描述f_ij作为局部特征点p_ij对应的视觉字；

步骤S3：对步骤S1得到的局部特征点p_ij描述图像I_i中其它特征点p_iu∈P_i，u≠j在局部特征点p_ij周围的分布情况，形成分布向量s_ij；

步骤S4：向量描述f_ij与分布向量s_ij联接，形成局部特征点p_ij对应的视觉短语z_ij，z_ij＝[f_ij，s_ij]；

步骤S5：在所有图像得到的视觉短语中，选择K个具有代表性的视觉短语，构建码本C；将码本中的每个视觉短语作为码本短语；

步骤S6：将每一幅图像I_i中的所有局部特征点p_ij对应的视觉短语z_ij按照最近邻原则，映射到码本C中距离它最近的码本短语上面，将该码本短语作为视觉短语z_ij的代表；

步骤S7：统计码本C中每个码本短语在图像I_i中出现的次数，形成码本短语出现次数直方图向量v_i，作为图像I_i的基于短语包模型的图像内容表示。

其中步骤S1中局部特征点检测子是现有众多局部特征点检测子中任意的一种。

其中步骤S2中局部特征点描述子是现有众多局部特征点描述子中任意的一种。

其中步骤S3中描述图像I_i中其它特征点p_iu∈P_i，u≠j在局部特征点p_ij周围的分布情况具体方式如下：

步骤S31：以局部特征点p_ij为圆心，分别以r₁，r₂，...，r_R为半径画R个同心圆；将得到的每个圆环，按照方向均匀O等分，得到的多个格子，需要注意的是最小的圆不作划分；

步骤S32：统计图像I_i中其它特征点p_iu∈P_i，u≠j落入每个格子内的个数，未落入格子内的特征点忽略不计；

步骤S33：属于同一方向的格子内点的个数相加，选择特征点数量最多的方向，作为局部特征点p_ij周围特征点分布的主方向θ_ij；

步骤S34：为了使得局部特征点p_ij对距离比较近的其它特征点敏感，而随着距离增加，影响减弱，将分别以r₁，r₂，...，r_R为半径的R个同心圆为外界的格子内的个数分别除以δ₁，δ₂，...，δ_R，作为每个格子内的新的个数；

步骤S35：顺次统计每个格子内的个数，形成特征点p_ij周围特征点分布直方图s_ij；具体统计方式按照从里向外的方式，对处于同一圆环上的方格，从主方向θ_ij开始，顺时针旋转统计。

其中步骤S5中码本C的构建采用K-均值聚类的方式；具体描述如下：从所有图像得到的视觉短语中，随机选择M个视觉短语；对这M个视觉短语进行K-均值聚类，形成K个聚类中心；这K个聚类中心即为我们需要的具有代表性的码本短语，构成码本C。

其中，所述分类器是普通的支持向量机分类器。

本发明的有益效果：与现有的传统基于字包表示模型的图像类别标注方法相比，本发明方法具有如下特点：

1.与传统的字包模型表示相比，本发明中的短语包模型引入局部特征/视觉字之间的结构位置信息，可以大大提高表示向量的判别性。

2.与采用图像分块的方法相比，本发明只是捕获局部特征点与局部范围内其他特征点之间的结构位置信息，对目标在图像中的位移具有很强的鲁棒性。

本发明有效的解决了传统字包模型缺乏位置信息导致判别性不足与加入分块的位置信息后对位移敏感的矛盾，使得图像在引入特征点之间的位置信息而增加了判别性的同时，消除了对目标在图像中位移的敏感程度，有效地挺高了图像标注系统的性能。

附图说明

图1是本发明步骤S31中，R＝5，O＝12的实例。

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明具体实施方式描述如下：

步骤S1：对任意图像I_i，利用基于小波的局部特征点检测子，得到图像中所有的局部特征点P_i＝{p_ij}，j＝1，2，...，N_i，其中N_i为图像I_i中所有局部特征点的个数，在本发明的实验当中N_i被设置为1000，也就是在每一幅图像中检测1000个局部特征点；

步骤S2：对步骤S1得到的局部特征点p_ij,利用局部特征描述子尺度不变特征变换(SIFT)，描述它周围局部区域的纹理特征，形成局部特征点p_ij的向量描述f_ij，我们称f_ij为特征点p_ij对应的视觉字，在本发明的试验当中，由SIFT描述子得到的向量f_ij为128维向量；

步骤S3：对步骤S1得到的局部特征点p_ij，描述图像I_i中其它特征点p_iu∈P_i，u≠j在局部特征点p_ij周围的分布情况，形成分布向量s_ij，具体描述如下：

步骤S31：如图1示出，以p_ij(红点)为圆心，分别以r₁，r₂，...，r_R为半径画R个同心圆；将得到的每个圆环，按照方向均匀O等分，需要注意的是最小的圆不作划分。例如，在本发明的试验当中，R＝5，(r₁，r₂，r₃，r₄，r₅)＝(4，8，14，22，32)，O＝12。

步骤S32：统计图像I_i中其它特征点p_iu∈P_i，u≠j落入步骤S31中得到的每个格子内的个数，未落入格子内的特征点忽略不计。

步骤S33：属于同一方向的格子内点的个数相加，选择特征点数量最多的方向，作为特征点p_ij周围特征点分布的主方向θ_ij。

步骤S34：为了使得特征点p_ij对距离比较近的其它特征点敏感，而随着距离增加，影响减弱，将分别以r₁，r₂，...，r_R为半径的R个同心圆为外界的格子内的个数分别除以δ₁，δ₂，...，δ_R，作为每个格子内的新的个数。在我们试验中(δ₁，δ₂，δ₃，δ₄，δ₅)＝(1，2，3，4，5)。

步骤S35：顺次统计每个格子内的个数，形成特征点p_ij周围特征点分布直方图向量s_ij。具体统计方式按照从里向外的方式，对处于同一圆环上的方格，从主方向θ_ij开始，顺时针旋转统计；在本发明的实验当中，直方图向量s_ij的维数为12×4+1＝49。

步骤S4：向量f_ij与向量s_ij联接，形成局部特征点p_ij对应的视觉短语z_ij，z_ij＝[f_ij，s_ij]。其中，z_ij的维数为向量f_ij和向量s_ij维数之和；在本发明的实验当中，z_ij的维数为128+49＝177

步骤S5：在所有图像通过步骤S1、步骤S2、步骤S3、步骤S4得到的视觉短语中，选择K个具有代表性的视觉短语，构建码本C。码本中的每个视觉短语我们成为码本短语。码本C的构建具体描述如下：从所有图像得到的视觉短语中，随机选择M个视觉短语；对这M个视觉短语进行K-均值聚类，形成K个聚类中心。这K个聚类中心即为我们需要的具有代表性的码本短语，构成码本。在本发明的试验当中，M＝300,000，K＝2000。

步骤S6：对每一幅图像I_i中的局部特征点p_ij对应的视觉短语z_ij按照最近邻原则，映射到码本C中距离它最近的码本短语上面。即将码本C中距离视觉短语z_ij最近的码本短语作为视觉短语z_ij的代表。

步骤S7：统计码本C中每个码本短语在图像I_i中出现的次数，形成码本短语出现次数直方图向量v_i，作为图像I_i的短语包模型图像内容表示。

在得到图像的短语包模型表示向量以后，这些向量可以被用于训练支持向量机或者在支持向量机分类器训练完成之后输入支持向量机进行标注。

本发明的基于短语包模型的图像类别标注方法大致描述如下：首先对所有图像，利用局部特征点检测子，得到图像中所有的局部特征点；然后，对得到的局部特征点，利用局部特征描述子，描述它周围局部区域的纹理特征，形成局部特征点的向量描述，即该特征点对应的视觉字；对每一个局部特征点，描述图像中其它特征点在该点周围的分布情况，形成分布向量；然后，把视觉字和描述局部特征点分布的分布向量联接，形成视觉短语；选择一部分具有代表性的视觉短语，称为码本短语，构成码本；对每一幅图像中的每一个视觉短语按照最近邻原则，映射到码本中距离它最近的码本短语上面。统计码本中每个码本短语在某图像中出现的次数，形成码本短语出现次数直方图向量作为该图像的基于短语包模型的图像内容表示；该向量可以被直接送入支持向量机分类器，完成标注。

上述基于短语包模型的图像类别标注方法具有高度的实用性和应用价值。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于短语包模型的图像类别标注方法 [P] . 中国专利： CN101894264B . 2012.11.14
2. 基于混合图模型的图像序列类别标注方法 [P] . 中国专利： CN104881681B . 2018.08.14
3. ANNOTATION OF IMAGES BASED ON A 3D MODEL OF OBJECTS [P] . 美国专利： US2018053329A1 . 2018-02-22

机译：基于3D对象模型的图像标注
4. ANNOTATION OF IMAGES BASED ON A 3D MODEL OF OBJECTS [P] . 美国专利： US2018260992A1 . 2018-09-13

机译：基于3D对象模型的图像标注
5. System and method for generating phrase based categories of interactions [P] . 美国专利： US10140285B2 . 2018-11-27

机译：用于生成基于短语的交互类别的系统和方法