首页> 中国专利> 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置

一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置

摘要

本发明提出了一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法,所述方法包括:对待辨识图像进行增强数据预处理,获得增强后的图像;对所述增强后的图像进行特征提取分别获得粗粒度特征、细粒度特征和中粒度特征;对所述粗粒度特征、细粒度特征和中粒度特征进行软关联聚合后获得待辨识图像的图像辨识结果。本发明使用多流并行的混合网络提取多粒度局部特征,并使用软关联特征聚合方式对不同维度特征进行有效融合,消除参数冗余、实现信息互补,形成最终表征细粒度识别的统一概率描述,提升辨识精度和时效性。实验结果表明,该方法在分类精度方面表现较好,还可以与其他的模型相结合,以便将来产生更好的结果。

著录项

  • 公开/公告号CN113159067A

    专利类型发明专利

  • 公开/公告日2021-07-23

    原文格式PDF

  • 申请/专利权人 北京工商大学;

    申请/专利号CN202110392237.9

  • 申请日2021-04-13

  • 分类号G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11955 北京文慧专利代理事务所(特殊普通合伙);

  • 代理人戴丽伟

  • 地址 100036 北京市海淀区阜成路33号

  • 入库时间 2023-06-19 11:57:35

说明书

技术领域

本申请涉及图像处理领域,尤其涉及一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置。

背景技术

深度学习是机器学习中及其重要的研究分支。近年来,具有深层结构的神经网络在图像模式识别方面有了很大的理论和方法突破,在监控系统、智能机器人、视频分析等方面具有了较为成熟的应用。与传统机器学习相比,深度学习网络利用层层递进的网络结构对病虫害进行了分级调整,不再需要人为设计模式特征来完成对病虫害的识别,实现了所谓“端到端”的训练学习过程。由网络自己根据数据设计不同层次的特征,对数据的模式进行逐层抽取特征的方法已经在理论上获得了突破的进展,诸多企业、高校开放研究社区等大力开发的深度学习开源平台,使得卷积神经网络、循环神经网络等深度学习模型成为解决诸多问题的基本模块。其中,卷积神经网络(CNN)在计算机视觉领域的应用尤为广泛,其可以自主学习图像像素特征、底层特征、高层抽象特征直至最终类别间的隐式表达关系,更加有利于捕获数据本身的丰富内涵信息,同时也避免了复杂的人工设计过程,在一系列大规模、公开的实际识别任务中取得巨大成功。

然而,对于复杂实际环境下的图像分类仍然是一项相当具有挑战性的任务,各类实际物体属于特征性状复杂、细粒度特性、子类划分繁多的动态视觉目标,加之环境因素、背景干扰及设备姿态变化,令其成为动态的细粒度图像辨识(FGVC)问题,技术难度更大。而目前深度学习方法只能获取静态、粗粒度特性描述,不能体现大量数据蕴含的种间细微差异和种内显著动态变化的细粒度特性,直接导致现有深度迁移网络模型与实际应用系统难以匹配,对细粒度图像辨识研究无法顺利深入开展。

目前,细粒度图像分类方法主要有两种类型:强监督学习方法和弱监督学习方法。其中,强监督学习方法由于对算法的速度有很大的影响,而且它也依赖于额外的位置注释和昂贵的手动标记,这使得它很难在实践中普遍应用。近年来,部分研究倾向于使用弱监督信息方法提升传统深度迁移学习挖掘细粒度特性能力,这种方法借助注意力机制、协方差高阶运算理论及多分支滤波组合理论等优化“粗粒度”深度网络端到端特征编码和自适应局部感知性能,根据数据内在关联和任务需求,分配有限认知资源,无需额外监督信息,即可自主提取关键部位、直接学习更具辨别力的细粒度表征。从技术性能而言,注意力机制和多分支滤波理论通过生成大量候选局部区域,分类准确率相对高,但识别速度却遇到瓶颈,难于满足复杂场景内实时性需求;而协方差高阶运算理论不用产生候选区域,在算法速度上占优,但检测精度不足且参数量过高。但是,现有细粒度辨识方法均不适用在复杂场景应用中,难以匹配实际系统平台及相关智能终端部署。

发明内容

为解决上述技术问题之一,本发明提供了一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置。

本发明实施例第一方面提供了一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法,所述方法包括:

对待辨识图像进行增强数据预处理,获得增强后的图像;

对所述增强后的图像进行特征提取分别获得粗粒度特征、细粒度特征和中粒度特征;

对所述粗粒度特征、细粒度特征和中粒度特征进行软关联聚合后获得待辨识图像的图像辨识结果。

优选地,所述对待辨识图像进行增强数据预处理,获得增强后的图像的过程包括:

对所述待辨识图像进行裁剪缩放、随机翻转、随机旋转、改变图片饱和度和亮度后获得增强后的图像。

优选地,所述对所述增强后的图像进行特征提取分别获得粗粒度特征、细粒度特征和中粒度特征的过程包括:

构建骨干网络;

通过所述骨干网络对所述增强后的图像进行处理后输出多维向量;

将所述多维向量分别输入至粗粒度特征提取器、细粒度特征提取器和中粒度特征提取器中获得粗粒度特征、细粒度特征和中粒度特征。

优选地,所述骨干网络包括一个输入模块、四个CSP Stage模块和一个池化层;

所述通过所述骨干网络对所述增强后的图像进行处理后输出多维向量的过程包括:

将所述增强后的图像通过输入层后输入第一个CSP Stage模块获得第一输出,其中,每个CSP Stage模块中均包括路径b和路径c,所述第一个CSP Stage模块的输入经过所述路径b后获得路径b的输出,所述路径b包括一个卷积层和多个残差块,在每个所述残差块中均包括三个卷积层,所述残差块的输入经过所述三个卷积层后获得的输出与所述残差块的输入相加后获得所述残差块的输出,所述多个残差块的输出为所述路径b的输出,所述第一个CSP Stage模块的输入经过所述路径c后获得路径c的输出,所述路径c包括一个卷积层,所述第一个CSP Stage模块的输入经过所述路径c的卷积层后的输出为所述路径c的输出,将所述路径b的输出和路径c的输出拼接后输入一个卷积层获得第一输出;

将所述第一输出输入至第二个CSP Stage模块,所述第一输出经过一个下采样层获得路径a的输出,将所述路径a的输出作为所述第二个CSP Stage模块中路径b和路径c的输入后获得第二输出;

将所述第二输出输入至第三个CSP Stage模块,所述第二输出经过一个下采样层获得路径a的输出,将所述路径a的输出作为所述第三个CSP Stage模块中路径b和路径c的输入后获得第三输出;

将所述第三输出输入至第四个CSP Stage模块,所述第三输出经过一个下采样层获得路径a的输出,将所述路径a的输出作为所述第四个CSP Stage模块中路径b和路径c的输入后获得多维向量。

优选地,将所述多维向量输入至粗粒度特征提取器获得粗粒度特征的过程包括:

将所述多维向量进行相加求平均值计算获得粗粒度特征。

优选地,将所述多维向量输入至细粒度特征提取器获得细粒度特征的过程包括:

对所述多维向量进行注意力机制处理获得增强后的图像中特定部位所对应的注意力图;

将所述多维向量与所述注意力图所对应的向量进行乘积计算后通过卷积提取特征获得细粒度特征。

优选地,将所述多维向量输入至中粒度特征提取器获得中粒度特征的过程包括:

将所述多维向量进行降维处理,获得降维向量;

将所述降维向量进行协方差矩阵计算,并对计算结果进行预归一化处理获得处理向量;

将所述处理向量进行多次牛顿舒尔茨迭代计算后进行后补偿获得补偿结果;

通过对所述粗粒度特征、细粒度特征和所述补偿结果进行聚合后获得融合向量;

将所述融合向量进行归一化和卷积计算后获得中粒度特征。

本发明实施例第二方面提供了一种基于基于多粒度局部特征软关联聚合的细粒度图像辨识方法装置,所述装置包括处理器,所述处理器,其被配置有处理器可执行的操作指令,以执行如本发明实施例第一方面所述的方法步骤。

本发明实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,当计算机程序在电子设备上运行时,使得所述电子设备执行如本发明实施例第一方面所述的方法步骤。

本发明实施例第四方面提供了一种芯片,所述芯片与存储器耦合,用于执行所述存储器中存储的计算机程序,以执行如本发明实施例第一方面所述的方法步骤。

本发明的有益效果如下:本发明提出了一个基于多粒度局部特征软关联聚合的细粒度图像辨识方法,使用多流并行的混合网络提取多粒度局部特征,并使用软关联特征聚合方式对不同维度特征进行有效融合,消除参数冗余、实现信息互补,形成最终表征细粒度识别的统一概率描述,提升辨识精度和时效性。实验结果表明,该方法在分类精度方面表现较好,还可以与其他的模型相结合,以便将来产生更好的结果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本发明实施例1所述的一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法的流程图;

图2为本发明实施例1所述的对待辨识图像进行增强数据预处理的示意图;

图3为本发明实施例1所述的骨干网络的结构示意图;

图4为本发明实施例1所述的双线性注意力池化模块的结构示意图;

图5为本发明实施例1所述的iSQRT-COV的结构示意图;

图6为本发明实施例1所述的不同粒度特征模块提取结果对比图;

图7为本发明实施例1所述的NetVLAD特征聚合模块示意图;

图8为CUB-200-2011每类精度示意图;

图9CUB-200-2011第102类分类结果对比图;

图10Stanford Cars每类精度示意图;

图11Stanford Cars第24类分类结果对比图;

图12Stanford Dogs每类精度示意图;

图13Stanford Dogs第1类分类结果对比图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

实施例1

如图1所示,本实施例提出了一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法,所述方法包括:

S101、对待辨识图像进行增强数据预处理,获得增强后的图像;

S102、对所述增强后的图像进行特征提取分别获得粗粒度特征、细粒度特征和中粒度特征;

S103、对所述粗粒度特征、细粒度特征和中粒度特征进行软关联聚合后获得待辨识图像的图像辨识结果。

具体的,本实施例中,首先通过一些图像预处理步骤来增强数据,起到扩充数据集和增加模型泛化能力的作用。这些步骤可包括随机裁剪缩放等集合变换,缩放后图像大小一致,例如224×224等尺寸,解决拍摄角度问题;随机水平和垂直翻转180°以增加图像多样性;随机90°、180°、270°以提高变形适应性;改变图片饱和度以及亮度以增加光照变化;随机添加噪声等。这些方法的结果可如图2所示,并且对数据使用mixup增强方法:

其中,x

在获得增强后的图像后,构建跨层级多流特征提取器,共包含四个分支,均采用相同的CSPResNext50作为特征提取骨干网络。基本的CSPResNext50网络由一个输入层,四个CSP Stage模块和最后的池化层组成,如附图3所示。输入层包含一个卷积核为7×7,步长为2,输出为64个通道的卷积层,和一个卷积核为2×2,步长为2的最大池化层。随后经过第一个CSP Stage模块,这里包含两条路径,路径b首先经过一个卷积核为1×1,步长为1,输出为64个通道的卷积层,随后经过几个残差块,残差块中同样包含两条路径,路径1分别经过3个卷积层,他们的卷积核大小分别为1×1,3×3,1×1,输出通道数为128,路径2的输入直接与路径一的结果相加得到一个残差块的输出。其余的残差块也是同样的计算过程,从而得到路径b的输出。路径c同样经过一个卷积核为1×1,步长为1,输出为64个通道的卷积层,然后直接与路径b的输出拼接在一起,并经过一个卷积核为1×1的卷积层,得到256通道的输出。剩余的三个CSP Stage模块与第一个CSP Stage模块的区别在于其余的CSP Stage模块中,首先经过一个卷积核为3×3的下采样层,得到路径a的输出,随后路径a的输出再分别经过路径b和路径c,后续的部分与第一个CSP Stage模块相同,每经过一个CSP Stage模块,输出的维度都将扩大一倍。每个CSP Stage模块中的公式都如下所示:

x

g(x

其中x是CSP Stage模块的输入,f

其中,H

f(x)=x·tanh(ln(1+e

在构建骨干网络后,将骨干网络输出的多维向量作为输入在特征提取器中进行提取,以分别获得粗粒度特征、细粒度特征和中粒度特征。

在本实施例中,采用全局平均池化(GAP)作为粗粒度特征提取器。GAP的作用是将特征图所有像素值相加求平局,得到一个数值,即用该数值表示对应特征图。全局平均池化替代了全连接层,减少了全连接层导致的过多的参数,并且有效的减少了计算量,减少了过拟合。全局平均池化对整个网络从结构上做正则化防止过拟合,剔除了全连接层黑箱子操作的特征,直接赋予了每个通道实际的类别意义可以有效地提取足够好的粗粒度特征。

f=P

其中P

本实施例中,使用双线性注意力池化模块(BAP)构建细粒度特征提取器。BAP是另一个用于提取细粒度特征的注意力池化层,通过对特征向量使用注意力机制,每个注意力图都能够指向物体的特定部位。通过注意力图和特征图乘积产生关注了局部物体的特征图,随后通过卷积提取特征。例如可以生成64张注意力图,这样能够关注特征中不同的64个部分。特征图F

F

其中,k=(1,2,…,64),F

f

N个特征图依次进行操作后,生成M×N维向量,最后经过一层卷积提取出最具有判别力的局部特征F

其中,P

iSQRT-COV是能够与其他骨干网络组合的二阶协方差池化层,使用迭代式的矩阵平方根算法来快速地对全局协方差矩阵池化进行端到端的训练。二阶协方差池化替换了传统的一阶池化,如全局最大池化或全局平均池化,能够关注不同通道之间的相关度,提高CNN对复杂特征的建模能力,更好的关注细粒度信息,并且该方法运算速度很快,运算中仅仅包含矩阵乘法,适合并行能力较强的GPU进行运算。该池化层的具体结构是一个带有循环嵌套的有向图的元层,这个元层由三个连续的层组成,分别进行预正则化,将协方差矩阵按照它的迹或者F-范数进行划分以保证下一个阶段的牛顿-舒尔茨迭代的可收敛性;牛顿-舒尔茨迭代,进行一定次数的耦合矩阵方程迭代以计算合适的矩阵平方根;后补偿处理,第一层大幅调整了输入数据的量级,所以设计第三层的时候需要乘上平方根矩阵的迹,具体结构如附图5所示。进入协方差池化层前,首先对特征通道降维,提取具有代表性的特征,降维后得到的特征向量维度为128×7×7并调整为128×49的张量。随后计算该张量的协方差矩阵并进入元层。在元层中,首先通过预归一化保证后续迭代的可收敛性,随后通过多次的牛顿-舒尔茨迭代近似计算矩阵的平方根,最后通过后补偿得到最终的结果F

F

其中,函数P

在上述过程中,经过三个分支网络提取特征后分别得到了3组用于表示图像的细粒度特征,不同的特征器提取对于图像的特征提取具有不同的偏好,如附图6所示,为了更好地进行分类,减少模型的过拟合效果,使用NetVLAD对特征进行聚合,提取中粒度特征,如附图7所示。

NetVLAD捕获有关在图像上聚合的局部特征信息,首先对输入的三组特征利用k-means聚类算法进行聚类,获得k个聚类中心,记为C

其中,j表示当下特征描述,c

其中,l={1,2,3}对应多流特征提取层输出,i代表第i个聚类中心,i′表示非聚类中心;w

对该向量F'进行归一化与卷积操作得到NetVLAD层的最终输出聚合向量V,该向量则为原图像的中粒度特征。

得到融合特征后,该特征即为输入图像经过特征提取网络得到的最终特征,用于后续的分类。使用标签平滑方法降低模型的过拟合效果:

其中,y表示为样本标签,ε为平滑因子,u为类别分之一。标签平滑促使神经网络中进行softmax激活函数激活之后的分类概率结果向正确分类靠近,并尽可能远离错误分类,提高分类性能。因此本实施例最终的损失函数为:

其中,L

实施例2

对应实施例1,本实施例提出了一种基于基于多粒度局部特征软关联聚合的细粒度图像辨识方法装置,所述装置包括处理器,所述处理器,其被配置有处理器可执行的操作指令,以执行如下步骤:

对待辨识图像进行增强数据预处理,获得增强后的图像;

对所述增强后的图像进行特征提取分别获得粗粒度特征、细粒度特征和中粒度特征;

对所述粗粒度特征、细粒度特征和中粒度特征进行软关联聚合后获得待辨识图像的图像辨识结果。

具体的,本实施例所述装置的具体工作原理可参照实施例1所记载的内容,在此不再进行赘述。本实施例使用多流并行的混合网络提取多粒度局部特征,并使用软关联特征聚合方式对不同维度特征进行有效融合,消除参数冗余、实现信息互补,形成最终表征细粒度识别的统一概率描述,提升辨识精度和时效性。实验结果表明,该方法在分类精度方面表现较好,还可以与其他的模型相结合,以便将来产生更好的结果。

下面,通过三个具体实验说明本发明所提出方法的实际应用效果,分别为CUB-200-2011(加州理工学院-UCSD鸟)、斯坦福汽车和斯坦福狗。表1中汇总了包含类别编号和数据拆分的详细统计信息。

表1

实例1

首先在cub-200-2011数据集进行试验,精度(正确分类的图像数与测试图像数之间的比率)用于评估性能。与前面一些方法相比,所建模型的整体精度如下表2所示。

表2

如表2所示,使用概率融合决策模型获得的结果远远高于目前的优秀模型,模型获得精度结果为91.2%。相比之下,使用训练标签框对细粒度数据进行分类的最佳强监督方法(SPDA-CNN)仅获得85.2%的精度,比本发明的融合模型低6%,它只需要从属标签,性能甚至优于那些需要额外信息的融合模型。对于没有训练箱的弱监管培训,DFLNet和GMNet两个模型分别达到87.5%和86.3%的精度,这也证明了本发明框架的有效性。

对于多流特征提取器的各个分量模型,CSPResNeXt50模型的精度为86.6%,仅依靠粗图像级标签。实践证明,CSPResNeXt50的深层结构能够提取出令人印象深刻的、有效的特征图,适合于进一步关注局部信息。同样,BAP的准确率为88.8%,iSQRT-COV的准确率为87.2%,这说明了更多的技巧和操作获取了区分对象部分丰富的局部特征表示,提高了细粒度视觉分类任务求解的准确率。经过本发明融合处理后,所提出的概率融合模块在2.4%-4.6%的范围内的精度比之前的单一模型提高了很多。即使两个模型合并,本发明的融合模块仍然可以发挥重要作用,挖掘不同模型的互补特性,以获得更高的精度性能。结果表明,BAP和iSQRT-COV的结合形式获得90.3%的精度,而组合BAP和DFL获得的其他精度高达89.7%,两者的性能都优于单组件模型或其他弱监督学习方法。经验证,决策层视点概率融合模块仅使用图像级标签就可以利用多个CNN的混合粒度信息。而端到端实现的内外环融合模块有效地提高了细粒度视觉分类问题的整体精度。

根据所得结果,在CUB-200-2011数据集融合之前,进一步分析了多流细粒度提取模块提供的每个子类和三个模型的详细精度。每个模型的定量分析如附图8所示。虽然各模型对不同类别的识别能力不同,但可以看出,经过跨阶层融合后(最粗的线条),精度曲线趋势相对平坦和稳定。这意味着融合策略可以挖掘一些单个模型所不具备的微小类间差异,以提高不同子类的识别率,从而进一步平衡不同模型之间的不确定性。该模型结合互补特征映射,对不同细粒度类型的图像具有很强的类间差异识别能力。例如,DFL在第58类中准确率为16.7%,在66类中准确率为66.7%。融合模块后,第58类的精度得到提高到了53.3%,第66类的相应准确率高达83.3%。概率融合模块真诚地降低了不同类别的单个模型的识别差异,从而提高了整体精度。

相对而言,同一类别中不同型号的精度明显较大。例如,在物种名称为Sayornis的第102个类别中,DFL的精度为80.3%,BAP和iSQRT-COV的准确率分别为86.7%和90.2%。结果表明,融合技术有效地抑制了同一子类不同图像和样本之间的类内变化。在本发明的融合方法中,由于位置变化或光照变化等干扰因素在一定程度上限制了所有类别的融合精度的提高,使得在第102类中的融合精度达到了令人惊讶的100%。本发明详细分析了第102个类中类内错误的补充过程,如附图9所示。对于Sayornis类的20幅图像,粗线框表示模型将内部图像预测为其他错误的类别,其余表示正确的预测图像。结果表明,三个组件模型都犯了一些错误,只有本发明的模型是完全正确的。结果证明,跨阶段融合可以从每个模型中提取的各种特征图中合理地选择域信息,增强类间和类内变量的可控性,提高细粒度视觉分类任务的整体性能。

实例2

该实例是在斯坦福汽车数据集中执行FGVC实验。表3列出了PFDM-Net模型和一些最新竞争对手的最终精度。

表3

如上所示,不同型号的准确率相对高于CUB-200-2011的结果。主要原因是可训练和可测试的图像较多,类别较少,满足了深度学习训练的需要,使其表现最大化。此外,与复杂环境背景中的鸟类相比,车辆之间的差异明显,因此很容易获得更好的精度结果。即便如此,本发明在精度指标上仍然以95.2%获得最佳性能,比DFL高出1.3%,准确率为93.9%。这表明本发明的模型适用于不同的数据集和任务,具有良好的泛化性能,这也为解决具有更复杂的背景的其他实际细粒度视觉分类任务提供了一种有效的方法。

相比之下,多流架构中的各个组件模型也分别获得了不错的结果。DFL的准确率为92.9%,接近SPDA-CNN93.1%的准确度,并且具有丰富的部分注释;而BAP的准确率为93.6%,iSQRT-COV的准确率为93.3%。比较后,可以发现合并的两种模型的准确性仍然远远高于前一个模型,可以提高到94.1%(结合BAP和iSQRT-COV)和93.9%(组合BAP和DFL)。这两种结果都优于或优于其他单个弱监督模型。

如附图10所示,它表明每个模型在识别不同的类比类别时有不同的偏好。然而,融合模型可以平衡每个组件模型的优缺点,从而在同一类别中实现更好的局部性能。例如,在基本标签为″雪佛兰快车2007″的第70类中,iSQRT-COV的准确率为58%,BAP的准确率为51.4%,而DFL的准确率仅为40.0%,概率较低甚至低于随机猜测50%。通过迭代和梯度反向传播优化相结合的融合算法,使第70类的精度提高到69.6%。附图10通过分析名为″奥迪TT RS Coupe2012″的第24类车,显示了类似的结果。如图11所示,DFL错误地将9个样本标识为其他类别,如特斯拉和宝马类型。BAP和iSQRT-COV在奥迪预测上也有类似的糟糕表现,有5张错误图像(粗线框出)和4个代表。结果表明,本发明的模型可以融合提取功能,更好地进行细粒度的汽车类型分类。

实例3

本发明采用可比实验来演示表4中斯坦福狗的分类结果。R-CNN是这一领域的早期作品之一。它对图像的不同部分提取传统的特征,并对目标进行有监督的对齐。该方法在该数据集上的准确率仅为79.8%的精度,这表明要素提取过程对于细粒度分类至关重要。RA-CNN通过选择突出部分设计了一种无监督部分模型发现方法,准确率达87.3%。目前,GMNet以88.1%的精度实现了最佳结果。而由DFL,BAP和iSQRT-COV组成的三种组件模型,其预期效果为84.9%、87.5%和88.1%。在此数据集上,本发明的结果还优于所有最先进的强监督学习和弱监督学习方法,达到89.6%的准确率,至少提高了1.5%。

表4

附图12显示了PFDM-Net的识别曲线及其每种类型的分量模型。红色曲线表示本发明的模型是相对稳定的,没有太大的波动,这表明更好的区分小类间差异的能力。虽然融合模型在训练数据较多的斯坦福狗身上总体表现较好,但与上述各类别数据库相比,结果并不吻合。这是因为每种类型的图像数量非常不平衡,宠物狗的生物形态变化很大,并且随着生长周期而变化。更糟糕的是,这个数据集的背景更为复杂,充满了车辆、人和日用品,这扩展了类内的变化,使得细粒度识别更加困难。

附图13说明了斯坦福狗数据集中的第1类,类别名称为吉娃娃。对于随机选择的20张图片,本发明的模型优于其他方法,并且只出现了两个用红框表示的错误。一张错误的图片上有一只黑白图案的狗,这与其他样本明显不同。在另一个错误的图像中,狗被主人挡住,看不见,这使得所有的网络都无效。这些特殊情况经常出现在斯坦福狗数据集中,这限制了模型在在局部和全局精度上的进一步提高。

结果分析:通过实施例1、实施例2、实施例3可以得到,本发明通过多阶层特征提取,并对特征进行概率融合的的算法确实具有创新性和实用性,本发明在CUB-200-2011、斯坦福汽车、斯坦福狗(Stanford Dogs)的准确率高达91.2%,在斯坦福狗上的有效性高达89.6%,95.2%和89.6%,优于最先进的细粒度视觉分类方法,虽然会造成一定计算需求的提升,但识别的结果有显著的提高,所以模型仍然可用。本发明能够有效提高细粒度视觉分类任务的性能,也具有一定的研究意义和工程应用价值。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号