首页> 中国专利> 一种基于局部特征的多视角分类器及设计方法

一种基于局部特征的多视角分类器及设计方法

摘要

本发明公开了一种基于局部特征的多视角分类器,包含:无标签多视角大数据集生成模块,全局和局部结构风险最小化分类器实现模块,多视角数据局部特征提取模块。其优点是:其通过有效数据增强、分类器设计原则构建以及局部特征提取三个方面,有效提升多视角数据集的分类性能。

著录项

  • 公开/公告号CN107992890A

    专利类型发明专利

  • 公开/公告日2018-05-04

    原文格式PDF

  • 申请/专利权人 上海海事大学;

    申请/专利号CN201711237173.5

  • 发明设计人 朱昌明;

    申请日2017-11-30

  • 分类号G06K9/62(20060101);G06N3/08(20060101);

  • 代理机构31249 上海信好专利代理事务所(普通合伙);

  • 代理人潘朱慧

  • 地址 201306 上海市浦东新区临港新城海港大道1550号

  • 入库时间 2023-06-19 05:16:05

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-06-14

    授权

    授权

  • 2018-06-01

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20171130

    实质审查的生效

  • 2018-05-04

    公开

    公开

说明书

技术领域

本发明涉及模式识别技术领域,具体涉及一种基于局部特征的多视角分类器设计方法。

背景技术

目前生活中普遍存在多视角数据。以娱乐类网页为例,每一个网页有文本、音频、视频、图片等。每种不同类别的信息构成了网页数据的一个视角,即文本视角、音频视角等。这些视角都可以用于标识一个娱乐网页。而不同类别的网页,在这些视角的陈述上也会有所不同。比如政治类新闻网页和娱乐类网页,它们的文本内容、视频内容等一般不同。为了对这些多视角数据进行分类,人们提出了相关的分类器,即多视角分类器。

目前常见的多视角分类器主要从(1)协同训练;(2)多核学习;(3)子空间学习;(4)多矩阵学习等方面设计。(1)协同训练就是在数据集的两个视角中,针对有标签样本各训练出一个分类器,然后每个分类器从无标签样本中挑选出若干置信度较高的样本进行标记,并把它们加入另一个分类器的有标签训练样本集中,以便对方利用这些新标记的样本进行更新。协同训练过程不断迭代进行,直到达到某个停止条件。这一算法要求两个视角的数据充分冗余,这一条件对大多数数据集难以满足。(2)多核学习旨在利用核函数将多个视角的特征映射到另一种空间中,从而使得原本非线性可分的特征集合在新空间中可能线性可分。(3)子空间学习多用于解决维度灾难问题。对于同一对象而言,多视角数据具有语义相似,表示异构的特点。即对于同一个对象而言,有M种视角特征,分别分布在不同维度的高维特征空间中。它们都用于描述同一个对象,但是因为维度空间的不同给人们处理数据带来了不便。为了克服这个困难,基于子空间的多视角学习试图从多个高维原始特征空间中发现一个统一的低维子空间,从而获得蕴含多视角信息的统一特征表达。目前在多视角学习中,运用比较普遍的子空间方法有基于投影和基于因子分解两个系列。前者的代表是典型关联分析(Canonical Correlation Analysis,CCA),后者的代表是多输出正则特征投影(Multi-Output Regularized Feature Projection,MORFP)。(4)多矩阵学习不同于协同训练、多核学习和子空间学习。后三者专注于多视角数据,无法处理单视角数据。但是现实世界中,依然存在一些数据只有一个视角。因此,人们提出多矩阵学习的方式,将单视角转变成多视角,又不失去特征信息。比如来说,有一类单视角数据,只有一个视角,视角特征是1×120的向量。则多矩阵学习就把这些特征矩阵化为不同的矩阵表示形式(如60×2、30×4、15×8、5×24),每个矩阵表示形式被视为一个视角,反映数据在该视角下的信息,并对算法性能产生不同的表示信息和判别作用。

然而,纵观目前多视角分类器的设计,尽管不少都考虑到了局部特征给分类器性能带来的好处,但依然普遍存在三类问题。

问题一、有效数据信息有待增强:通过多核学习和多矩阵学习的发展现状,我们发现,用于训练的有效数据信息的不足会使得分类器性能受到限制。而从相关的典型关联分析方法的实验结果可知,这类信息的不足还会造成低维子空间中的统一特征表达方式对部分样本的特征表达失真。为了克服这一不足,增加无标签的训练样本成为了一个较好的解决方案。申请人曾利用已知的有标签样本随机生成一系列无标签样本,并在改进的基于的多核修正型Ho-Kashyap算法(ImprovedMultiple Kernel Modification Ho-Kashyap,INMKMHK)的基础上设计相关的分类器。但是这种随机生成的方式无法保证生成的样本必定能提供有效的信息,而且也忽视了样本局部特征的作用。

问题二、分类器设计原则不完善:从相关基于多视角学习提出的分类器模型来看,它们的设计多遵循全局结构风险最小化(GSRM)、局部结构风险最小化(LSRM),甚至是经验风险最小化(ERM)。这就说明相关的多视角学习算法在设计分类器时会忽视某种特征或忽略全局特征与局部特征之间的关系。为了克服这一不足,申请人及其团队曾提出全局和局部结构风险最小化原则(Global and Local Structural Risk Minimization,GLSRM),以Ho-Kashyap(HK)算法为基础,设计分类器并在单视角数据上进行实验。实验结果证实在单视角数据上,该设计原则给分类器的性能带来了提升。但是这一设计原则是否适用于多视角数据尚且未知。再者,为了衡量全局结构风险和局部结构风险之间的差异,即全局特征与局部特征之间的关系,该设计原则采用的是两种结构风险直接作差运算。这显然是不合适的。因为在任一视角中,数据的全局特征和局部特征的关系都是不相同的,简单的作差比较无法合理反映两种特征之间的关系。

问题三、局部特征提取有限:局部特征是提升多视角学习算法效果的重要基石,尤其是针对多核学习和多矩阵学习而言,输入样本中缺少充分的局部特征是相关分类器性能不高的重要原因,而且无论是多视角学习的哪一类算法,都存在因为无法反映局部特征而提出新算法的情况。申请人及其团队也曾提出一种改进的核聚类算法以提取局部特征,但是所提取的特征对于分类器识别率的提升效果有限。

发明内容

本发明的目的在于提供一种基于局部特征的多视角分类器及设计方法,其通过有效数据增强、分类器设计原则构建以及局部特征提取三个方面,有效提升多视角数据集的分类性能。

为了达到上述目的,本发明通过以下技术方案实现:

一种基于局部特征的多视角分类器,其特征是,包含:

无标签多视角大数据集生成模块,用于基于多视角数据集中信息有限的有标签多视角中小数据集得到用于训练分类器的无标签多视角样本,并生成相应的无标签多视角数据集;

全局和局部结构风险最小化分类器实现模块,用于根据有标签多视角数据集和无标签多视角数据集得出全局结构风险和局部结构风险,并根据全局结构风险和局部结构风险之间差异的函数关系求解目标优化函数,得到基于全局和局部结构风险最小化的目标优化函数;

多视角数据局部特征提取模块,用于基于卷积神经网络来针对有标签多视角数据集以及无标签多视角数据集提取充分的样本局部特征,并根据基于全局和局部结构风险最小化的目标优化函数和样本局部特征设计出拥有充足有效数据信息和局部特征的全局和局部结构风险最小化的多视角分类器。

上述的基于局部特征的多视角分类器,其中,所述的无标签多视角大数据集生成模块包含:

典型管理分析子单元,用于从多视角数据集中获取多视角数据的多个视角、样本之间的权重和关系;

样本相似度分析子单元,用于寻找每个有标签多视角样本的近邻样本;

无标签多视角样本生成子单元,用于根据多视角数据的多个视角、样本之间的权重和关系以及每个有标签多视角样本的近邻样本来生成无标签多视角数据集。

上述的基于局部特征的多视角分类器,其中,所述的全局和局部结构风险最小化分类器实现模块包含:

特征提取子单元,用于从有标签多视角数据集和无标签多视角数据集中提取样本的全局特征和局部特征;

全局特征子空间生成子单元,用于降低全局特征的维度并保留特征信息;

全局结构风险计算子单元,用于计算全局特征的结构风险;

局部特征子空间生成子单元,用于降低局部特征的维度并保留特征信息;

局部结构风险计算子单元,用于计算局部特征的结构风险;

关系计算子单元,用于计算全局结构风险与局部结构风险之间的关系;

目标优化函数构建子单元,用于根据全局结构风险与局部结构风险之间的关系得到目标优化函数,并得到基于全局和局部结构风险最小化的目标优化函数。

上述的基于局部特征的多视角分类器,其中,所述的多视角数据局部特征提取模块包含:

基于卷积神经网络的局部特征提取子单元,用于从有标签多视角数据集以及无标签多视角数据集中获得样本局部特征;

分类器设计子单元,用于根据目标优化函数以及样本局部特征设计出以全局和局部结构风险最小化为原则拥有充足有效数据信息和局部特征的多视角分类器。

一种基于局部特征的多视角分类器设计方法,其特征是,包含以下步骤:

S1、基于多视角数据集中信息有限的有标签多视角中小数据集得到用于训练分类器的无标签多视角样本,并生成相应的无标签多视角数据集;

S2、根据有标签多视角数据集和无标签多视角数据集得出全局结构风险和局部结构风险,并根据全局结构风险和局部结构风险之间差异的函数关系求解目标优化函数,得到基于全局和局部结构风险最小化的目标优化函数;

S3、基于卷积神经网络来针对有标签多视角数据集以及无标签多视角数据集提取充分的样本局部特征,并根据基于全局和局部结构风险最小化的目标优化函数和样本局部特征设计出拥有充足有效数据信息和局部特征的全局和局部结构风险最小化的多视角分类器。

本发明与现有技术相比具有以下优点:通过有效数据增强、分类器设计原则构建以及局部特征提取三个方面,有效提升多视角数据集的分类性能。

附图说明

图1为本发明的结构框图;

图2为本发明中无标签多视角大数据集生成模块的工作原理图;

图3为本发明中全局和局部结构风险最小化分类器实现模块的工作原理图;

图4为本发明中多视角数据局部特征提取模块的工作原理图。

具体实施方式

以下结合附图,通过详细说明一个较佳的具体实施例,对本发明做进一步阐述。

如图1所示,本发明公开了一种基于局部特征的多视角分类器,该分类器是由Matlab语言实现的模型,其包含无标签多视角大数据集生成模块1、全局和局部结构风险最小化分类器实现模块2以及多视角数据局部特征提取模块3,本实施例中,还包含一多视角数据收集模块,可以从UCI机器学习库中(http://archive.ics.uci.edu/ml/)收集多视角数据并将数据传送给无标签多视角大数据集生成模块1、全局和局部结构风险最小化分类器实现模块2以及多视角数据局部特征提取模块3。该收集模块本质上收集的是有标签多视角数据集。

所述的无标签多视角大数据集生成模块1连接多视角数据收集模块,用于基于多视角数据集中信息有限的有标签多视角中小数据集得到用于训练分类器的无标签多视角样本,并生成相应的无标签多视角数据集,即用于得到大量用于训练分类器的无标签样本。具体的,先根据典型关联分析的相关方法衡量视角之间的关系,并得出视角和样本的权重;再利用空间距离决定样本远近的思想,得出每个多视角样本的近邻样本;最后根据相关权重、多视角样本和其近邻样本,利用插值法生成无标签多视角样本。

本实施例中,所述的无标签多视角大数据集生成模块1包含:典型管理分析子单元11,用于从多视角数据集中获取多视角数据的多个视角、样本之间的权重和关系;样本相似度分析子单元12,用于寻找每个有标签多视角样本的近邻样本;无标签多视角样本生成子单元13,用于根据多视角数据的多个视角、样本之间的权重和关系以及每个有标签多视角样本的近邻样本来生成无标签多视角数据集。

本实施例中,如图2所示,首先,利用全局和局部化典型关联分析(GLCCA)子单元11,分析多视角数据集中多个视角之间的关联关系,通过发现视角特征间所存在的关系,从而确定每个视角的权重α1,α2,…,αi,…,αM,其中αi是第i个视角的权重,M是视角的个数。因为GLCCA可以使存在非线性关系的视角特征在低维子空间中同时保留局部特征和全局特征,所以视角权重可以反映出样本的局部特征。同时,利用GLCCA,得出每个有标签多视角样本自身的权重,记为D1,D2,…,Dj,…,DN,其中Dj是第j个样本的权重,N为样本个数;然后,根据所求出的视角权重和样本权重,针对多视角数据集的每个样本,利用样本相似度分析子单元12和拟定的相似个数,得出每个多视角样本的若干近邻样本。这些近邻样本与对应的多视角样本相似但是标签类别不同。这里,可以初步拟定两个样本之间的视角特征差异值与视角权重的加权和作为两个样本之间的相似度结果,即其中Vim和Vin分别表示第m个样本和第n个样本在第i个视角上的特征。该数值越小,两个样本越接近;最后,对多视角数据集中的每个样本,利用其对应的近邻样本、视角权重与样本权重,并初步拟定以加权平均插值法的方式,通过无标签多视角样本生成子单元13,生成无标签多视角样本,最后形成相应的无标签多视角数据集。

所述的全局和局部结构风险最小化分类器实现模块2分别连接多视角数据收集模块以及无标签多视角大数据集生成模块1,用于根据有标签多视角数据集和无标签多视角数据集得出全局结构风险和局部结构风险,并根据全局结构风险和局部结构风险之间差异的函数关系求解目标优化函数,得到基于全局和局部结构风险最小化的目标优化函数,即用于实现基于多视角数据的全局和局部结构风险最小化分类器设计原则来构建目标优化函数。具体的,针对多视角数据,先以具体情况具体分析为基本思想,用实例分析法,针对不同的视角提取出相应的全局特征和局部特征;再通过子空间方法,得出全局特征和局部特征的统一特征表述;接着利用定义法,得出全局结构风险和局部结构风险;然后,通过类比推理方法,把全局特征和局部特征之间的函数关系推广到全局结构风险和局部结构风险之间差异的函数关系,并得出差异表达式;最后,建立以全局和局部结构风险最小化设计原则为基础的分类器,通过梯度法求解目标优化函数,获得最优参数并建立分类器。

本实施例中,所述的全局和局部结构风险最小化分类器实现模块2包含:特征提取子单元21,用于从有标签多视角数据集和无标签多视角数据集中提取样本的全局特征和局部特征;全局特征子空间生成子单元22,用于降低全局特征的维度并保留特征信息;全局结构风险计算子单元25,用于计算全局特征的结构风险;局部特征子空间生成子单元23,用于降低局部特征的维度并保留特征信息;局部结构风险计算子单元24,用于计算局部特征的结构风险;关系计算子单元26,用于计算全局结构风险与局部结构风险之间的关系;目标优化函数构建子单元27,用于根据全局结构风险与局部结构风险之间的关系得到目标优化函数,并得到基于全局和局部结构风险最小化的目标优化函数。

本实施例中,如图3所示,首先针对多视角数据的每一个视角,利用各自的特征提取子单元21提取出相应的全局特征和局部特征,这里的特征提取子单元的设定需根据每个视角的不同情况进行不一样的设定;针对提取出的各个视角的全局特征,利用全局特征子空间生成子单元22,通过典型关联分析等子空间学习方法,发现一个统一的低维子空间。该子空间中的特征是原始各个视角的全局特征的统一表述,这些特征组成了基于子空间统一全局特征表示的数据集S全。同样地,针对提取出的各个视角的局部特征,利用局部特征子空间生成子单元23,得到一个数据集S局,该数据集中的特征是对原始各个视角的局部特征的统一表述;针对S全,通过全局结构风险计算子单元25,得出该数据集的全局结构风险的表达式JG。针对S局,通过局部结构风险计算子单元24,得出该数据集的局部结构风险的表达式JL。此处拟定的结构风险的计算方法是根据结构风险的定义,即分类器在训练样本上的性能误差和在未知样本上的预测误差之和来决定相关结构风险;针对JG和JL,利用关系计算子单元26,得出全局结构风险和局部结构风险之间的差异JGL。此处JGL的表达式的求解是一个关键科学问题,拟通过研究全局特征关于局部特征的函数表达式来实现JGL的表达式。因为局部特征的组合可以大致用于描述全局特征,所以针对S全和S局,拟得出两者的函数关系式,即S全=f(S局)。随后进一步推出JG=f(JL)。因为全局特征和局部特征在不同视角中的关系不一样,所以不能直接把JG-JL作为JGL的表达式,而需要根据JG=f(JL),建立一个有关JG-JL的表达式,最后根据JGL=f(JG-JL)得出JGL。随后把JG、JL和JGL三者结合起来,利用目标优化函数构建子单元27,得出一个目标优化函数,此处拟定为min J=JG+JL+JGL。最后把该目标优化函数用于分类器模型建立的基础,初步拟定通过梯度法求解分类器的最佳参数,从而建立相关分类器并对相关识别目标进行识别。

所述的多视角数据局部特征提取模块3分别连接所述多视角数据收集模块、无标签多视角大数据集生成模块1以及全局和局部结构风险最小化分类器实现模块2,用于基于卷积神经网络来针对有标签多视角数据集以及无标签多视角数据集提取充分的样本局部特征,并根据基于全局和局部结构风险最小化的目标优化函数和样本局部特征设计出拥有充足有效数据信息和局部特征的全局和局部结构风险最小化的多视角分类器。具体的,针对多视角数据,先以具体情况具体分析为基本思想,用实例分析法,针对不同的视角,利用具有不同参数的基于卷积神经网络(CNN)的模型提取出相应的局部特征并形成一个特征向量;再用等效替代法,把这些特征向量作为原始数据的一种替代表示,从而在全局和局部结构风险最小化(GLSRM)设计原则的辅助下,生成相应的卷积神经网络-多视角分类器层次模型。

本实施例中,所述的多视角数据局部特征提取模块3包含:基于卷积神经网络(Convolutional Neural Network,CNN)的局部特征提取子单元31,用于从有标签多视角数据集以及无标签多视角数据集中获得样本局部特征;分类器设计子单元32,用于根据目标优化函数以及样本局部特征设计出以全局和局部特征风险最小化为原则拥有充足有效数据信息和局部特征的多视角分类器。

本实施例中,如图4所示,首先针对多视角数据集的每个视角,利用参数不同的基于卷积神经网络(CNN)的模型生成一个特征向量,该特征向量是由输入样本在该视角下被提取出来的局部特征组成,这些被提取出来的局部特征足以描述该视角;然后把这些特征向量作为原始数据的新视角,利用GLSRM设计原则,构建相关的目标优化函数;最后把该目标优化函数作为分类器模型建立的基础,并实现相关分类器,且对相关识别目标进行识别。

本发明还公开了一种基于局部特征的多视角分类器设计方法,其包含以下步骤:

S1、基于多视角数据集中信息有限的有标签多视角中小数据集得到用于训练分类器的无标签多视角样本,并生成相应的无标签多视角数据集;

S2、根据有标签多视角数据集和无标签多视角数据集得出全局结构风险和局部结构风险,并根据全局结构风险和局部结构风险之间差异的函数关系求解目标优化函数,得到基于全局和局部结构风险最小化的目标优化函数;

S3、基于卷积神经网络来针对有标签多视角数据集以及无标签多视角数据集提取充分的样本局部特征,并根据基于全局和局部结构风险最小化的目标优化函数和样本局部特征设计出拥有充足有效数据信息和局部特征的全局和局部结构风险最小化的多视角分类器。

尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号