法律状态公告日
法律状态信息
法律状态
2022-08-26
授权
发明专利权授予
技术领域
本发明属于机器学习和模式识别领域,具体涉及一种融合组稀疏约束和图趋势过滤的噪声容错多标签分类方法。
背景技术
在传统监督学习中,对于真实世界的每一个对象,在输入空间用一个属性向量作为一个示例去刻画其性质,并在输出空间用类别标签去反映该对象的语义信息。将一个示例与其对应的类别标签相关联,就得到了一个样本。在真实世界中,一个样本可能需要利用多个类标签去描述。例如,一张关于网球比赛选手的照片中可能会包含“球拍”、“人”、“球”等多个标签;一首乐曲可能包含“流行”、“电子”、“欢快”等标签等等。类似的情况在生活中十分常见,这使得多标签学习成为机器学习领域一个重要的研究热点。然而,在实际应用中,多标签学习往往会遇到训练数据含有噪声的问题,例如一些训练样本的特征数据可能损坏,或是一些样本的标签被标错,或是两者兼而有之。
现有的大多数多标签学习方法或是仅考虑到特征噪声的问题,或是仅解决标签噪声的问题,却少有方法考虑到混合噪声的情况。忽略上述任意一种噪声都可能导致训练出不合理的模型并影响多标签学习的预测精度。
发明内容
发明目的:为解决多标签学习中训练数据含有混合噪声的问题,本发明提出了一种融合组稀疏约束和图趋势过滤的噪声容错多标签分类方法,从而有效地利用组稀疏约束来容忍特定样本所带有的特征噪声和标签噪声,并融合特征选择机制进一步提升分类效果。
发明内容:本发明提出一种融合组稀疏约束和图趋势过滤的噪声容错多标签分类方法,包括以下步骤:
(1)抽取训练集样本数据的特征表示,训练集中的每个样本都带有事先标注好的语义标签,并基于特征数据以及标签数据建立融合组稀疏约束和图趋势过滤的噪声容错多标签分类数学模型;
(2)通过ADMM算法求解提出的数学模型,得到分类器;
(3)基于步骤(2)中学得的分类器,预测未知样本的标签向量。
进一步地,所述步骤(1)包括以下步骤:
(11)定义
(12)建立融合组稀疏约束和图趋势过滤的噪声容错多标签分类模型如下:
其中,
进一步地,步骤(12)所述的
定义相似度矩阵
其中,a
对于A中的第i行a
基于关联矩阵S定义基于组稀疏约束的图趋势过滤正则化项如下:
进一步地,所述步骤(2)包括以下步骤:
(21)将各正则化项代入公式(4),并将其转化成如下增广拉格朗日函数形式:
其中,ρ为惩罚因子,
(22)利用随机数初始化M、Q、W、U,对多标签数据进行归一化处理;
(23)设定最大迭代次数T,迭代求解M、Q、W、U,直至达到最大迭代次数T,或是目标函数收敛,即第t次迭代所对应的目标函数的值与第t-1次迭代所对应的目标函数的值之差小于10
进一步地,所述步骤(23)具体包括以下步骤:
(231)固定W、Q和U,求解M转为求解如下子问题:
求解得:
其中,m
(232)固定M、Q和U,求解W可转为求解如下子问题:
求解得:
其中,sgn(·)为符号函数,⊙为Hadamard乘积,max(·,·)为最大值函数,将返回两数之中的大者;
(233)固定M、W和U,求解Q的子问题可以改写成如下形式:
其中,tr(·)表示矩阵的迹,(·)T表示矩阵的转置,
通过对公式(17)求导,可解得:
Q=(X
其中,
(234)固定M、Q和W,可以通过如下公式求解U:
U=M+W-Q+U
其中,U
(235)更新ρ:ρ=1.2ρ
进一步地,所述步骤(3)的实现过程如下:
对于未知样本
其中,t(·)为阈值函数,定义如下:
有益效果:与现有技术相比,本发明的有益效果:1、本发明通过设计基于组稀疏约束的线性回归函数以及图趋势过滤正则化项,使得模型在训练数据同时含有特征噪声和标签噪声时,同样能达到优越的分类效果;2、本发明引入了一种联合的特征选择与分类机制,能够同时学习标签共有特征以及标签特有特征,从而为标签筛选出关键信息,提升分类性能。
附图说明
图1为本发明流程图;
图2为多标签分类数学模型的求解步骤流程图。
具体实施方式
下面结合附图对本发明作进一步详细描述,如图1所示,本发明提供一种融合组稀疏约束和图趋势过滤的噪声容错多标签分类方法,具体包括以下步骤:
1、输入多标签特征数据,以及每个样本的标签信息,建立融合组稀疏约束和图趋势过滤的噪声容错多标签分类数学模型。
(1)定义
除此之外,对于任意矩阵
由于L
(2)建立融合组稀疏约束和图趋势过滤的噪声容错多标签分类模型如下:
其中,
在所述公式(5)中,1为全1列向量,b为偏置。为方便书写,可将1和b分别合并入X和Q中。则X的维度更新为n行(d+1)列,Q、W和M的维度更新为(d+1)行c列,所述公式(5)可被重写为:
1)定义相似度矩阵
在所述公式(7)中,a
2)对于A中的第i行a
3)基于关联矩阵S定义基于组稀疏约束的图趋势过滤正则化项如下:
需要注意的是,前述构建过程是建立在“所有的样本特征与标签关联均一致”的假设的基础上,然而对于含有特征噪声的样本来说,这种特征与标签的关联的一致性则不一定成立。为了避免受到噪声样本的干扰,本发明将图趋势过滤正则化项与组稀疏约束相结合,构建基于组稀疏约束的图趋势过滤正则化项如下:
图趋势过滤正则化项拟合了样本间特征与预测标签的关联一致性,从而基于样本特征的相似性依赖XQ进行标签的间接传播。与此同时,由于组稀疏约束行稀疏的特点,它能够容忍野值样本造成的干扰,因此达到容忍特征噪声的效果。
不同标签之间可能依赖于一些相同的特征来判断,也会需要一些标签特有的特征来进一步细分。例如,从外形轮廓特征上可以判断出目标是不是属于鸟类,但具体是哪一种鸟则需要通过羽毛颜色,爪喙,体型等特征去区分。因此本发明将Q成W和M两部分,利用
2、如图2所示,通过ADMM算法求解提出的数学模型,得到分类器。
通过ADMM算法求解公式(4)。首先将各正则化项代入公式(4),并将其转化成如下增广拉格朗日函数形式:
在所述公式(12)中,ρ为惩罚因子,
利用随机数初始化M、Q、W、U,对多标签数据进行归一化处理。
设定最大迭代次数T。迭代求解M、Q、W、U,直至达到最大迭代次数T,或是目标函数收敛,即第t次迭代所对应的目标函数的值与第t-1次迭代所对应的目标函数的值之差小于10
1)固定W、Q和U,求解M转为求解如下子问题:
求解得:
在所述公式(14)中,m
2)固定M、Q和U,求解W可转为求解如下子问题:
求解得:
在所述公式(16)中,sgn(·)为符号函数,⊙为Hadamard乘积,max(·,·)为最大值函数,将返回两数之中的大者。
3)固定M、W和U,求解Q的子问题可以改写成如下形式:
在所述公式(17)中,tr(·)表示矩阵的迹,(·)
通过对公式(17)求导,可解得:
Q=(X
在所述公式(20)中,
4)固定M、Q和W,可以通过如下公式求解U:
U=M+W-Q+U
在公式(21)中,U
5)更新ρ:ρ=1.2ρ
3、基于步骤2中学得的分类器,预测未知样本的标签向量。
基于求解得到的分类器Q,对于未知样本
在公式(22)中,t(·)为阈值函数,定义如下:
机译: 一种稀疏图形创建设备,该稀疏图形创建设备创建用于稀疏图形代码的稀疏图,以及稀疏图形创建方法,该方法创建用于稀疏图形代码的稀疏图
机译: 能够基于稀疏度表示对运动成像电脑图进行分类的脑计算机连接装置及其分类方法
机译: 产生一个或多个蛋白质的方法,加标签的蛋白质的文库,产生一组蛋白质的方法,排列。筛选一种或多种化合物对一种或多种蛋白质的生物活性的方法用于蛋白质-蛋白质和特定核酸的相互作用的核酸,一种排列的使用,用于产生一组抗体的方法,以及对蛋白质或蛋白质的功能依赖性的分类,以及使用标有标签的蛋白质。