技术领域
本发明涉及特征选择技术领域,具体涉及基于多距离度量学习的多标签特征选择方法。
背景技术
近年来,多标签数据在许多领域的应用逐渐增多。在多标签数据集中,一个样本可能与多个标签相关联。高维的多标签数据会增加模型的计算复杂度和计算成本。特征选择技术可以解决上述问题。
在多标签学习中,特征选择分为过滤式、封装式、嵌入式三种:过滤式方法选择特征的过程与分类器完全无关,过滤式方法计算量小,但分类精度不高;封装式方法选择特征的过程完全依赖于分类器,封装式方法分类精度高,但计算量大;嵌入式方法将模型学习与分类器相结合,嵌入式方法的特征选择效果较好。
多标签特征选择一般分为两类:(1)、问题转化方法;(2)、算法自适应方法。问题转换方法是将多标签问题转换为多个单标签问题,这种方法的缺点是没有考虑标签的相关性。算法自适应方法是专门为多标签数据设计的一种方法。
发明内容
本发明的目的是提供一种基于多距离度量学习的多标签特征选择方法,能够有效地提高多标签数据的特征选择效果。
本发明采用的技术方案为:
基于多距离度量学习的多标签特征选择方法,包括以下步骤:
步骤1:对训练数据集进行归一化处理;
步骤2:初始化特征加权矩阵并设置超参数;
步骤3:基于近邻模型计算近似留一法分类误差;
步骤4:计算特征图正则化项、标签图正则化项和l
步骤5:基于梯度下降技术最小化总目标损失函数,直到满足停止准则;
步骤6:根据最终输出的特征加权矩阵行向量的长度对特征进行降序排序,前K个特征即为算法选出的最优特征子集。
所述步骤3具体包括:
给定数据集
特征矩阵X=[x
标签矩阵Y=[y
特征权值矩阵W=[w
对于第h个类别,其近似留一法分类误差的计算过程包括以下步骤:
步骤3.1、计算两个样本之间的加权曼哈顿距离,样本x
其中,x
步骤3.2、样本x
其中,k(z)=exp(-z/σ),σ是核宽度,S
步骤3.3、样本x
步骤3.4、对于第h个类别,其近似留一法分类误差的计算公式为:
步骤3.5、对于每一个类别,按照步骤3.1~3.4计算可以得到一个分类误差;对c个分类误差求平均,可得到最终的用于特征选择的近似留一法分类误差损失ζ(W),具体的计算公式为:
步骤4中所述的特征图正则化项和标签图的正则化项分别为:
所述特征图正则化项的计算公式为:
其中,
定义矩阵E的函数为:
其中,σ
所述标签图正则化项的计算公式为:
其中,
定义
其中,σ
所述步骤5中的总目标损失函数为:
s.t.W≥0
其中,α,β,γ为需要调整的超参数,
本发明所述的基于多距离度量学习的多标签特征选择方法,将多标签数据的特征权值学习问题转换为基于近邻模型的多距离度量学习问题,用特征图正则化项和标签图正则化项分别保持特征的几何结构和标签的几何结构,用l
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明所述的基于多距离度量学习的多标签特征选择方法,具体实施步骤如下:
给定数据集
特征矩阵X=[x
标签矩阵Y=[y
此外,为了进行特征选择,引入了特征加权矩阵W=[w
步骤1:对数据集进行归一化处理,将特征矩阵X中的数据映射到[0,1]之间;
步骤2:初始化特征加权矩阵并设置超参数;
步骤3:基于近邻模型计算近似留一法分类误差;具体的,
对于第h个类别,计算近似留一法分类误差:
步骤3.1、计算两个样本之间的加权曼哈顿距离,样本x
其中,x
步骤3.2、测试样本x
其中,k(z)=exp(-z/σ),σ是核宽度,S
步骤3.3、测试样本x
对于第h个类别,其近似留一法分类误差的计算公式为:
对于每一个类别,都计算一个近似留一法分类误差。对c个分类误差求平均,可得到最终的用于特征选择的近似留一法分类误差损失,计算公式为:
步骤4:计算特征图正则化项、标签图正则化项和l
特征图正则化项的计算公式如下:
其中,
矩阵E的具体定义为:
其中,σ
所述标签图正则化项的具体表达式为:
其中,
定义
其中,σ
步骤5:基于梯度下降技术最小化总目标损失函数,直到满足停止准则;具体的,
所述总目标损失函数的计算公式如下:
s.t.W≥0
其中,α,β,γ为需要调整的超参数,
步骤6:根据最终输出的特征加权矩阵行向量的长度对特征进行降序排序,前K个特征即为算法选出的最优特征子集;具体的,
计算
最后由
以上所述,仅为本发明的一个具体实施案例,但本发明并不仅限制于上述实施方式。凡是根据本发明技术原理对以上实施例所作的任何简单修改、改进以及等同替换,均仍包含于本发明的保护范围内。
机译: 基于特征贡献和模型适应度的机器学习特征选择方法和系统
机译: 基于特征贡献和模型适应度的机器学习特征选择方法和系统
机译: 基于特征贡献和模型适应度的机器学习特征选择方法和系统