首页> 中国专利> 基于多距离度量学习的多标签特征选择方法

基于多距离度量学习的多标签特征选择方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供了基于多距离度量学习的多标签特征选择方法，具体包括如下步骤：步骤1：归一化训练数据集；步骤2：初始化特征加权矩阵并设置超参数；步骤3：基于近邻模型计算近似留一法分类误差；步骤4：计算特征图正则化项、标签图正则化项和范数正则化项；步骤5：基于梯度下降技术最小化总目标损失函数，直到满足停止准则；步骤6：根据最终输出的特征加权矩阵行向量的长度对特征进行降序排序，前K个特征即为算法选出的最优特征子集。本发明通过特征图正则化项和标签图正则化项可以保持特征的相关性和标签的相关性，通过范数正则化项可以保证特征加权矩阵的行稀疏性，因此能够很好地进行多标签分类任务的特征选择。

著录项

公开/公告号CN112884038A

专利类型发明专利
公开/公告日2021-06-01

原文格式PDF
申请/专利权人河南大学;
展开▼

申请/专利号CN202110181037.9
发明设计人杨伟;王月;李军伟;周林;金勇;
展开▼

申请日2021-02-06
分类号G06K9/62(20060101);
代理机构41104 郑州联科专利事务所(普通合伙);
代理人王聚才
地址 475001 河南省开封市明伦街85号
入库时间 2023-06-19 11:11:32

说明书

技术领域

本发明涉及特征选择技术领域，具体涉及基于多距离度量学习的多标签特征选择方法。

背景技术

近年来，多标签数据在许多领域的应用逐渐增多。在多标签数据集中，一个样本可能与多个标签相关联。高维的多标签数据会增加模型的计算复杂度和计算成本。特征选择技术可以解决上述问题。

在多标签学习中，特征选择分为过滤式、封装式、嵌入式三种：过滤式方法选择特征的过程与分类器完全无关，过滤式方法计算量小，但分类精度不高；封装式方法选择特征的过程完全依赖于分类器，封装式方法分类精度高，但计算量大；嵌入式方法将模型学习与分类器相结合，嵌入式方法的特征选择效果较好。

多标签特征选择一般分为两类：(1)、问题转化方法；(2)、算法自适应方法。问题转换方法是将多标签问题转换为多个单标签问题，这种方法的缺点是没有考虑标签的相关性。算法自适应方法是专门为多标签数据设计的一种方法。

发明内容

本发明的目的是提供一种基于多距离度量学习的多标签特征选择方法，能够有效地提高多标签数据的特征选择效果。

本发明采用的技术方案为：

基于多距离度量学习的多标签特征选择方法，包括以下步骤：

步骤1：对训练数据集进行归一化处理；

步骤2：初始化特征加权矩阵并设置超参数；

步骤3：基于近邻模型计算近似留一法分类误差；

步骤4：计算特征图正则化项、标签图正则化项和l

步骤5：基于梯度下降技术最小化总目标损失函数，直到满足停止准则；

步骤6：根据最终输出的特征加权矩阵行向量的长度对特征进行降序排序，前K个特征即为算法选出的最优特征子集。

所述步骤3具体包括：

给定数据集

特征矩阵X＝[x

标签矩阵Y＝[y

特征权值矩阵W＝[w

对于第h个类别，其近似留一法分类误差的计算过程包括以下步骤：

步骤3.1、计算两个样本之间的加权曼哈顿距离，样本x

其中，x

步骤3.2、样本x

其中，k(z)＝exp(-z/σ)，σ是核宽度,S

步骤3.3、样本x

步骤3.4、对于第h个类别，其近似留一法分类误差的计算公式为：

步骤3.5、对于每一个类别，按照步骤3.1～3.4计算可以得到一个分类误差；对c个分类误差求平均，可得到最终的用于特征选择的近似留一法分类误差损失ζ(W)，具体的计算公式为：

步骤4中所述的特征图正则化项和标签图的正则化项分别为：

所述特征图正则化项的计算公式为：

其中，

定义矩阵E的函数为：

其中，σ

所述标签图正则化项的计算公式为：

其中，

定义

其中，σ

所述步骤5中的总目标损失函数为：

s.t.W≥0

其中，α，β，γ为需要调整的超参数，

本发明所述的基于多距离度量学习的多标签特征选择方法，将多标签数据的特征权值学习问题转换为基于近邻模型的多距离度量学习问题，用特征图正则化项和标签图正则化项分别保持特征的几何结构和标签的几何结构，用l

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明所述的基于多距离度量学习的多标签特征选择方法，具体实施步骤如下：

给定数据集

特征矩阵X＝[x

标签矩阵Y＝[y

此外，为了进行特征选择，引入了特征加权矩阵W＝[w

步骤1：对数据集进行归一化处理,将特征矩阵X中的数据映射到[0,1]之间；

步骤2：初始化特征加权矩阵并设置超参数；

步骤3：基于近邻模型计算近似留一法分类误差；具体的，

对于第h个类别，计算近似留一法分类误差：

步骤3.1、计算两个样本之间的加权曼哈顿距离，样本x

其中，x

步骤3.2、测试样本x

其中，k(z)＝exp(-z/σ)，σ是核宽度,S

步骤3.3、测试样本x

对于第h个类别，其近似留一法分类误差的计算公式为：

对于每一个类别，都计算一个近似留一法分类误差。对c个分类误差求平均，可得到最终的用于特征选择的近似留一法分类误差损失，计算公式为：

步骤4：计算特征图正则化项、标签图正则化项和l

特征图正则化项的计算公式如下:

其中，

矩阵E的具体定义为：

其中，σ

所述标签图正则化项的具体表达式为：

其中，

定义

其中，σ

步骤5：基于梯度下降技术最小化总目标损失函数，直到满足停止准则；具体的，

所述总目标损失函数的计算公式如下：

s.t.W≥0

其中，α，β，γ为需要调整的超参数，

步骤6：根据最终输出的特征加权矩阵行向量的长度对特征进行降序排序，前K个特征即为算法选出的最优特征子集；具体的，

计算

最后由

以上所述，仅为本发明的一个具体实施案例，但本发明并不仅限制于上述实施方式。凡是根据本发明技术原理对以上实施例所作的任何简单修改、改进以及等同替换，均仍包含于本发明的保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于多距离度量学习的多标签特征选择方法 [P] . 中国专利： CN112884038A . 2021-06-01
2. 一种基于深度学习特征和点到集合距离度量学习的目标跟踪方法 [P] . 中国专利： CN107491761A . 2017-12-19
3. Methods and systems for feature selection in machine learning based on feature contribution and model fitness [P] . 美国专利： US2010191685A1 . 2010-07-29

机译：基于特征贡献和模型适应度的机器学习特征选择方法和系统
4. Methods and systems for feature selection in machine learning based on feature contribution and model fitness [P] . 美国专利： US7599893B2 . 2009-10-06

机译：基于特征贡献和模型适应度的机器学习特征选择方法和系统
5. Methods and systems for feature selection in machine learning based on feature contribution and model fitness [P] . 美国专利： US2007112716A1 . 2007-05-17

机译：基于特征贡献和模型适应度的机器学习特征选择方法和系统