首页> 中国专利> 一种应用于表征学习的多模型线性融合Model Ensemble方法

一种应用于表征学习的多模型线性融合Model Ensemble方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种应用于表征学习的多模型线性融合Model Ensemble方法，属于人工智能领域。本发明使用ArcFace技术将多个分类模型的表征输出投影到超球面，并满足较小的类内距离和较大的类间距离。并且基于融合表征需满足线性关系的假设，将线性层的参数进行固定，通过优化损失函数，将模型学习的表征引导在同一个线性空间下之后，再对输出进行线性加权平均融合，从而得到最后的表征。本方法通过对不同AI模型进行线性集成，能够对样本学习到更稳定、准确的表征，并对下游任务效果如分类、识别、查询等有显著的提高。

著录项

公开/公告号CN115687929A

专利类型发明专利
公开/公告日2023-02-03

原文格式PDF
申请/专利权人长三角信息智能创新研究院;
展开▼

申请/专利号CN202211434704.0
发明设计人连德富;陈钢;熊哲立;杨启冲;
展开▼

申请日2022-11-16
分类号G06F18/214;G06F18/25;
代理机构安徽知问律师事务所;
代理人金贝贝
地址 241000 安徽省芜湖市弋江区科技产业园5号楼
入库时间 2023-06-19 18:30:43

法律信息

法律状态公告日

法律状态信息

法律状态
2023-02-03

公开

发明专利申请公布

说明书

技术领域

本发明涉及人工智能技术领域，更具体地说，涉及一种应用于表征学习的多模型线性融合Model Ensemble方法。

背景技术

表征学习是人工智能的重要研究领域之一。基于样本特征将其表示在高维空间中的一组向量。模型学习到不同的向量空间意味着对样本提取的不同的特征组合，以及给予特征不同的权重。单模型只能讲学习样本投射到一个空间，而不同的模型集成可以将样本从不同的空间来进行比较学习，从而进行更全面的特征提取。在基于线性融合的方法中，现有的方法知识对已有的表征进行不同方式的线性组合，而忽略了表征之间的关系。不同的模型被激活的神经元不同，导致其拟合函数不同，进而得到的表征存在非线性关系，导致强行对其进行线性融合导致混乱的表征，从而造成性能的损失。

发明内容

1.发明要解决的技术问题

本发明的目的在于提供一种应用于表征学习的多模型线性融合Model Ensemble方法，本方法可以融合不同模型。

2.技术方案

为达到上述目的，本发明提供的技术方案为：

本发明的一种应用于表征学习的多模型线性融合Model Ensemble方法，对于不同的训练模型，使用ArcFace技术将多个分类模型的表征输出投影到超球面，基于两个能够进行线性融合的模型需要满足线性关系的假设，采用将最佳训练模型的线性层替换的方法，用最佳训练模型线性层替换其他模型的线性层并增加一层线性投影的训练，使得所有模型的输出表征在同一个线性空间，以此满足假设，进而进行线性模型的融合。

具体地，使用Argface技术通过对样本的输出向量x

其中N表示样本数，n表示分类数，s是超球面的半径，即归一化参数，

基于线性模型融合假设：如果两个模型

采用如下线性层替换方法：对于每个模型i，首先通过训练数据训练出独立的f

最后进行线性融合：由于模型组输出的不同表征已经满足线性关系，最后对模型组的各个模型表征结果进行加权平均，得到最终的输出表征。

3.有益效果

采用本发明提供的技术方案，与现有技术相比，具有如下有益效果：

本发明的一种应用于表征学习的多模型线性融合Model Ensemble方法，基于线性模型集成假设，通过将不同AI模型的输出表征投影到同一个线性空间，再进行线性融合；能够得到样本更稳定、准确的表征；基于该表征，对下游任务效果如分类、识别、查询等有显著的性能提升。

附图说明

图1为实施例提供的应用场景示意图；

图2为实施例提供的线性化层的结构示意图。

具体实施方式

为进一步了解本发明的内容，结合附图对本发明作详细描述。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

下面结合实施例对本发明作进一步的描述。

实施例1

本实施例的一种应用于表征学习的多模型线性融合Model Ensemble方法，如图1所示,约定所有模型通过Argface损失函数对同一批图像训练集进行训练，得到模型f

其中N表示样本数，n表示分类数，s是超球面的半径，即归一化参数，

传统的融合直接将不同模型的表征结果进行简单的加权平均，由于不同的模型捕捉的关键特征可能不同，而这些特征由模型里面的不同核心神经元捕获，因此这些模型之间并不满足线性关系，导致强行对其进行线性融合导致混乱的表征，从而造成性能的损失。

因此，基于线性模型融合假设：如果两个模型

如图2所示，由于不同的模型具有非线性关系，为了将这种非线形关系转化为线形关系，需要把所有模型统一到同一个分类中心的向量空间上，也就是固定Argface的线性层参数W。而W的每一列就是一个分类中心的向量。因此，本实施例使用最优模型的Argface线性层f

令E

需要对其他模型在骨干网络g

最后，对模型组

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，只是本发明的实施方式之一，实际并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于集成学习融合模型的异常空腹血糖值预警方法 [P] . 中国专利：
2. 支持混合模型融合的Model Ensemble方法 [P] . 中国专利： CN112598085B . 2021-07-30
3. 支持混合模型融合的Model Ensemble方法 [P] . 中国专利： CN112598085A . 2021-04-02
4. A measurement system, a method for generating a learning model used when performing image measurement of a semiconductor including a predetermined structure, and processing for generating, in a computer, a learning model used when performing image measurement of a semiconductor including a predetermined structure A storage medium storing a program for executing [P] . 韩国专利： KR20220029748A . 2022-03-08

机译：一种测量系统，一种生成学习模型的方法，当执行包括预定结构的半导体的图像测量时使用该学习模型，以及在计算机中生成当执行包括预定结构的半导体的图像测量时使用的学习模型的处理，该学习模型是存储用于执行的程序的存储介质
5. A learning method and learning device that updates the HD map by reconstructing the 3D space using the depth prediction information for each object and the class information for each object acquired by the V2X information fusion technology, and using this. Testing method and testing equipment [P] . 日本专利： JP6892157B2 . 2021-06-23

机译：一种学习方法和学习设备，可以通过使用每个对象的深度预测信息和由V2X信息融合技术获取的每个对象的广泛预测信息来重建3D空间来更新HD映射的学习设备，以及用于由V2X信息融合技术获取的每个对象的类信息。测试方法和测试设备
6. Using nonlinear functions applied to quantization parameters of machine learning models for video coding [P] . 日本专利： JP2021520082A . 2021-08-12

机译：使用非线性函数应用于视频编码机器学习模型的量化参数