公开/公告号CN114821162A
专利类型发明专利
公开/公告日2022-07-29
原文格式PDF
申请/专利权人 天津大学;
申请/专利号CN202210376754.1
申请日2022-04-12
分类号G06V10/764(2022.01);G06V10/82(2022.01);G06V10/40(2022.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构天津市三利专利商标代理有限公司 12107;
代理人韩新城
地址 300072 天津市南开区卫津路92号
入库时间 2023-06-19 16:12:48
法律状态公告日
法律状态信息
法律状态
2022-08-16
实质审查的生效 IPC(主分类):G06V10/764 专利申请号:2022103767541 申请日:20220412
实质审查的生效
技术领域
本发明属于图片识别技术领域,具体涉及一种基于属性知识的轻量化零样本学习算法框架。
背景技术
卷积神经网络(Convolutional Neural network,CNN)作为一种前馈神经网络,被广泛应用于计算机视觉、自然语言处理等各大领域。但是,随着深度学习算法性能不断提升,需要的人力成本和训练成本也不断增长。首先,训练模型需要大量的数据集。研究人员需要手动为每个类别收集并标注数千个训练样本以制作数据集。这需要耗费大量人工成本。不仅如此,现实中难以为每个类别都收集大量图片。其次,深度学习模型参数量不断增长,训练时间也随之增加。此外,深度学习算法的学习能力与真正的人脑的学习能力仍有巨大的差距。
为了解决以上问题,零样本学习(Zero-Shot Learning,ZSL)被提出。零样本学习要解决的任务即识别训练集中不含有的新类别。零样本学习领域已有多种方法被提出,这些方法主要有基于属性的方法,基于语义知识的方法和基于视觉样本生成的方法。基于属性的零样本学习的方法可解释性强,但需要领域专家定义人工属性。因此,此类方法适用于特定领域的应用。
目前,基于属性的零样本学习的算法已经取得了高识别精度,但是模型训练参数不断增加。因此,如何在减少模型参数的情况下实现高精度是亟待解决的技术问题。
发明内容
为了在实现高精度零样本识别的情况下降低模型的训练参数,本发明提出一种融合先验的属性知识图谱的轻量化模型完成识别。该模型基于属性知识图谱选择关键属性进行识别,可以低的训练成本完成高精度识别;同时引入两步式识别机制,先判断图片为可见类还是未见类,再输出识别结果。
本发明采取的技术方案如下:
一种基于属性知识的轻量化零样本学习算法框架,由以下模块组成:
特征提取模块,用于提取图片的高维特征,输出每张图片的特征向量;
属性识别模块,其输入端与特征提取模块的输出端相连接,属性识别模块的输入是图片的特征向量,输出层有两个神经元:一个神经元对应“有”,表示特征向量包含对应的属性,另一个神经元对应“无”,表示特征向量不包含对应的属性,属性识别之后通过Softmax层处理,输出属性概率p(1)和p(0),p(1)和p(0)分别表示该图片含有该属性的概率和不含有该属性的概率,且p(1)和p(0)的和等于1;
分类器模块,其输入端与属性识别模块的输出端相连接,包括属性知识图谱,用于融合属性知识图谱中的先验知识,先采用广义的零样本识别方法识别出可见类以及不可见类,输出可见类的识别结果;然后基于常规的零样本识别方法,对不可见类进行识别,选择不可见类中的关键属性识别,输出不可见类识别结果。
其中,所述特征提取模块采用CNN卷积神经网络,由预训练的卷积层以及全局平均池化层组成,由卷积层提取特征图,再由全局平均池化层将提取特征图转为特征向量。
其中,所述属性识别模块由多个独立的属性识别网络并联组成,属性识别网络的数量与属性的数量相同,每个属性识别网络识别特定的某种属性。
其中,每个属性识别网络由全连接层构成以识别不同的属性。
其中,所述分类器模块包含属性知识图谱,属性知识图谱中的节点由类别节点和属性节点组成,类别节点和属性节点之间的关系表明一个类别是否含有一个属性。
其中,先采用广义的零样本识别方法识别出可见类以及不可见类,输出可见类的识别结果,然后基于常规的零样本识别方法,对不可见类进行识别,选择不可见类中的关键属性识别,输出不可见类识别结果的步骤是:
先计算属性概率和最大值,再将属性概率和的最大值和与设定的阈值比较,若属性概率和的最大值大于设定的阈值的,图片样本被视作可见类,则直接得到识别结果;否则,图片样本被视作未见类,转化为常规零样本学习问题处理:确定类别属于未见类,计算属性的信息量和每个属性识别网络在未见类样本集合中的属性识别的精度,选择信息量值小,精度高的属性为关键属性。
其中,计算属性的信息量的公式如下:
IA
式中,IA
所述属性识别网络在未见类样本集合中的属性识别精度的计算方式如下:
其中,常规零样本学习任务中,关键属性的属性概率和的最大值的计算如下:
其中,为关键属性赋予大于1的权重w,U为未见类数量,
其中,在广义零样本识别任务中,属性概率和最大值的计算如下式所示:
其中,M为属性数量,U为未见类数量,S为可见类数量,
与现有技术相比,本发明的学习算法框架能够达成以下有益效果:
1)在低训练成本的情况下,实现高精度识别。
2)适合增量学习的场景,模型在学新知识时可保留已经学的知识。
3)模型框架中的特征提取模块可根据精度和算力的要求更换。
4)两步式识别机制可有效缓解广义零样本学习中的域漂移问题。
附图说明
图1为本发明的算法框架示意图;
图2为本发明的算法框架中属性识别模块的示意图;
图3为本发明的特征提取模块和属性识别模块的执行示意图;
图4为本发明的算法框架中属性知识图谱的示意图。
具体实施方式
下面结合附图和具体实施示例对本发明技术方案作进一步详细描述。
零样本识别任务中,有可见类和未见类;可用于训练的类别为可见类,不可用于训练的类别为未见类。在常规零样本学习任务中,在推理阶段完成对未见类的识别。在广义零样本识别任务中,在推理阶段完成对可见类和未见类的识别。本发明设未见类共U个类别,可见类共S个类别。
为方便后续运算,U个未见类分别记为类别1,类别2……类别U,S个可见类分别记为类别U+1,类别U+2,……类别U+S。
本发明算法框架如图1所示,由特征提取模块,属性识别模块和分类器模块组成;其中,特征提取模块用于提取图片I
其中,属性识别模块如图1所示,由多个属性识别网络FC
其中,每个属性识别网络的结构如图2所示,每个属性识别网络由全连接层组成,网络的输入是图片的特征向量V
图3示出了特征提取模块和属性识别模块的工作过程。如图3所示,通过对左侧的一张输入图片(如海豚图片)通过特征提取模块进行特征提取后,将提取的特征向量输入到属性识别模块进行属性识别,最后输出不同的属性概率,如Patches有的概率为0.02,无的概率为0.98.Spots有的概率为0.01,无的概率为0.99,Paws有的概率为0.44,无的概率为0.56,Tail有的概率为0.84,无的概率为0.16。
本发明实施例中,所述分类器模块包含属性知识图谱,如图4所示,其节点由类别节点和属性节点组成,类别节点和属性节点之间的关系表明一个类别是否含有一个属性的属性,如图4所示,类别节点有O
其中,在常规的零样本学习任务中,首先计算属性的信息量和精度。
其中,计算每个属性的信息量IA
IA
其中,属性节点的边的数量指的与属性节点直接相连的边的数量,如图4中,属性节点a
同时,计算属性识别网络在未见类样本集合中的属性识别精度,其中,第j个属性的识别精度的计算方式如下:
本发明选取信息量值小,精度高的属性为关键属性;之后,算法框架的推理过程如下:首先利用每个属性识别网络识别样本的属性,每个属性识别网络输出p(1)和p(0)概率值。其次,计算每张图片对应属性知识图谱中每个类别的属性概率和,以及属性概率和的最大值和对应的类别i。
其中,为关键属性赋予大于1的权重w,从而使得关键属性在推理过程中,相比于其他属性,更加被关注,利于识别效果提升。U为未见类数量,
根据上述的属性概率和的最大值对应的类别的式,属性概率和最大的类别为识别结果,即选择使得该式最大的i的值,识别结果为类别i。
在广义零样本识别任务中,本发明的推理过程如下:
第一步,计算阈值threshold=M*(1-1.5%),其中,M为属性的数量。
第二步,采用下式计算得到的属性概率和的最大值及对应的类别i。
其中,M为属性数量,U为未见类数量,S为可见类数量,若属性概率和的最大值大于阈值threshold,图片样本被视作可见类,则直接得到识别结果,为类别i;否则,图片样本被视作未见类,问题转化为常规零样本学习问题处理,执行第三步。
第三步,确定类别属于未见类,则计算信息量值和每个属性识别网络的精度,选择信息量值小,精度高的属性为关键属性,然后采用下式完成推理、识别(具体请见前述有关常规零样本学习问题处理的具体步骤)。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
机译: 一个面向客户和零售商的智能店内购物平台。这样一来,客户可以通过智能手机选择商品,进行扫描并为商品付款,并在不需人工干预的情况下结帐。该系统使用高端技术,例如用于反盗窃的人工智能,自动决策,计算机视觉,称重技术,电子电路和RFID。该框架使用复杂的IoT(物联网)技术和自学习算法,大数据分析,客户参与以及使用数据提取和知识挖掘的模式分析。
机译: 基于拉曼光谱,使用遗传算法确定识别样本属性的模型
机译: 基于零知识证明算法和投票币中间服务器,投票代币分发服务器,投票支持服务器的基于梅克尔树结构的区块链秘密电子投票服务的提供方法