首页> 中国专利> 面向fMRI视觉分类的零次学习方法

面向fMRI视觉分类的零次学习方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供一种面向fMRI视觉分类的零次学习方法。该方法包括：步骤1：构建面向fMRI视觉分类的零次学习的数据集，数据集包括训练集和测试集，训练集包含训练集图像和被试看到训练集图像刺激后的训练集fMRI脑信号；测试集包含测试集图像和被试看到测试集图像刺激后的测试集fMRI脑信号；训练集图像和测试集图像之间的图像语义类别不相同；步骤2：根据训练集训练基于对抗学习的图像特征条件下fMRI脑信号自动生成网络；步骤3：根据测试集训练语义类别视觉分类网络；步骤4：根据步骤3训练的语义类别视觉分类网络，输入测试集fMRI脑信号，得到预测结果，实现对测试集fMRI脑信号的视觉分类。本发明的语义视觉分类网络可以扩展到被试之前未看到的图像语义类别。

著录项

公开/公告号CN112232378A

专利类型发明专利
公开/公告日2021-01-15

原文格式PDF
申请/专利权人中国人民解放军战略支援部队信息工程大学;
展开▼

申请/专利号CN202011006608.7
发明设计人陈健;谢鹏飞;乔凯;梁宁宁;王林元;张子飞;罗旭;魏月纳;闫镔;
展开▼

申请日2020-09-23
分类号G06K9/62(20060101);G06N3/04(20060101);
代理机构41111 郑州大通专利商标代理有限公司;
代理人张立强
地址 450000 河南省郑州市高新区科学大道62号
入库时间 2023-06-19 09:33:52

说明书

技术领域

本发明涉及基于fMRI的视觉分类技术领域，尤其涉及一种面向fMRI视觉分类的零次学习方法。

背景技术

基于fMRI的视觉分类是基于fMRI的视觉信息解码的关键技术，旨在根据大脑皮层神经信息来预测外部图像刺激的类别。

常规视觉分类模型要求在fMRI数据训练集上训练视觉皮层体素到图像语义类别的映射，然后能够根据测试集中新的大脑视觉皮层体素响应预测被试所观看图像的类别。通常视觉皮层中体素数量较多(维度较高)，且fMRI数据集规模较小，不利于模型的训练。因此，在体素输入到模型之前，通常从大量体素中挑选一些重要的体素，即降低维度，用于视觉分类模型的构建，提高分类准确率。一般来说，体素降维方法可以分成基于感兴趣区域的方法、基于体素激活的方法、基于准确率的方法和基于主特征分析的体素选择方法。体素降维后，通过设计分类模型进行训练和测试，完成视觉分类任务。

现有的视觉分类模型通常可以分为三种方式：基于分类器的方式、基于体素匹配的方式和基于特征匹配的方式。

(1)基于分类器的方式

主要根据训练集训练分类器模型，然后能够根据验证集中的体素响应预测对应类别。2003年，Cox and Savoy等人(Cox,D.D.and R.L.Savoy,Functional magneticresonance imaging(fMRI)“brain reading”:detecting and classifying distributedpatterns of fMRI activity in human visual cortex.Neuroimage,2003.19(2):p.261-270)提出使用SVM分类器来预测类别，另外，包括Fisher分类器、K近邻分类器等各类分类器都被用于视觉分类。2017年，Wen等人(Wen,H.,et al.,Neural encoding and decodingwith deep learning for dynamic natural vision.Cerebral Cortex,2017:p.1-25.)使用预训练深度网络模型，把体素映射到最后一层分类器的输入特征，然后使用该分类器完成了视觉分类。

(2)基于体素匹配的方式

首先需要根据训练集数据构建体素模板，每个类别对应一种体素模板，然后通过计算验证集中待预测体素与每类体素模板的相关性，最大相关性对应的类别作为该皮层体素的预测结果。因此，该类方法的关键在于体素模板的构建。2001年，Haxby等人(Haxby,J.V.,et al.,Distributed and overlapping representations of faces and objectsin ventral temporal cortex.Science,2001.293(5539):p.2425-2430.)直接把训练集中属于同一类别的体素计算平均值作为该类别的体素模板。2008年，Kay等人(Kay,K.N.,etal.,Identifying natural images from human brain activity.Nature,2008.452(7185):p.352.)首先根据训练集训练一个视觉编码模型，然后输入那些同类别的图像得到相应预测的体素，计算预测的体素的平均值作为该类别的体素模板。

(3)基于特征匹配的方式

首先需要根据训练集数据构建特征模板，每个类别对应一种特征模板，然后把体素映射到特征空间，进而计算特征与模板特征的相关性，最大相关性对应的类别作为该皮层体素的预测结果。因此，该类方法需要某种特征作为中间桥梁，把体素映射到特征空间进行匹配性计算。2017年，Horikawa和Kamitani等人(Horikawa,T.and Y.Kamitani,Genericdecoding of seen and imagined objects using hierarchical visualfeatures.Nature communications,2017.8:p.15037.)，2018年，Wen等人(Wen,H.,et al.,Deep Residual Network Predicts Cortical Representation and Organization ofVisual Features for Rapid Categorization.Scientific reports,2018.8(1):p.3752.)使用深度网络特征作为中间桥梁，构建特征模板。

目前的视觉分类模型设计主要面向训练集和测试集具有相同类别集合，即训练集图像语义类别与测试集完全一样。这种视觉分类模型在实际应用场景中较为受限，训练好的模型难以扩展到其它被试之前未看到的图像语义类别。

发明内容

针对现有的视觉分类模型难以扩展到被试之前未看到的图像语义类别的问题，本发明提供一种面向fMRI视觉分类的零次学习方法，训练完成后的语义类别视觉分类网络可以在指定测试集类别集合中识别之前未参与训练的语义类别预测。

本发明提供的面向fMRI视觉分类的零次学习方法，包括：

步骤1：构建面向fMRI视觉分类的零次学习的数据集，所述数据集包括训练集和测试集，训练集包含训练集图像和被试看到训练集图像刺激后的训练集fMRI脑信号；所述测试集包含测试集图像和被试看到测试集图像刺激后的测试集fMRI脑信号；所述训练集图像和所述测试集图像之间的图像语义类别不相同；

步骤2：根据训练集训练基于对抗学习的图像特征条件下fMRI脑信号自动生成网络；

步骤3：根据测试集训练语义类别视觉分类网络；

步骤4：根据步骤3训练的语义类别视觉分类网络，输入测试集fMRI脑信号，得到预测结果，实现对测试集fMRI脑信号的视觉分类。

进一步地，步骤2包括：

步骤2.1：使用预训练深度网络分类模型提取训练集图像的图像高层语义特征，将训练集图像的图像高层语义特征与训练集fMRI脑信号构成正样本对；

步骤2.2：根据训练集图像的图像语义类别，收集没有对应fMRI脑信号的相同图像语义类别的图像，记为训练集类别图像；使用与步骤2.1相同的预训练深度网络分类模型提取训练集类别图像的图像高层语义特征，在所述图像高层语义特征的约束下，根据高斯分布采样的噪声向量，通过生成对抗网络的生成器生成训练集类别图像的伪fMRI脑信号，将训练集类别图像的图像高层语义特征与其伪fMRI脑信号构成负样本对；其中，训练集类别图像的伪fMRI脑信号包含图像语义类别信息；

步骤2.3：将正样本对和负样本对送入生成对抗网络的判别器，同时引入伪fMRI脑信号视觉分类网络，通过生成器和判别器进行对抗训练以及fMRI脑信号视觉分类网络的辅助训练，最终达到平衡，使得判别器无法分辨正负样本对，此时得到的生成对抗网络即为fMRI脑信号自动生成网络。

进一步地，所述生成器和所述判决器均由全连接层、激活函数层和归一化层堆叠而成。

进一步地，步骤3包括：

步骤3.1：根据测试集图像的图像语义类别收集若干相同图像语义类别的图像，将收集到的若干图像记为测试集类别图像；使用与步骤2.1相同的预训练深度网络分类模型提取测试集类别图像的图像高层语义特征，通过步骤2.3训练好的生成器，根据高斯分布的噪声向量，生成测试集类别图像的伪fMRI脑信号，将测试集类别图像的图像高层语义特征与其伪fMRI脑信号构成伪样本对；

步骤3.2：根据步骤3.1的伪样本对，训练语义类别视觉分类网络。

进一步地，所述语义类别视觉分类网络由全连接层、激活函数层和归一化层堆叠而成。

进一步地，在训练语义类别视觉分类网络时，采用交叉熵损失函数作为损失函数。

本发明的有益效果：

本发明提供的面向fMRI视觉分类的零次学习方法主要是基于生成对抗网络对抗学习的思想，采用生成对抗网络生成伪造的fMRI脑信号，引入视觉分类模型训练中，实现模型的零次学习；

本发明设计的视觉分类的零次学习模型，训练集图像语义类别与测试集完全不同，即没有任何交集，不需要在模型训练中引入测试集类别图像及其fMRI脑信号，训练完成后的零次学习模型就可以在指定测试集类别集合中识别之前未参与训练的语义类别预测，因此本发明的语义视觉分类网络可以扩展到被试之前未看到的图像语义类别。

附图说明

图1为本发明实施例提供的面向fMRI视觉分类的零次学习方法的流程示意图；

图2为本发明实施例提供的基于对抗学习的图像特征条件下fMRI脑信号自动生成网络训练示意图；

图3为本发明实施例提供的语义类别视觉分类网络训练示意图；

图4为本发明实施例提供的采用语义类别视觉分类网络进行测试集fMRI脑信号视觉分类的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

fMRI视觉分类是指根据被试在看到图像刺激时大脑视觉区的fMRI信号，直接预测被试所看到图像的语义类别。本发明提出一种面向fMRI视觉分类的零次学习方法，要求在训练集语义类别与测试集没有交叉的情况下，能够实现未知语义类别fMRI脑信号预测模型的训练和学习，零次学习是指能够预测训练集中未出现的语义类别。

如图1所示，本发明实施例提供一种面向fMRI视觉分类的零次学习方法，包括以下步骤：

S101：构建面向fMRI视觉分类的零次学习的数据集，所述数据集包括训练集和测试集，训练集包含训练集图像和被试看到训练集图像刺激后的训练集fMRI脑信号；所述测试集包含测试集图像和被试看到测试集图像刺激后的测试集fMRI脑信号；所述训练集图像和所述测试集图像之间的图像语义类别不相同；

S102：根据训练集训练基于对抗学习的图像特征条件下fMRI脑信号自动生成网络；

具体地，如图2所示，本步骤包括以下子步骤：

S1021：使用预训练深度网络分类模型提取训练集图像的图像高层语义特征，将训练集图像的图像高层语义特征与训练集fMRI脑信号构成正样本对；

本步骤中的预训练深度网络分类模型可以采用如AlexNet、VGGNet、ResNet等经典模型。本步骤中提取的图像高层语义特征是提取预训练深度网络模型倒数第二层的特征，即送入分类器前的特征。该类特征包含更多的高层语义信息，对分类帮助较大。

S1022：根据训练集图像的图像语义类别，收集没有对应fMRI脑信号的相同图像语义类别的图像，记为训练集类别图像；使用与步骤S1021相同的预训练深度网络分类模型提取训练集类别图像的图像高层语义特征，在所述图像高层语义特征的约束下，根据高斯分布采样的噪声向量，通过生成对抗网络的生成器生成训练集类别图像的伪fMRI脑信号，将训练集类别图像的图像高层语义特征与其伪fMRI脑信号构成负样本对；

本步骤中，在收集训练集类别图像时，可以使用现有公开数据库中的图像或者从互联网下载的图像。由于被试没有观看训练集类别图像，因此不存在对应的真实fMRI脑信号。生成的训练集类别图像的伪fMRI脑信号包含图像语义类别信息。

S1023：将正样本对和负样本对送入生成对抗网络的判别器，同时引入伪fMRI脑信号视觉分类网络(即图2中的训练集分类器)，通过生成器和判别器进行对抗训练以及fMRI脑信号视觉分类网络的辅助训练，最终达到平衡，使得判别器无法分辨正负样本对，此时得到的生成对抗网络即为fMRI脑信号自动生成网络。

具体地，现有技术中，生成对抗网络(Generative Adversarial Network，GAN)主要用于自然图像的生成。生成对抗网络是深度神经网络的一种，包含一个生成器网络和判别器网络，在图像生成中，生成器网络负责通过固定分布下采样的噪声向量生成伪造图像，判别器网络用于区分真实图像和伪造图像，通过生成器和判别器的对抗训练，最终达到平衡，使得判别器无法区分真实图像和伪造图像。不同于现有技术中的生成对抗网络的传统作用，本发明实施例是基于生成对抗网络对抗学习的思想，采用生成对抗网络生成伪造的fMRI脑信号，引入视觉分类模型训练中，实现模型的零次学习。

本步骤中，生成器和判决器均由全连接层、激活函数层和归一化层堆叠而成；生成器用于实现非线性变换；判别器用于通过sigmoid层输出一维真假概率。所述伪fMRI脑信号视觉分类网络用于辅助生成对抗网络的训练。训练好的fMRI脑信号自动生成网络所生成的fMRI脑信号模仿了真实脑信号的分布。

所谓通过生成器和判别器进行对抗训练以及fMRI脑信号视觉分类网络的辅助训练是指：训练集分类器用于在训练中约束生成器根据图像特征生成的伪脑信号中包含图像语义类别信息，判别器用于在训练中约束生成器生成的伪脑信号与真实脑信号尽量相似，两者共同支撑生成器的训练。

S103：根据测试集训练语义类别视觉分类网络；

具体地，如图3所示，本步骤包括以下两个子步骤：

S1031：根据测试集图像的图像语义类别收集若干相同图像语义类别的图像，将收集到的若干图像记为测试集类别图像；使用与步骤S1021相同的预训练深度网络分类模型提取测试集类别图像的图像高层语义特征，通过步骤S1023训练好的生成器，根据高斯分布的噪声向量，生成测试集类别图像的伪fMRI脑信号，将测试集类别图像的图像高层语义特征与其伪fMRI脑信号构成伪样本对；

S1032：根据步骤S1031的伪样本对，训练语义类别视觉分类网络(即图3中的测试集分类器)。

本步骤中，所述语义类别视觉分类网络由全连接层、激活函数层和归一化层堆叠而成；在训练语义类别视觉分类网络时，采用交叉熵损失函数作为损失函数。

S104：如图4所示，根据训练得到的语义类别视觉分类网络，输入测试集fMRI脑信号，得到预测结果，实现对测试集fMRI脑信号的视觉分类。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 面向fMRI视觉分类的零次学习方法 [P] . 中国专利： CN112232378A . 2021-01-15
2. 面向跨场景的机器人视觉模仿学习方法及系统 [P] . 中国专利： CN111300431A . 2020-06-19
3. VISUAL INFORMATION CLASSIFICATION METHOD, VISUAL INFORMATION CLASSIFICATION DEVICE, VISUAL INFORMATION CLASSIFICATION PROGRAM, AND RECORDING MEDIUM STORING THE PROGRAM [P] . 日本专利： JP2004086262A . 2004-03-18

机译：视觉信息分类方法，视觉信息分类设备，视觉信息分类程序和记录介质的存储程序
4. Classification model learning device, classification model learning method, classification model learning program, classification model, classification device and sorting device [P] . JP6917499B1 . 2021-08-11

机译：分类模型学习设备，分类模型学习方法，分类模型学习程序，分类模型，分类设备和分类设备
5. CLASSIFICATION MODEL LEARNING DEVICE, CLASSIFICATION MODEL LEARNING METHOD, CLASSIFICATION MODEL LEARNING PROGRAM, CLASSIFICATION MODEL, CLASSIFICATION DEVICE, AND SORTING DEVICE [P] . WO2021205694A1 . 2021-10-14

机译：分类模型学习设备，分类模型学习方法，分类模型学习程序，分类模型，分类设备和分类设备