首页> 中国专利> 基于原型聚类域适应算法的跨被试EEG认知状态识别方法

基于原型聚类域适应算法的跨被试EEG认知状态识别方法

摘要

本发明公开了一种基于原型聚类域适应算法的跨被试EEG认知状态识别方法。本发明引入了类别域的概念,一方面基于标签的多源域对齐,考虑不同类间的特征分布差异,研究特征空间中不同源域间类条件下的结构细粒度对齐,将多源域域内类别不平衡问题转化为类别域的方式。另一方面,源域和目标域之间的原型理论聚类对齐,即以动态调整原型中心为约束对目标域进行相似源域间的聚类,实现域间同类特征相近,异类特征相疏。前者实现域内类条件结构特征对齐,后者实现全局细粒度结构特征对齐。本发明能够兼容类别平衡和不平衡的情况,有效解决了脑认知计算领域脑电信号的个体差异性问题,具有较强的泛化能力,能够很好的适用于临床诊断和实际应用。

著录项

  • 公开/公告号CN112749635A

    专利类型发明专利

  • 公开/公告日2021-05-04

    原文格式PDF

  • 申请/专利权人 杭州电子科技大学;

    申请/专利号CN202011589943.4

  • 申请日2020-12-29

  • 分类号G06K9/00(20060101);G06K9/62(20060101);

  • 代理机构33240 杭州君度专利代理事务所(特殊普通合伙);

  • 代理人朱月芬

  • 地址 310018 浙江省杭州市下沙高教园区2号大街

  • 入库时间 2023-06-19 10:51:07

说明书

技术领域

本发明涉及脑认知计算领域的神经电生理信号分析技术,及无监督学习领域的多源域域适应模型构建方法,是一种基于原型的聚类算法用于分析脑电信号(EEG)对认知状态进行识别的方法,适用于多源域域内及域间类别不平衡的情景,解决脑电个体差异问题。

背景技术

目前,基于深度学习的丰硕成果得益于大量有标签数据的监督学习。但对于无监督学习,设计通用网络模型的主要障碍是将已知标签数据训练出的模型扩展到新的无标签领域。针对缺乏标签数据的目标任务,充分利用源域带标签数据的特征信息是解决这一问题的关键突破点。但训练好的模型在应用到新领域时由于域偏移问题的存在往往会大幅度降低模型性能。

迁移学习中的领域自适应是一种针对解决源域和目标域分布偏移的机器学习算法。各式各样的域适应方法旨在通过学习源域和目标域的域不变特征,从而在目标域没有或少量标签的情况下,将从源域学到的分类器应用于目标域。在数据来源方面,目前大多数的算法和理论主要涉及单一的源域,将获得的所有数据合并成一个数据集来训练模型,但是在每个领域分布不同的情况下,这样的处理方式并不能充分解析数据,有时甚至会对模型产生负面影响。在实际应用中,我们可能获取多个不同但相似的带标签数据,比如在医学领域,如何综合利用多个设备采集得到的数据进行全面诊断,又或者如何综合分析存在个体差异的跨被试EEG数据给出精准诊断。

在认知神经领域,已有学者开始将迁移学习应用于神经生理信号的分析,但其准确率及普适应还有很大的提升空间。目前,EEG处理的最大难题就是如何避免个体差异性的影响,也就是说相同的认知状态下每个被试个体的脑电信号是存在巨大差异的。相关文献表明,区别于单源域域适应问题,多源域迁移学习涉及多于一个的源域,同时将多个源域的知识迁移到目标域中辅助目标域的学习,这些数据不但和目标域不同,而且互相之间也不同。该多源域域适应方法可有效解决脑电信号的个体差异性问题,本发明将以多源域为关键出发点,构建基于多源域模型以便在神经生理信号分析领域更高效的应用。

在领域间类别分布方面,现有的无监督域适应方法都是针对源域和目标域存在共享类别的任务,也就是说,源域和目标域总会共享一些类别信息。基于现实的考量,真实的样本数据可能存在样本数量不匹配、分布不均匀、以及域内类别不平衡的情况,如何进行类别不平衡状态下的知识迁移是目前域适应需要解决的难题。

通常情况下,目标域的类别和源域的样本类别是一致的,也就是说达到源域和目标域间的类别平衡状态。目前有学者开始研究目标域和源域(域间)类别不一致的情况,比如部分迁移,开放集域适应,少样本学习等。在处理EEG时,如果将每个被试作为一个源域,每个被试只有一个认知状态标签,并且被试间认知状态可能不一致的情况,将其称为类别不平衡的状态(包括域间和域内)。在真实生活中,普遍存在样本间类别不平衡的情况,本发明将构建一个通用的模型适用于个体差异性较大以及域内类别不平衡的情况,以便在实际临床适用。

发明内容

本发明提出基于原型的聚类对齐算法适用于多源域域内类别不平衡问题,针对EEG数据可能存在数量不匹配、个体差异性、以及类别不平衡的情况,充分学习标签样本的结构特征,将目标域和多源域的特征分布对齐,以实现域间特征的有效迁移。所提出的算法主要有两个方面:一方面基于标签的多源域分布对齐(减少相同类别标签样本的差异,增大不同类别标签样本的差异):首先,充分利用源域标签进行基于类别的源域对齐,实现标签特征在分布上的自然聚类;然后进一步对源域的特征分布进行聚类,实现不同源域间的结构细粒度对齐;以上两个步骤主要是基于源域类别标签的特征对齐,实现相同类别的簇对齐,最后将每个类簇转化为类别域。另一方面针对无标签的目标域数据,本文利用原型算法(充分考虑样本的特征分布),实现基于原型中心的目标域聚类对齐:首先,计算目标域样本以及多源域聚类后每个类别域的原型中心,以目标域样本和类别域原型中心的相似性为约束动态调整目标域的原型中心;然后,以域间原型中心距离为依据,对目标域进行相似源域间的聚类,实现域间同类特征相近,异类特征相疏。前者实现域内类条件结构特征对齐,后者实现全局细粒度结构特征对齐。从本质上看该算法从结构特征角度出发能够兼容类别平衡和不平衡的情况。

综上所述,本发明针对基于EEG的认知状态识别,以个体差异性为关键出发点,对被试的认知状态进行评估,其核心技术主要是基于原型概念的聚类(Prototype-Theoretical Clustering,PTC)算法构建针对多源域域内类别不平衡的网络模型,该模型不仅适用于域内及域间类别平衡的状态,同时也适用于域间及多源域域内类别不平衡的情景,在一定程度上解决了脑电数据个体差异问题。本发明将每个训练个体作为一个单独域组成多个源域,新的跨被试测试个体作为目标域,并引入一个新概念域“类别域”,将跨被试多源域训练集通过聚类对齐方法形成K个类簇作为类别域,无标签目标域样本利用基于原型理论思想的原型中心算法实现源域和目标域的对齐,实现域间同类特征相近,异类特征相疏,该方法充分考虑无标签数据的特征空间分布结构,具有较高的普适性,能够大大提高模型训练效率,并为临床应用提供技术支持。

现有方法大多直接使用基于源域训练出的分类器为目标域未标记数据提供伪标签,对于决策边界较为模糊的目标任务,并且在域间类别不平衡的情境下,不能保证伪标签的可靠性,易给模型带来较大的负面影响。目前相关研究成果大多应用在图像识别、目标检测等方面,在神经生理学方面还未展开相关研究。本文为克服现有方法的不足所采用的技术方案如下:

本发明提出的一种基于EEG的认知状态识别方法PTC,普适于类别不平衡及类别平衡状态(包括域内和域间)。通过对EEG进行特征分析,对被试的认知状态进行分类,实现各种实验任务下不同状态的区分,比如网络游戏成瘾患者的认知状态(成瘾和正常对照组)、驾驶员驾驶任务下的认知状态(清醒和疲劳)、实验被试在不同情绪刺激任务下的认知状态(愉悦情绪和消极情绪)等,可处理不同的脑电数据集。

本发明以采集的网络游戏成瘾脑电数据集前提,具体实现包含如下步骤:

步骤1:数据采集

设计沉浸诱导范式,以采集满足实验条件的多名临床网络游戏成瘾患者在诱发任务下的EEG数据,并设置正常对照组实验。每个被试通过临床诊断并结合心理数据分析,为其采集到的原始EEG数据打上成瘾或正常的认知状态标签。

步骤2:数据处理

针对采集到的原始EEG进行预处理操作,消除自发脑电信号以外的高频噪声以及工频干扰等,通过改进小波阈值降噪技术提取真实信号,然后利用功率谱密度(PSD)提取EEG信号特征,为后续模型构建提供稳定的信号特征。

步骤3:基于PTC算法的跨被试EEG认知状态识别方法

输入:带有标签的多源域数据X

输入:带有认知状态标签的多源域样本数据X

3-1.利用公共特征提取器F(·)提取多源域和目标域样本数据潜在的公共特征,将提取的公共特征映射到一个公共的特征空间;

3-2.以多源域样本数据X

3-3.采用聚类算法实现多源域样本数据X

3-4.形成K个新的类别域

3-5.计算每个类别域的原型中心

3-6.将无标签目标域样本X

3-7.遍历目标域第l个类簇的第i个样本

3-8.结合步骤3-6和步骤3-7动态自适应更新目标域每个类簇的原型中心

3-9.基于原型中心对目标域样本进行聚类,实现目标域样本聚类对齐,从而有效避免不同类簇形状和数量上的不平衡带来的消极影响,

3-10.从域间类别原型中心及样本两方面进行约束,通过缩小域间原型中心与类簇样本的距离,以实现语义对齐。

3-11.计算总的目标优化函数

3-12.重复步骤3-1至步骤3-11,直至迭代T次;

输出:目标域样本标签对应于类簇原型中心距离最近的类别域标签。

本发明的主要贡献在于:

首先,发现并解决了该领域的一个新问题,即无监督域适应中域间类别不平衡问题,本发明能够普适于类别平衡与不平衡问题,并在一定程度上大大降低了模型复杂度,时间效率上有明显提升。其次,本发明提出基于原型的聚类算法适用于多源域域间及域内类别不平衡的状态;研究表明,大量模型直接使用源域分类器为无标签目标域样本提供伪标签,但在域间类别不平衡的状态下,不能保证伪标签的可靠性,易给模型带来较大的负面影响;因此,本发明从样本本身的结构特征角度出发,提出聚类算法充分考虑类间样本结构分布特征,通过聚类对齐实现同类特征相近,异类特征相疏的目标。最后,本发明有效解决了脑认知计算领域脑电信号的个体差异性问题,可适用于任何任务下基于EEG的认知状态识别,具有较强的泛化能力,能够很好的适用于临床诊断和实际应用。

附图说明

图1是本发明模型结构图。

具体实施方式

下面结合附图和实例对本发明作进一步说明。

如图1所示,是基于原型的聚类算法用于多源域域内类别不平衡的跨被试EEG认知状态识别方法的结构图,主要包括如下步骤:

步骤1:数据处理

以网络游戏成瘾EEG数据为例进行分析,原始EEG数据处理步骤如下:

1-1.伪迹去除:对采集得到的原始EEG数据进行伪迹去除操作,首先进行0.1-30Hz的带通滤波处理,同时去除信号中的工频干扰及直流成分;之后采用ICA独立成分分析去除信号中的伪迹;

1-2.降噪处理:通过小波阈值降噪提取真实信号,基于小波分解使得信号和噪声在不同尺度上表现出不同的特征,将滤波后信号通过多尺度分析后,真实信号的小波系数会逐渐增大,为考虑噪声强度影响,加入噪声强度约束系数

其中噪声强度约束系数

1-3.PSD特征提取:对去噪后的EEG进行PSD特征提取,针对每个被试个体的EEG以2s为时间窗进行数据分割,得到490个样本,脑电数据采集通道数为21,提取与网络游戏成瘾相关的频段1-30Hz,对提取频段和通道维度进行拼接得到630维的特征向量,每个被试个体对应490*630维度的样本数据。

步骤2:数据定义

给定N个存在个体差异的EEG数据X={X

步骤3:基于PTC算法的跨被试EEG认知状态识别方法

输入:带有认知状态标签的多源域样本数据X

3-1.利用公共特征提取器F(·)提取多源域和目标域样本数据潜在的公共特征,将提取的公共特征映射到一个公共的特征空间。

3-2.以多源域样本数据X

其中,目标函数J(·)为交叉熵损失函数(分类损失)。

3-3.采用聚类算法实现多源域样本数据X

其中,

3-4.形成K个新的类别域

3-5.计算每个类别域的原型中心

3-6.将无标签目标域样本X

其中,CT

3-7.遍历目标域第l个类簇的第i个样本

其中,

3-8.结合步骤3-6和步骤3-7动态自适应更新目标域每个类簇的原型中心

3-9.基于原型中心对目标域样本进行聚类,实现目标域样本聚类对齐,从而有效避免不同类簇形状和数量上的不平衡带来的消极影响,形式上表示为:

3-10.从域间类别原型中心及样本两方面进行约束,通过缩小域间原型中心与类簇样本的距离,以实现语义对齐,在迭代过程中,域间对齐的目标函数可以表述为:

3-11.总的目标优化函数为:

其中,λ

3-12.重复步骤3-1至步骤3-11,直至迭代T次。

输出:目标域样本标签

本发明可适用于任何基于EEG的认知状态识别,一定程度上解决了脑电个体差异性问题,具有时间复杂度小、计算效率高、泛化能力强等优势。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号