法律状态公告日
法律状态信息
法律状态
2022-08-26
实质审查的生效 IPC(主分类):G06T 7/00 专利申请号:2022106431053 申请日:20220609
实质审查的生效
2022-08-09
公开
发明专利申请公布
技术领域
本发明涉及深度学习技术领域,是一种深度学习技术在计算病理学中的应用,尤其涉及一种基于对比学习的病理图像特征检测肿瘤驱动基因差异表达算法。
背景技术
数字病理分析在临床医学上能够有效地帮助患者进行疾病的诊断,近年来有不少的研究关注于使用深度学习模型提取病理图像特征,用于基因组变异与表达谱分析,但少有研究着眼于基因的差异表达。基因突变检测是肿瘤诊断与靶向用药的重要手段,由于技术、成本等原因,基因检测成为了癌症预测、诊断、治疗的瓶颈。随着深度学习技术的发展,数字化病理图像分析也获得了快速发展,为临床医学领域的疾病特别是肿瘤诊断、标志物检测等提供了一种新型的解决思路。
但是通过实验的方法进行验证需要消耗大量的人力物力。现有技术中,深度学习模型在解决相应问题上已经有了不错的表现,但是尚无相关技术完善应用在肿瘤驱动基因的差异表达中。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,减少实验验证的成本,本发明提出一种基于对比学习的病理图像特征检测肿瘤驱动基因差异表达算法,该算法为病理图像相关研究提供了差异基因表达预测的一种新思路,借助该算法,能将基因差异表达进行空间可视化的工具。
本发明的思路是1)将TCGA数据集中组织切片(乳腺癌组织切片数据和支气管肺组织切片数据)切割成patch,使用Ostu算法来检测所选区域是否存在组织细胞;2)使用restnet50作为编码器,在对比学习框架下进行预训练,并在计算后对patch-level特征进行聚合,聚合使用注意力池化,来获得slide-level的特征。3)预测任务使用全连接层进行预测,通过MSE损失函数可以实现肿瘤驱动基因差异表达分析。通过后面实施例验证,本方法模型的ACC指标达到了0.96,比使用SimCLR训练的特征器高出了4%,AUC达到了0.97,也高于其他所有方法。证明了本方法能更好的提取图像块级patch-level特征。
本发明的具体技术方案为:一种基于对比学习的病理图像特征检测肿瘤驱动基因差异表达算法,包括以下步骤:
操作者使用TCGA数据库中乳腺癌组织切片数据和支气管肺组织切片数据的slide(生物体切片图像)作为训练集放入自监督模型中,从原始序列中使用openslide将slide切割成图块patch;
本方法使用resnet50网络模型作为训练的基模型,基模型f(θ)将每个patch及增强视图转化为一个向量h与h',经一个多层感知机projector分别投影到向量q与q';
之后将已加载的其他样本作为对比学习的负样本,可以视作类似于神经网络权重的自由参数。训练过程中的每个batch的数据作为正样本,以此进行对比训练。训练过程中迭代更新基模型参数θ以及对抗负样本矩阵M,这使得负样本也能密切跟踪网络的变化。梯度更新过程中,参数θ沿梯度下降的方向更新,而M沿梯度上升的方向更新,这就导致了一个极小极大求解问题,最终求解的目标是得到鞍点。
正样本采用随机图像增强的方式生成。
负样本mask采用了一种随机掩码的方式。对于每张slide产生的L个patches表征矩阵,随机丢弃掉部分图块的表征,将剩下的部分加入到负样本池中,得到一个对抗负样本矩阵M。每张slide掩码的比例会随机的从{0.5,0.75,0.85,0.9}中选择;
使用注意力机制池化对patch-level的特征进行聚合,来获得slide-level的特征,通过一个神经网络确定权重,权值和是1。将一个slide中所有的patch特征输入注意力池化层,计算出每一个patch的注意力权重,通过加权平均计算得到该slide的slide-level的特征;
在下游任务中,操作者在得到切片级slide-level特征向量之后,就可以进行相应的下游任务。
预测网络使用有1024个输入纬度和2个输出纬度的全连接层和一个softmax层,可以根据模型训练的结果调整网络的层数,损失函数使用均方误差MSE函数。
模型网络中,数据处理模块包括slide切割模块和patch向量计算模块。训练模块包括负样本随机mask模块和对比训练编码器模块。预测模块包括编码特征整合和深度学习网络预测模块。
本发明具有以下有益效果:
1、该基于对比学习的病理图像特征检测肿瘤驱动基因差异表达算法,在合理的范围内对数据集进行切割,以保证GPU可以通过计算保存下来特征,从而使得使用对比学习模型对肿瘤组织图像的特征提取成为可能,解决了因为slide数据过于庞大,GPU无法完全计算的瓶颈,并在人工标注数据集上进行测试,证明了准确性。
2、该基于对比学习的病理图像特征检测肿瘤驱动基因差异表达算法,在多个数据集上,预测slide是否为肿瘤组织具有极高的准确性,可以用于相关的应用上,为实验人员提供一定的参考,用于节省人力物力,减少实验成本。
附图说明
图1为本发明所述数据处理模块和训练模块步骤示意图。
图2为本发明所述预测模块中使用不同池化方式的性能对比示意图。
图3为本发明预测结果与实际结果的皮尔逊相关系数示意图。
具体实施方式
一种基于病理图像特征检测肿瘤驱动基因差异表达算法,包括步骤:
1)数据分割:
选用癌症基因组图谱TCGA数据集中的组织切片;
使用Ostu算法检测所选区域是否存在组织细胞,用以区分背景区域;
把组织切片slide切割成图块patch,用作检测模型的输入slide;
2)基于对比学习的预训练:使用神经网络ResNet50作为图块编码器(backbone基模型),在对比学习框架下进行预训练,并在计算后对patch-level特征进行聚合,来获得slide-level的特征;
正样本采用随机图像增强的方式生成,负样本使用对抗学习算法AdCo产生;
3)预测:预测任务使用全连接层进行预测,通过使用均方误差损失函数来实现肿瘤驱动基因差异表达预测;
所述步骤1)中,使用TCGA数据库中的差异表达基因数据,下载正常组织与相应肿瘤组织的转录组测序RNA-seq数据,获得转录组的基因表达图谱,计算差异倍数foldchange(记为fc),并作为样本回归标签;
在切片级slide-level下对WSI进行切割,得到有组织细胞的前景区域:使用python库openslide读取slide数据,使用Ostu算法来检测所选区域是否存在组织细胞,用以区分背景区域;将分割得到的前景轮廓切分,得到足够小的正方形小块patch;
所述步骤2)中,设步骤1)中的第i张slide有z
基模型f(θ)将每个patch及对增强图转化为一个向量h与h',经一个多层感知机projector分别投影到向量q与q';
对比学习的正样本采用随机图像增强的方式生成;
负样本使用对抗学习算法AdCo产生,随机从L个表征向量中丢弃掉部分,余下部分加入到负样本池中,得到对抗负样本矩阵M;
训练过程中同时更新基模型参数θ以及对抗负样本矩阵M;梯度更新过程中,基模型θ沿梯度下降的方向更新,M沿梯度上升的方向更新;
对patch-level的特征进行聚合,使用注意力机制池化获得slide-level的特征,注意力池化是实例级加权平均的方法,权值由一个神经网络确定,并且权值的和为1;
在网络模型中将一个slide的所有patch特征输入注意力池化层,并计算出每个patch的注意力权重a
所述步骤3)中,在得到slide-level特征向量之后,即进行相应的下游任务;
对于肿瘤驱动基因差异表达值的回归分析:使用全连接层,预测输出的是连续变量log
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本实施方式中,步骤:1)病理图像的分割与过滤:选用癌症基因组图谱TCGA数据集中的组织切片;使用Ostu算法来检测所选区域是否存在组织细胞,用以区分背景区域;随后把组织切片slide分割成能够被模型计算的若干图块patch;2)基于对比学习的预训练:使用ResNet50作为图块编码器,在对比学习框架下进行预训练,并在计算后对patch-level特征进行聚合,获得slide-level特征;3)预测:预测任务使用全连接层进行预测,通过均方误差损失函数预测肿瘤驱动基因差异表达水平。
具体参照图1,一种基于病理图像特征检测肿瘤驱动基因差异表达算法,包括以下步骤:
S1:操作者使用TCGA数据库中的乳腺癌组织切片数据和支气管肺组织切片数据来进行模型的输入(slide),用来测试模型的预测能力;
S2:操作者使用TCGA数据库中的差异表达基因数据,下载乳腺癌正常组织与肿瘤组织的RNA-seq数据,获得转录组的基因表达图谱,计算差异倍数fold change,作为样本回归标签:
式中,
S3:WSI(Whole Slide Image)数据集存在单个数据较大的问题,在slide-level下对WSI进行切割,得到有组织细胞的前景区域,这个过程使用python库openslide读取slide数据,使用Ostu算法(内置于opencv)来检测所选区域是否存在组织细胞,用以区分背景区域。
将分割得到的前景轮廓切分,得到128×128μm(256×256pixels)的正方形小块patch。因为slide数据切分出来的patch数据有很多并且占用空间很大,只保存切分出来的patch的坐标值;
S4:模型使用无监督的对比学习模型作为特征提取器,采用对抗对比学习的思想训练模型。在TCGA-lung数据集上采样得到N张slide(正负比约为2:1);
S5:采用上面介绍的方法将slide切分成patch。本发明使用resnet50作为训练的基模型,基模型f(θ)将每个patch及对增强图转化为一个向量h与h',经一个多层感知机projector分别投影到向量q与q';
S6:整个内存中已加载样本作为对比学习的负样本,可以视作类似于神经网络权重的自由参数。训练过程中的每个batch的数据作为正样本,以此进行对比训练。对比学习的损失函数L(θ,M)定义如下:
负样本采用了随机掩码的方式。对于每张slide产生的L个patches表征矩阵,随机丢弃掉部分图块表征,将剩下的部分加入到负样本池中,得到一个对抗负样本矩阵M;
训练过程中以公式(2)更新基模型参数θ,公式(3)更新M,二者同步进行,这使得负样本也能密切跟踪网络的变化。梯度更新过程中,网络参数θ沿梯度下降的方向更新,而M沿梯度上升的方向更新,导致了一个极小极大求解问题,最终求解的目标是得到鞍点。θ与M的迭代公式如下:
其中L(θ,M)是目标损失函数,η
S7:每张slide掩码的比例随机的从0.5,0.75,0.85,0.9中选择;
S8:对patch-level的特征进行聚合,使用注意力机制池化获得slide-level的特征,注意力池化是实例级加权平均的方法,权值由一个神经网络确定,并且权值的和为1。假设一张slide包含L个patch,将一个slide的所有patch特征输入注意力池化层,采用公式(4)计算出每个patch的注意力权重a
其中向量w
S9:对于差异表达水平的回归分析,模型使用有1024个输入纬度和1个输出纬度的全连接层,该层的输出是log
其中y
网络模型中:
数据处理模块包括slide切割模块和patch向量计算模块。
训练模块包括负样本随机mask模块和对比训练编码器模块。
预测模块包括编码特征整合和深度学习网络预测模块。
本实施例中,模型首先在TCGA-LUNG数据集上进行训练,数据集在过滤之后,一共有1983张slide。
首先训练对比学习模型,使用ResNet-50作为基模型,但只使用其前4层(最后一层池化层的输出是1024),之后加载在ImageNet的预训练权重(只前4层),之后为模型加上两层全连接层,一层有1024个单元,一层有128个单元。训练过程采用SGD作为优化器,使用学习率0.03更新特征提取网络,使用学习率3更新负对手,weight decay设置为0.0001,momentum设置为0.9。
之后使用由对比学习训练出的模型作为特征提取器,使用注意力池化对patch特征进行聚合,使用聚合得到的slide特征进行分类。实验采用5折交叉验证,每一折我们使用80%的数据用来训练,10%的数据用来验证,10%的数据用来测试,一共训练50个epoch。
本实施例中,为了进一步探究不同的patch特征聚合方法的影响,还将注意力池化同平均池化和最大池化进行对比,三种方式的ROC曲线如图2所示。
预测结果与实际结果的相关系数(如图3所示),在200个测试基因中,有84个基因的皮尔逊相关系数达到了0.20以上,其中有39个相关系数达到了0.40以上。全部测试数据平均的皮尔逊相关系数达0.185。图3中,CD19、CD3E、CD247、CD3G、CD3D、PIK3CA分别是是基因的名字。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
机译: 用于检测一种或多种基因差异表达,测量受试物质对一种或多种基因表达的影响的组合,组合物,装置和方法,以及用于筛选预后,操纵预后的方法基因组(genom)对人类或动物而言,而不是动物基因组的表达。调节一种或多种差异表达基因的表达,选择一种或多种动物,并产生抗体,物质,转基因动物,计算机系统,分离和纯化的抗体,试剂盒,用于传达信息的介质。数据和polinucleot u00ecdeo预后者的数据的使用
机译: 鼠或人单克隆或多克隆抗肿瘤坏死因子相关抗体对病理生理学涉及肿瘤坏死因子的疾病的放射性核素标记过程;基于鼠或人,单克隆或多克隆抗肿瘤坏死因子相关抗体的“体内”和/或“体外”诊断试剂;使用如此获得的试剂对病理生理涉及肿瘤坏死因子的疾病的“体外”和/或“体内”诊断方法,以及基于所述试剂的病理生理涉及肿瘤坏死因子的疾病的试剂盒
机译: 与病理生理涉及肿瘤坏死因子的疾病相关的鼠类或人,单克隆或多克隆抗肿瘤坏死因子的放射性核素标记过程;基于鼠或人抗体,与放射性核素有关的单克隆或多克隆抗肿瘤坏死因子的“体内”和/或“体外”诊断试剂;使用如此获得的试剂的生理失常涉及肿瘤坏死因子的疾病的“体外”和/或“体内”诊断方法以及基于所述试剂的病理生理涉及肿瘤坏死因子的疾病的诊断试剂盒