法律状态公告日
法律状态信息
法律状态
2022-07-22
公开
发明专利申请公布
技术领域
本发明属于病理数字图像处理的技术领域,具体涉及一种乳腺癌前哨淋巴结转移的预测方法、系统及存储介质。
背景技术
乳腺癌是女性的主要癌症,会诊时需要病理医生在显微镜下观察用苏木精和伊红(H&E)染色的组织标本玻片来对乳腺癌前哨淋巴结转移进行诊断,这是一个乏味,繁琐和容易出错的过程。近些年来,随着计算病理的兴起,通过使用数字扫描仪对H&E染色玻片进行扫描并存储为数字病理全切片图像(WSI),然后利用计算机视觉算法,特别是深度学习算法,来自动分析这些WSI帮助诊断乳腺癌,有效的改善了诊断流程。计算病理具有高效、客观和可重复的好处,但是计算病理在对WSI进行分析时,面临着问题:首先是WSI具有超高的分辨率,通常拥有千兆个像素,使得无法将一张完整的WSI直接输入到普通的卷积神经网络中;其次由于肿瘤组织通常只占WSI的一小部分,因此需要对肿瘤区域进行精细标注才能进行全监督深度学习,但这种精细标注的成本极高,尤其是在合格的病理医生稀缺的情况下。
针对上述问题,一种比较有前景的方法是多示例学习方法,在只给定整张WSI的标签作为弱监督信息的情况下,将一个WSI(包)切分成许多小的图像块(示例)来进行处理,然后通过常见的instance-space(IS)范式或者embedding-space(ES)范式来打通图像块和WSI之间的信息差。但是应用多示例学习方法时还有存在其他挑战:一是WSI通常表现出显著的肿瘤间异质性,这意味着患者之间的病理特征差异很大,给多示例学习带来了困难;二是在临床上,乳腺癌前哨淋巴结转移分为宏转移和微转移,前者是指肿瘤转移区域直径大于2毫米,后者则是指肿瘤转移区域直径是在0.2到2毫米之间;由于微转移的肿瘤转移区域很小,这也使得识别微转移要比识别宏转移更为困难。
在现有WSI分类中,一种最直接的多示例学习方法就是最大池化(max-pooling)多示例学习(MAX-MIL),是一种IS范式的多示例学习方法,该方法先对每个图像块进行预测,每个图像块得到一个预测分数,选择预测分数最大的图像块来代表整个WSI,这个图像块的预测结果就是WSI的预测结果。另一种基于注意力的多示例学习(ABMIL)是WSI分类中最流行的多示例学习方法,是一种ES范式的多示例学习方法,通过引入一种自注意力机制来学习每个图像块的权重,然后通过加权平均的方式来融合每个示例的特征。还有一种基于自监督对比学习的双流多实例学习(DSMIL)提出了一种新颖的双流注意机制,同时还利用对比学习来获得有效特征提取器。但是上述现有技术有两个缺点:一是不能对微转移的进行有效的识别;因为微转移病灶非常微小,使得WSI中阳性图像块和阴性图像块的数量高度不平衡;同时,现有方法都是利用预训练的特征提取网络来提取图像块的特征,导致了图像块的判别能力不是很强,使得阳性图像块中的判别信息会在融合过程中被阴性图像块所覆盖,从而导致错误的预测。二是上述现有技术是在通过卷积神经网络(CNN)提取每个图像块特征之后,将这些特征做加权组合得到整个WSI的特征,然后用于最后的预测;但通过CNN提取的特征是没有明确的物理意义,导致无法明确WSI特征中每个维度的物理意义,缺乏可解释性。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种乳腺癌前哨淋巴结转移的预测方法、系统及存储介质,该方法在保持对宏转移精确识别的同时,能够更好的解决微转移识别的问题,从而能够精确地对乳腺癌前哨淋巴结转移进行诊断。
为了达到上述目的,本发明采用以下技术方案:
一方面,本发明提供一种乳腺癌前哨淋巴结转移的预测方法,其特征在于,包括下述步骤:
获取带标签的WSI作为训练数据集,进行预处理得到图像块集;
构建WSI分类模型,所述WSI分类模型包括特征提取器、原型聚类模块、特征融合模块及全连接层;
使用图像块集对特征提取器进行预训练,获得特征向量集,并固定特征提取器的参数;
将特征向量集输入原型聚类模块中,通过聚类提取多个原型;
对乳腺癌前哨淋巴结WSI划分图像块后输入固定参数的特征提取器中提取图像块特征;
将图像块特征和原型输入特征融合模块进行匹配,生成软分配直方图,构造乳腺癌前哨淋巴结WSI的特征向量;
将乳腺癌前哨淋巴结WSI的特征向量送入全连接层获取WSI分类分数并进行转移判断。
作为优选的技术方案,所述训练数据集表示为:
其中,X
所述标签表示为Y∈{0,1},当Y=1时表示乳腺癌前哨淋巴结发生转移;当Y=0时表示乳腺癌前哨淋巴结未发生转移;
所述预处理是指将训练数据集中带标签的WSI进行二值化处理,再划分为多个长宽一致的图像块,表示为:
作为优选的技术方案,所述特征提取器基于卷积神经网络构建,使用最大池化多示例学习方法进行预训练,将输入的图像块转换为特征向量,表示为:
其中,
所述将图像块集输入特征提取器中获得特征向量集,表示为:
作为优选的技术方案,所述将特征向量集输入原型聚类模块中,通过聚类提取多个原型,具体为:
原型聚类模块使用AP聚类算法对任一WSI中图像块的特征向量进行聚类,得到第一阶段聚类中心:
其中,
使用AP聚类算法对第一阶段聚类中心进行聚类,得到第二阶段聚类中心作为原型:
其中,
所述AP聚类算法的相似性度量定义为:
其中,S
作为优选的技术方案,所述乳腺癌前哨淋巴结WSI表示为X;提取得到的图像块特征表示为
所述将图像块特征和原型输入特征融合模块进行匹配,生成软分配直方图,具体为:
引入度量学习机制,使用可学习全连接层FC2将图像块特征映射到新的特征空间,通过余弦相似性来度量第n个图像块特征和第m个原型的相似性,公式为:
其中,
根据计算得到的相似性生成软分配直方图{h
作为优选的技术方案,所述构造乳腺癌前哨淋巴结WSI的特征向量,具体为:
引入TOP-K选择机制,使用全连接层FC3为每个图像块特征分配一个分数r
其中,W
按照降序对分数{r
使用选择池化来聚合K个最相关图像块特征的相似度分数,获得乳腺癌前哨淋巴结WSI的特征向量h=[h
其中,M表示WSI特征向量的维度,h
作为优选的技术方案,所述获取WSI分类分数,具体为:
将乳腺癌前哨淋巴结WSI的特征向量送入全连接层FC1中,计算得到WSI分类分数:
其中,W
作为优选的技术方案,所述WSI分类模型的损失函数为:
其中,
另一方面,本发明提供一种乳腺癌前哨淋巴结转移的预测系统,其特征在于,包括数据获取模块、模型构建模块、向量提取模块、原型提取模块、特征提取模块、特征向量构造模块及分类分数获取模块;
所述数据获取模块用于获取带标签的WSI作为训练数据集,进行预处理得到图像块集;
所述模型构建模块用于构建WSI分类模型;所述WSI分类模型包括特征提取器、原型聚类模块、特征融合模块及全连接层;
所述向量提取模块用于使用图像块集对特征提取器进行预训练,获得特征向量集,并固定特征提取器的参数;
所述原型提取模块用于将特征向量集输入原型聚类模块中,通过聚类提取多个原型;
所述特征提取模块用于对乳腺癌前哨淋巴结WSI划分图像块后输入固定参数的特征提取器中提取图像块特征;
所述特征向量构造模块用于将图像块特征和原型输入特征融合模块进行匹配,生成软分配直方图,构造乳腺癌前哨淋巴结WSI的特征向量;
所述分类分数获取模块用于将乳腺癌前哨淋巴结WSI的特征向量送入全连接层获取WSI分类分数并进行转移判断。
还一方面,本发明提供一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现上述的一种乳腺癌前哨淋巴结转移的预测方法。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明原型聚类模块采用两段式的无监督聚类方式提取原型,在第一阶段对WSI内部进行聚类,在第二阶段对WSI之间进行聚类;通过该方式可以自动获取整个病理数据集中的原型,不需要事先指定原型数量,并且由于这些原型是在整个病理数据集中提取的,所以这些原型代表了病理数据集中典型的病理特征,可以有效的对肿瘤间异质性进行建模,直接捕获有意义的病理模式,表示病理数据在特征空间的多模态分布;同时,通过利用这些原型来构造WSI的整体特征,使得本方法更加具有解释性,因为WSI的特征向量中每一个维度都代表了一种原型在WSI中出现的频率。
2、本发明为了在识别微转移方面表现更好,通过引入度量学习机制,使用可学习全连接层来度量图像块特征与原型的相似性,生成软分配直方图;由于全连接层可学习,可以通过训练来学习一个更具辨别力的度量空间,将图像块和原型的特征向量映射到该度量空间后,可以增强图像块的判别能力,以实现更好的匹配;同时引入TOP-K选择机制,使用全连接层量化与乳腺癌前哨淋巴结阳性的相关性,使用选择池化来获得乳腺癌前哨淋巴结WSI的特征向量,排除了不相关的图像块的干扰,缓解了阴性图像块过多的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种乳腺癌前哨淋巴结转移的预测方法的流程图;
图2为本发明实施例中WSI分类模型的结构示意图;
图3为本发明实施例中原型聚类模块的结构示意图;
图4为本发明实施例中特征融合模块的结构示意图;
图5为本发明实施例中一种乳腺癌前哨淋巴结转移的预测系统的结构图;
图6为本发明实施例中计算机可读存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
本发明提出了一种新的弱监督方法来实现对乳腺癌前哨淋巴结转移的预测,叫基于原型的多示例学习(PMIL),是一种vocabulary-based(VS)范式的多示例学习;VS范式即先得到一批原型,然后利用这些原型来对图像块所提取出来的特征进行融合,然后利用融合后的特征来WSI对进行预测。
在本发明中,给定一组带有标签的WSI作为训练数据集
如图1所示,本实施例提供了一种乳腺癌前哨淋巴结转移的预测方法,包括下述步骤:
S1、获取带标签的WSI作为训练数据集,进行预处理得到图像块集;
具体的,训练数据集表示为:
其中,X
标签Y∈{0,1}为一个弱监督二分类标签,当Y=1时表示乳腺癌前哨淋巴结发生转移;当Y=0时表示乳腺癌前哨淋巴结未发生转移;
将训练数据集中带标签的WSI进行二值化处理,再划分为多个长宽一致的图像块,表示为:
本实施例在20倍率下,将训练数据集中每一带标签WSI划分为2000~8000个256×256大小的图像块。
S2、构建WSI分类模型,包括特征提取器、原型聚类模块、特征融合模块及全连接层;
如图2所示,本实施例的目标就是构建一个WSI分类模型F(X),实现对乳腺癌前哨淋巴结转移的预测,其中特征提取器表示为g
S3、使用图像块集对特征提取器进行预训练,获得特征向量集,并固定特征提取器的参数;
具体的,本发明中的特征提取器基于卷积神经网络(CNN)构建,使用最大池化多示例学习方法(MAX_MIL)进行预训练,将输入的图像块转换为特征向量,表示为:
其中,
将图像块集输入特征提取器中获得特征向量集,表示为:
S4、将特征向量集输入原型聚类模块中,通过聚类提取多个原型;
由于在整个训练集中有太多的图像块,很难直接应用传统的聚类算法(比如K-means),故如图3所示,原型聚类PD模块采用无监督聚类的方式,分为两个阶段来聚集多个原型:
第一阶段是在WSI内部进行聚类(ISC),即:PD模块使用AP聚类算法对任一WSI中图像块的特征向量进行聚类,得到第一阶段聚类中心:
其中,
第二阶段是在WSI之间进行聚类(XSC),即:使用AP聚类算法对第一阶段聚类中心进行聚类,得到第二阶段聚类中心作为原型:
其中,
由于采用的是无监督的AP聚类算法(Affinity Propagation Clustering),所以可以自动的决定类别数量;同时该算法还要求两图像块(如a和b)的特征之间要有明确的相似性度量,故将AP聚类算法的相似性度量定义为:
其中,S
通过捕获典型的病理模式,原型有望以更细致的方式表示具有较大类内方差(在本任务中为前哨淋巴结转移阳性和前哨淋巴结转移阴性)的语义类,从而使WSI分类模型F(X)能够有效地对病理学数据中的肿瘤间异质性进行建模。
S5、对乳腺癌前哨淋巴结WSI划分图像块后输入固定参数的特征提取器中提取图像块特征;
S6、将图像块特征和原型输入特征融合模块进行匹配,生成软分配直方图,构造乳腺癌前哨淋巴结WSI的特征向量;
设乳腺癌前哨淋巴结WSI表示为X,通过特征提取器得到的图像块特征表示为
在PD模块得到的原型的基础上,通过PSE模块为输入的乳腺癌前哨淋巴结WSI构造WSI特征向量,具体为:
为了使WSI分类模型能够适应计算病理的任务,特别是在乳腺癌前哨淋巴结转移预测中识别微转移,如图4所示,在PSE模块中引入了两个机制:
第一引入度量学习机制;在现有的VS范式MIL方法中,通常使用预定义的相似性度量来匹配图像块和原型,例如余弦距离或马氏距离,但本发明引入了度量学习机制来学习相似性度量,具体而言:
使用可学习全连接层FC2将图像块特征映射到新的特征空间,通过余弦相似性来度量第n个图像块特征和第m个原型的相似性,公式为:
其中,
根据计算得到的相似性生成软分配直方图{h
第二引入TOP-K选择机制,只选择与感兴趣类别(前哨淋巴结阳性)最相关的K个图像块进行聚合,具体为:
使用全连接层FC3为每个图像块特征分配一个分数r
其中,W
按照降序对分数{r
使用选择池化来聚合K个最相关图像块特征的相似度分数,获得乳腺癌前哨淋巴结WSI的特征向量h=[h
其中,M表示WSI特征向量的维度,h
S7、将乳腺癌前哨淋巴结WSI的特征向量送入全连接层获取WSI分类分数并进行转移判断,计算WSI分类分数的公式为:
其中,W
计算得到的WSI分类分数为0到1,当WSI分类分数大于等于0.5时,判断乳腺癌前哨淋巴结转移,否则判断为乳腺癌前哨淋巴结未转移。
由于图像块的数量过于巨大,这使得将g
其中,
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
基于与上述实施例中的一种乳腺癌前哨淋巴结转移的预测方法相同的思想,本发明还提供一种乳腺癌前哨淋巴结转移的预测系统,该系统可用于执行上述一种乳腺癌前哨淋巴结转移的预测方法。为了便于说明,一种乳腺癌前哨淋巴结转移的预测系统实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,本发明另一个实施例提供了一种乳腺癌前哨淋巴结转移的预测系统,包括下述几个模块:
数据获取模块用于获取带标签的WSI作为训练数据集,进行预处理得到图像块集;
模型构建模块用于构建WSI分类模型;所述WSI分类模型包括特征提取器、原型聚类模块、特征融合模块及全连接层;
向量提取模块用于使用图像块集对特征提取器进行预训练,获得特征向量集,并固定特征提取器的参数;
原型提取模块用于将特征向量集输入原型聚类模块中,通过聚类提取多个原型;
特征提取模块用于对乳腺癌前哨淋巴结WSI划分图像块后输入固定参数的特征提取器中提取图像块特征;
特征向量构造模块用于将图像块特征和原型输入特征融合模块进行匹配,生成软分配直方图,构造乳腺癌前哨淋巴结WSI的特征向量;
分类分数获取模块用于将乳腺癌前哨淋巴结WSI的特征向量送入全连接层获取WSI分类分数并进行转移判断。
需要说明的是,本发明的一种乳腺癌前哨淋巴结转移的预测系统与本发明的一种乳腺癌前哨淋巴结转移的预测方法一一对应,在上述一种乳腺癌前哨淋巴结转移的预测方法的实施例阐述的技术特征及其有益效果均适用于一种乳腺癌前哨淋巴结转移的预测系统的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
此外,上述实施例的一种乳腺癌前哨淋巴结转移的预测系统的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述一种乳腺癌前哨淋巴结转移的预测系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
如图6所示,在一个实施例中,提供了一种计算机可读存储介质,存储有程序于存储器中,所述程序被处理器执行时,实现所述的一种乳腺癌前哨淋巴结转移的预测方法,具体为:
获取带标签的WSI作为训练数据集,进行预处理得到图像块集;
构建WSI分类模型,所述WSI分类模型包括特征提取器、原型聚类模块、特征融合模块及全连接层;
使用图像块集对特征提取器进行预训练,获得特征向量集,并固定特征提取器的参数;
将特征向量集输入原型聚类模块中,通过聚类提取多个原型;
对乳腺癌前哨淋巴结WSI划分图像块后输入固定参数的特征提取器中提取图像块特征;
将图像块特征和原型输入特征融合模块进行匹配,生成软分配直方图,构造乳腺癌前哨淋巴结WSI的特征向量;
将乳腺癌前哨淋巴结WSI的特征向量送入全连接层获取WSI分类分数并进行转移判断。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
机译: 治疗或预防或预防乳腺癌,检测,诊断和/或评估或预后乳腺癌,监测和/或评估乳腺癌治疗,鉴定是否存在乳腺癌细胞转移性乳腺癌的方法生物样品并用于评估或鉴定化合物,一种或多种bcmps,组合物,抗体,核酸和与一种或多种bcmps相互作用或调节其活性的试剂,疫苗,组合物,试剂盒和抗体的用途
机译: ZNF217,一种用于预测和预测乳腺癌复发性侵袭和转移表型的新生物标志物
机译: 一种预测乳腺癌转移潜力的方法