首页> 中国专利> 用于根据多参数细胞和亚细胞成像数据表征细胞表型多样性的系统和方法

用于根据多参数细胞和亚细胞成像数据表征细胞表型多样性的系统和方法

摘要

一种表征细胞表型的方法,包括接收来自多个患者或多个多细胞体外模型的多个组织样品的多参数细胞和亚细胞成像数据,对所述多参数细胞和亚细胞成像数据进行细胞分割以产生经分割的多参数细胞和亚细胞成像数据,以及对经分割的多参数细胞和亚细胞成像数据进行递归分解以识别多个计算表型。递归分解包括多个分解水平,每个分解水平包括软/概率聚类和空间正则化,并且经分割的多参数细胞和亚细胞成像数据中的每个细胞被概率地分配给多个计算表型中的一个或多个。

著录项

  • 公开/公告号CN113826169A

    专利类型发明专利

  • 公开/公告日2021-12-21

    原文格式PDF

  • 申请/专利权人 匹兹堡大学高等教育联邦体系;

    申请/专利号CN202080035631.0

  • 申请日2020-05-13

  • 分类号G16B45/00(20190101);

  • 代理机构11038 中国贸促会专利商标事务所有限公司;

  • 代理人杜文树

  • 地址 美国宾夕法尼亚州

  • 入库时间 2023-06-19 13:46:35

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-04-26

    实质审查的生效 IPC(主分类):G16B45/00 专利申请号:2020800356310 申请日:20200513

    实质审查的生效

说明书

政府合同

本发明是在由国家卫生研究院(National Institutes of Health,NIH)给予的补助金#CA204826下,在政府支持下完成的。政府对本发明享有一定权利。

背景技术

技术领域

本发明涉及数字病理学,并且具体地涉及用于根据从各种成像模态获得的多参数细胞和亚细胞成像数据(例如,多重复合到超复合成像数据)来表征和分类各种细胞类型及其活化(细胞表型)的无监督分级学习系统和方法。

现有技术的描述

数字病理学是指组织学染色的组织样品的获取、存储和显示,并且最初在诸如第二意见远程病理学、免疫染色解释学和术中远程病理学的生态位(niche)应用中具有吸引力。通常,在数字病理学中,由多个载玻片组成的大量患者数据从活检样品生成,并且由病理学家通过在高清晰度监视器上查看载玻片来评估。由于涉及人工劳动,当前的工作流做法是耗时的、容易出错的和主观的。

组织是具有在空间上彼此连通的多种不同细胞类型的异型细胞系统。数字病理学的一个挑战是如何准确且有效地根据多参数细胞和亚细胞成像数据表征各种细胞类型以及它们的活化,所述多参数细胞和亚细胞成像数据是从各种多重复合到超复合成像模态获得的。

发明内容

在一个实施例中,提供了一种根据多参数细胞和亚细胞成像数据表征来自多个患者或多个多细胞体外模型的多个组织样品的细胞表型的方法。所述方法包括接收经分割的多参数细胞和亚细胞成像数据,其中所述经分割的多参数细胞和亚细胞成像数据是通过对所述多参数细胞和亚细胞成像数据执行细胞分割,以及对所述经分割的多参数细胞和亚细胞成像数据执行递归分解以识别多个计算表型而生成的。递归分解包括多个分解水平,每个分解水平包括软/概率聚类和空间正则化,并且经分割的多参数细胞和亚细胞成像数据中的每个细胞被概率地分配给多个计算表型中的一个或多个计算表型/由多个计算表型中的一个或多个计算表型拥有。更具体地,例如,这种概率分配/所有权意味着细胞可具有X%的属于表型A的概率和Y%的属于表型B的概率等等。在一个特定实施例中,可将细胞确定性地分配给多个计算表型中的仅一者以易于可视化和解释。

在另一个实施例中,提供了一种计算机化系统,用于根据来自多个患者的多个组织样品或多个多细胞体外模型的多参数细胞和亚细胞成像数据来表征细胞表型。该系统包括处理装置,该处理装置包括细胞表型表征组件,该细胞表型表征组件被配置用于接收经分割的多参数细胞和亚细胞成像数据,其中所述经分割的多参数细胞和亚细胞成像数据是通过对所述多参数细胞和亚细胞成像数据执行细胞分割,以及对所述经分割的多参数细胞和亚细胞成像数据执行递归分解以识别多个计算表型而生成的。递归分解包括多个分解水平,每个分解水平包括软/概率聚类和空间正则化。经分割的多参数细胞和亚细胞成像数据中的每个细胞被概率地分配给多个计算表型中的一个或多个计算表型/由多个计算表型中的一个或多个计算表型拥有。

附图说明

图1是根据本公开的概念的示例性实施例的表征多重复合到超复合成像数据中的细胞表型多样性的方法的流程图;

图2是根据图1的方法生成的两个示例性子群组的示例性细胞表型树的示意性表示;

图3是可以根据本公开的概念的方面生成的示例性热图的示意性表示;

图4是可以根据本公开的概念的方面生成的示例性图像,其中基于本公开的概念的子群组结果对细胞边界进行颜色编码;以及

图5是根据本公开的概念的示例性实施例的用于根据多参数细胞和亚细胞成像数据来表征和分类细胞类型及其活化(细胞表型)的示例性数字病理学系统的示意图。

具体实施方式

如本文所用,单数形式的“一”、“一个”和“该”包括复数指代,除非上下文另外清楚地指明。

如这里所使用的,两个或多个部件或组件“耦合”的陈述应当意味着,只要发生连接,这些部件就直接或间接地(即,通过一个或多个中间部件或组件)接合或一起操作。

如本文所用,术语“若干”应指一个或大于一的整数(即,多个)。

如在此所使用的,术语“组件”和“系统”旨在表示计算机相关的实体,或者是硬件、硬件和软件的组合、软件、或者是执行中的软件。例如,组件可以是(但不限于)在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。作为说明,在服务器上运行的应用程序和服务器都可以是组件。一个或多个组件可以驻留在进程和/或执行线程内,并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。尽管关于某些附图或作为屏幕截图的图形示出并描述了向用户显示信息的某些方式,但是相关领域的技术人员将认识到,可以采用各种其它替换方式。

如本文所用,术语“多重复合成像”应指采用多达7种生物标志物的成像技术,并且“多重复合图像”应指使用多重复合成像产生的图像。

如本文所使用的,术语“超复合成像”应当指采用多于7种生物标志物的成像技术,并且“超复合图像”应当指使用超复合成像创建的图像。

如在此所使用的,术语“多重复合到超复合成像”应当包括多重复合成像和/或超复合成像,并且“多重复合到超复合图像”应当包括多重复合图像和/或超复合图像。

本文所使用的方向短语,例如但不限于顶部、底部、左、右、上、下、前、后及其派生词,涉及附图中所示的元件的曲线,并且不限制权利要求,除非其中明确指出。

为了解释的目的,现在将结合许多具体细节来描述本公开的概念,以便提供对本发明的透彻理解。然而,将显而易见的是,在不背离本发明创造的精神和范围的情况下,可以在没有这些具体细节的情况下实践本公开的概念。

本公开的概念提供了一种新颖的无监督分级学习技术,以表征根据各种成像模态获得的多重复合到超复合成像数据中的细胞表型多样性。在示例性实施例中,本文结合根据具有超复合免疫荧光生物标志物数据形式的多参数细胞和亚细胞成像数据表征和分类各种细胞类型及其活化(细胞表型)描述了本公开的概念。然而,应当理解,这仅是示例性的,并且本公开的概念可以结合任何空间多参数细胞和亚细胞成像数据来使用,包括但不限于使用以下成像模态中的任何一种获得的成像数据:透射光、H&E和IHC的组合(1种至多种生物标志物);荧光;免疫荧光(包括但不限于抗体、纳米抗体);活细胞生物标志物多重复合、超复合;质谱(包括但不限于CyTOF);空间转录组学(包括但不限于FISH);以及电子显微镜。靶包括但不限于组织样品(人和动物)以及组织和器官(人和动物)的体外模型。

如本文更详细地描述的,本公开的概念的主要思想之一是它采用数据驱动的表型而不是用户定义的表型。更具体地,在疾病生物学文献中,用户非常普遍的是沿着以下路线定义表型(用户定义的表型):生物标志物A为阳性,生物标志物B为阳性,生物标志物C为阴性;这意味着表型X。这种类型的用户定义的表型意味着没有被自动发现的数据驱动表型。如本文详细讨论的,本公开的概念允许被自动发现的数据驱动表型,并且因此与当前领域中接受的那些非常不同。相反,本公开的概念的方法是无监督的,并且可能自动地识别用户定义的表型。此外,本公开的概念的方法是假设生成的,因为它可以识别和表征由于疾病进展而在数据中出现的新表型(数据驱动的表型)。

因此,如本文详细描述的,本公开的概念的计算表型方法包括两个步骤,即(i)软/概率聚类和(ii)空间正则化,其被递归地应用于(即,递归分解)成像数据。在示例性实施例中,递归分解的结果被用于产生计算表型树,其中树的末端节点(叶子)表示在输入数据集中发现的不同计算表型。不同的计算表型形成了由递归分解确定的最终多因素分析(MFA)模型的组分。

为了说明表型多样性(例如上皮肠细胞、骨髓巨噬细胞、淋巴T细胞、间充质成纤维细胞),本公开的概念将每个簇定义为参数低维子空间的分级混合物。为了说明表型活化连续性(例如,上皮至间质转化),每个细胞可能被树中的每一个簇拥有。此外,对簇分配进行空间正则化以实现尊重组织架构的空间一致性。此外,在示例性实施例中,递归分解是二进制的,即,混合模型在树的每层具有两个组分。在示例性实施例中,递归的停止标准是应用于混合模型的子空间之间的角度的阈值,以确保所得表型是不同的并且避免过度拟合。在示例性实施例中,本公开的概念还应用Kullback-Leiber(KL)散度度量,其使用MFA模型参数来进一步量化任何两种计算表型之间的差异,并且通过将每个细胞分配到具有最高所有权概率的表型来将组织样品内表型的空间分布可视化。

如上所述,本公开的概念的无监督机器学习算法递归地应用具有参数混合模型的概率聚类以及所得到的簇分配的空间正则化。在示例性实施例中,概率聚类算法包括但不限于因素分析器(FA)和概率主组分分析(PPCA)。此外,概率混合模型包括但不限于因素分析器的混合、高斯混合模型和PPCA的混合(MPPCA)。在一个特定实施方式中,本公开的概念使用因素分析器的混合,并通过期望最大化算法来学习模型的参数。

此外,在另一特定实施例中,所揭示的概念采用新颖的代价函数来进行空间正则化。具体地,目标代价函数由两项组成。第一项促进了簇分配中的稀疏性,这意味着每个细胞尝试完全属于一个簇。第二项促进了空间一致性,这意味着如果细胞的簇分配是不确定的,则它在更新其簇分配时寻求来自其邻近的其它细胞的帮助。此外,在目标函数中存在附加约束,因为每个细胞的簇分配应当相加和为1。同样,为了促进空间一致性,每个细胞连接到在截止距离内的邻居。本公开的概念还可以使用乘法器方式的交替方向(ADMM)的方法。

在示例性实施例中,由于细胞到簇的概率分配,分级结构的所有级别在构建和评估对应混合模型时使用所有细胞数据,除了现在对细胞适当加权之外。这些权重也影响空间正则化步骤。为了找到计算机得出的表型的最有区别的生物标记,本公开概念可以基于因素分析器混合模型中的组分的平均向量和子空间方向的差异对生物标记执行排序操作。最后,当混合模型的组分子空间之间的角度低于截止值时,分层构造终止。

图1是根据本发明公开概念的示例性实施例的表征多重复合到超复合成像数据中的细胞表型多样性的方法的流程图。参考图1,该方法开始于步骤5,其中根据来自群组的多个组织样品产生多参数细胞和亚细胞成像数据(在非限制性示例性实施例中,其为超复合免疫荧光生物标志物数据的形式),所述群组在非限制性示例性实施例中为癌症患者群组。然而,应当理解,这仅是说明性的,并且数据可以来自任何患者群组(即,任何疾病)。更具体地,在非限制性示例性实施例中,从甲醛固定石蜡包埋(FFPE)组织微阵列(TMA)生成多个HxIF图像堆栈,所述组织微阵列来自从患者群组获得的切除组织样品。如将理解的,对于每个堆栈,HxIF图像堆栈的生成涉及使用多重复合(在该实施例中具体是超复合)成像处理从每个组织切片生成多个高分辨率的多重复合图像,该成像处理包括用多个荧光标签重复标记每个组织切片以对多个生物标志物成像。

在这里为了说明的目的描述的非限制性示例性实施例中,可以使用通用电气医疗(GE Healthcare)的Cell DIVE

示例性实施例的Cell DIVE

更具体地说,在示例性实施例中,使用Cell DIVE

在本文所述的公开概念的一个特定非限制性示例性实施例中,为了说明性目的,在步骤5中使用56种特定生物标记物来产生多参数细胞和亚细胞成像数据。然而,应当理解,这仅是为了说明性目的,并且在公开概念的范围内也可以使用更多或更少和/或不同的生物标记物。

在步骤5之后,方法进行到步骤10。在步骤10,对获取的多参数细胞和亚细胞成像数据执行细胞分割,以分割每个组织样品中的每个细胞。在示例性实施例中,使用结构生物标志物的集合进行细胞分割:NaKATPase(细胞膜、边界)、S6(细胞质)和DAPI(核)。蛋白质表达和标准偏差通过每个细胞掩模内的中值生物标记强度值来定量,并被转化成log2标度。使用为每个细胞产生的单独QC分数(不包括低于0.7-0.8的分数,该分数表明不准确的配准、未对齐或组织损失)并基于每个经分割的亚细胞区室的像素数来过滤细胞。

接下来,在步骤15,对经分割的多参数细胞和亚细胞成像数据执行递归分解,包括在每个分解水平的软/概率聚类和空间正则化。递归分解导致产生细胞表型树,其中每个细胞都被概率地分配到多个计算表型中的一个或多个(即,每个细胞都按概率属于一个或多个计算表型)。在一个特定实施方式中,每个簇/计算表型被定义为参数低维子空间的分层混合,并且每个细胞被每个簇/计算表型概率地拥有。

本公开的概念的方法可以对任何大小群组的输入来执行。在本文出于说明目的描述的一个具体示例性实施例中,基于5年内的疾病复发,对癌症患者的原始完整群组的子群组(NED,REC)执行本公开的概念。根据图1的步骤15产生的子群组的示例性细胞表型树20A和20B在图2中示意性地示出。在细胞表型树20A和20B中,每个节点22(为了易于说明,仅某些示例性节点被标记为22)表示计算表型,并且其大小对应于具有该簇/表型的大多数所有权的细胞的分数(基于图2中示出的大小图例24)。基于停止标准的终端节点22用黑色轮廓来指示。当可能时,基于区别性生物标志物的集合写出所推断的生物标志物。在每种表型内,细胞被认为是特化的(所有权概率>0.95)或非特化的(所有权概率<0.95)。相对于整个数据集显示了每种表型内的特化和非特化细胞的百分比(所有权的总和等于100%)。注意,存在遍布所有表型的非特化细胞的非常小的亚群(7%)。尽管在该实施例中每个子群组的大小是显著不同的(NED=154,REC=59),但是REC子群组导致表型的较大异质性,这支持了肿瘤的公知的过度增殖特性。此外,这些结果证明了STEM细胞经历的过度增殖和分化,因为REC子群组识别出三个STEM类表型,而NED子群组仅识别出一个。

根据本公开的概念的另一方面,使用Kullback-Leiber(KL)散度度量来量化每对计算表型之间的差异。特别地,每个计算表型可以被认为是由均值向量和协方差矩阵描述的分布。KL散度是相对相似性排序度量。结果在图3中示意性示出的热图26中显现,其中分离线指示每个子群组的边界以及每棵树的上皮和间质分支。沿着该面板的水平和对角线方向的节点是相同的,并且与相应的树颜色协调。为了方便和讨论,沿着对角线的节点包括基于等级排序(rank-ordered)的判别生物标志物的人工推断的生物学特性(在可能的情况下)。基于上皮-上皮和基质-基质表型之间的KL散度度量的相似性证明了本公开概念的方法的稳定性和一致性(例如,在生物学上,上皮计算表型应当比上皮-基质计算表型更相似)。此外,该度量描述了具有相似的推断的生物学特性的表型之间的差异,因为计算表型是高维度的(例如,STEM-STEM计算表型基于KL散度是不相同的)。此外,可以在图4所示的图像28中显现具有基于所公开的概念的子群组结果而颜色编码的细胞边界的组织样品,以便从每个基于结果的群组(NED、REC)中选择代表性阶段I、II和III的患者(每个细胞可以基于如本文所讨论的最高所有权概率而被分配到一个表型)。

此外,在本文出于说明性目的而描述的一个特定示范性实施例中,以下文描述的方式执行步骤15。然而,应当理解,这仅是为了说明的目的,并且在本公开的概念的范围内可以想到用于执行步骤15的替代方式。

首先,在该特定的示例性实施例中,在高维空间中描述超复合数据集,其中通过适当定量的生物标志表达的p维度向量来描述每个细胞

通常,在每个细胞属于一个且仅一个簇(硬聚类)的假设下构建细胞表型分型方法,由于已有的表型连续性,没有空间来识别可能属于多于一种表型的特定细胞。利用因素分析器的混合(MFA),在该特定示例性实施例中公开的概念将细胞建模为具有参数

刚刚描述的软聚类对于TME的空间复杂性是不可知的,TME的空间复杂性是驱动肿瘤内异质性(ITH)的关键组分。基于肿瘤的空间ITH的性质和空间组织结构,预期细胞的邻域是空间上一致的(例如,上皮/肿瘤细胞被其它上皮/肿瘤细胞包围或在空间上接近其它上皮/肿瘤细胞,但允许存在例如肿瘤浸润淋巴细胞和其它基质细胞)。为了促进细胞中的特化,添加空间正则化组件以优化非特化细胞的所有权概率。空间正则化步骤优化由所有权置信度和空间一致性这两项组成的目标函数,由下式给出:

使用交替方向乘子方法(ADMM)来优化目标函数。假设概率所有权置信度(项1)和空间一致性(项2)应当保持相等的权重,并且因此计算调谐参数λ,以将项2缩放到项1的范围:

为了在该具体的示例性实施例中的本公开的概念中使表型发现的过程自动化,使用递归概率方法,其中每个步骤剖析具有M=2组分的最主要的簇。在每个递归步骤,软聚类步骤利用低维潜在空间MFA。随后,空间正则化优化了所得到的每细胞的所有权概率,以通过提升所有权置信度和空间一致性来过滤假阳性的非特化细胞。将每个簇j的所得到的参数(所有权概率Ω

在这个特定的示例性实施例中,每个递归聚类或分裂产生具有高维均值向量

如本文别处所述,树的末端节点(即,叶)表示在输入数据集中发现的不同计算表型,并且形成由递归分解确定的最终MFA模型的组分。从MFA模型,每个计算表型j保存每个细胞的所有权概率c(Ω

此外,在该特定实施例中,可基于最高所有权概率(细胞标记)将每个细胞分配至一种表型。当输入群组具有共同的组织样品(例如,ALL-DATA和阶段I)时,可以比较来自两组衍生的计算表型的细胞标签。可以计算混淆矩阵以比较所得的细胞表型标记。具体地,对于细胞表型i和细胞表型j,混淆矩阵概率如下:

如上所述,在该实施例中,可以基于最高所有权概率值(细胞标记)将细胞分配到计算表型。对于C表型,该方法计算在每个患者i中发现的每个表型的分数,形成向量

图5是根据如本文所述的公开概念的示例性实施例的用于根据多参数细胞和亚细胞成像数据来表征和分类细胞类型及其活化(细胞表型)的示例性数字病理系统30的示意图。如图5所示,系统30是计算装置,其被构造和配置成产生/接收如本文所述的多参数细胞和亚细胞成像数据,并如本文所述处理该数据以表征和分类细胞。系统30可以是(例如但不限于)PC、膝上型计算机、平板计算机或被构造为执行本文所述的功能的任何其它合适的设备。系统30包括输入装置32(例如键盘)、显示器34(例如LCD)和处理装置36。用户能够使用输入装置32向处理装置36提供输入,并且处理装置36向显示器34提供输出信号,以使显示器34能够向用户显示信息,如本文详细描述的(例如,本文描述的树、热图和图像)。处理装置36包括处理器和存储器。处理器可为(例如但不限于)微处理器(μP)、微控制器或与存储器接口的一些其它合适的处理装置。存储器可以是各种类型的内部和/或外部存储介质中的任何一个或多个,诸如但不限于RAM、ROM、EPROM、EEPROM、FLASH等,它们提供存储寄存器(即,机器可读介质)以用于诸如以计算机的内部存储区域的形式的数据存储,并且可以是易失性存储器或非易失性存储器。存储器中存储有多个可由处理器执行的例程,包括用于实现如本文所述的本公开的概念的例程。特别地,处理装置36包括细胞表型表征组件38,其被配置用于根据从如本文在各种实施例中描述的各种成像模式获得的多参数细胞和亚细胞成像数据(例如,多重复合到超复合成像数据)对各种细胞类型及其活化(细胞表型)进行分类。

此外,本公开的概念的前述描述基于并利用原位多参数细胞和亚细胞成像数据。然而,应当理解,这并不意味着限制。相反,应当理解,本公开的概念也可与用于基础研究和临床转化的体外微生理模型结合使用。多细胞体外模型允许研究时空细胞异质性和异型细胞通讯,其概括了可应用于体外研究疾病进展机制的人组织,以测试药物并表征这些模型的结构组织和内容,用于移植中的潜在用途。

最后,虽然已经结合从肿瘤切片获得的成像数据描述了本公开的概念,但是将理解,本公开的概念还可以应用于使用可以穿透到固体的未切片样品中的成像模态从其他类型的组织切片和/或从未切片的组织样品获得的成像数据。

在权利要求中,放在括号中的任何附图标记不应被解释为限制权利要求。词语“包括”或“包含”不排除权利要求中列出的元件或步骤之外的元件或步骤的存在。在列举了若干装置的设备权利要求中,这些装置中的若干装置可以由同一个硬件和硬件中的同一个项目来实现。元素之前的词语“一”或“一个”不排除多个这种元素的存在。在列举了若干装置的任何设备权利要求中,这些装置中的若干装置可以由同一个硬件和硬件中的同一个项目来实现。在相互不同的从属权利要求中引用某些元素的事实并不表示这些元素不能组合使用。

尽管为了说明的目的,基于当前认为是最实际和优选的实施例详细描述了本发明,但是应当理解,这样的细节仅仅是为了该目的,并且本发明不限于本公开的实施例,而是相反,本发明意图覆盖在所附权利要求的精神和范围内的修改例和等同布置。例如,应当理解,本发明预期到在可能的程度下任何实施例的一个或多个特征可以与任何其它实施例的一个或多个特征组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号