首页> 中国专利> 确定细胞的生物学特性之间的对应关系的方法

确定细胞的生物学特性之间的对应关系的方法

摘要

提供了一种确定细胞的第一生物学特性与细胞的一个或多个另外生物学特性之间的对应关系的方法。所述第一生物学特性与所述另外生物学特性由不同的分析技术确定并且各自包含在多个生物学特性集的相应一个中。所述方法包括以下步骤:将所述多个生物学特性集转换成具有对于用于获得所述生物学特性的所述技术不变的表示格式的对应表示;以所述表示格式从被转换的多个另外生物学特性集中的每一个另外生物学特性集中确定与所述第一生物学特性的第一表示最紧密匹配的表示;以及将所确定的表示从所述表示格式重新转换回与所确定的表示相关联的所述生物学特性,并由此确定所述第一生物学特性与所述另外生物学特性中的每个另外生物学特性之间的对应关系。

著录项

  • 公开/公告号CN115699107A

    专利类型发明专利

  • 公开/公告日2023-02-03

    原文格式PDF

  • 申请/专利权人 苏黎世联邦理工学院;

    申请/专利号CN202180029586.2

  • 申请日2021-04-21

  • 分类号G06V20/69;G06V10/774;G06V10/75;G16B40/30;G16H50/20;C12Q1/68;

  • 代理机构北京坤瑞律师事务所;

  • 代理人封新琴

  • 地址 瑞士苏黎世

  • 入库时间 2023-06-19 18:32:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-03

    公开

    国际专利申请公布

说明书

本发明涉及确定细胞的生物学特性之间的对应关系的方法。具体地但非排他性地,本发明涉及一种确定细胞的生物学特性之间的对应关系的方法,其中已经使用不同的单细胞分析技术确定了所述生物学特性。

在生物学研究中,将组织解剖为其细胞组分以单独研究它们或探索不同细胞类型部分之间的相互作用的能力是相对较新的可能性,其已经对包括癌症的各种疾病的动力学产生了重要的见解(Tirosh等人,2016;Chevrier等人,2017)。单细胞技术的最新进展使得能够在转录组学、蛋白质组学、基因组学和其他级别上对具有更大粒度的样品进行分子谱分析(Rozenblatt-Rosen等人,2017;Irmisch等人,2020)。每种数据模态产生不同类型和级别的信息,但是这些需要被整合并且彼此相关,以便理解在组织微环境中起作用的机制以及获得对所研究样品的更全面的分子理解。尽管能够同时测量两种模态的技术正在出现(Stoeckius等人,2017;Zhu等人,2020),但是它们的可扩展性和广泛使用仍然受限。

此外,最新的技术进展已经导致单细胞数据的产生和可用性的增加(在许多模态和大数据集两个方面)。然而,在大多数情况下,谱分析技术(profiling technologies)消耗所使用的细胞,并且因此数据集之间的成对对应关系不可用或丢失。访问整合的多技术测量结果集将允许例如通过联合由每项技术提供的观点来识别生物学上或临床上有意义的观察结果。然而,由于单细胞数据集的庞大规模,需要能够将在一个细胞中进行的单细胞测量通用地匹配到在另一技术中其对应的兄弟细胞(sibling)的可扩展方法。

几乎没有方法被表明具有类似的能力。例如,“MAGAN”(Amodio和Krishnaswamy,2018)原则上不需要特征对应关系。然而,它们的结果意味着仅通过包括特征对应关系就可以实现准确的匹配。

Yang和Uhler(2019)提出了使用可以从其中生成表达谱的隐藏空间。然而,从隐藏空间解码需要生成表达谱。

因此,本发明的目的是提供一种确定细胞的不同生物学特性之间的对应关系的方法,特别是从单细胞分析技术获得的那些特性。

本发明的另一目的是提供一种确定这种对应关系的可扩展方法,具体地在两项或更多项技术中不存在重叠特征并且存在大量观察结果的情况下。

本发明的另一目的是提供一种用于确定细胞的生物学特性之间的对应关系的改进的匹配技术。所述改进可以具体地是在准确性、计算费用和/或花费时间方面。

本发明的另一目的是提供一种可以在改进的临床决策支持系统中使用的平台,所述改进的临床决策支持系统可以利用从不同的单细胞分析技术获得的细胞生物学特性的综合知识。

最广泛地,本发明的方面提供了确定细胞的生物学特性之间的对应关系的方法,所述对应关系是使用不同的分析技术通过将生物学特性转换成对于所用技术不变的表示格式来确定的。

本发明的第一方面提供了一种确定由第一分析技术确定的第一生物学特性集中所包含的细胞第一生物学特性与由不同的第二分析技术确定的第二生物学特性集中所包含的细胞第二生物学特性之间的对应关系的方法,所述方法包括以下步骤:将所述第一生物学特性集和所述第二生物学特性集转换成具有对于用于获得所述生物学特性的所述技术不变的表示格式的对应表示;以所述表示格式从被转换的第二生物学特性集中确定与所述第一生物学特性的第一表示最紧密匹配的第二表示;以及将所述第二表示从所述表示格式重新转换回与所述第二表示相关联的所述生物学特性,并由此确定所述第一生物学特性与所述第二生物学特性之间的对应关系。

本发明的第二方面提供了一种确定细胞的第一生物学特性与细胞的多个另外生物学特性之间的对应关系的方法,所述第一生物学特性和所述另外生物学特性各自由不同的分析技术确定并且各自包含在多个生物学特性集中的相应一个中,所述方法包括以下步骤:将所述多个生物学特性集转换成具有对于用于获得所述生物学特性的所述技术不变的表示格式的对应表示;以所述表示格式从被转换的多个另外生物学特性集中的每一个另外生物学特性集中确定与所述第一生物学特性的第一表示最紧密匹配的表示;以及将所确定的表示从所述表示格式重新转换回与所确定的表示相关联的所述生物学特性,并由此确定所述第一生物学特性与所述另外生物学特性中的每个另外生物学特性之间的对应关系。

应当理解,第一方面和第二方面共享许多共同特征,并且主要通过在第二方面中存在至少三个不同的生物学特性集来区分。以下可选和优选的特征同样适用于上述第一方面和第二方面。

如上所述,本发明具体地但非排他性地涉及确定从不同的单细胞分析技术(也称为单细胞组学技术)获得的数据之间的对应关系。因此,所述分析技术中的至少一项分析技术优选地为单细胞分析技术,并且更优选地,所述分析技术中的所有分析技术均为单细胞分析技术。

单个单细胞分析技术能够确定所分析细胞的某些有用的生物学特性。然而,由于分析技术的不同本质,可以从每项技术获得的信息是不同的,并且因此每项分析技术可以仅提供样品中特定细胞或细胞类型的完整生物学图景的一部分。

为了获得对特定细胞或细胞类型的生物学特性的更清楚理解,组合来自不同的分析技术的结果是有利的。然而,单细胞分析的本质意味着对每个单独的细胞仅可能执行一项分析技术。因此,如果正在对取自单个样品的细胞执行多项分析技术,则无法获得相应生物学特性之间的直接联系。为了解决这个问题,本发明的方面可以允许识别已经由一项技术分析的细胞(以及因此确定的生物学特性)与已经由不同技术分析的细胞(以及因此确定的生物学特性)之间的对应关系。通过将由一项技术分析的细胞与样品中已经由另一项技术分析的亲近(优选地最亲近的)“兄弟”细胞配对或匹配,可以将由这两项技术确定的生物学特性联系起来并因此在进一步的评估或分析中进行组合。

单细胞分析技术的例子是单细胞RNA测序(“scRNA-Seq”)、飞行时间流式细胞术(CyTOF)和成像质谱流式细胞术(“IMC”),但是技术人员应当理解,上述方面的方法不限于使用这些技术获得的数据,并且同样适用于其他技术(包括在撰写本文时目前尚且未知的技术)。

类似地,虽然示例性生物学特性可以是转录组学和蛋白质组学,但是技术人员应当理解,上述方面的方法不限于这种特性,并且同样适用于其他生物学特性(包括在撰写本文时不可获得的特性)。

优选地,所述生物学特性中的至少一种生物学特性是由scRNA-Seq确定的测序信息。在撰写本文时,scRNA-Seq是最详细且信息最丰富的单细胞分析技术。然而,每项单细胞分析技术仅表示对细胞的特性的部分观察结果。通过使用由上述方面的方法识别的对应关系来组合来自多于一项分析技术的信息,可以确定关于细胞的特性的另外信息以构建细胞的更完整图景。

可以通过假设细胞共享共同(低维)基础结构并且具有某些生物学特性的细胞的基础分布在不同的分析技术中近似恒定来进行上述方面的方法。结果,可以创建对于技术不变的表示,例如使用可以具有对抗式目标的自动编码器框架。

所述方法可以允许通过使用对低维表示进行操作的匹配方案跨技术配对细胞来整合多模态数据集。

所述方法可以使用神经网络和/或端到端训练来产生表示格式,和/或用于匹配步骤的快速二分图匹配算法。这些特征中的任一个或两个可允许所述方法在输入的细胞数量方面很好地按比例调节。

由于样品通常被单独的分析技术(具体地为单细胞分析技术)用尽,因此经受所述分析技术以便为这些方法创建所述多个生物学特性集的每个样品可以被分成分离的等分试样以用于分析。尽管如此,假设特定于技术的数据集来自相同的样品(即细胞混合物),可以预期它们表现出相同的基础分布。因此,所述方法可以假定技术之间的共享隐藏表示,但不同于其他方法,其可能不一定需要特征集之间的一对一或重叠对应关系。

此外,如上述第二方面中所指示的,训练方案可以允许添加任意数量项技术,这些技术可以全部被并行训练。

优选地,表示格式仅用于匹配这些细胞。结果,用不同的分析技术测量的每个细胞对的真实观察到的显著丰度可用于任何下游分析。

对于用于获得生物学特性的技术不变的表示可以是隐藏空间。

在某些实施方案中,可以通过为a)用于每个数据集的编码器;b)用于每个数据集的解码器;以及c)作用于所述表示的鉴别器创建神经网络来构造隐藏空间。

在某些实施方案中,具有8个隐藏单元的2层架构可以用作用于所述数据集中的一个或多个数据集的编码器和/或解码器。在某些实施方案中,具有64个隐藏单元的2层架构可以用作用于所述数据集中的一个或多个数据集的编码器和/或解码器。

高斯激活可以用于所述解码器中的一个或多个解码器。

可以使用ADAM优化器来优化网络。

鉴别器可以是二元分类器。

在某些实施方案中,可以通过在以对抗方式欺骗所述鉴别器的同时最小化用于每个数据集的编码器与解码器之间的重构误差来构造隐藏空间。

虽然表示格式优选地被最优地整合,但是使用用于确定表示之间的匹配的最优匹配技术可以补偿甚至次优整合的表示格式。这可以相对裸解码提供附加的优点。

所述方法可以包括确定具有所述表示格式的所创建表示的散度分数的另一步骤。所述散度分数可以是Kullback-Leibler(KL)散度或其变型。在某些实施方案中,散度分数可以被计算为

其中

Z

其中ν

在某些实施方案中,所述方法可以包括将散度分数与预先确定的阈值进行比较的另一步骤。在某些实施方案中,如果散度分数超过预先确定的阈值,则可以重复将所述多个生物学特性集转换成对应表示的步骤,直到获得等于或小于预先确定的阈值的散度分数。

神经网络的训练可能是不稳定的和/或取决于初始选择的。通过检查具有所述表示格式的表示的散度,可以确定是否已经创建了可接受的表示格式。

优选地,所述确定步骤在每对被转换集之间使用二分图匹配方法。

所述确定步骤优选地包括理想地在执行任何匹配之前减小搜索空间以减少可能的对应关系的数量的子步骤。这可以通过减少特定表示的潜在匹配的数量来降低匹配步骤的复杂性。降低的复杂性可以减少完成所述匹配步骤所花费的计算能力和/或时间的量。如果很好地选择了所述降低,则这可以在匹配准确性方面仅以非常小的、或者优选地不可察觉的降低来实现。

可能的对应关系的数量可以减少到每次匹配的预先确定的最大值,例如通过使用k最近邻法。预先确定的最大值可以根据数据集的大小而变化,并且在每种情况下将是匹配的准确性与复杂性降低之间的折衷。

然而,已经发现,将可能的对应关系的数量限制为不超过50仍然可以导致高水平的匹配准确性。更多数量(诸如不超过100、不超过200、不超过250或不超过500)个可能的对应关系提供了更进一步但递减的准确性增加。相反,限制为不超过2000、优选地不超过1000、更优选地不超过500导致匹配过程所需的内存和CPU时间的显著减少。因此,预先确定的最大值优选地在约50与约2000之间,并且更优选地在约50与约500之间。某些实施方案可以将匹配的数量限制为50、100、200、250或500。

在某些实施方案中,二分图匹配方法使用具有表示格式的欧式距离作为“费用(cost)”(例如在生成费用矩阵时),并且寻求找到导致最小总费用的组合。

在某些实施方案中,二分图匹配使用Jonker-Volgenant算法,所述算法已经被证明即使在高维设置中也具有良好的计算性能。

在可替代的实施方案中,可以使用最小费用最大流算法。

许多现有的匹配方法(二分图和其他)假定数据集之间存在一对一对应关系。然而,在细胞分析和不同分析技术的现实中,情况不太可能如此。例如,通过每项分析技术检查的组织样品的细胞组成可能不同。可替代地或另外地,分析技术可以是有偏向性的(例如,某些基因可能在scRNA-Seq数据中被过度表示,而某些蛋白质可能在CyTOF数据中被过度表示)。可替代地或另外地,分析技术的本质可意味着某些分析技术从给定样品产生不同数量的数据点。

因此,匹配过程优选地包括调节和/或允许这种可能性的另外特性。

在一些布置中,所述确定步骤允许通过将空节点添加到每个被转换集而找不到对应关系的可能性。空节点可以密集地连接,并且优选地具有高容量(例如,(最大的)对立数据集的大小)。为了使所述方法偏向于不选择空节点(除非不存在其他实际选项),空节点优选地被给予高分配费用。然而,该空节点仍将捕获与原本匹配不佳的细胞的对应关系。

可替代地或另外地,所述确定步骤可以允许与具有较少元素的被转换集中的表示进行多对一匹配。这可以通过增加具有较小数量个条目的数据集的节点中的边的容量来完成。优选地,所述方法还包括例如通过将(多个)较小数据集的容量总和约束为最大数据集的基数来对任何未匹配的细胞(无论是对空节点还是对真实节点)进行罚分的规定。

可以在减少可能的对应关系的数量之前或之后应用对匹配过程的这些修改。

上述方面的方法特别适用于作为提供临床决策支持的整合平台的一部分,例如在癌症患者的肿瘤诊断和治疗计划中。通过允许整合从多项不同的分析技术(所有这些分析技术都已经在来自患者的相同样品上执行了)获得的信息,可以获得对肿瘤的改进理解,并且指示或选择适当的临床途径。

本发明的另外方面提供了一种计算机程序,所述计算机程序被布置为当在处理器上运行时执行上述第一方面或第二方面的方法,包括这些方面的优选或可选特征中的一些、全部或者不包括这些特征,并且提供了一种具有存储这种计算机程序的非暂时性存储器的计算机程序产品。

临床决策支持系统在护理点使用,具体地由临床医生使用,以分析和可视化通过不同的(诊断)分析技术获取的信息,并且以便于将所获取的数据与临床医生的知识和专业技能进行组合。越来越多的这种临床决策支持系统被开发,其寻求利用来自高通量下一代分析技术的数据,诸如全基因组测序(WGS)和总RNA测序(RNA-Seq)。

现有的单细胞分析技术(例如,scRNA-Seq和CyTOF)在整个分析中保留了单独测量的数据点与从中获得分析材料的细胞之间的相关性。例如,这可以通过对从异质样品中的一个细胞获得的分子条形码化并读取条形码信息连同生物学特性的相应数据点(例如,(条形码化的)mRNA分子)来实现。

然而,如果使用多项分析技术来分析相同患者样品(例如,肿瘤样品),则不同技术之间不保留单个细胞之间的对应关系。本发明提供了一种在单细胞级别上确定不同生物学特性(例如,转录组学和蛋白质组学)之间的这种对应关系的方法。

本发明的方法可以例如用于在临床决策支持系统中聚合来自不同的单细胞分析技术的数据。临床决策支持系统可以呈现聚合数据的可视化,以支持临床医生对如何基于患者肿瘤样品的分子标记来治疗患者的决策。

可替代地或另外地,临床决策支持系统可以单独基于聚合数据或与临床和病史数据相结合地向临床医生建议治疗选项。

本发明的另一方面提供了一种具有处理器的临床决策支持计算机系统,所述处理器被布置为执行上述第一方面或第二方面的方法,包括这些方面的优选或可选特征中的一些、全部或者不包括这些特征。所述计算机系统可以具有显示器以允许向用户显示所确定的(多个)对应关系的结果。

本发明的另外方面提供了一种临床决策支持计算机程序,所述临床决策支持计算机程序被布置为当在处理器上运行时执行上述第一方面或第二方面的方法,包括这些方面的优选或可选特征中的一些、全部或者不包括这些特征,并且提供了一种具有存储这种计算机程序的非暂时性存储器的临床决策支持计算机程序产品。

现在将参考附图以非限制性举例的方式描述本发明的实施方案,在附图中:

图1示意性地示出了根据本发明的实施方案的方法,其跨多项单细胞分析技术执行细胞的成对匹配;

图2示出了形成根据本发明的实施方案的方法的一部分的示意性匹配图结构;

图3示出了用于模拟用于测试根据本发明的实施方案的方法的PROSSTT数据集的树;

图4示出了用于模拟用于测试根据本发明的实施方案的方法的另一PROSSTT数据集的树以及在源技术与目标技术之间匹配的一对细胞之间的伪时间标签的密度图;

图5是从图3所示的树结构获得的模拟数据的整合隐藏空间的tSNE(复杂度=32)图;

图6是在源技术与目标技术之间匹配的一对细胞之间的模拟数据中的伪时间标签的密度图;

图7是从图4所示的树结构获得的模拟数据的整合隐藏空间的tSNE(复杂度=32)图;

图8是使用从现有技术系统MATCHER获得的隐藏代码在源技术与目标技术之间匹配的一对细胞之间的伪时间标签的密度图;

图9是通过将根据本发明的实施方案的方法应用于从人类肿瘤细胞获得的数据集而创建的整合隐藏空间的tSNE嵌入(复杂度=128),其中细胞匹配由灰线指示;

图10是用scRNA-Seq(基因,x轴)和CyTOF(蛋白质,y轴)测量的HLA-DRA标记丰度的一系列密度图;

图11示出了当将根据本发明的实施方案的方法应用于从人类肿瘤细胞获得的数据集时关于细胞类型标签的、稀疏连接与密集连接之间匹配准确性的比较;

图12是类似于图6的tSNE嵌入,但是具有经由数据空间上的匹配获得的由灰线指示的细胞匹配;并且

图13是一系列图表,示出了根据本发明的实施方案的方法在从人类肿瘤细胞获得的数据集上的训练进度。

下面将描述本发明的一个实施方案,其提供了一种将来自源技术的细胞匹配到目标技术中的细胞的方法。所述方法已经在模拟和真实数据网络上进行了测试,如下面进一步解释的。

图1展示了该实施方案的方法的形成和操作。所述方法假定每项技术的输入来自并行处理的、例如来自共同样品的类似细胞分布。所述方法通过使用如下面进一步描述的自动编码器框架和对抗式目标将细胞映射到对于技术不变的隐藏空间中来进行,使得可以从隐藏空间如实地重构原始细胞信号,而每个隐藏表示的技术是不可区分的。然后,通过使用快速二分图匹配框架,使用所获得的共享隐藏代码来寻找跨技术的最佳细胞类似物。

构造对于技术不变的隐藏空间和模型架构

整合隐藏空间理想地具有两种特性。必须可以将隐藏表示解码为其输入的如实重构,而每个隐藏表示的源技术应当是不可区分的。为此,本实施方案的方法具有三种类型的网络:用于每项技术k的一对编码器(φ

鉴别器是被训练以从所有其他技术的隐藏表示中识别源技术的隐藏表示的二元分类器。鉴别器使用二元交叉熵。

本实施方案的方法通过在以对抗方式欺骗鉴别器的同时最小化重构误差来创建整合隐藏空间。给定来自目标技术的一批细胞的测量结果x

其中,

所有网络都使用ReLU激活。所有模型的隐藏维数被设置为8,并且使用每个具有2层和8个隐藏单元的鉴别器网络。SNGAN(Miyato等人,2018)框架用于训练鉴别器。

对于下面进一步讨论的模拟数据网络,使用了具有64个隐藏单元的2层架构。对于真实数据网络,具有8个隐藏单元的2层架构用于CyTOF网络,并且具有64个隐藏单元的2层架构用于scRNA-Seq网络。高斯激活用于所有解码器。架构搜索是在VAE代码上进行的,并且反映了特征数量与参数数量之间的折衷。

通过迭代地固定一项技术作为源并且一项技术作为目标来进行优化。在超过两项技术的情况下,对应于鉴别器的正类别的技术必须是源技术或目标技术。源技术的代码是固定的,并且等式(1)通过对编码器和解码器的梯度更新而被最小化,目标技术的φ

由于对抗式训练的最小-最大本质,模型比较是具有挑战性的,因为不可能直接比较收敛模型的最小化目标函数(Lucic等人,2017)。然而,计算机视觉界已经引入了许多专用于图像域的度量来帮助对模型进行比较(Heusel等人,2017;Salimans等人,2016),并且这些度量可以用于验证一组较低维隐藏表示的质量。如Wang等人(2019)所进行的,基于k最近邻(kNN)的散度估计器(Wang等人,2009)用于定量地评估整合的隐藏空间的质量。两个代码集Z

其中

其中ν

该估计器仅使用经验数据来近似Kullback-Leibler(KL)散度的对称变型,即两个分布相差多少的量度。计算源技术与目标技术的隐藏表示之间的散度估计。

匹配

然后,所获得的共享隐藏表示可以用于寻找跨技术的类似细胞,即,通过每项技术分析的样品中彼此最亲近相关的那些细胞。每个细胞在隐藏空间中由低维向量的隐藏代码表征,这些隐藏代码跨技术处于一对一对应关系。为了以在计算上有效的方式寻找最优成对匹配,可以将任务看作组合的二分图匹配问题。

然而,给定单细胞数据的高维本质,作为第一步,将搜索空间减少到最有可能的潜在匹配是有帮助的。为了实现这一点,使用源数据建立k最近邻(kNN)图,并且然后由目标技术细胞查询。节点对应于细胞,并且边权重对应于细胞之间的距离。由于隐藏代码是密集的并且可在技术之间直接比较,因此欧式距离被用于测量每对细胞之间的不类似度。由超参数k的选择所调节的连接的稀疏性对应于计算性能(内存使用、运行时间)与匹配准确性之间的折衷。

给定具有跨技术的所有细胞对之间的距离的费用矩阵(例如,隐藏或数据空间中的欧式距离),目的是寻找导致最小总费用的行细胞对。在本实施方案中,隐藏空间中的欧式距离被用于生成费用矩阵。所述目的于是对应于求解线性分配问题(LAP),即二分图匹配,并且可以被公式化为:

min

利用费用矩阵C、布尔分配矩阵X和细胞索引i∈{1,...,n}、j∈{1,...,m},其中n、m分别表示源数据集和目标数据集中的细胞数量。在经典的二分图匹配中,n=m,并且当被公式化为具有细胞节点的图时,每个边的容量正好是一,因为强制应用了双射匹配。为了有效地求解具有稀疏连接的LAP,我们使用Jonker-Volgenant算法(Jonker和Volgenant,1987),所述算法已经被证明即使在高维设置中也具有良好的计算性能(Dell’Amico和Toth,2000),而不管O(n

为了放宽对仅一个匹配的限制,可以应用最小费用最大流问题的一般框架(Ahuja等人,1993;Klein,1967)。

给定有向图G=(V,E),其中V表示顶点并且E表示边,G的最小费用最大流将是可以以最小费用从源推到汇的最大流。如果u表示非负边容量并且c表示对应的费用,则在边(v,w)上的f(v,w)个单元的流将贡献c(v,w).f(v,w)给目标

min

其中

寻找通过网络的流的最小费用对应于寻找最短路径。已经设计了许多算法来有效地解决多项式时间中的最小费用最大流问题(参照例如,Ahuja等人,1993;Kovács,2015)。

目前描述的方法对跨数据集观察相同的细胞组成做出了强烈的假设,即,每个细胞在另一技术中具有直接对应的兄弟细胞。为了允许由于细胞组成的预期变化而引起的失配,通过添加具有高容量和高分配费用的密集连接的空节点从而捕获原本匹配不佳的细胞来用稀疏连接扩展kNN图。

该图结构在图2中描绘,其中隐藏空间被描绘为与源(S)数据集和目标(T)数据集中的细胞相对应的一组节点以及它们之间的稀疏连接的边,由kNN搜索产生。边标签(a,b)分别指示匹配费用和边容量。右下角的灰色空节点捕获与源细胞的匹配,所述源细胞在目标技术中缺乏足够相近的类似物。其容量等于源数据的基数,并且费用c

此外,为了考虑模态之间的细胞数量的差异,假设源对应于较小的数据集,通过增加传出源边的容量来允许多对一的匹配。为了对留下未匹配的细胞进行罚分,排除空节点的传出源容量总和被约束为等于目标集的基数

∑u

在不同的级别上评估匹配的质量。首先,上报了对应于真阳性w.r.t.细胞类型标签部分的准确性。可以以特定于技术的方式确定细胞类型。如果更多的精细粒度细胞信息(诸如伪时间)可用,则进行这个量的直接比较。

模拟数据集

首先使用由PROSSTT(Papadopoulos等人,2019)生成的两个合成数据集来评价本实施方案的方法。PROSSTT模拟将负二项模型参数化的时间分支过程。

通过在不同种子和不同数量的基因下运行PROSSTT,但保留基础分支结构,模拟了两种单细胞分析技术(参照表1)。因此,这两个数据集具有共同的隐藏结构,但是它们的特征不具有任何对应关系。使用如图3所展示的具有不同的分支长度的三分支树。第一分支A从伪时间0到30,分支B从30到50,并且分支C从30到60。PROSSTT模拟数据允许定义基础隐藏结构。

表1.使用不同种子但相同的基础隐藏结构的PROSSTT模拟数据集的特性。

使用较大数据集(即,具有更多标记的数据集)作为源技术并且使用较小数据集作为目标技术来运行本实施方案的方法。通过基于源技术来训练VAE达250个时期来初始化隐藏空间。这些隐藏表示被固定,并且然后目标技术被训练达250个时期。为了帮助定向隐藏空间,将分支标签给予鉴别器(Makhzani等人,2015)。对于每个目标细胞,使用隐藏代码上的欧式距离、通过k=500的k最近邻算法来识别源数据集中的一组其最类似细胞。然后,通过求解最小费用最大流问题来寻找最佳匹配,从而允许多对一的匹配。

在第二种方法中,通过在不同种子下运行PROSSTT但保留基础分支结构来模拟三项单细胞分析技术。因此,这三个数据集也具有共同的隐藏结构,但是它们的特征不具有任何对应关系。使用在图4的左手侧示出的具有不同的分支长度的五分支树。每个数据集包含64,000个细胞,具有256个标记。

在所述三个模拟数据集上运行本实施方案的方法。通过基于源技术来训练VAE达256个时期来初始化隐藏空间。这些隐藏表示被固定,并且然后所述两种目标技术被训练达256个时期。对于每个目标细胞,使用隐藏代码上的欧式距离、通过k=500的k最近邻算法来识别源数据集中的一组其最类似细胞。然后通过求解二分图匹配问题来寻找最佳匹配。

结果

在由PROSSTT生成的上述一对数据集上评估本实施方案的方法,使得两个数据集之间没有特征对应关系,同时保留共享的基础特性。PROSSTT中的分支定义了模仿细胞类型的中心结构,而时间分量(即,伪时间)提供了从一个分支到另一个分支的连续插值,如树所定义的。

在隐藏空间中,数据内的分支结构产生大的聚类,而伪时间结构提供每个聚类内的定向以及流形的全局平滑。对于所述三分支树,本实施方案的方法能够正确地捕获该结构并跨数据集定向该结构,如在来自图5所示的两个源的组合隐藏表示上计算的tSNE嵌入所示。

图5中的每个点对应于细胞的隐藏表示。在第一轴中,点由分支标签着色并且由源技术加阴影。图5示出了树的分支结构是以嵌入方式表示的并且技术代码通过分支标签被全局地分组。在第二轴和第三轴中,源代码/技术代码由伪时间标签着色。如所展示的,所述方法能够正确地捕获聚类内定向。

将最佳匹配算法应用于k=1500的稀疏kNN图。图6提供了关于伪时间的匹配的定量评估。着色轮廓对应于在相同分支内配对的细胞。灰色轮廓对应于与不同分支配对的细胞。可以看出,这种失配主要发生在分支点周围,其中来自不同分支的细胞最类似。

在对角线附近内观察到最高的细胞密度,因此表明所获得的匹配不仅遵循总体分支,而且反映细微的变化。w.r.t.分支标签的失配细胞(灰色)占总细胞群的15%。

下表2是对应的混淆表。

表2.示出了模拟PROSSTT数据中的细胞的最佳匹配的分支标签的混淆表。对角线上的条目对应于正确匹配,而非对角线元素为失配。关于分支标签,总体准确性为85%。

大多数失配位于分支点周围,其中细胞之间的差异变为不可区分的。如所预期的,如果不考虑分支点的面积(伪时间∈[30-E,30+E]),则匹配的总体准确性增加(准确性:98%,下表3)。所有匹配量之间的Spearman和Pearson相关系数分别为0.89和0.87。这些结果证明,本实施方案的方法能够甚至在不存在配对特征的情况下基于共享隐藏表示准确地识别跨技术的最佳匹配细胞。

表3.混淆表示出了模拟PROSSTT数据中的细胞的最佳匹配的分支标签,但排除了分支点(伪时间=30)+/-10%总伪时间的极小值(E=0.1*60=6)。对角线上的条目对应于正确匹配,而非对角线元素对应于失配。关于分支标签并在排除分支点的情况下,总体准确性为98%。

对于所述五个分支数据集,本实施方案的方法还能够正确地捕获所述基础数据结构并跨数据集定向所述基础数据结构,如在来自图7所示的所有数据集的组合隐藏表示上计算的tSNE嵌入所示。

将上述最优匹配最小费用最大流算法应用于k=50的稀疏kNN图。图4的右手侧的图提供了关于伪时间的匹配的定量评估。

在对角线附近内观察到最高的细胞密度,因此表明所获得的匹配不仅遵循总体分支,而且反映细微的变化。关于分支标签,失配细胞(灰色)占总细胞群的15%。对应的混淆表如下表4所示。

大多数失配位于分支点周围,其中细胞之间的差异变为不可区分的。所有匹配量之间的Spearman和Pearson相关系数分别为0.83和0.86。这些结果证明,本实施方案的方法能够甚至在不存在配对特征的情况下基于共享隐藏表示准确地识别跨技术的最佳匹配细胞。

表4.混淆表示出了模拟PROSSTT数据中的细胞(5个分支)的最佳匹配的分支标签。对角线上的条目对应于正确匹配,而非对角线元素对应于失配。关于分支标签,总体准确性为86%。

本实施方案的方法还与Welch等人在2017年公开的MATCHER方法进行了比较。MATCHER假定一维隐藏结构,模拟数据中的分支结构违背了所述结构。另外,MATCHER是基于高斯过程的概率模型,并且因此在可扩展性方面受限。为此,设置48小时的计算时间和最大40Gb内存的预算。在此之后,应用本实施方案的匹配步骤以使用k=50且空节点费用为95的kNN图来寻找匹配。图8示出了使用从MATCHER获得的隐藏代码在源技术与目标技术之间匹配的一对细胞之间的伪时间标签的密度图。被着色轮廓对应于在相同分支内配对的细胞,而灰色轮廓对应于与不同分支配对的细胞。关于分支标签的准确性为4%,而40%的细胞与空节点匹配,因为不能识别出更好的匹配。

黑素瘤患者的单细胞谱

用于进一步举例说明该实施方案的方法的操作的真实数据集由Tumor Profiler(TuPro)协会(Irmisch等人,2020)生成作为多中心多癌症研究的一部分,所述研究包括来自深度表型化个体群的转移性肿瘤。用多项技术分析每个患者的数据,包括scRNA测序(Tang等人,2009)、飞行时间流式细胞术(Bandura等人,2009,CyTOF)和成像质谱流式细胞术(Giesen等人,2014,IMC)。所有这些都能够解剖肿瘤微环境并提供关于感兴趣样品的单细胞级别补充信息。尽管在整个过程中细胞的同一性丧失,但是两项技术探索的细胞来自相同群体(即,是从共同细胞悬浮液的等分试样获得的)。

对于CyTOF数据集,使用为样品免疫区室的深入表征设计的40标记面板、用CyTOF对患者样品进行谱分析。遵循Chevrier等人在2017年、2018年描述的工作流程执行数据预处理。使用基于多个手动门控样品训练的随机森林分类器来执行细胞类型分配。为了探索本实施方案的方法的效用,仅考虑B细胞和T细胞的子集,包括m=135,334个细胞。该数据集在下文被称为目标数据集。

使用10x基因组学平台、通过基于小滴的scRNA测序来分析相同患者样品的第二等分试样。应用标准QC措施和预处理步骤,诸如除去低质量细胞,以及筛出线粒体、核糖体和非编码基因。表达数据按文库大小标准化,并针对细胞周期效应进行校正。使用一组特定于细胞类型的标记基因执行细胞类型识别(Tirosh等人,2016)。然后筛选一组256个基因,保留那些能编码在CyTOF通道中测量的蛋白质的基因、前32个T细胞/B细胞标记基因和其余最易变的基因。在该数据集中的B细胞和T细胞的总数等于n=4,683。scRNA-Seq数据集用作以下例子中的源数据集。

表5.TuPro患者数据集的特性。

2层编码器和解码器用于scRNA-Seq/CyTOF技术,每个隐藏层分别具有64/8个单元。鉴别器是具有8个单元的2层网络,并且隐藏维度被设置为8。所有网络都使用ReLU激活。鉴别器以细胞类型标签为条件。这些被训练达256个时期。在scRNA-Seq与CyTOF数据之间识别细胞类似物(下采样至scRNA-Seq数据的大小(m=n=4,683个细胞))是基于稀疏的kNN图的,其中k=500,使用欧式距离来计算。

结果

应用本实施方案的方法来整合通过如上所讨论的TuPro项目从单个样品生成的scRNA-Seq和CyTOF数据集。整合这些技术(以及其他单细胞分析技术)可以允许对细胞动力学的多视图视角,并且因此可以导致更彻底地理解正在发生的生物学过程。

隐藏代码上的最佳匹配具有97%的准确性以恢复细胞类型标签。相比之下,在相同细胞的数据空间上的匹配将导致关于细胞类型标签的仅72%的准确性。

通过检视图9所示由灰线标记的整合隐藏空间的tSNE嵌入上的匹配,执行更精细粒度的视觉评估。颜色(蓝色、橙色)表示细胞类型(B细胞、T细胞),并且色彩明暗对应于谱分析技术(浅:scRNA-Seq、深:CyTOF)。数据已被随机下采样至scRNA-Seq数据的大小(n=4.683个细胞)。

在数据中给定不同的细胞类型比例,预期失配的一定百分比(在这种情况下为3%),其对应于结合跨两种细胞类型的点的线。需注意,为了这种可视化以及为了探索和证明所述方法的准确性,在图中不包括原本将捕获大多数失配的空节点。

图12中示出了在数据空间上直接使用匹配的等效图。其中细胞匹配是经由在由灰线指示的数据空间上进行匹配而获得的。颜色(蓝色、橙色)表示细胞类型(B细胞、T细胞),并且色彩明暗对应于谱分析技术(浅:scRNA-Seq、深:CyTOF)。数据已被随机下采样至scRNA-Seq数据的大小(n=4.683个细胞)。这种匹配的准确性比使用隐藏表示的差,并且因此可以观察到跨细胞类型的连接。

此外,使用标记表达相关性的更精细粒度的信息来定量地评估两种情况下的匹配质量。这使用了癌症相关HLA-DRA基因的表达与对应HLA-DR蛋白质丰度之间的相关系数,其中双变量密度图示于图10中,HLA-DRA标记丰度用scRNA-Seq(基因,x轴)和CyTOF(蛋白质,y轴)来测量。被着色轮廓(左下、右上)对应于在相同细胞类型内配对的细胞。灰色轮廓(左上、右下)对应于与不同细胞类型配对的细胞。颜色强度根据细胞类型比例被加权。这些图从左到右对应于隐藏空间中的匹配、数据空间中的匹配和随机匹配。Spearman和Pearson相关系数被指示用于每个图,并且清楚地示出了执行最佳匹配(随机匹配具有最低相关系数)和使用针对该任务的共享隐藏表示(最高相关系数)的益处。

这些示出了使用共享隐藏表示的匹配显著优于在数据空间中使用共同特征(Pearson系数:分别为0.64和0.22)。此外,在两种情况下,与随机地在两项技术之间匹配细胞(Pearson系数为0.01)相比,最佳匹配导致表达相关性得以改进。因此,即使在配对特征的子集跨技术存在的情况下,使用共享隐藏表示证明对寻找细胞类似物是有益的。

如上所述,使用通用散度估计器(Wang等人,2009)来评估整合隐藏空间的质量。图11示出了根据本发明的实施方案的方法在癌症患者样品上的训练进度。基于scRNA-Seq数据来训练VAE,并且根据上述实施方案的方法用于将CyTOF表示整合到由scRNA-Seq代码定义的隐藏空间中。

图13示出了作为模型训练的若干度量。顶部面板示出了CyTOF重构的负对数似然值。中间面板示出了鉴别器正确分类scRNA-Seq代码(critic-prior)、CyTOF代码(critic-code)的性能以及编码器欺骗鉴别器的能力,即错误分类准确性(发生器)。左下面板示出了隐藏表示的散度。为了测量隐藏空间的整合程度,在两项技术的隐藏表示上计算估计的散度,并且如果散度和重构误差低于根据经验设置的阈值(散度<0.3,

表6.用于基于真实肿瘤样品来训练本实施方案的方法的消融研究。β是对抗式损失的正则化强度。学习率是ADAM优化器的初始设置。如果隐藏空间散度(Wang等人,2009)低于0.3并且重构下的输入的负对数似然值低于47,则认为训练是成功的。这些值是根据经验选择的。β和优化器学习率对模型成功有很大影响。

选择二分图匹配,因为其跨所有细胞确保了两项技术之间的全局最优匹配。由于每个样品中利用每项单独技术对大量细胞进行谱分析以及细胞匹配问题的本质,如上所述,使kNN搜索与二分图匹配相组合。图11中示出了准确性的比较,其中在x轴上指示了所考虑的最近邻的数量k,其以log10标度显示。在y轴上描绘了关于细胞类型标签的真阳性匹配的部分。密集连接的准确性水平针对k=500已经实现,并且针对k=100在1%绝对差内。

因此,将二分图匹配单独与组合方法进行比较示出了对于总共4,683个细胞,使用仅k=500的邻域可以实现等效的准确性。这与预期相符,因为与极远邻的匹配仅在许多的多个连结(即,一组不可区分的细胞)的情况下才可能是合乎情理的。因此,将搜索空间中的匹配减少至最近邻对应于基于密集距离矩阵来寻找细胞类似物。

此外,使用组合方法来解决任务在计算上是有效的,因为在0.5Gb的内存使用和小于1分钟计算的情况下,使用k=500,找到了针对所有4,683个细胞的成对匹配。如所预期的,随着k的增加,需要更多的计算资源来解决最佳匹配问题(下表7)。然而,超参数k可以被设置为比所述数据维度小得多,而在大多数情况下,相比完全连接图上的匹配提供了实质性的计算性能增益。

表7.随着kNN搜索中的k超参数增加,最佳匹配的内存使用和计算时间增加。该表指示了在下采样的TuPro数据集上获得的值,每项技术有4.683个细胞。

在最小费用最大流匹配算法的应用中,对于改变超参数k的影响,观察到类似的结果,如下表8所展示的。虽然这种算法的总体速度较慢,但是所述方法在可扩展性和提供真假阳性率之间的折衷方面具有其他优点。

表8.随着kNN搜索中的k超参数增加,MCMF匹配算法的内存使用和计算时间增加。该表指示了在下采样的TuPro数据集上获得的值,每项技术有4.683个细胞。

结论

本实施方案的方法提供了一种对于技术不变的方法,所述方法跨多模态数据集将单细胞测量结果进行配对,而不需要特征对应关系,使真实的多模态单细胞分析成为可能,并且为从多角度理解各种疾病或发育状态下的单独细胞的动力学提供了新机会。与定制的二分图匹配方法相结合的基础自动编码器框架确保了可扩展性。

通过引入散度测量,解决了对抗式训练中的常见问题,如训练不稳定性和收敛问题。

通过使用修改的二分图匹配解决方案以跨技术有效地匹配对应细胞,提供了可扩展性。对二分图匹配的修改和扩展可为我们的方法提供更广泛的适用性,因为即使来自同一个样品,分离的等分试样上的细胞类型组成的变化也是可预见的。此外,通过避免强制失配并因此提高细胞对细胞(cell-to-cell)分配的置信度,空节点的引入确保了更高质量的匹配。

随着数据维度的增加,最近邻的数量(k)也应该增加,因为可能出现更多的连结。然而,在进行的实验中,跨相同数据集的不同k值的真阳性数量的差异保持在5%以内,因此认为相对于对该超参数的选择,性能是相当稳健的。

虽然上述特定实施方案使用两个数据集,但是应当理解,所描述的方法可以扩展到存在三个(或更多个)数据集的情况。可以同时使用所有数据集来构造隐藏空间,其中目标函数相应地被修改。此外,对于较大数量的数据集,认为在每个潜在的一对数据集之间使用二分图匹配方法来执行匹配是在计算上保持为最有效的。

除了所述结构组分和用户相互作用以外,上文实施方案的系统和方法可以在计算机系统中(具体地在计算机硬件中或在计算机软件中)实施。

术语“计算机系统”包括用于根据上述实施方案具体化系统或执行方法的硬件、软件和数据存储装置。例如,计算机系统可以包括中央处理器(CPU)、输入构件、输出构件和数据存储器。优选地,计算机系统具有监视器以提供视觉输出显示。数据存储器可以包括RAM、磁盘驱动器或其他计算机可读介质。计算机系统可以包括多个计算装置,其通过网络连接并且能够经由该网络相互通信。

上文实施方案的方法可以作为计算机程序或作为计算机程序产品或携带计算机程序的计算机可读介质来提供,所述计算机程序在计算机上运行时被布置为执行上述一种或多种方法。

术语“计算机可读介质”包括但不限于任何一种或多种非暂时性介质,其可以由计算机或计算机系统直接读取和访问。所述介质可以包括但不限于磁性存储介质,诸如软盘、硬盘存储介质和磁带;光学存储介质,诸如光盘或CD-ROM;电存储介质,诸如存储器,包括RAM、ROM和闪速存储器;以及上述存储介质的混合物和组合,诸如磁性/光学存储介质。

本领域的技术人员应当理解,虽然上文已经描述了本发明的实施方案,但是本发明不应限于在优选实施方案的该描述中公开的具体配置和方法。本领域的技术人员应当认识到,本发明具有广泛的应用,并且在不偏离如所附权利要求中限定的任何发明构思的情况下,所述实施方案可以采取广泛的修改。

将以下参考文献通过引用以其全文特此结合:

Abadi,M.等人(2015).TensorFlow:Large-scale machine learning onheterogeneous systems.Software available from tensorflow.org。

Ahuja,R.K.等人(1993).Network Flows:Theory,Algorithms,andApplications.Prentice-Hall,Inc.,USA。

Amodio,M.和Krishnaswamy,S.(2018).MAGAN:Aligning biologicalmanifolds.In J.Dy and A.Krause,editors,Proceedings of the 35th InternationalConference on Machine Learning,volume 80of Proceedings of Machine LearningResearch,第215–223页,

Bandura,D.R.等人(2009).Mass cytometry:Technique for real time singlecell multitarget immunoassay based on inductively coupled plasma time-of-flight mass spectrometry.Analytical Chemistry,81(16),6813–6822。

Chevrier,S.等人(2017).An immune atlas of clear cell renal cellcarcinoma.Cell,169(4),736–749.e18。

Chevrier,S.等人(2018).Compensation of signal spillover in suspensionand imaging mass cytometry.Cell Systems,6(5),612–620.e5。

Dell’Amico,M.和Toth,P.(2000).Algorithms and codes for denseassignment problems:the state of the art.Discrete Applied Mathematics,100(1),17–48。

Giesen,C.等人(2014).Highly multiplexed imaging of tumor tissues withsubcellular resolution by mass cytometry.Nature Methods,11(4),417–422。

Heusel,M.等人(2017).GANs trained by a two Time-Scale update ruleconverge to a local nash equilibrium。

Irmisch,A.等人(2020).The tumor profiler study:Integrated,multi-omic,functional tumor profiling for clinical decision support.medRxiv。

Jonker,R.和Volgenant,A.(1987).A shortest augmenting path algorithmfor dense and sparse linear assignment problems.Computing,38(4),325–340。

Kingma,D.P.和Ba,J.(2014).Adam:A method for stochastic optimization。

Kingma,D.P.和Welling,M.(2013).Auto-Encoding variational bayes。Klein,M.(1967).A primal method for minimal cost flows with applications to theassignment and transportation problems.Management Science,14(3),205–220。

Kovács,P.(2015).Minimum-cost flow algorithms:an experimentalevaluation.Optimization Methods and Software,30(1),94–127。

Liu,J.等人(2019).Jointly embedding multiple single-cell omicsmeasurements.BioRxiv,第644310页。

Lucic,M.等人(2017).Are GANs created equal?a Large-Scale study。

Makhzani,A.等人(2015).Adversarial autoencoders。

Miyato,T.等人(2018).Spectral normalization for generative adversarialnetworks。

Oetjen,K.A.等人(2018).Human bone marrow assessment by single-cell rnasequencing,mass cytometry,and flow cytometry.JCI Insight,3(23)。

Papadopoulos,N.等人(2019).PROSSTT:probabilistic simulation of single-cell RNA-seq data for complex differentiation processes.Bioinformatics,35(18),3517–3519。

Rozenblatt-Rosen,O.等人(2017).The human cell atlas:from vision toreality.Nature News,550(7677),451。

Salimans,T.等人(2016).Improved techniques for training GANs。InD.D.Lee,M.Sugiyama,U.V.Luxburg,I.Guyon,和R.Garnett,编辑,Advances in NeuralInformation Processing Systems 29,第2234–2242页.Curran Associates,Inc.。

Stoeckius,M.等人(2017).Simultaneous epitope and transcriptomemeasurement in single cells.Nature Methods,14,865。

Tang,F.等人(2009).mrna-seq whole-transcriptome analysis of a singlecell.Nature Methods,6(5),377–382。

Tirosh,I.等人(2016).Dissecting the multicellular ecosystem ofmetastatic melanoma by single-cell rna-seq.Science,352(6282),189–196。

Wang,Q.等人(2009).Divergence estimation for multidimensionaldensities via k-nearest-neighbor distances.IEEE Transactions on InformationTheory,55(5),2392–2405。

Wang,T.等人(2019).Bermuda:a novel deep transfer learning method forsingle-cell rna sequencing batch correction reveals hidden high-resolutioncellular subtypes.Genome Biology,20(1),165。

Welch,J.D.等人(2017).Matcher:manifold alignment revealscorrespondence between single cell transcriptome and epigenomedynamics.Genome Biology,18(1),138。

Yang,K.D.和Uhler,C.(2019).Multi-domain translation by learninguncoupled autoencoders.CoRR,abs/1902.03515。

Zhu,C.等人(2020).Single-cell multimodal omics:the power of many。

Nature Methods,17(1),11–14。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号