首页> 中国专利> 在高通量系统中应用机器学习以分析显微图像的系统和方法

在高通量系统中应用机器学习以分析显微图像的系统和方法

摘要

本发明描述了用于将高通量流动成像显微镜与卷积神经网络结合以分析诸如聚合生物分子之类的颗粒以及用于各种诊断、治疗和工业应用的细胞的系统、方法和设备。

著录项

  • 公开/公告号CN113330292A

    专利类型发明专利

  • 公开/公告日2021-08-31

    原文格式PDF

  • 申请/专利号CN201980051155.9

  • 申请日2019-07-30

  • 分类号G01N15/14(20060101);G02B21/00(20060101);G06N3/067(20060101);G06N3/08(20060101);G06T1/00(20060101);G06T3/40(20060101);G06T7/00(20170101);

  • 代理机构33239 余姚德盛专利代理事务所(普通合伙);

  • 代理人周积德

  • 地址 美国科罗拉多州

  • 入库时间 2023-06-19 12:24:27

说明书

相关申请的交叉引用

本国际PCT申请要求2018年7月31日提交的美国临时申请第62/712,970号的权益和优先权。以上引用的申请的整个说明书和附图全部结合于此作为参考。

联邦资助研究声明

本发明是在政府的支持下完成的,并获得了美国国立卫生研究院授予的批准号EB006006和GM130513。美国政府享有本发明的某些权利。

技术领域

本发明的各方面涉及分析成像数据和评估成像样本以检测、诊断和监测有害颗粒物质的系统和方法,诸如体液中的外来感染性微生物、水中的颗粒污染物或生物医药制剂中的聚合蛋白,例如作为可注射蛋白质治疗剂等的质量控制的一部分。

背景技术

显微镜图像的高通量分析在医疗保健和生物医药领域具有众多潜在应用。一个示例是分析哺乳动物血液样本中的细胞。在该应用中,常规显微镜和其他细胞鉴定技术的低通量阻碍了对诸如细菌和病毒等病原性细胞或潜在地与疾病相关联的稀有哺乳动物细胞的及时诊断。即使在使用自动显微镜载玻片读取器的情况下,通量也受限于样本制备时间、需要应用费时的染色技术、每个显微镜载玻片可分析的样本量小以及检测和鉴定稀有哺乳动物细胞或血液样本中存在的大量正常细胞中的微量水平的外来感染性微生物所带来的挑战。为了检测和鉴定少量的外来感染性微生物,通常必须培养血液样本以使外来感染性微生物的数量增加到更容易检测的水平,该过程可能需要数天的血液培养并进一步限制了通量。因此,对血液样本内病原体的鉴定经常需要数天,并涉及复杂的程序,这种情况可能不适当地延误有效治疗,诸如抗生素的适当的选择。在某些情况下,这些延误已被证明对患者是致命的或造成了不必要的痛苦。治疗受感染患者的常见做法是使用广谱抗生素。然而,由于细菌对许多抗生素具有抗性的问题,广谱抗生素可能无法有效治疗许多感染。此外,对于相同的患者群体,诸如早产儿,由于使用不当或不必要的抗生素引起的副作用可能使这些患者面临严重并发症的风险。如果可以进行快速且准确的诊断,则可以预防或更有效且更迅速地治疗许多传染病病例。因此,需要基于生物样本来鉴定感染病原体的快速且准确的方法。

为了检测血液中的稀有哺乳动物细胞,可以进行附加低通量分析,该分析利用细胞特异性染色剂和标记结合荧光活化细胞分选(FACS)和其他流式细胞仪技术。FACS技术的低通量提高了检测血液样本中稀有细胞的有效极限,从而限制了诊断和治疗相关疾病状态的能力。因此,需要快速且准确的方法来鉴定血液样本中的稀有细胞。

在高通量图像分析的另一种有希望的应用中,目标是监测蛋白质治疗药物的质量和稳定性。蛋白质治疗剂是流行且广泛发展的药物类别,但是药物容器、储存环境、运输机制和/或制造过程中的加工条件会导致多种意外的有害蛋白质聚集体在药物产品中形成。一些蛋白质聚集体会导致昂贵的生物医药产品的功效降低,而一些聚集体甚至会引起不良的药物反应,诸如有害的免疫反应、过敏反应、输液反应、补体激活甚至死亡。其他类型的颗粒污染物,诸如从玻璃容器表面脱落的玻璃薄片以及从预填充注射器中的润滑层中析出的硅油滴也会造成不利影响,因此必须在药品和原料药材料中进行仔细监测。因此,至关重要的是快速监测、检测和分类药品和原料药中的蛋白质聚集体。当前的监管方法和标准能力不足以鉴定、检测和表征这些有问题的蛋白质聚集体和污染颗粒。

在高通量图像分析的又一种有希望的应用中,目标是监测在培养物中生长的诸如哺乳动物细胞、细菌细胞、昆虫细胞、酵母或真菌细胞之类的细胞的表型特征。由于细胞培养条件,诸如溶解氧水平、搅拌水平、营养水平和进化压力,培养物中的细胞可能表现出表型反应,其被认为是不期望的。例如,生长速度可能会减慢,细胞存活率可能会降低,期望的生物产物(例如蛋白质治疗剂)的产量可能会降低,引导产生生物产物的质粒可能会丢失,并且治疗产物可能会表现出不期望的翻译后修饰,诸如改变糖基化模式。期望能快速检测和/或鉴定导致不期望的表型特征的任何细胞培养过程异常,从而可以采取纠正措施。例如,期望能快速分析产生糖基化蛋白质产物的细胞以检测具有不正确糖基化模式的产物的产物,以便快速调节营养物和溶解氧水平,从而维持正确的糖基化状态。

为了解决这些问题已经进行了尝试,但是由于许多技术原因而未能成功。例如,Smith等人(10,255,693)描述了一种方法,用于检测和分类在传统显微镜载玻片上发现的颗粒,这些颗粒是在单个载玻片上使用少量重复放大收集的。虽然Smith确实实现了一些基于神经网络的应用,但该系统被设计用于分析少量表征单个载玻片的图像,并且需要相关对象的类型的先验知识,Smith还需要详细的标记注释而非不需要每个图像的详细标记注释的流式显微镜设置,从而限制了其通量、有效性和商业适用性。在另一示例中,Krause等人(10,303,979)描述了基于卷积神经网络的分析,用于分析显微镜图像,以鉴定载玻片的内含物以及将图像分割成单独的细胞和细胞类型。同样,该应用并不允许实时成像和分析流式显微镜,也不允许人们对测试数据中的已知颗粒的置信度进行统计学验证或鉴定故障或新颖的观察结果(那些类别不在训练数据中)。在另一示例中,Grier等人(10,222,315)描述了应用全息显微镜技术以用于表征蛋白质聚集体。然而,该应用需要对应用于生物样本的各种激光进行精确校准,并同时测量其衍射图样。因此,该系统不太适合各种应用,并且必须精确地进行维护从而降低了其商业有效性。

从以上的示例可以看出,需要一种高通量的实时系统来监测和鉴定生物样本中的外来细胞和稀有哺乳动物细胞,并监测和表征药物制剂中的颗粒污染物。还需要一种简单、经济和技术上可行的系统来检测蛋白质聚集以及鉴定由非预期的过程异常引起的先验已知的有问题的或新颖的蛋白质聚集体。

发明内容

本发明技术的一个方面包含可以在各种相关医学和制药应用中将高通量流动成像技术与诸如卷积神经网络的机器学习相结合的系统和方法。在某些实施例中,本文所述的方法可以使用流动成像显微镜(FIM)仪器和诸如卷积神经网络(ConvNet)分析的机器学习来分析细胞、病原体、蛋白质聚集体以及可通过FIM或者其他能与之相比的工具解析的其他目标颗粒。

在本发明的一个方面,本发明人将FIM与ConvNet相结合来分析颗粒,诸如药物产品中的蛋白质聚集体、基因工程细菌培养物以及血液中的病原体等。FIM是一种基于光学显微镜的技术,其利用微流体技术和光学显微镜技术来捕获样本中大于约200nm的颗粒的图像。ConvNet是一类神经网络,其能够学习输入图像的相关属性,这些属性在执行计算机视觉任务(诸如对象鉴定、分类和统计表示)时有用。尽管从仪器获得的图像含有大量有关样本中颗粒的形态信息,但是难以从原始图像中手动提取该信息并使用该信息来分析样本中的颗粒。在本发明中,已经发现可以使用高通量FIM图像来训练ConvNet,其中没有为每个图像提供详细的类别标记,并且可以应用所得到的网络以便提取和利用包含在图像内的形态信息。

在本发明技术的另一方面,本发明人利用ConvNet在其他应用中鉴定治疗上相关的颗粒或细胞特征。本发明人已经发现,如果在从流动成像仪器获得的图像上训练这些网络,则该网络能够学习难以被人类提取的成像颗粒的复杂特征。这两种技术的结合产生了一种有效的工具,可以对液体样本中的小颗粒(约200nm至100微米大小)进行成像和表征。此外,由于可以使用FIM仪器对各种颗粒(诸如细胞和大蛋白质聚集体)进行成像,因此该方法可以用于各种医学和制药相关应用中。

如图16中大体示出,本发明技术的其他方面包含应用机器学习来检测和分析高通量系统中液体悬浮液中的颗粒的系统和方法。在一个优选实施例中,可以训练诸如多层ConvNet之类的神经网络来生成初始训练数据集。在该实施例中,可以通过使参考样本通过高通量流动成像显微镜(FIM)仪器来生成至少一个参考数据集,该参考样本可以优选地包括液体悬浮液中的颗粒。可以捕获通过FIM的颗粒的数字图像,以供稍后处理。这些图像可以被发送到一个或多个处理器或其他类似的数据处理装置或系统,在其中提取相关的特征。在优选实施例中,这种提取可以通过机器学习系统来完成,并且更优选地,通过如本文总体所述的CovnNet特征提取模块来完成。在优选实施例中,可以捕获通过所述FIM仪器的各个成分的至少10

在一个任选实施例中,可以通过以上总体所述的过程来生成一个或多个附加参考数据集。在该任选实施例中,包括由于污染物或工艺异常产生的颗粒的液体悬浮液的一个或多个附加样本可以通过高通量FIM仪器。可以捕获每个样本的各个成分的数字图像,并对其进行进一步处理以提取相关的特征。在一个实施例中,对相关特征的提取可以通过如下详细所述的相关对象选择模块来完成。

本发明技术的另一方面包含用于通过嵌入从参考样本中先前提取的相关特征来生成参考分布的方法和系统。如以下详细所述,该嵌入过程可以将所提取的相关特征转换为可以以低维特征显示和/或分析的低维特征集。在另一任选实施例中,以上所鉴定的一个或多个附加样本可以用于通过嵌入从附加样本的捕获图像提取的相关特征的新颖过程来生成附加参考分布,以便再次将所提取相关特征转换成低维特征集。在该优选实施例中,用于定义参考样本以及任选的附加样本的参考分布的嵌入图可以通过使用损失函数来定义,如本文总体所述的,该损失函数可以将与每个参考分布相关联的嵌入的低维特征集分开。此外,可以估计参考样本以及任选的附加样本的各个提取特征嵌入的概率密度。在一个优选实施例中,可以进一步估计嵌入空间上的一个或多个附加样本的概率密度。

在本发明技术的另一方面,可以使用测试样本来获得测试数据集。在该实施例中,可以通过使测试样本通过高通量流动成像显微镜(FIM)仪器来生成至少一个测试数据集,该测试样本可以优选地包含液体悬浮液中的颗粒。来自测试样本的颗粒的数字图像可以在这些颗粒通过FIM或其他类似装置时捕获。这些图像可以被发送到一个或多个处理器或其他类似的数据处理装置或系统,在其中提取一个或多个相关的特征。在优选实施例中,这种提取可以通过机器学习系统来完成,并且更优选地,通过CovnNet特征提取模块来完成。

本发明的另一方面可以包含应用故障检测模块,该模块可以应用故障检测算法来通过定量地比较嵌入的测试分布与先前采集的嵌入分布之间的统计相似性来评估来自测试样本的嵌入的测试分布是否与相关特征的群体密度相一致。在任选实施例中,本发明的系统可以进一步包含评估嵌入的测试分布是否并不对应于嵌入的先验已知群体密度分布的步骤。附加的任选实施例可以包含应用融合模块的步骤,该融合模块结合了通过其他模态确定的特征,以生成更多的附加相关特征或附加的提取特征嵌入。

本发明技术的另一方面包含检测和分析各种样本类型和颗粒。在一个优选实施例中,样本诸如上述参考样本、附加样本或测试样本可以包含生物医药制剂。在一个优选实施例中,这样的生物医药制剂可以包含液体悬浮液中的颗粒,诸如蛋白质、硅油微滴、玻璃微粒或其他颗粒等。在一个优选实施例中,液体悬浮液中的颗粒可以包含聚集蛋白质分子,并且更优选地,包含通过药物填充加工操作生成的聚集蛋白质分子。

在本发明的更宽泛的实施例中,液体样本或生物医药制剂可以包含选自由以下项构成的群组的经受一种或多种污染物或过程异常影响的生物医药制剂:经受冻融的生物医药或液体样本、经受摇动的生物医药或液体样本、经受搅拌的生物医药或液体样本、经受高温的生物医药或液体样本、经受冷应力的生物医药或液体样本、经受化学应力的生物医药或液体样本、经受辐射的生物医药或液体样本、经受泵送作用的生物医药或液体样本、经受振动的生物医药或液体样本、经受液体机械冲击的生物医药或液体样本、经受污染的生物医药或液体样本及其组合。

自然地,这样的示例性颗粒仅是代表性的,并且并非对可与本文所述的本发明一起使用的颗粒的数量和种类进行限制。例如,在一些优选的实施例中,颗粒的液体悬浮液可以包含饮用水中的颗粒,或者甚至包含微晶颗粒,例如在用于产业目的的水(例如农业)或其他被污染的水中。

本发明技术的另一方面可以包含应用机器学习来检测和分析高通量系统中细胞表型的特征的方法。在该实施例中,可以通过使参考样本通过高通量FIM仪器来生成至少一个参考数据集,该参考样本可以优选地包括液体悬浮液中的细胞。在其他优选实施例中,参考样本可以包括在液体培养物中具有一致或均质表型的细胞,或在液体培养物中表达异源蛋白质或核苷酸序列的细胞,并且更优选地以已知的或定量的水平。在另选实施例中,附加参考细胞可以包含:经受不同生长条件的细胞、经受不同营养条件的细胞、丧失了一些或全部异源表达质粒载体的细胞、异源核苷酸转录受到抑制的细胞;异源肽翻译受到抑制的细胞;内源核苷酸转录受到抑制的细胞;内源肽翻译受到抑制的细胞、具有新合成的DNA的细胞、具有新合成的RNA的细胞、表达差异表面蛋白的细胞、具有不同细胞类型的污染细胞;以及表达差异生物标志物的细胞。

在该优选实施例中,可以捕获通过FIM的细胞的数字图像,以供稍后处理。这些图像可以被发送到一个或多个处理器或其他类似的数据处理装置或系统,在其中可以提取相关的特征。在优选实施例中,这种提取可以通过机器学习系统来完成,并且更优选地,通过CovnNet特征提取模块来完成。在优选实施例中,可以捕获通过FIM或类似仪器的各个成分的至少10

在一个任选实施例中,可以通过以上总体所述的过程来生成一个或多个附加参考数据集。在该任选实施例中,一个或多个附加样本可以通过高通量FIM或其他类似的仪器,其包括细胞的液体悬浮液,含有以下细胞或者被以下细胞污染,即具有不同表型的细胞或经受过程异常的细胞,或具有不同基因型的细胞。可以捕获每个样本的各个成分的数字图像,并对其进行进一步处理以提取相关的特征。在一个实施例中,对相关特征的提取可以通过如下详细所述的相关对象选择模块来完成。

本文所述的发明方法和系统的另一方面可以进一步包含通过嵌入从参考样本中先前提取的相关特征来生成参考分布的步骤。如以下详细所述,该嵌入过程可以将所提取的相关特征转换为低维特征集。在另一任选实施例中,以上所鉴定的一个或多个附加样本可以用于通过嵌入从附加样本捕获的图像提取的相关特征的过程来生成附加参考分布,以便再次将所提取相关特征转换成低维特征集。

在该优选实施例中,可以通过使用损失函数来分离与每个参考分布相关联的嵌入的低维特征集,来定义参考嵌入以及任选的附加样本的附加嵌入的参考分布。此外,可以估计参考样本以及任选的附加样本的各个提取的特征嵌入的概率密度,并且在优选实施例中,可以进一步估计嵌入空间上一个或多个附加样本的概率密度。

在本发明技术的另一方面,可以使用测试样本来获得测试数据集。在该实施例中,可通过使测试样本(例如生物样本或其他含有待在液体悬浮液中测试的细胞的样本)通过高通量FIM或其他类似仪器,来生成至少一个测试数据集。来自测试样本的细胞的数字图像可以在它们通过高通量FIM时捕获。这些图像可以被发送到一个或多个处理器或其他类似的数据处理装置或系统,在其中提取相关的特征。在优选实施例中,这种提取可以通过机器学习系统来完成,并且更优选地,通过CovnNet特征提取模块来完成。

本发明的另一方面可以包含应用故障检测算法,以通过定量地比较嵌入的测试分布与先前采集的嵌入分布之间的统计相似性来评估来自诸如生物样本的测试样本的嵌入的测试分布是否与相关特征的群体密度相一致。在任选实施例中,本发明的系统可以进一步包含评估嵌入的测试分布是否并不对应于嵌入的先验已知群体密度分布的步骤。附加的任选实施例可以包含应用融合模块的步骤,该融合模块结合了通过其他模态确定的特征,以生成更多的附加相关特征或附加的提取特征嵌入。

本发明技术的另一方面可以包含无需标记各个病原体的情况下应用机器学习来检测和分析高通量系统中的生物样本中的细胞和微生物病原体的方法。在该实施例中,可通过使参考样本通过高通量FIM或其他类似仪器而生成至少一个参考数据集,该参考样本可优选地包括生物样本中的细胞,诸如优选为血液样本,或更优选地为体积为25至100微升的血液样本。示例性生物样本可以包含:痰、口腔液、羊水、血液、血液级分、骨髓、活检样本、尿液、精液、粪便、阴道液、腹膜液、胸膜液、组织外植体、粘液、淋巴液、器官培养物、细胞培养物,或它们的或从其分离的级分或衍生物。

可以捕获通过FIM的生物样本各个成分的数字图像,以供稍后处理。这些图像可以被发送到一个或多个处理器或其他类似的数据处理装置或系统,在其中提取相关的特征。在一个优选实施例中,提取的相关的特征与已知的疾病状况诸如败血症相关。在另选的实施例中,疾病状况可以与所提取的相关特征的类型或数量或在生物样本中发现的细胞的类型和数量相关。在优选实施例中,这种提取可以通过机器学习系统来完成,并且更优选地,通过CovnNet特征提取模块来完成。在另一优选实施例中,可以捕获通过所述FIM仪器的各个成分的至少10

在一个任选实施例中,可以通过以上总体所述的过程来生成一个或多个附加参考数据集。在该任选实施例中,一个或多个附加样本可以通过例如高通量FIM仪器,该样本包括由感染或污染或疾病状态引起的细胞液体悬浮液。可以捕获每个样本的各个成分的数字图像,并对其进行进一步处理以提取相关的特征。在一个实施例中,对相关特征的提取可以通过如下详细所述的相关对象选择模块来完成。

本文所述的发明方法和系统的另一方面可以进一步包含通过嵌入先前从参考样本(在这种情况下为参考生物样本)中提取的相关特征来生成参考分布的步骤。如以下详细所述,该嵌入过程可以将所提取的相关特征转换为低维特征集。在另一任选实施例中,以上所鉴定的一个或多个附加样本可以用于通过嵌入从附加样本捕获的图像提取的相关特征的过程来生成附加参考分布,以便再次将所提取相关特征转换成低维特征集。在该优选实施例中,可以通过使用损失函数来分离与每个参考分布相关联的嵌入的低维特征集,来定义参考嵌入以及任选的附加样本的附加嵌入的参考分布。此外,可以估计参考样本以及任选的附加样本的各个提取的特征嵌入的概率密度,并且在优选实施例中,可以进一步估计嵌入空间上一个或多个附加样本的概率密度。附加的任选实施例可以包含应用融合模块的步骤,该融合模块结合了通过其他模态确定的特征,以生成更多的附加相关特征或附加的提取特征嵌入。

根据具体实施方式、附图、示例和权利要求书,本发明的其他特征、目的和优点将是显而易见的。

本发明内容既不旨在也不应该被解释为代表本公开的全部程度和范围。此外,本文中对“本公开”或其各方面的引用应被理解为表示本公开的某些实施例,并且不必理解为将所有实施例限制为特定的描述。在该发明内容以及附图和实施例的描述中以各种详细程度阐述了本公开,并且并不通过包含或不包含该发明内容中的元素、组分等来限制本公开的范围。根据实施例的描述,本公开的附加方面将变得更加显而易见,特别是当与附图一起使用时。本申请进一步引用各种期刊文章和其他出版物,所有这些文献均通过引用方式并入本文。本文阐述了本发明的一个或多个实施例的细节。

附图说明

通过结合附图进行的以下详细描述,将更好地理解本公开的以上和其他方面、特征和优点,所有这些详细描述仅以例示说明的方式给出,并且并不限制当前所公开的实施例,其中:

图1:在其一个实施例中示出了一种分析来自流动显微镜的成像数据并评估所捕获的图像以检测、诊断和监测目标生物分子的方法的总体示意图。

图2:示出了用于ConvNet的混淆矩阵,其旨在区分小血液颗粒和不同种类的细菌。该矩阵的行对应于含有特定细胞类型的图像,而列对应于ConvNet的输出。矩阵的每个条目都可以解释为通过算法(矩阵列)将某细胞类型的单个随机图像(矩阵行)鉴定为特定细胞类型的概率。该矩阵表明,经过训练的ConvNet可以正确鉴定大约99%的小血细胞和细菌。

图3:示出了“分类模块”(参见图1的工作流程)中ConvNet所使用的混淆矩阵,其用于定量在试图鉴定示例性新生儿败血症病例中几种生物时可能的准确性。

图4:示出了模拟尿液中大肠杆菌混合物的样本FIM图片。

图5:示出了产生HGH(顶部)和HPV衣壳蛋白(底部)的大肠杆菌菌株的样本FIM图片。

图6:示出了在表达不同重组蛋白的大肠杆菌菌株上训练的ConvNet的混淆矩阵。

图7:示出了通过四种用于训练和测试ConvNet以进行故障检测的机制生成的蛋白质聚集体的样本FIM图像。

图8:示出了使用ConvNet在灰度FIM图像上进行故障检测。在训练后,我们将经训练的网络应用于合成数据集,该数据集含有通过顶部面板中所示的搅拌应力扰动生成的颗粒分数,以及通过填充加工过程生成的其余颗粒。底部面板显示了与网络返回的正常过程条件的偏差。该网络正确地鉴定出仅含有该过程(批次1-100)制造的颗粒的数据集是正常数据集,而搅拌颗粒分数越来越高的数据集正逐渐偏离正常过程。

图9:展示了从已知应力条件下形成的单克隆和多克隆蛋白聚集体的彩色FIM图像获得的非线性ConvNet嵌入。该图定性地展示了检测故障的能力;定量展示了检测偏离参考情况的能力,如图12所示。

图10:展示了检测由新工艺泵引起的较大先验未知过程异常。该图定性地展示了检测故障的能力;定量展示了检测偏离参考情况的能力,如图12所示。

图11A-B:展示了检测含蛋白质治疗剂溶液的小瓶的乙醇洗涤所引起的细微意外过程异常的能力。该图定性地展示了检测故障的能力;定量展示了检测偏离参考情况的能力,如图12所示。

图12:展示了检测故障和过程异常的定量能力。所示表格总结了参考情况和各种应力下的假设测试结果(目标误报率为5%)。报告的拒绝率是使用目标误报率α或5%进行的大小为N的10,000次抽签(此处总结为两个值)的平均拒绝率。

图13:在其一个实施例中示出了示例性败血症检测算法的示意性流程图。

图14A-G:使用FlowCam Nano仪器采集的以下的样本图像:(Al-2)血液,(B)鲍曼不动杆菌,(C)大肠杆菌,(D)粪肠球菌,(E)肺炎克雷伯菌,(F)铜绿假单胞菌和(G)金黄色葡萄球菌。

图15:在应用5μm尺寸阈值后,使用FlowCam Nano仪器采集的血液的样本图像。(A)大于5μm的颗粒的图像(B)小于5μm的颗粒的图像。

图16:在其一个实施例中示出了在高通量系统中应用机器学习来检测和分析样本中一个或多个相关特征的方法的一般流程图。

具体实施方式

参考在附图中示出并在以下描述中详细描述的非限制性实施例,更全面地解释本文的实施例及其各种特征和细节。为了避免不必要地混淆本文中的实施例,省略了对公知组件和处理技术的描述。而且,本文所述的各种实施例未必互相排斥,因为一些实施例可以与一个或多个其他实施例结合以形成新的实施例。本文中使用的示例仅旨在利于对可以实践本文中的实施例的方式的理解,并进一步使本领域技术人员能够实践本文中的实施例。因此,示例不应被解释为限制本文的实施例的范围。

本公开提供了用于快速分析通过高通量细胞计数或其他类似的分离或分析方法处理的生物或生物医药样本中的目标颗粒(诸如生物分子,诸如细胞和病原体)的自动化生物样本测试系统。在优选实施例中,这些系统可以快速且有效地鉴定样本中目标颗粒(诸如细胞和生物分子)的存在,并且可以进一步用于分析大量生物样本而无需人工干预。

所公开的发明扩展和修改了实验性高通量流动成像显微镜、流式细胞仪、机器学习和计算机统计中的最新技术。本发明使得能够将实验图像分类为预定的类别和/或将观察结果标记为先验已知或先验未知的“故障”,这意味着该观察结果在统计上不太可能来自所测量的反应的参考群体。如图1中大体所示,本发明可以包含多组件系统,以捕获高通量流动成像显微镜并将机器学习应用到此类图像,从而实现对受试颗粒、细胞、生物分子或其他目标的分类。图中的每个模块都可以通过多种方法和组件来实现。在示例部分中描述了图1的示意图中每个组件的示例性优选实施例。

在一个优选实施例中,本发明人使用本领域普通技术人员已知的术语扩展每个模块的类型输入和输出。值得注意的是,在图1所展示的优选实施例中,可以假定已经使用大量标记的原始或已处理图像数据(其中“已处理”表示上游模块已经产生了正确输入)通过最小化合适的“成本函数”估计了各个模块中指定函数评估所需要的所有参数,其中成本函数可以针对分类(例如“交叉熵损失”函数),例如在病原体分析中所需要的,或者成本函数可以针对通过“图像嵌入”来开发低维表示以用于故障检测(例如,使用三元组损失函数或最小二乘类型损失)。

如图1所示,可以拍摄多个显微镜图像(1)并将其输入到本发明的系统中以进行进一步分析。在一个优选实施例中,可以对经受高通量流式细胞计数或其他类似过程的样本(诸如生物或生物医药样本)的各个成分的多个图像进行捕获。可以进一步分析该高通量成像以检测、诊断和监测有害的外来感染性生物分子,诸如哺乳动物中的细菌或生物医药,例如作为可注射蛋白质治疗剂等质量控制的一部分。在优选实施例中,显微镜图像可以来自明视野或荧光显微镜或其他类似的成像装置,诸如流动成像显微镜(FIM)。如以下将讨论的,在优选实施例中,可以使用多个显微镜图像来生成训练数据集。尽管此类高通量训练集所需的图像数量可能取决于应用和相关特征以及其他考虑因素,但在一个实施例中,此类高通量训练集的范围可以为至少10

如图1所示,在一个优选实施例中,“ConvNet特征提取模块”(2)可以获取从高通量显微镜装置测得的原始或预处理图像的集合(其中预处理步骤可以基于图像中给定尺寸阈值以上或以下的对象的估计尺寸来剔除图像)作为输入,并提取“特征”,通常称为“相关特征”。这些特征通常可以通过卷积神经网络(CNN)提取,但是也可以通过其他特征提取器来提取,诸如主成分分析(PCA)。该模块的输出可以是所得到的特征,也可以是原始图像测量结果,以便在下游进行进一步处理。

再次,大体参考图1,在一个优选实施例中,“融合模块”(3)可以任选地用于利用来自其他来源的数据和/或元信息。可以通过多种方法(例如,双输入人工神经网络、随机森林算法或用于特征选择的梯度提升算法)将来自ConvNet的特征与其他度量或描述性特征组合,从而产生一组新的相关特征输出或图像嵌入;如果没有附加信息可利用,或者希望在此阶段不改变特征,则此模块可以用作“身份”函数,从而生成与该模块的全部输入或输入的子集相同的输出。

同样如图1所示,“相关对象选择模块”(4)可以决定哪些测量特征和/或图像可以在下游进一步处理,哪些将被忽略。例如,在病原体分析实施例中,在下游分析和蛋白质故障检测中可以忽略血小板。在该实施例中,也可以忽略通过FIM仪器的硅油或气泡。该模块可以使用另一种人工神经网络(ANN)来生成一组新的特征或嵌入(取决于特定的应用程序),或者可以是作用于输入并充当“门函数”的标准高维分类器。在另选实施例中,该步骤还可以是“身份”函数,其将全部特征或特征子集不改变地传递到下一步骤。下一步骤中的分支可能取决于应用。例如可以在病原体鉴定实施例中使用的一个分支可以包含“分类模块”(6),其使用另一分类器基于传入的特征/图像来分配预定义的标记和类别的概率。随后的类别和类别概率输出可以是最终输出,也可以通过另一预训练的ANN嵌入特征元素/原始输入特征,并传递到另一个分支,在此情况下为“故障检测模块”(5)。“故障检测模块”可以获取原始图像的低维嵌入表示,并运行统计假设测试,以检查在统计上是否有可能从相关的预计算参考分布中提取了嵌入的集合。该步骤可以融合预先计算的具有合适拟合优度测试统计量的经验确定的概率分布(其中分布函数估计可以是参数的或非参数的),该统计量表征大量标记的基础真实数据。然后,可以使用前述分布来为“测试数据集”中的每个图像计算p值,从而使用户能够检测由未标记数据的嵌入集合生成的测试统计量在统计上是否类似于标记的参考分布的嵌入。

如图1进一步所示,虚线箭头用于显示“分类模块”的输出可用于验证针对候选预测类别标记的诊断,这可能适用于其中样本中可能存在与相关对象尺寸相似的先验未预期污染物的应用,因为假定在此阶段中使用的分类算法在固定的已知候选类别标记列表上进行训练。

除非另有说明,否则本文公开的方法操作和装置特征涉及微生物学、几何光学、软件设计和编程以及统计中使用的技术和装置,它们在本技术范围内。

除非本文中另有定义,否则本文中使用的所有技术和科学术语具有与本领域普通技术人员所通常理解的含义相同的含义。尽管与本文所述的那些方法或材料相似或等同的任何方法和材料都可以在本文公开的实施例的实践或测试中使用,但是详细描述了一些方法和材料,它们代表了本发明技术的优选实施例。

本文所例示的执行指令的任何模块、单元、组件、服务器、计算机、终端、引擎或装置可以包含或以其他方式访问诸如存储介质、计算机存储介质或数据存储装置(可移动和/或不可移动的)之类的计算机可读介质,诸如例如磁盘、光盘或磁带。计算机存储介质可以包含以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质的示例包含RAM、ROM、EEPROM、闪存存储器或其他存储器技术,CD-ROM、数字多功能磁盘(DVD)或其他光学存储装置,磁带盒、磁带、磁盘存储装置或其他磁性存储设备,或可以用于存储所需信息并且可以由应用程序、模块或两者(其具体地包含基于云的应用程序)访问的任何其他介质。任何这样的计算机存储介质都可以是装置的一部分,或者可以由装置访问或连接到装置。此外,除非上下文另外明确指出,否则本文阐述的任何处理器或控制器都可以被实现为单个处理器或多个处理器。可以排列或分布多个处理器,并且即使可以例示单个处理器,本文所指的任何处理功能也可以由一个或多个处理器执行。可以使用计算机可读/可执行指令来实现本文所述的任何方法、应用程序或模块,这些指令可以由这样的计算机可读介质存储或以其他方式保存,并由一个或多个处理器或通过基于云的应用程序执行。

数字范围包含定义范围的数字在内。贯穿本说明书给出的每个最大数值限制旨在包含每个更低的数值限制,就像这些更低的数值限制在本文中明确写出一样。贯穿本说明书给出的每个最小数值限制将包含每个更高的数值限制,就好像这些更高的数值限制在本文中明确写出一样。贯穿本说明书给出的每个数值范围将包含落入该较宽数值范围内的每个较窄数值范围,就好像这些较窄数值范围均在本文中明确写出一样。

本文提供的标题无意限制本公开。

如本文所使用的,除非上下文另外明确指出,单数术语“一”、“一个”和“该”包含复数引用。如本文所使用的,除非另有说明,术语“或”是指非排他性的或。

在下面紧接着定义的数据将通过整体参考本说明书来更全面地进行描述。应当理解,本公开不限于所描述的特定方法、协议和试剂,因为这些方法、协议和试剂可以根据本领域技术人员使用它们的背景而不同。

术语“多个”是指多于一个的元素。例如,该术语在本文中用于引用生物样本中的一种以上类型的寄生虫或病原体;生物样本图像中的一个以上的样本特征(例如细胞);深度学习模型中的一个以上的层等。

术语“阈值”在本文中是指用作例如将样本特征分类为特定类型的寄生虫或病原体的临界值或用于诊断与异常细胞等有关的疾病的异常细胞与正常细胞的比率(或异常细胞的密度)的任何数字。可以将阈值与测量值或计算值进行比较,以确定引起该值的源是否暗示应以特定方式对其进行分类。阈值可以凭经验或分析来鉴定。阈值的选择取决于用户希望进行分类的置信水平。有时出于特定目的对其进行选择(例如,以平衡敏感性和选择性)。

术语“生物样本”、“生物医药样本”或“样本”是指如本文大体所述用本发明进行分析的样本。另外,如本文中大体使用的,“生物样本”或“样本”可包含可能经受高通量过程诸如高通量流动成像显微镜检查的任何样本。在一个优选实施例中,“生物样本”或“样本”可以包含药物制剂,诸如可以经受高通量过程诸如高通量流动成像显微镜检查的基于蛋白质的治疗剂。如本文所使用的“参考样本”是可用于训练计算机学习系统的样本,诸如通过生成训练数据集。如本文所使用的“测试样本”是可以用于生成例如一个或多个相关特征的测试数据集的样本,该测试数据集可以与如本文大所述的训练数据集进行定性和/或定量比较。

在优选的实施例中,“生物样本”或“样本”是指通常来源于生物流体、组织、器官等的样本,通常取自怀疑患有诸如疾病或障碍之类的病症(诸如感染)的生物。此类样本包含但不限于痰/口腔液、羊水、血液、血液级分、骨髓、细针穿刺活检样本(例如,外科活检、细针穿刺活检等)、尿液、精液、粪便、阴道液、腹膜液、胸膜液、组织外植体、器官培养物、细胞培养物和任何其他组织或细胞制剂,或它们的或从它们分离的级分或衍生物。

生物样本可以取自多细胞生物,或者其可以是一种或多种单细胞生物。在一些情况下,生物样本取自多细胞生物,例如哺乳动物,并且包含包括该生物基因组的细胞和来自另一生物(诸如寄生虫或病原体)的细胞。可以直接使用从生物来源获得的样本,也可以进行预处理以改变样本的特性。例如,这样的预处理可以包含由血液制备血浆、稀释粘性流体、培养细胞或组织等。预处理方法还可以涉及但不限于:过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰成分失活、试剂添加、裂解等。相对于本文所述的方法,这种“处理的”或“加工的”样本仍被认为是生物样本。

生物样本可以从任何受试者或生物学来源获得。尽管样本通常取自人类受试者(例如患者),但是样本可以取自任何生物,包含但不限于哺乳动物(例如狗、猫、马、山羊、绵羊、牛、猪等)、非哺乳动物的高级生物(例如爬行动物、两栖动物)、脊椎动物和无脊椎动物,并且也可以是或包含任何单细胞生物,诸如真核生物(包含植物和藻类)或原核生物、古菌、微生物(例如细菌、古细菌、真菌、原生生物、病毒)以及水生浮游生物。

在本文所述的各种实施例中,生物样本取自个体或“宿主”。这样的样本可以包含宿主的任何细胞(即具有个体基因组的细胞)或宿主组织,在某些情况下还包含下文所述的任何非宿主细胞、非宿主多细胞生物等。在各种实施例中,以利于成像和自动图像分析的格式提供生物样本。例如,可以在图像分析之前对生物样本进行染色。

如本文所使用的,宿主是提供生物样本的生物。示例包含高等动物,包含哺乳动物,包含人类、爬行动物、两栖动物,以及上述生物样本的其他来源。

如本文所使用的,“特征”、“相关特征”或“样本特征”是代表通过高通量系统的对象或颗粒的可定量和/或可观察特征的样本特征。在某些实施例中,“相关特征”可以潜在地与临床相关状况相关。在某些实施例中,相关特征是出现在诸如生物样本之类的样本的图像中并且可以被机器学习模型识别、分割和/或分类的特征。相关特征的示例包含生物样本的图像的成分;前述图像可以表征对象,诸如宿主细胞(包含正常和异常宿主细胞;例如肿瘤和正常体细胞)、红细胞(有核和无核)、白细胞、非血体细胞等,生物分子,例如蛋白质聚集体,表达一个或多个异源核苷酸的细胞,以及通常任何可观察到的颗粒,例如悬浮在可以通过高通量流动成像系统的液体溶液中的颗粒。以上给出的相关特征的这些示例中的每一个都可用作本文所述机器学习系统的单独分类。这样的系统可以将这些示例中的任何一个单独分类或与其他示例结合分类。白细胞的类型包含嗜中性粒细胞、淋巴细胞、嗜碱性粒细胞、单核细胞和嗜酸性粒细胞。宿主中存在的寄生性或病原性生物可以既包含完全依赖于宿主来完成其生命周期的专性寄生虫,也包含可在宿主外运行的兼性寄生虫。在某些情况下,本文所述的分类器仅对属于体内寄生虫的寄生虫分类;即,寄生虫生活在宿主体内,而不是在皮肤或皮肤外长物上。可以通过本文所述的方法和设备分类的体内寄生虫的类型包含细胞间寄生虫(占据宿主体内空间,包含血浆)和细胞间寄生虫(占据宿主体内空间,包含血浆)。细胞间寄生虫的一个示例是巴贝虫,一种可以产生疟疾症状的原生动物寄生虫。细胞内寄生虫的示例包含原生动物(真核生物)、细菌(原核生物)和病毒。原生动物可能是蠕虫;专性原生动物的示例包含:顶复虫类(疟原虫属,包含恶性疟原虫(疟原虫)和间日疟原虫)、弓形虫和小隐孢子虫(弓形虫寄生虫)、锥虫(利什曼原虫和克氏锥虫)(查加斯病寄生虫)、胞裂虫、血吸虫。细菌的示例包含:(i)兼性示例:汉赛巴尔通体、土拉弗朗西斯菌、单核细胞增多性李斯特菌、伤寒沙门氏菌、布鲁氏菌、军团菌、分枝杆菌、诺卡氏菌、马红球菌、耶尔森氏菌、脑膜炎奈瑟氏菌、丝虫、支原体;以及(ii)专性示例:衣原体,以及密切相关的物种。立克次体、柯克斯体属、分枝杆菌的某些种类,诸如麻风分枝杆菌、嗜吞噬细胞无形体。真菌的示例包含:(i)兼性示例:荚膜组织胞浆菌、新型隐球菌、酵母/酵母菌;以及(ii)专性示例:耶氏肺孢子虫。病毒通常是专性的,并且一些病毒足够大到可以通过本公开的成像系统的分辨率来鉴定。蠕虫:扁形虫(扁形动物门)-这些包含吸虫类(吸虫)和绦虫(条虫),棘头虫(棘头虫纲)-这些蠕虫的成虫态驻留在胃肠道中,蛔虫(线虫类)-这些蠕虫的成虫态可以驻留在胃肠道、血液、淋巴系统或皮下组织中。

基于使用本文所述的图像分析系统可检测到的形态差异,其他分类也是可能的。例如,可以基于它们的活动方式将对人类具有感染力的原生动物分为四组:肉足虫纲-变形虫,例如内阿米巴属;鞭毛纲-鞭毛虫,例如,贾第鞭毛虫、利什曼原虫;纤毛亚门-纤毛虫,例如肠袋虫属;孢子虫纲-成年阶段不活跃的生物,例如,疟原虫、隐孢子虫。

如本文所使用的,机器学习系统或模型是经过训练的计算模型,其采用相关的特征(诸如从图像中提取的细胞伪像)并将其分类为例如特定的细胞类型、寄生虫、细菌、蛋白质聚集体等。机器学习模型无法分类的细胞伪像被视为外围或无法鉴定的对象。机器学习模型的示例包含:神经网络,包含递归神经网络和卷积神经网络;随机森林模型,包含随机森林;有限波尔兹曼机;递归张量网络;以及梯度提升树。术语“分类器”(或分类模型)有时用于描述所有形式的分类模型,包含深度学习模型(例如,具有许多层的神经网络)以及随机森林模型。

如本文所使用的,机器学习系统可以包含深度学习模型,该深度学习模型可以包含旨在开发被配置为实现给定任务(无论是分类还是降维)的定制词典的函数逼近法。其可以以各种形式来实现,诸如通过神经网络(例如,卷积神经网络)等。通常,尽管并非必须的,其包含多个层。每个这样的层包含多个处理节点,并且这些层按顺序进行处理,其中较接近模型输入层的层的节点在较接近模型输出的层的节点之前进行处理。在各种实施例中,一层馈给下一层等。输出层可以包含代表各种分类的节点。在一些实施例中,深度学习模型是一种仅需很少的预处理即可获取数据的模型,尽管数据可能是分段数据(诸如细胞伪像),或者可以从图像中提取其他相关特征,并且输出细胞伪像的分类。

在各种实施例中,深度学习模型可以具有显著的深度,并且可以对相关特征的大型或异质阵列进行分类,诸如蛋白质聚集体、液体悬浮液中的颗粒或细胞伪像(诸如病原体或基因表达)。在某些背景下,术语“深度”表示模型具有多层处理节点,这些节点从先前的层接收值(或作为直接输入),并将值输出到后续的层(或最终输出)。内部节点通常在其输入和输出值在模型外部不可见的意义上被“隐藏”。在各种实施例中,在操作期间可以不监测或记录隐藏节点的操作。可以例如使用“参考”或“附加样本”来训练深度学习模型的节点和连接,并在不重新设计其数量、布置、与图像输入的接口等的情况下对其进行重新训练,并且仍可以对较大范围的异质相关特征进行分类,诸如细胞、目标生物分子、表达一种或多种基因的细胞或液体悬浮液中的颗粒等。

在各个方面,本文提供了用于通过分析来自测试样本的相关特征并由此生成测试数据集并将其与从参考样本以及任选地一个或多个附加样本生成的训练数据集进行比较来鉴定和任选地表征相关特征的系统和方法。在该实施例中,相关特征可以包含细胞的特征,诸如细胞形态,以及细胞内和/或与细胞相关的一种或多种生物标志物的存在、不存在或相对量,在加工和填充药物系统中生成的蛋白质聚集体,以及液体悬浮液中各种颗粒的特性。

例如,在一个特定实施例中,本文提供了用于通过分析相关细胞的标记来鉴定和任选地将相关细胞表征为目标细胞的系统和方法,该标记通过在测试样本中经由ConvNet从图像中提取“相关特征”并将其与参考样本中目标细胞的标记进行比较来定量。细胞的标记或“相关特征”还可以包含细胞的物理特征,诸如细胞形态,以及细胞内和/或与细胞相关的基因表达的存在、不存在或相对量。

相关细胞的“相关特征”可用于诊断或以其他方式表征从中分离出潜在目标细胞的患者的疾病或病症。如本文所使用的,“分离的细胞”是指使用任何分离方法与生物样本中的其他材料分离的细胞。分离的细胞可以存在于来自生物样本的富集级分中,因此其使用并不旨在限于纯化的细胞。在一些实施例中,对分离的细胞的形态进行分析。对于指示感染的目标细胞,对细胞标记的分析可用于多种方法,包含诊断感染、确定感染程度、确定感染类型以及监测宿主内或对感染的给定治疗中感染的进展。这些方法中的一些可能涉及监测目标细胞的标记的变化,其包含增加和/或减少和/或形态上的任何改变。

在一些实施例中,在受试者的生物样本的级分中分析相关细胞的“相关特征”,其中生物样本已经过处理以富集目标细胞。在一些情况下,富集的级分缺少目标细胞,并且在富集的级分中目标细胞的标记的缺乏表明了这种缺乏。目标细胞包含血细胞,诸如淋巴样细胞,诸如自然杀伤细胞、T淋巴细胞、B淋巴细胞以及其他淋巴样细胞。

在一些实施例中,“群体分布”是指与如本文大体所述的参考或其他样本相关联的相关特征的聚集集合。“群体分布”对应于表征群体的不可知的累积分布函数。在一些实施例中,该量经由概率密度函数来估计。

如本文所使用的,“目标细胞群体”是指所鉴定的聚集形式的目标细胞。可以将这些群体视为点云,这些点云显示特征形状并在多维空间中具有聚集位置。在多维空间中,轴由流量测量通道定义,该通道是流式细胞仪中信号测量的来源。例如在流式细胞仪中测量的信号可以包含但不限于光信号和测量结果。光信号的示例性通道包含但不限于前向散射通道、侧向散射通道和激光荧光通道中的一个或多个。

所有的流式细胞仪仪器通道或通道的子集都可用于多维空间中的轴。当其各个细胞成员的通道值改变时,尤其是当群体中的大量细胞已经改变了通道值时,可以认为细胞群体在多维通道空间中已经改变。例如,当在不同时间从同一个体获取样本时,可以看到代表细胞群体的点云在2维(2D)点图或强度图上的位置改变。类似地,代表细胞群体的点云可以在多维空间中移动、平移、旋转或以其他方式改变形状。常规门控提供门区域内的总细胞数,而某些细胞群体点云在多维空间中的位置和其他空间参数除了提供总细胞数外,还提供了可用于区分正常受试者(例如,没有感染的受试者)和受感染的患者(例如,寄生虫或病原体感染的受试者)的附加信息。

本文提供了用于通过分析相关的细胞的标记来鉴定和任选地将相关细胞表征为目标细胞的系统和方法。在某些情况下,相关细胞是寄生或病原性细胞。流式细胞仪可用于测量细胞的标记,诸如细胞的存在、不存在或相对量,或通过区分相关的目标细胞的物理或功能特征。使用本文所述的系统和方法鉴定的相关细胞包含与疾病、障碍或非疾病状态有关的细胞类型。细胞的示例性类型包含但不限于寄生或病原性细胞、感染细胞,诸如细菌、病毒、真菌、蠕虫和原生动物。在某些情况下,可以通过以下方式中的至少一种来鉴定相关细胞:细胞形态、细胞体积、细胞尺寸和形状的改变,细胞成分的量,诸如总DNA、新合成的DNA、基因表达(作为特定基因的信使RNA的量),特定表面受体的量,细胞内蛋白质的量,细胞中的信号传导事件或结合事件。在某些情况下,通过是否存在生物标志物(诸如蛋白质、脂质,碳水化合物和小代谢物)来鉴定相关细胞。

在一些情况下,通过抽血、骨髓抽取或组织提取从受试者获得细胞。通常,细胞获自受试者的外周血。有时,使用密度离心将血液样本离心以获得单核细胞、红细胞和粒细胞。在一些情况下,外周血样本用抗凝剂进行处理。在某些情况下,外周血样本被收集在或转移到含有抗凝剂的容器中。抗凝剂的非限制性示例包含肝素、肝素钠、草酸钾、EDTA和柠檬酸钠。有时用红细胞溶解剂处理外周血样本。

另选地或组合地,细胞通过多种其他技术获得,并且包含诸如骨髓、腹水、洗涤物等的来源。在某些情况下,使用外科手术从受试者获取组织。组织可以是固定的或未固定的、新鲜的或冷冻的、完整的或分解的。例如,组织的分解机械地或酶促地发生。在某些情况下,对细胞进行培养。培养的细胞可以是发育的细胞系或源自患者的细胞系。细胞培养的程序是本领域公知的。

本文所述的系统和方法可以涉及与一个或多个参考样本/数据集相对比地分析来自受试者的一个或多个测试样本。样本可以是允许分析不同离散细胞群体的任何合适类型。样本可以是允许分析单个细胞群体的任何合适类型。样本可以从受试者一次或多次获得。多个样本可以从个体中的不同位置(例如血液样本、骨髓样本和/或组织样本)获得、在不同的时间从个体获得(例如,用于诊断疾病或监测病理状况的恢复而取得的一系列样本)或其任何组合。基于样本类型、位置和采样时间的这些和其他可能的采样组合允许在感染之前和/或之后检测细胞的存在并监测疾病。

当以一系列方式获取样本时,例如在治疗后获取一系列血液样本时,样本可以以固定间隔获取、以由最新样本的状态确定的间隔获取、通过个体的其他特征获取,或它们的某种组合。例如,样本可以以大约1、2、3或4天的间隔、以大约1、2、3、4、5、6、7、8、9、10或11小时的间隔、以大约1、2、3、4、5个月或大于5个月的间隔获取,或它们的某种组合。

为了使用本文所述的方法和系统制备用于分析的细胞,可以按单细胞悬浮液制备细胞。对于贴壁细胞,可以使用机械或酶消化以及适当的缓冲液从它们所附着的表面去除细胞。然后可以将细胞和缓冲液合并到样本收集管中。对于悬浮液中培养的细胞,可以将细胞和培养基合并到样本收集管中。贴壁细胞和悬浮细胞可以通过在合适的缓冲液中离心进行洗涤。可以将细胞沉淀重新悬浮在合适体积的合适缓冲液中,并使其通过细胞滤网,以确保单个细胞在合适缓冲液中的悬浮。然后可以在使用流式细胞仪系统对制备好的样本执行方法之前将样本涡旋。

一旦收集了细胞样本后,可以对其进行处理和存储以备后用、可以立即进行处理和使用,或者仅是立即使用。在一些情况下,处理包含各种处理、分离、纯化、过滤或浓缩的方法。在一些情况下,血液、骨髓、外周血、组织或细胞培养物的新鲜或冷冻保存的样本被用于流式细胞仪。

当样本被保存以备后用时,可以通过将样本收集在细胞制备管中并在收集后将管离心来稳定样本。

在一些情况下,通过流式细胞仪测量的细胞数量为约1,000个细胞、约5,000个细胞、约10,000个细胞、约40,000个细胞、约100,000个细胞、约500,000个细胞、约1,000,000个细胞或超过1,000,000个细胞。在一些情况下,通过流式细胞仪测量的细胞数量为多达约1,000个细胞、多达约5,000个细胞、多达约10,000个细胞、多达约40,000个细胞、多达约100,000个细胞、多达约500,000个细胞、多达约1,000,000个细胞、多达约1,000,000个细胞、多达约10,000,000个细胞、多达约100,000,000个细胞、多达约1,000,000,000个细胞、多达约10,000,000,000个细胞、多达约100,000,000,000个细胞、多达约1,000,000,000,000个细胞,或超过1,000,000,000,000个细胞。

通常,流式细胞仪涉及使各个细胞通过一个或多个激光束的路径的通道。流式细胞仪可以测量以下各项中的至少一项:细胞尺寸、细胞体积、细胞形态、细胞粒度,细胞成分的量,诸如总DNA、新合成的DNA、基因表达(作为特定基因的信使RNA的量),特定表面受体的量,细胞内蛋白质的量,或细胞中的信号传导事件或结合事件。在一些情况下,可以将流式细胞仪基于粒度或细胞尺寸进行的细胞分析与其他流式细胞仪可读输出的确定相结合,以便针对单个细胞提供多种元素的激活水平与通过流式细胞仪可测量的其他细胞质量之间的相关性。

在一些情况下,流式细胞仪数据以单个参数直方图的形式呈现。另选地或除此之外,流式细胞仪数据以称为细胞图的参数的2维(2D)图表示。通常以细胞图形式描述两个测量参数,诸如一个在x轴上,一个在y轴上。在一些情况下,所描绘的参数包括侧向散射信号(SSC)、前向散射信号(FSC)和荧光中的至少一种。在一些情况下,细胞图中的数据被显示为点图、伪彩色点图、轮廓图或密度图中的至少一种。例如,关于相关细胞的数据由相关细胞在轮廓图或密度图中的位置确定。轮廓图或密度图可以代表许多有同样特征的细胞,诸如特定生物标志物的表达、细胞形态或粒度。

流式细胞仪数据通常通过门控进行分析。通常,细胞的子群体在图中被门控或划界。门控可以手动或自动执行。作为非限制性示例,手动门可以采取多边形、正方形或将细胞图划分为象限或其他截面测量的形式。在一些情况下,操作员可以创建或手动调整分界,以生成新的细胞子群体。另选地或组合地,门控自动地执行。在一些部分,门控可以手动执行,或在一些部分可以自动执行。

在一些情况下,门控使用计算平台来执行。计算平台可以配备有用户输入和输出特征,以允许对相关细胞进行门控。计算平台通常包括已知组件,诸如处理器、操作系统、系统存储器、存储器存储装置、输入-输出控制器、输入-输出装置和显示装置。在一些情况下,计算平台包括其上具有用于执行各种计算机实现的操作的指令或计算机代码的非暂态计算机可读介质。

在一些情况下,门控涉及使用散射信号(例如前向散射(FSC))将亚细胞碎片与相关细胞区分开。在一些情况下,单个细胞是从多个或成簇的细胞中门控选出的。在一些情况下,可以基于细胞的生存力从分析中单独门控选出样本中的细胞。例如,门控用于选出活细胞,并通过细胞染色排除群体中的死亡或垂死细胞。示例性的染色剂是4',6-二脒基-2-苯基吲哚(DAPI)或Hoescht染色剂(例如,Hoescht 33342或33258)。在一些情况下,将门控应用于至少一个物理特征或标志物以鉴定相关细胞,例如感染病原体或寄生细胞。

在一些情况下,通过将一个参数的直方图叠加在同一图上来比较一组流式细胞仪样本中的变化。例如,阵列流式细胞仪实验含有参考样本,将实验样本与其进行比较。然后可以将该参考样本放置在阵列的第一个位置,随后的实验样本按顺序跟随对照。参考样本可以包括正常和/或与病症相关的细胞(例如感染的细胞)。

在一些情况下,在分析数据之前,确定相关的细胞群体以及表征这些群体的方法。例如,细胞群体是均质的或世系门控选出的,以此方式产生对于相关目标而言被认为是均质的不同集合。样本水平比较的示例可以是鉴定受试者的感染细胞中生物标志物谱并将这些谱与未感染细胞中生物标志物谱相关。在一些情况下,绘制异质群体中的各个细胞。

另选地或与流式细胞仪相结合,可以通过其他分光光度装置来鉴定相关细胞,包含但不限于质谱细胞仪、细胞离心涂片器或免疫荧光。通过使用识别与细胞相关的抗原的抗体,免疫荧光可用于鉴定细胞表型。可视化抗体-抗原相互作用可以以多种方式实现。抗体可以与能催化产生颜色的反应的酶诸如过氧化物酶缀合。另选地,可以将抗体标记至荧光团,诸如荧光素或罗丹明。

本文所述的方法适用于可以确定细胞的生物标志物谱与确定来自个体的样本中的疾病易感性、诊断、预后和/或治疗过程之间的相关性的任何条件。细胞上细胞表面生物标志物的鉴定可用于分类受试者中的一个或多个细胞。在一些情况下,分类包含将细胞分类为与临床结果相关的细胞。临床结果可以是病症的预后和/或诊断,和/或疾病的分期或分级。在一些情况下,细胞的分类与患者对治疗的反应相关。在一些情况下,细胞的分类与最小残留疾病或新出现的耐药性相关。另选地,细胞的分类包含将反应与潜在药物治疗相关。

通常,本文所述的方法和系统用于感染的诊断。在一些情况下,将与感染状态相对应的相关细胞的第一生物标志物谱与对应于未感染状态的第二生物标志物谱进行比较。

流式细胞仪仪器通常包括三个主要系统:射流系统、光学系统和电子系统。射流系统可以将液体流中的细胞输送通过激光束,其中它们被照射。光学系统可以由激光器组成,当液体流中的细胞通过激光的时候对其照射并使来自激光的光散射。当细胞上存在荧光团时,它将以其特征频率发出荧光,然后通过透镜系统检测该荧光。前向散射方向和侧向散射方向上的光强度可用于确定细胞的尺寸和粒度(即内部复杂度)。光学滤波器和分束器可以将各种散射的光信号引导到适当的检测器,该检测器生成与其接收到的光信号的强度成比例的电子信号。从而可以在每个细胞上收集数据,可以将其存储在计算机存储器中,然后可以基于它们的荧光和光散射特性来分析这些细胞的特性。电子系统可以将检测到的光信号转换成可以由计算机处理的电子脉冲。可以鉴定和测量有关整个细胞样本中不同子集的数量和信号强度的信息。

目前,除了6种侧向和前向散射特性外,流式细胞仪还可以同时用多达17种或≥17种荧光标志物标记的样本进行流式细胞计数。因此,数据可以包含多达17个或至少17、18、19、20、21、22或23个通道。因此,单次样本运行可以产生大量数据以供分析。

流式细胞仪数据可以以单参数直方图或2维参数图的形式表示,通常称为细胞图,可显示两个测量参数,一个在x轴上,一个在y轴上,细胞计数为密度(点)图或轮廓图。在一些实施例中,参数是侧向散射(SSC)强度、前向散射(FSC)强度或荧光。SSC和FSC强度信号可以分为面积、高度或宽度信号(SSC-A、SSC-H、SSC-W和FSC-A、FSC-H、FSC-W),并表示由流式细胞仪电子设备测量的光强度脉冲的面积、高度和宽度。前向和侧向散射信号的面积、高度和宽度可以提供有关细胞通过测量激光器时的尺寸和粒度或内部结构的信息。在进一步的实施例中,将由前向和侧向散射强度的各种特性以及特定通道中的荧光强度组成的参数用作直方图或细胞图的轴。在某些应用中,生物标志物也代表尺寸。细胞图采用各种形式显示数据,诸如点图、伪彩色点图、轮廓图或密度图。

通过检测生物标志物和光强度散射参数,该数据可用于对特定群体中的细胞计数。当针对生物标志物的荧光发射光的强度达到特定阈值水平时,将检测到该生物标志物。

如上所述,可以使用称为门控的程序分析流式细胞仪数据。门是操作员在细胞图上绘制的区域,用于选择性地关注相关的细胞群体。门控通常通过使用光散射强度属性来开始。这允许通过由前向散射指示的相对尺寸将亚细胞碎片与相关的细胞区分开。该第一步骤有时被称为形态学。可以执行下一步骤以分离出不能依靠其进行精确鉴定的双峰和成簇的细胞,仅留下了单峰。门控的第三步骤可以选出活细胞,并排除群体中死亡或垂死的细胞。这通常使用细胞图来执行,其中前向散射作为x轴,DAPI(4',6-二脒基-2-苯基吲哚)染色强度作为y轴。DAPI将细胞核染色,仅在死亡或垂死的细胞中才可进入,因此可以将显示DAPI明显染色的细胞取消选定。随后的门控可能涉及使用直方图或细胞图,这些直方图或细胞图将反复应用于不同的标志物组合中,以最终仅选择那些具有鉴定该细胞群体的所有相关标志物的细胞群体。

门区域可以采取多边形、正方形、将细胞图划分为象限或截面的形式,以及许多其他形式。在每种情况下,操作员都可以决定阈值在哪里能将每个标志物的阳性和阴性群体分开。采样的同期组群的个体差异、采集后样本制备中的差异以及其他来源会引起许多变化。因此,在本领域中众所周知,即使在高度熟练的操作员之间,流式细胞仪数据门控的结果也存在显著差异。

相关特征可以通过通常称为流式成像显微镜(FIM)的多种方法中的任何一种或多种来检测。如本文中通常使用的,术语“FIM”是指允许在高通量流动系统中检测对象的方法和仪器。在某些实施方式中,流式细胞仪方法和仪器通常可以归入FIM的广义范畴。

FIM能够表征单个亚可见颗粒的复杂图像。在FIM实施例中,将少量液体样本泵送通过微流体流动池,并且使用数字显微镜在单次实验中记录各个颗粒(诸如生物分子和/或聚集的生物分子)的10^6以上个图像。大量信息被编码在该图像数据中。迄今为止,FIM分析方法依靠少量的“形态特征”(诸如长宽比、紧密度、强度等)来表征单个颗粒图像,但是这些特征的简短列表(通常含有高度相关的数量)忽略了完整(RGB或灰度)FIM图像中包含的大量信息。如本文所述,深度卷积神经网络(CNN或“ConvNet”)以及监督或半监督学习可以利用图像中编码的大量复杂数字信息,并针对给定的分类或故障检测任务自动提取相关的特征,而无需选择、标记或指定“形态特征”。在利用FIM的优选实施例中,当连续的样本流通过以具有良好表征和扩展景深的定制放大系统的视场为中心的流动池时,在连续的帧中捕获亮场或其他显微镜图像。FIM不仅可以列举样本中存在的亚可见颗粒,还可以目视检查所有捕获颗粒的图像。标准台式微流成像(MFI)配置使用简单的射流系统,在该系统中,使用蠕动泵直接从移液器吸头或更大的容器中通过流动池抽取样本流体。系统放大倍数和流动池深度的结合决定了浓度测量的精度。浓度和参数测量是绝对的,但可以使用颗粒标准品重新验证。典型的样本体积范围从<0.25毫升到数十毫升。在操作过程中显示的帧图像可提供有关样本中颗粒群体的性质的即时视觉反馈。样本中存在的颗粒或细胞的数字图像可以使用图像形态分析软件进行分析,该软件可以对尺寸和计数进行定量。该系统软件可以使用敏感阈值提取颗粒图像,以鉴定定义每个颗粒的像素组。实时分析每个含有许多颗粒图像的连续帧。通过自动优化阈值、使用低噪声电子设备、实施降噪算法并补偿空间和脉冲到脉冲照射中的所有可能的不均匀性,可以达到检测近透明颗粒的最大仪器敏感性。可以使用十位灰度分辨率来提高阈值精度。可以对图像进行分析以编译含有计数、尺寸、浓度以及一系列形状和图像对比度参数的数据库。计算机的应用软件可以查询此数据库,以使用直方图和散点图生成参数分布。该软件通过基于用户选择的代表性颗粒计算试验滤波器,然后与用户交互来优化该滤波器以从总群体中提取相似颗粒,来支持图像过滤。该特征允许分离颗粒的子群体并进行独立分析。颗粒图像可用于验证、进一步研究和分析。一旦开发并验证了成功的测定方法,就可以保存所产生的方案,包含运行参数、软件滤波器和报告格式,以备将来使用。

直接成像颗粒测量技术(例如FIM)相对于间接遮蔽或基于散射的测量具有许多优势。例如,它们不依赖于颗粒尺寸与使用聚苯乙烯参考珠校准的散射或模糊光信号幅度之间的相关性。如果颗粒图像中的对比度足以通过系统阈值来解析像素,则将检测并测量颗粒。无需由用户进行校准。系统捕获的颗粒图像还提供有关目标颗粒群体的定性和定量信息。根据美国国家标准技术研究院的可追溯聚苯乙烯珠进行的鉴定研究表明,该技术可以满足定径、浓度精度和可重复性方面的高标准。

适用于本公开的系统和方法的可商购的FIM仪器的非限制性示例包含MalvernInstruments(英国伍斯特郡)的Sysmex流式颗粒图像分析仪(FPIA)3000、Occhio(比利时安格里尔)的各种Occhio Flowcell系统、JM Canty(美国纽约州布法罗)的MicroFlow颗粒定径测量系统、ProteinSimple(美国加利福尼亚州圣克拉拉)的数个MFI系统以及FluidImaging(美国缅因州雅茅斯)的各种流式细胞仪和显微镜(FlowCAM)系统。

在本文所述的系统、方法、介质和网络中,深度学习(机器学习)算法/模型可用于分析来自流式细胞仪的多维流式细胞仪数据,包含来自FIM仪器的原始图像数据。在一些实施例中,多维流式细胞仪数据是至少二维、三维、四维、五维、六维或七维的。多维流式细胞仪数据可以包括以下一项或多项:前向散射(FSC)信号、侧向散射(SSC)信号或荧光信号。信号的特征(例如,幅度、频率、幅度变化、频率变化、时间依赖性、空间依赖性等)也可以被视为维度。在一些实施例中,荧光信号包括红色荧光信号、绿色荧光信号或两者兼有。在实施例中可以包含具有其他颜色的任何荧光信号。

在一些实施例中,本文所述的系统、方法、介质和网络包含鉴定多维流式细胞仪数据中的门区域。很难定义标准的操作程序来指导人类操作员执行手动门控。手动门控的主观性质通常会导致由不同操作员引入的偏差,甚至是由于单个操作员在不同时间的表现不同而引起的偏差。自动门控可将由于单个操作员随时间变化的交叉个体差异和表现差异而导致的门控结果差异降至最低。用于流式细胞仪数据分析的计算机化算法可实现比人类专家所得到的结果更一致的门控结果。在一些实施例中,采用监督算法来模仿手动门控决策。一旦经过配置,监督门控算法所产生的结果的可变性要比人类操作员执行的门控小得多。不同算法之间门控结果的差异通常超过10%,因此一些实施例考虑了集成不同算法以产生更好的门控结果。

在某些实施例中,机器学习系统可以包含人工神经网络(ANN),人工神经网络是一种可以学习输入数据集和目标数据集之间关系的计算系统。ANN名称源于期望开发出一种对人类神经系统一部分的简化数学表示的愿望,其旨在捕获其“学习”和“泛化”的能力。ANN是人工智能领域的主要基础。ANN由于其可以对变量之间的关系未知或非常复杂的高度非线性系统进行建模,因此在研究中得到了广泛应用。ANN通常根据经验观察到的数据集进行训练。数据集通常可以分为训练集、测试集和验证集。

在监督学习应用中,标记的数据用于形成目标函数(例如,对物理信息进行编码的交叉熵损失函数、“三元组”损失函数、“Siamese”损失函数或自定义损失函数)。网络参数被更新以优化指定的损耗函数。具体地,可以在输入数据集上训练一种称为前馈反向传播分类器的神经网络,以生成在训练样本上最小化成本函数的特征表示。随机梯度下降的变型经常与反向传播算法相结合用于搜索参数空间,以在训练数据输入上最小化指定的成本函数。经过大量的训练迭代后,可以停止ANN参数更新;停止标准通常会利用验证数据集上的网络评估(可以应用其他停止标准)。

训练神经网络的目标通常是让ANN对新样本做出准确的预测,例如,在训练或验证期间未使用的样本。预测的准确性常常根据目标函数来衡量,例如,可以通过为新样本提供真实标记来实现分类准确性。然而,在本发明人方法的一个实施例中,使用神经网络进行嵌入/降维,即在源FIM图像中获取一组大量像素,并汇总满足来自ANN的2至6维特征输出嵌入值的信息;嵌入点云的统计分布是通过非参数方法确定的,并且通过合适和适当的假设测试(例如Kolmogorov-Smirnov检验、Hong和Li的基于Rosenblatt转换的检验或基于Copula转换的拟合优度方法)对一组新的样本“测试点”的接近度进行统计检验。

ANN已应用于医学中的许多问题,包含图像分析、生化分析、药物设计和诊断。ANN最近已开始用于医学诊断问题。ANN具有鉴定患者数据与疾病之间关系的能力,并且仅基于输入到ANN的客观数据即可生成诊断。输入数据将通常由症状、生化分析和其他特征(诸如年龄、性别、病史等)组成。输出将由诊断组成。

本文公开了一种新颖的方法,其将未处理的FIM图像数据提供给机器学习系统,诸如提供给ANN以用于提供诊断、预后和故障检测的分析。

在本发明技术的实施例中可以采用许多类型的机器学习模型。通常,这样的模型将诸如从通过高通量系统的样本的图像中提取的细胞伪像之类的一个或多个相关特征作为输入,并且在很少或不进行额外预处理的情况下,其将各个相关特征分类为特定的细胞类型、寄生虫、病原体、健康状况等,而无需进一步干预。在另选实施例中,这样的模型将诸如从生物医药样本的图像中提取的生物分子之类的一个或多个相关特征作为输入,并且在很少或不进行额外预处理的情况下,其将各个伪像分类为特定的生物分子类型或特征,诸如蛋白质聚集。通常,不需要根据输入的形态或其他特征对输入进行分类,因为机器学习模型可以对输入进行分类。

在图1中大体显示的机器学习模型的两个主要实施例可以包含“深度”卷积神经网络(ConvNet)模型和随机主成分分析(PCA)随机森林模型。然而,在本公开的背景下也可以采用其他形式的机器学习模型。随机森林模型相对易于从训练数据集中生成,并且可以使用相对较少的训练集成员。从训练集生成卷积神经网络可能会更耗时且计算量大,但是在准确分类相关特征(诸如细胞伪像或蛋白质聚集体)方面,其往往更好。

通常,每当更改处理系统的参数时,都会重新训练深度学习模型。更改的参数的示例包含样本(例如血液)采集和处理、FIM仪器、图像采集组件等。由于分类技术基于机器学习的性质,能够上传训练样本,通常也称为参考样本,例如来自数十个其他寄生虫、病原体或生物医药FIM图像的参考样本,并立即使模型准备好鉴定新的细胞类型和/或病症。

本文公开的某些机器学习系统的特性是能够对各种各样相关的特征进行分类的能力,诸如与各种生物学条件有关的病症和/或细胞类型。例如,可以分类的细胞类型或其他样本特征包含宿主的细胞和宿主的寄生虫或感染病原体。另外,宿主的细胞可以分为各种类型,诸如红细胞和白细胞。此外,可以将特定类型的宿主细胞分为正常细胞和异常细胞,诸如表现出与感染相关特性的细胞。可以进行分类的宿主血细胞的示例包含无核红细胞、有核红细胞,各种类型的白细胞,包含淋巴细胞、嗜中性粒细胞、嗜酸性粒细胞、巨噬细胞、嗜碱性粒细胞等。可能存在于图像中并成功进行分类的寄生虫或感染病原体的示例包含细菌、真菌、蠕虫、原生动物和病毒。在各种实施例中,系统可以鉴定宿主中的正常细胞和宿主的一种或多种寄生虫或感染病原体,包含可以驻留在宿主中的微生物,和/或可以感染宿主的病毒或细菌。例如,本文鉴定的本发明系统可以对红细胞、白细胞和一种或多种寄生虫诸如恶性疟原虫中的每一种进行分类。

在这些方法和系统中,机器学习系统可以准确地分类至少一种原核生物和至少一种真核生物细胞类型,其可以是寄生虫和/或宿主细胞。在一些实施例中,机器学习系统可以准确地对采用不同运动模式的至少两种不同的原生动物进行分类,例如纤毛、鞭毛和变形运动。机器学习系统可以准确地对至少正常和异常宿主细胞进行分类。异常宿主细胞的示例包含感染的细胞、发育异常的细胞和化生细胞。在一些实施例中,机器学习系统可以准确地对细胞的至少两种或更多种亚型进行分类。例如,机器学习分类模型可以将白细胞准确分类为以下两种或多种亚型:嗜酸性粒细胞、嗜中性粒细胞、嗜碱性粒细胞、单核细胞和淋巴细胞。一些模型可以准确地鉴定或分类所有五个亚型。在另一示例中,本发明的机器学习系统可以将淋巴细胞准确地分类为T细胞、B细胞和自然杀伤细胞。在一些实施例中,机器学习系统可以准确地对宿主细胞或寄生虫的至少两个或更多个成熟度或生命周期阶段进行分类。例如,本发明的机器学习系统可以准确地对成熟的嗜中性粒细胞和带状嗜中性粒细胞分类。在这些实施例的每一个中,单个分类器可以准确地区分任何样本中的这些细胞类型。分类器可以区分来自单个样本的单个图像中的这些细胞类型。它还可以在多个样本和多个图像之间区分这些细胞类型。

在这些系统和方法中,机器学习系统可以准确地分类(i)宿主中的正常细胞和(ii)宿主的一种或多种寄生虫或感染宿主的病原体。例如,这种模型可以准确地对红细胞、白细胞(有时是各种类型的白细胞)以及一种或多种寄生/病原性实体(诸如真菌、原生动物、蠕虫和细菌)中的每一个进行分类。在这些方法和系统中,模型可以准确地对正常和异常宿主细胞以及一种或多中寄生虫进行分类。例如,有时被称为模型的系统可以准确地对正常的红细胞和正常的白细胞以及被感染的宿主细胞、原生动物和/或细菌细胞进行分类。在一示例中,该模型可以准确地分类原生动物细胞和细菌细胞两者。例如,原生动物细胞可包含来自巴贝虫属、胞裂虫属和疟原虫属的一个或多个示例。作为进一步的示例,细菌细胞可以包含边虫属细菌和支原体细菌中的一种或多种。在某些实施例中,该模型可以准确地对红细胞、白细胞和血小板以及一种或多种寄生虫进行分类。在某些实施例中,该系统可以准确地对红细胞、白细胞和至少一种未分化的血细胞(例如,母细胞或成髓细胞)以及一种或多种寄生虫进行分类。在某些实施例中,该系统可以准确地对红细胞、白细胞和至少一种非血液细胞(例如,精细胞)以及一种或多种寄生虫/病原体进行分类。在某些实施例中,该系统可以准确地对红细胞和两种或更多种类型的白细胞(例如,选自嗜中性粒细胞、嗜酸性粒细胞、淋巴细胞、单核细胞和嗜碱性粒细胞的两种或多种)以及一种或多种寄生虫进行分类。

在一个示例中,本发明的系统可以准确对以下各项进行分类:红细胞、至少一种白细胞、至少一种非血液细胞、至少一种未分化或干细胞、至少一种细菌,以及至少一种原生动物。在另一示例中,本发明的系统可以至少对以下各项进行分类:红细胞-正常宿主细胞(无核血细胞),白细胞-正常宿主细胞(一般),嗜中性粒细胞-正常宿主细胞(特定类型的WBC),淋巴细胞-正常宿主细胞(特定类型的WBC),嗜酸性粒细胞-正常宿主细胞(特定类型的WBC),单核细胞-正常宿主细胞(特定类型的WBC),嗜碱性粒细胞-正常宿主细胞(特定类型的WBC),血小板-正常宿主细胞(无核血细胞),母细胞-原始未分化血细胞-正常宿主细胞,成髓细胞-在骨髓中发现的单能干细胞-正常宿主细胞,急性髓性白血病细胞-异常宿主细胞,急性淋巴细胞白血病细胞-异常宿主细胞,精子-正常宿主细胞(非血液),边虫属的寄生虫-感染宿主的立克次体目细菌RBC-革兰氏阴性,巴贝虫属的寄生虫-感染宿主的原生动物RBC,胞裂属的寄生虫-感染猫的原生动物,猫血支原体-感染宿主的细胞膜的细菌RBC-革兰氏阳性,恶性疟原虫-属于疟原虫种的原生动物;感染人类并产生疟疾,间日疟原虫-属于疟原虫种的原生动物;感染人类并产生疟疾,卵形疟原虫-属于疟原虫种的原生动物(比恶性疟原虫和间日疟原虫稀少);感染人类并产生疟疾,三日疟原虫-属于疟原虫种的原生动物;感染人类并产生疟疾,但程度不及恶性疟原虫和间日疟原虫。

在一些情况下,可以训练系统以对不同成熟度或生命周期不同阶段的细胞进行分类。例如,某些白细胞诸如嗜中性粒细胞具有被称为带状细胞的不成熟形式,其可以由连接至细胞中心区域的多个未分段的核来鉴定。具有未分段核的外围叶与中心区域之间的距离和连接结构可以指示细胞的成熟度。带状嗜中性粒细胞增加通常意味着已经通知骨髓释放更多白细胞和/或增加白细胞的产生。通常,这是由于身体感染或炎症引起的。

本发明技术的某些方面提供了一种用于鉴定样本诸如宿主生物的生物样本中的相关样本特征的系统和方法。在一些实施例中,相关的样本特征与疾病相关。该系统包含:FIM仪器,其用于捕获生物样本的数字图像;以及一个或多个处理器,其通信地连接至图像捕获装置(诸如,照相机),在一些实施例中,其可以是FIM仪器的一部分。在一些实施例中,系统的一个或多个处理器被配置为执行用于鉴定相关样本特征的方法。在一些实施例中,系统的一个或多个处理器被配置为接收由FIM仪器捕获的生物样本的一个或多个图像。一个或多个处理器任选地被配置为分割生物样本的一个或多个图像以获得在该实施例中通过高通量FIM仪器的样本的各个成分的多个图像。

在一些实施例中,可以应用分割操作,该分割操作可以包含将生物样本的一个或多个图像从彩色图像转换为灰度图像。可以使用各种方法将一个或多个图像从彩色图像转换为灰度图像。在一些实施例中,使用最大类间方差法阈值化方法将灰度图像进一步转换为二进制图像。

在一些实施例中,可以使用欧几里德距离转换方法来转换二进制图像,如本文其他地方进一步描述的。在一些实施例中,分割还涉及鉴定从欧几里得距离转换获得的像素值的局部最小值。像素值的局部最小值指示潜在细胞伪像的中心位置。在一些实施例中,分割操作还涉及将索贝尔滤波器应用于生物样本的一个或多个图像。在一些实施例中,使用灰度图像。通过索贝尔滤波器获得的数据会加重潜在细胞伪像的边缘。

在一些实施例中,分割还涉及使用局部最大值和通过应用索贝尔滤波器获得的数据来拼接生物样本的一个或多个图像,从而获得细胞伪像的多个图像。在一些应用中,每个拼接图像包含细胞伪像。在一些实施例中,对生物样本的彩色图像执行拼接操作,从而获得彩色的细胞伪像的多个图像。在其他实施例中,灰度图像被拼接并用于进一步的分类分析。

在一些实施例中,将细胞伪像的多个图像中的每个图像提供给机器学习分类系统以对相关特征进行分类。在一些实施例中,机器学习系统包含神经网络模型。在一些实施例中,神经网络模型包含卷积神经网络模型。在一些实施例中,机器学习分类模型包含主成分分析和随机森林分类器。

在其中机器学习系统包含主成分分析和随机森林分类器的一些实施例中,相关特征的多个图像中的每个图像(诸如,细胞伪像)被标准化并转换成例如50X50矩阵,矩阵的每个单元基于对应于该单元的多个图像像素。这种转换有助于减少要分析的数据总量。根据所需的计算速度和精度,可以使用不同的矩阵尺寸。

该系统可以包含除了分割模块之外的两个或更多个模块。例如,分割模块可以将相关的各个特征的图像提供给两个或更多个机器学习模块,每个机器学习模块具有其自己的分类特性。在某些实施例中,机器学习模块被串行地或流水线地布置。在这样的实施例中,第一机器学习模块接收相关的各个特征并将其粗略地分类。第二机器学习模块接收一些或所有粗略分类的相关特征,并将它们进行更精细的分类。

如上所述,可以使用例如PCA对细胞伪像的多个图像的精简数据进行降维。在一些实施例中,主成分分析包含随机主成分分析。在一些实施例中,获得约二十个主成分。在一些实施例中,从PCA获得约十个主成分。在一些实施例中,将获得的主成分提供给随机森林分类器以对细胞伪像进行分类。

在某些实施例中,具有神经网络(例如,卷积神经网络)的系统将通过分割提取的细胞伪像的像素数据作为输入。构成细胞伪像的像素被分成预定尺寸的切片,其中每个切片被馈送到神经网络输入层的不同节点。输入节点在其相应的像素切片上进行操作,并将生成的计算输出馈送到神经网络下一层的节点,该层被视为神经网络的隐藏层。然后,将在网络该第二层的节点上计算出的值前馈到神经网络的第三层,在此第三层的节点对它们从第二层接收的输入进行操作,并生成新值,这些新值将馈入到第四层。该过程逐层继续,直到值到达含有代表输入细胞伪像像素的单独分类的节点的输出层。例如,输出层的一个节点可以代表正常细胞,输出层的另一个节点可以代表被感染的细胞,输出层的又一个节点可以代表例如无核红细胞,而另外又一个输出节点可能代表疟原虫。在执行分类之后,可以探测每个输出节点以确定输出是对还是错。单个真值对输入的细胞伪像进行分类。

通常,卷积神经网络的各个层对应于与分类过程相关的不同抽象层次。例如,一些内层可以对应于基于相关特征诸如细胞伪像的粗略外部形状的分类,诸如圆形、非圆形椭圆形、尖角等,而其他内层可以对应于一个不同的方面或单独的相关特征,诸如细胞伪像内部的纹理、细胞伪像的周边的光滑度等。通常,可以实施多个规则,其管理哪些层进行分类的哪些特定方面。神经网络的训练可以简单地定义节点和节点之间的连接,使得模型可以更准确地对来自生物样本图像中的相关特征(如细胞伪像)进行分类。

深度卷积神经网络可以包含多个前馈层。如本领域技术人员所知,这些层旨在从输入图像中提取相关特征。提取的特征取决于用于训练的目标函数。卷积层的参数包含一组可学习的滤波器(或内核),其具有较小的感受野,但在卷积步骤中应用于整个输入图像区域。在某些实施例中,在前向通过期间,每个滤波器在输入图像的宽度和高度上卷积,计算滤波器的条目与输入之间的点积类型,并产生与该滤波器相关联的激活图。因此,网络学习滤波器,当它们在输入中的某些空间位置遇到某种特定类型的特征时激活。所得到的激活图以标准前馈方式并结合前馈输出使用“跳跃连接”来处理。

卷积网络可能包含局部或全局池化层,这会降低激活图的维数。它们还包含卷积完全连接的层、跳跃连接和自定义层的各种组合,例如,挤压激励、残差块或空间转换器子网。神经网络可以包含前馈堆叠层的各种组合,以便生成输入图像数据的特征表示。估计特征的特定性质取决于目标函数、输入数据和所选的神经网络架构。

在某些实施例中,深度学习图像分类模型可以采用TensorFlow。例程可以从加利福尼亚州山景城的Google获得,或者可以采用可以从加利福尼亚州门罗帕克的Facebook获得的PyTorch例程。一些实施例可以采用VGG样式的网络架构、Google的简化的Inception网络架构或多尺度的扩张残差网络(DRN)。可以使用标准损失或自定义损失函数将诸如挤压激励或空间转换器子网之类的模块插入上述网络中。

可以使用本公开的系统和方法来鉴定各种类型的状况,诸如医学状况或生物分子的状况。例如,与病况(例如疾病或障碍)相关的病原体或意外(异常)细胞的简单存在可以作为状况。在其他实施例中,可以鉴定和/或表征生物分子状况,诸如生物医药样本中的蛋白质聚集体。在这些方法中,机器学习模型的直接输出提供了状况,即该模型可以鉴定相关特征,诸如寄生虫或感染病原体的细胞伪像。可以从模型的输出间接获得其他状况。例如,某些状况可能与意外/异常的细胞计数或细胞/生物类型的比率有关。在这种情况下,比较、累积本发明的直接输出,诸如相关的多个特征(诸如细胞伪像)的分类,以提供细胞伪像类别的相对或绝对数量。在这些方法中,本发明可以提供两种主要诊断类型中的至少一种:对特定生物或细胞类型或生物分子的阳性鉴定,以及对分类为特定类型或多种类型的细胞或生物的定量分析,无论是宿主细胞还是非宿主细胞。

例如,一类宿主细胞定量计数白细胞。细胞计数信息可以是绝对的或差异的(例如,两种不同细胞类型的比率)。例如,绝对红细胞计数低于参考范围被认为是贫血。某些与免疫相关的疾病会考虑白细胞的绝对计数(例如所有类型的白细胞)。在一个示例中,大于约30,000/ml的绝对计数表示白血病或其他恶性病症,而介于约10,000和约30,000之间的绝对计数表示严重的感染、炎症和/或败血症。例如,白细胞计数大于约30,000/ml可能提示需要进行活检。在该范围的另一端,白细胞计数低于约4000/ml提示白血球减少症。嗜中性粒细胞(白细胞的一种)可以单独计数。绝对计数低于约500/ml提示嗜中性白血球减少症。当诊断出这种状况时,患者抵抗感染的能力就会严重受损,并可能会被指示进行提升嗜中性粒细胞的治疗。在一个实施例中,白细胞计数器使用如本文所述的图像分析,并提供对毛细管或静脉全血中白细胞计数的半定量测定。测定为低(低于4,500WBC/μL)、正常(介于4,500WBC/μL和10,000WBC/μL之间)和高(大于10,000WBC/μL)。

在一些情况下,白细胞差异或比率用于指示特定状况。例如,五种白细胞类型的比率或差异计数代表对不同类型状况的反应。例如,嗜中性粒细胞主要针对细菌感染,而淋巴细胞主要针对病毒感染。其他类型的白细胞包含单核细胞、嗜酸性粒细胞和嗜碱性粒细胞。在一些实施例中,标记大于WBC群体的4-5%的嗜酸性粒细胞计数对刺激的过敏/哮喘反应。

与各种类型的白细胞(例如嗜中性粒细胞、淋巴细胞、单核细胞、嗜酸性粒细胞和嗜碱性粒细胞)的差异计数相关的状况的其他示例包含以下状况:

嗜中性粒细胞异常高水平的状况称为嗜中性粒细胞增多症。嗜中性粒细胞增多症的原因的示例包含但不限于:急性细菌感染,以及病毒和真菌引起的某些感染;炎症(例如,炎性肠病、类风湿关节炎);由创伤、大手术、心脏病发作、烧伤引起的死亡(坏死);生理的(压力、剧烈运动);抽烟;怀孕-孕晚期或分娩期间;以及慢性白血病(例如,骨髓性白血病)。

嗜中性粒细胞水平异常低下的状况称为嗜中性粒细胞减少症。嗜中性粒细胞减少症的原因的示例包含但不限于:骨髓增生异常综合症;严重的暴发性感染(例如败血症-嗜中性粒细胞耗尽);对药物的反应(例如青霉素、布洛芬、苯妥英等);自身免疫性病症;化学疗法;扩散到骨髓的癌症;以及再生障碍性贫血。

淋巴细胞异常高水平的状况称为淋巴细胞增多症。淋巴细胞增多症的原因的示例包含但不限于:急性病毒感染(例如肝炎、水痘、巨细胞病毒(CMV)、爱泼斯坦-巴尔病毒(EBV)、疱疹、风疹);某些细菌感染(例如,百日咳(疫咳)、结核病(TB));淋巴细胞白血病;以及淋巴瘤。

淋巴细胞异常低水平的状况被称为淋巴球减少症或淋巴细胞减少症。淋巴球减少症的原因的示例包含但不限于:自身免疫性病症(例如狼疮、类风湿性关节炎);感染(例如HIV、TB、肝炎、流行性感冒);骨髓损伤(例如化学疗法、放射疗法);以及免疫缺陷。

单核细胞异常高水平的状况称为单核细胞增多症。单核细胞增多症的原因的示例包含但不限于:慢性感染(例如,结核病、真菌感染);心脏内感染(细菌性心内膜炎);胶原血管疾病(例如狼疮、硬皮病、类风湿性关节炎、血管炎);炎性肠病;单核细胞性白血病;慢性骨髓单核细胞性白血病;以及幼年型骨髓单核细胞性白血病。

单核细胞异常低水平的状况被称为单核细胞减少症。孤立的低水平单核细胞测量结果可能没有医学意义。然而,重复的低水平单核细胞测量结果可能表明骨髓损伤或毛细胞白血病。

嗜酸性粒细胞异常高水平的状况称为嗜酸性粒细胞增多症。嗜酸性粒细胞增多症的原因的示例包含但不限于:哮喘、诸如枯草热之类的过敏症;药物反应;皮肤发炎(例如湿疹、皮炎);寄生虫感染;炎性病症(例如,腹腔疾病、炎性肠病);某些恶性肿瘤/癌症;以及嗜酸性粒细胞增多骨髓瘤。

嗜酸性粒细胞水平异常低下的状况称为嗜酸性粒细胞减少症。尽管嗜酸性粒细胞水平通常较低,但在某些情况下其原因可能仍与细胞计数有关。

嗜碱性粒细胞异常高水平的状况被称为嗜碱性粒细胞增多症。嗜碱性粒细胞增多症的原因的示例包含但不限于:罕见的过敏反应(例如荨麻疹、食物过敏);炎症(类风湿关节炎、溃疡性结肠炎);以及一些白血病(例如慢性骨髓性白血病)。

嗜碱性粒细胞异常低水平的情况称为嗜碱性粒细胞减少症。尽管嗜碱性粒细胞的水平通常较低,但在某些情况下其原因可能仍与细胞计数有关。

以上各种状况中的每一种通常可以被称为本文中通常所使用的医学病况。为了诊断病况,可以将图像分析结果(细胞类型或生物的阳性鉴定和/或有关生物细胞数量的定量信息)与病况的其他表现形式(诸如患者表现出发烧)结合使用。作为另一示例,可以通过大量非宿主细胞诸如细菌来辅助对白血病的诊断。通常,随着感染变得更加严重,计数增加。

本文公开的实施例可以被实现为用于通过使用机器学习技术和/或基于阶段的扫描对物理样本进行自动成像、分析和分类来实现形貌计算机视觉的系统。本文所述的任何计算系统,无论是由样本现场的最终用户控制还是由控制机器学习模型的远程实体控制,都可以实现为在一个或多个通用处理器或专门设计的处理器诸如可编程逻辑装置(例如,现场可编程门阵列(FPGA))和/或被设计为执行某些功能或其组合的专用集成电路(ASIC)上执行的软件组件。在一些实施例中,在图像采集系统和/或机器学习模型(计算元件)的操作期间执行的代码可以由可以存储在非易失性存储介质(诸如光盘、闪存存储装置、移动硬盘、基于云的系统等)中的软件元件形式来体现,包含用于制造计算机装置(诸如个人计算机、服务器、网络设备等)的许多指令。本文所述的图像采集算法、机器学习模型和/或其他计算结构可以在单个装置上实现或分布在多个装置上。计算元件的功能可以相互合并,也可以进一步拆分为多个子模块。

硬件装置可以是可以被编程的任何种类的装置,包含例如任何种类的计算机,包含智能移动装置(手表、电话、平板电脑等)、个人计算机、功能强大的服务器或超级计算机等。该装置包含一个或多个处理器(诸如ASIC)或任何组合处理器,例如,一个通用处理器和两个FPGA。该设备可以被实现为硬件和软件的组合,诸如ASIC和FPGA,或至少一个微处理器和至少一个具有位于其中的软件模块的存储器。在各个实施例中,系统包含至少一个硬件组件和/或至少一个软件组件。本文所述的实施例可以以纯硬件或者部分以硬件并且部分以软件来实现。在一些情况下,所公开的实施例可以在不同的硬件装置上实现,例如使用配备有能够加速科学计算的GPU的多个CPU。

每个计算元件可以被实现为计算机数据和指令的有组织的集合。在某些实施例中,图像采集算法和机器学习模型可各自被视为与用户和系统软件交互的应用软件的形式。系统软件通常与计算机硬件交互,通常被实现为一个或多个处理器(例如,如上所述的CPU或ASIC)和相关联的存储器。在某些实施例中,系统软件包含操作系统软件和/或固件,以及安装在系统中的任何中间件和驱动程序。系统软件提供了计算机的基本非任务特定功能。相反,模块和其他应用程序软件用于完成特定任务。模块的每个本机指令都存储在存储装置中,并由数值表示。

在一个级别上,计算元件被实现为程序员/开发人员编制的一组命令。然而,可以由计算机硬件执行的模块软件是使用从设计到硬件处理器中的特定机器语言指令集或“本机指令”中选择的“机器代码”提交给存储器的可执行代码。机器语言指令集或本机指令集是硬件处理器已知的,并且基本上内置于其中。这是系统和应用程序软件与硬件处理器进行通信的“语言”。每个本机指令都是处理架构可识别的离散代码,其可以为算术、寻址或控制功能,特定的存储器位置或偏移,以及用于解释操作数的特定寻址模式指定特定的寄存器。通过组合这些简单的本机指令可以建立更复杂的操作,这些指令可以依次执行,也可以按照控制流指令的指示执行。

可执行软件指令和硬件处理器之间的相互关系可以是结构上的。换句话说,指令本身可以包含一系列符号或数值。它们本质上并不传达任何信息。正是处理器,在设计上已预先配置为解释符号/数值,从而赋予指令以含义。

在某些实施例中,本文通常使用的模块或系统可以被配置为在单个位置的单个机器上、在单个位置的多个机器上或在多个位置的多个机器上执行。当使用多个机器时,可以针对其特定任务定制各个机器。例如,可以在不适合于移动或现场操作的大型和/或固定机器上实现需要大代码块和/或显著的处理能力的操作。这样的操作可以在远离处理样本的场所的硬件上实现,例如在通过网络连接到捕获样本图像的现场装置的服务器或服务器群上,或者通过基于云的网络。可以在现场用于图像捕获的便携式或移动装置上实现不那么计算密集型的操作。

各种分工都是可能的:例如,在现场使用的移动装置可以含有处理逻辑,以粗略地区分白细胞、红细胞和病原体,并任选地为这些中的每一个提供计数。在一些情况下,处理逻辑包含图像捕获逻辑、分隔逻辑和课程分类逻辑,后者任选地实现为随机森林模型。这些逻辑组件可以实现为不需要大量计算资源的相对较小的代码块。

远程执行(例如,在远程服务器或甚至超级计算机上)执行的逻辑区分不同类型的白细胞。例如,这种逻辑可以对嗜酸性粒细胞、单核细胞、淋巴细胞、嗜碱性粒细胞和嗜中性粒细胞分类。这样的逻辑可以实现为深度学习卷积神经网络,并且需要相对较大的代码块和显著的处理能力。在正确鉴定出白细胞或寄生虫或病原体的情况下,系统可以基于五种白细胞类型的各种组合的差异量,另外执行差异模型以诊断病况。

通过参考以下示例将更容易理解现在大体描述的本发明,这些示例仅出于说明本发明实施例的某些方面的目的而被包含在内。示例并非旨在限制本发明,如本领域技术人员通过以上教导和以下示例将认识到的,其他技术和方法可以满足权利要求并且可以在不脱离要求保护的本发明的范围的情况下采用。

示例

使用以下方法来进行以下示例中所述的实验:

最近商业化的流动成像显微镜仪器提供的高倍放大率使流动显微镜可以记录小至200nm的颗粒图像。本发明人发现,当与ConvNet结合时,该能力可用于对细菌以及其他类型的细胞和颗粒诸如生物分子进行成像、检测和分类。因此,在一个实施例中,FIM和ConvNet的组合可以应用于检测血液的微生物感染。当前用于检测血液感染的方法主要依靠血液培养,该技术是在培养基中培养血液样本以促进微生物生长。如果生物在培养基中生长,则通常使用标准的微生物学方法对样本进行测试以鉴定微生物的类型。这种方法需要大量时间以便获得诊断;样本时常需要24-48小时才能将生物培养到可检测的水平,并需要额外的时间来鉴定病原体。此外,此方法通常需要大量血液(多mL),以便可靠地检测病原体。这些缺点对于需要快速鉴定和治疗任何潜在血液感染并且只能抽出<1mL血液以诊断感染的新生儿特别显著。FIM和ConvNet可以相结合以减轻到在大约一小时的分析过程中检测微生物感染,并以最少的患者血量进行检测。

所提出的用于检测血流感染的策略利用流动成像来对各个成分成像,诸如生物样本中的细胞,优选为血液样本,并应用本文所述的机器学习系统来检测该血液样本中的病原性细胞。图1大体上示出了使用这两种技术以大约1小时的分析时间来鉴定50μL血液样本中的病原性细胞的示例性优选实施例。图13示出了用于检测血流感染的优选实施例。在该实施例中,用等渗介质稀释血液样本,并用能够成像小于2μm的颗粒的流动成像显微镜(FIM)仪器进行分析。然后可以通过应用颗粒尺寸滤波器和卷积神经网络(ConvNet)的组合以分别鉴定大血细胞(例如红细胞和白细胞)和小血细胞(例如血小板)的图像,然后将其从分析的后续阶段中删除,从而从FIM数据(1)中分离出可能含有病原体的图像。一旦分离出可能含有病原体的图像,本发明人就可以使用附加的ConvNet来预测病原体的身份。最后,本发明人可以进一步使用通过体现在故障检测模块(5)中的故障检测训练的最终ConvNet,以估计算法在先前步骤中鉴定出正确病原体的置信度。

为了证明图13中所示的各个步骤,在一个实施例中,本发明人收集了在新生儿败血症病例中经常遇到的鼠血样本和几种细菌种类样本的训练数据集。对于血液样本,将大约200μL血液放入2mL微量离心管中,该离心管中装有1mL达尔伯克改良伊格尔培养基(DMEM)和0.5mM/mL EDTA。用DMEM将0.5mL的这种溶液稀释至5mL,以获得低浓度的血液,在FIM期间其可产生高质量的图像。FIM是使用FlowCam Nano系统执行的,该系统是使用油浸来获取小于2μm的对象的图像的流动成像仪器。每次以0.01mL/min的流速分析0.25mL稀释的血液样本。在开始测量之前,将新鲜的浸油添加到系统光学器件中,并将仪器的背景强度调整为大约150,以便最小化两次测量之间的背景伪像的影响。

使用FIM对六种细菌进行成像以生成训练数据集;即粪肠球菌、金黄色葡萄球菌、铜绿假单胞菌、肺炎克雷伯菌、大肠杆菌和鲍曼不动杆菌。所有生物都是临床分离的菌株。将每种生物在阳离子调节的Muller Hinton肉汤(CAMHB)中温育过夜,然后在成像前在新鲜CAMHB中继代培养3小时。在成像时,使用DMEM将这些样本稀释成1:10,然后使用FIM进行分析。由于生物安全要求,在进行测量之前,将FlowCam Nano系统移至生物安全柜中。否则,使用与对血液样本成像相同的方案对每种生物成像。

图14A-G示出了使用具有适合于该实施例的光学器件的FIM仪器收集的血液和不同生物的示例性图像。如这些FIM图像拼贴所示,血液样本中可能遇到的许多不同细胞类型可以在视觉上彼此区分开。例如,图14A中较大的血细胞可以容易地与图14B-G中小得多的微生物区分开。各个微生物通常也可以通过它们的形态来区分。可以将图14C中的单个棒状大肠杆菌细胞与图14G中的球形金黄色葡萄球菌细胞链区分开。ConvNet可以利用不同细胞之间的这些视觉差异自动鉴定FIM图像中存在的生物。另外,这些网络还可以学会区分甚至在视觉上更相似的生物,诸如区分图14(c)中的大肠杆菌和图14(e)中的肺炎克雷伯菌。

在分析的前两个阶段中,将鉴定含有血细胞的FIM图像,并将其从分析的后续阶段中排除。第一阶段旨在去除红细胞的图像,这些图像构成了FIM期间收集的大部分图像。由于红细胞(RBC)明显大于典型的病原性细胞(约7μm/约2μm),因此可以使用简单的尺寸阈值来鉴定较大的RBC。在这种方法中,可以使用现成的商用软件来估计每个细胞的尺寸,然后鉴定并去除RBC尺寸或更大的细胞。这种方法可以去除样本中的所有RBC以及白细胞(WBC),而对病原性细胞的影响却很小。为了证明这一点,使用5μm尺寸的阈值从血液样本中去除了较大的RBC和WBC。图15A示出了通过该阈值过滤出的血细胞的典型图像,而图15B示出了在尺寸滤波器之后残留的血细胞。

在分析的第二阶段,使用ConvNet去除血小板和其他较小血液颗粒的图像,分离出可能含有病原体的图像。ConvNet可用于区分先前尺寸阈值之后剩余的血细胞图像和各种病原体物种的图像。图2示出了以这种方式训练的ConvNet在未用于训练网络的血液和细菌的图像上的性能。ConvNet可以以高置信度正确鉴定给定的FIM图像是否含有血小板和其他较小血液颗粒,或者该网络针对其训练的病原性细胞之一。结合使用尺寸阈值和该ConvNet,可以正确鉴定初始样本中的大多数血细胞并将其排除在分析之外。经过这些处理步骤后,所有其余图像可能都含有病原性细胞。

在去除大部分血细胞图像之后,本发明人可以使用第二ConvNet来分析剩余图像以鉴定候选病原体。图3示出了被训练以鉴定在新生儿败血症病例中遇到的几种示例性生物的ConvNet的准确性。尽管网络稍微更难区分两种生物(大肠杆菌和肺炎克雷伯菌),但平均而言,网络在73%的时间内会在单个FIM图像中正确鉴定出该生物,其中>75%的时间网络可以正确鉴定出六个生物图像中的四个。重要的是要注意,图3所示的准确性是在从血液样本中分离出的病原体的单个图像上。在许多细菌浓度低的小血液样本中,可能需要在单个图像上进行诊断,而在较大样本或浓度较高的样本中,可以恢复病原体的多个图像。随着更多病原体图像的恢复,这种方法的准确性迅速提高。

在分析的最后阶段,本发明人可以使用故障检测方法来计算在先前步骤中获得的诊断的置信度。在此步骤中,使用基于ConvNet的故障检测方法,将来自当前样本的其余图像与已鉴定生物的图像进行比较,以确立该算法在败血症诊断和病原体鉴定方面置信度如何。该最终步骤使算法能够区分含有已鉴定病原体的样本和含有与已鉴定病原体混淆的伪像的样本。另外,该步骤有助于区分形态相似的生物(例如大肠杆菌/其他杆状细菌),而在分析的先前阶段它们可能被相互混淆。

分析完成后,此方法可以返回败血症的诊断、病原体的预测身份以及诊断的置信度。此外,该方法还可以生成血液样本中任何被鉴定为潜在病原性的对象的图像。这些图像为临床医生提供了一种在接受诊断和开始治疗之前检查分析中收集的原始数据的方法。

这种方法的主要好处是即使在少量血液样本中,它对痕量的病原性细胞也具有敏感性。由于FIM允许直接分析血液样本中的每个细胞,因此这种方法可以从患有血流感染或败血症的患者中鉴定出血液样本,在这些情况下样本仅包含少量的病原性细胞。这种敏感性使得本发明的技术能够准确地分析甚至很小的血液样本,诸如可从新生儿患者获得的样本。重要的是,此方法的敏感性使得可以省去许多其他诊断血流感染的技术所需的24-48小时的培养步骤,而替代地直接从血液样本中寻找病原性细胞。尽管其他技术(诸如基于流式细胞仪或聚合酶链反应(PCR)的技术)也可以消除此培养步骤,但这些方法中许多都依赖于特定于生物的标记或引物来实现检测病原性细胞所需的敏感性,而无需依赖于细胞培养。发明人提出的方法不需要标记即可检测给定样本中可能存在的痕量的任何病原性细胞。

该算法的敏感性降低了执行分析所需的时间量和血液量。所提出的分析的每个步骤都可以快速执行;样本制备所需的时间可以忽略不计,ConvNet分析可以在训练网络后几秒钟内完成,且对于50μL血液样本可以在一小时内完成FIM。这种新颖的方法可以在大约一小时内诊断出败血症-显著快于血液培养所需的24-72小时以及许多基于PCR的方法所需的4-8小时。此外,这种方法不需要从患者那里采集大量的血液样本来检测病原体,并且被设计为即使从一滴血中也可以进行准确的败血症诊断。最小的体积和分析时间要求使该方法非常适合诊断新生儿败血症。也可以使用这种方法分析更大的血液样本,由于额外的体积增加了分析时间,但可以更可靠地检测出病原体的痕量浓度。

与血液感染一样,可以使用图1所示的通用算法来诊断其他类型的样本(例如鼠类样本、阴道拭子)的感染。在这些应用中,可以训练ConvNets来区分病原体和通常存在于该流体中的颗粒,而不仅仅是血细胞。由于这些样本中的许多样本都含有很少的背景颗粒,因此与血液相比,诊断这些流体的感染要容易得多。在一个实施例中,本发明人已经表明,本文所述的新颖的流动成像显微镜和ConvNet方法允许快速鉴定尿液中的外来生物-先前使用大肠杆菌在模拟尿液中的悬浮液来确认的特征。图4示出了通过该分析获得的样本FIM图像。

在某些实施例中,本发明还结合了流动成像显微镜和机器学习算法,以监测在制药工业中用于生产生物分子的哺乳动物、细菌、真菌和昆虫细胞。在此类制造过程中,被改造成表达相关生物分子诸如蛋白质的细胞在培养容器中生长数小时至数周。至关重要的是这些细胞必须保留并表达在操作过程中产生相关蛋白质所必需的基因。细胞内基因的表达改变了它们的化学组成,并且由于化学组成的变化继而影响了细胞的折射率和光散射特性,流式显微镜图像反映了即使基因表达水平发生细微变化的指纹特征,ConvNet算法可以经过训练来检测该变化。因此,对流式显微镜图像的ConvNet分析可以对细胞结构的变化足够敏感,从而可以监测大量细胞群体内这些重组基因的表达水平。在该实施例中,可以在参考样本上训练ConvNet以生成在制造过程中使用的细胞系(在有和没有对目标蛋白进行编码的基因的情况下)的图像,诸如哺乳动物细胞(诸如中国仓鼠卵巢细胞)、细菌细胞(诸如大肠杆菌)、酵母细胞或昆虫细胞。然后可以使用流式显微镜对在制造过程中产生的样本进行成像,以鉴定表达蛋白质的细胞数量以及细胞群体的其他特征(诸如生存力)。

为了证明对FIM图像的ConvNet分析即使对细胞之间的微小遗传变化也是敏感的,本发明人使用FIM对两种大肠杆菌菌株进行成像;一种表达人类生长激素(hGH),另一种表达人类乳突病毒(HPV)的衣壳蛋白。使用FlowCam VS对这些菌株成像,并将其用于训练简单的4层ConvNet以区分这两种菌株。图5示出了这些生物的示例性FIM图像。图6示出了ConvNet分类器作为混淆矩阵的性能。

在一个优选实施例中,可以检测和分类用于监测在治疗性蛋白质制剂的制造过程中产生的蛋白质聚集体和其他颗粒的ConvNet。蛋白质制剂中的蛋白质聚集体和其他颗粒由于在临床上会带来严重的和潜在的致命不利影响,因此在制造过程中是一个重大的安全隐患。由于很难从这些溶液中完全去除颗粒,因此对于生产这些治疗品的公司来说,必须监测其产品中的这些颗粒,以确保每个小瓶中存在的颗粒浓度和结构与产品规格相符。尽管使用了各种技术来监测颗粒的数量和尺寸分布,但当前所使用的方法均无法实现快速监测颗粒的形态,或者根据形成颗粒的机理或它们对患者的相对安全风险对这些形态进行分类。如果有此类工具可用,则将有可能检测可能损害产品功效的颗粒结构变化。此外,由于颗粒形态的这种变化是由上游工艺异常引起的,因此可使用监测亚可见颗粒形态的技术来快速检测这些异常以保持产品的质量。

为了证明该实施例,本发明人训练了一种ConvNet来针对由两种模型过程异常(冻融应力和摇动应力)产生的颗粒鉴定通过模型填充加工操作生成的多克隆抗体的聚集体。图7示出了通过从灰度MFI 5200FIM仪器获得的每种机制生成的颗粒的FIM图像。此应用中的网络由三个卷积层组成。该网络在样本上进行了训练,以使用三元组损失方法区分训练集中通过每种机制生成的颗粒。本发明人将训练后的网络应用于含有由我们的模型填充加工过程生成的颗粒的合成FIM数据集,以模拟在正常过程条件下生成的颗粒。然后将该网络应用于含有上述过程通常生成的颗粒和搅拌应力生成的颗粒(训练过程中未显示网络的颗粒类型)按不同比例混合的混合物的合成FIM数据集,以模拟过程异常。图8示出了网络对合成FIM数据集的反应,其模拟了标准操作条件和上游过程异常。

为了证明该系统可以区分多种抗体类型和各种应力,本发明人寻求检测由经受以下各种应力的单克隆抗体(特别是IgG1)和多克隆抗体所生成的聚集体:“pH”应力,旨在模拟在病毒清除步骤中会遇到的整体溶液应力,以及摇动应力和冻融应力。这些蛋白质的彩色FIM图像使用FlowCam VS装置进行测量。

在与图9-图12相关联的结果中,“ConvNet特征提取模块”(2)中的ConvNet使用添加了挤压和激励模块的标准VGG样式的网络。网络的参数是使用新颖的定制成本函数获得的,该函数旨在对输出嵌入中的生物物理信息进行编码(此成本函数旨在分离体应力/界面应力以及单克隆抗体/多克隆抗体)。在该实施例中,用于定义受生物物理启发的嵌入的成本函数采用以下形式:

(公式I)其中,C表示训练集中标记类别的净数量,N表示训练样本的总数,x

下面的实施例更详细地描述“故障检测模块”。具体而言,在图10中,本发明人以图形方式展示了系统检测由于更改制造设备而导致的先验意外过程异常的能力(具体而言,由向上指向的深色三角形所示的嵌入表示通过在图9所示的数据上训练的评估“ConvNet特征提取模块”(2)在用新的泵类型处理多克隆抗体形成的新数据上得到的嵌入。本发明人以多克隆冻融为参考条件,以证明在对照图中以图形方式检测这种新型颗粒的能力(在图12中,本发明人展示了相对于该参考条件定量颗粒相似度的正式假设测试方法)。

在图11A中,本发明人集中于训练集中通过系统生成的多克隆嵌入,该训练集中是通过用蒸馏水洗涤小瓶而获得的(为清楚起见,省略了训练中的单克隆类别)。在图11B中,本发明人示出了相同的应力和多克隆抗体,但是这次由使用以痕量乙醇洗涤的小瓶获得的蛋白质形成。这种类别表示未明确包含在我们的嵌入框架中的新冲击。具体地,图11B以图形方式展示了小瓶上的痕量乙醇涂层如何影响嵌入形状。值得注意的是,乙醇的作用集中在容器的表面上,并影响两个表面应力的嵌入(摇动情况下聚集体被认为是通过空气-水界面形成,而冻融情况下聚集体被认为是在冰-水界面处形成,其中由于所使用的“冻融”冲击中的传热特性,结冰主要发生在固体玻璃小瓶上)。考虑到已知蛋白质小瓶类型的变化会在蛋白质治疗剂中引起不利的药物反应,因此检测具有不同表面化学性质的容器中形成的聚集体差异的能力尤其重要。应用于第二组意外过程应力的嵌入(即那些未包含在嵌入训练中的应力)展示了以图形方式检测对照图12中这种类型的新颗粒的能力,该对照图展示了相对于该参考条件定量颗粒相似度的正式假设测试方法)。

再次参考图12,本发明人定量了故障检测方法检测与嵌入的参考分布的偏离的能力。在该实施例中,基于来自上述条件的少量FIM图像,本发明人使用多克隆IVIG冻融应力作为参考情况或“零”。在我们的“故障检测模块”的该实施例中,本发明人利用高斯非参数核来估计训练参考条件下嵌入点的二维密度(尽管也可以使用任何其他参数或非参数方法来凭经验估计该密度)。对于希望定量嵌入分布与参考情况的相似性的新观察,本发明人使用估计的非参数密度来评估多元嵌入的Rosenblatt转换。在参考或零条件下,转换后的变量应该是均匀且恒等分布的多元随机变量。本发明人使用Kolmogorov-Smirnov(KS)拟合优度测试在零条件下进一步测试了均匀形状(尽管可以使用其他Copula转换结合其他假设测试,诸如Hong和Li的2005年“综合”测试或Remillard的2012年方法)以根据经验确定每个相关样本尺寸的拟合优度测试统计分布。图12报告了通过获取尺寸为20和50的随机样本并在各种零条件和零替代条件下进行KS测试获得的此程序的尺寸和功效(该表报告了分析10,000个尺寸为N的蒙特卡洛样本后获得的平均拒绝率,其中N为20或50,每种条件下的目标I型错误率均为5%;尽管本发明人报告了5%的α或I型错误率结果,但应注意,该方法输出p值,因此通过本发明的方法可以实现任何I型错误率。此外,应该明确指出的是,在标记为“参考条件”的情况下,本发明人使用了多克隆IVIG冻融应力方案来生成聚集体(零或参考条件样本),但此处分析的FIM图像未包含在训练数据集中(图像是从训练集中提供的小瓶中获得的);该数据集旨在使用未在进行ConvNet嵌入的训练中利用的新图像来取得目标I型错误(错误警报)。标记为“摇动冲击”和“病毒清除冲击”的情况在图9中被明确建模为应力条件,而其余情况(具有图10和图11中所示的嵌入)在嵌入模型中未明确考虑,但是两者都可以仅使用50个图像样本即可轻松进行检测。

以上所述的各种特征和过程可以彼此独立地使用或者可以以各种方式进行组合。所有可能的组合和子组合旨在落入本公开的范围内。另外,在一些实施例中,可以省略某些方法或过程框。本文所述的方法和过程也不限于任何特定的顺序,并且可以以适当的其他顺序执行与之相关的框或状态。例如,可以以不同于具体公开的顺序来执行所描述的框或状态,或者可以在单个框或状态中组合多个框或状态。示例性框或状态可以串行、并行或以其他方式执行。块或状态可以被添加到所公开的示例性实施例或从所公开的示例性实施例中去除。本文所述的示例性系统和组件可以被配置为与所描述的不同。例如,与所公开的示例性实施例相比,可以向其添加、从中移除或重新布置元件。

本文中所使用的条件性语言,诸如其中“可以(can)”、“可以(could)”、“可能(might)”或“可能(may)”、“例如”等,除非以其他方式明确指出,或者以其他方式在所使用的背景下使用,通常旨在传达特定实施例包含某些他特征、元件和/或步骤而其他实施例并不包含。因此,此类条件性语言一般并不旨在暗示特征、元件和/或步骤无论如何都是一个或多个实施例所必需的,或者一个或多个实施例在有或没有作者输入或提示的情况下都必然包含用于决定任何特定实施例中是否包含或将执行这些特征、元件和/或步骤的逻辑。术语“包括”、“包含”、“具有”等是同义词,以开放式方式内含地使用,并且不排除其他元件、特征、动作、操作等。同样,术语“或”以其包含的含义使用(而非以排他的含义使用),以便在例如用于连接元件列表时,术语“或”表示列表中的一个、一些或全部元件。

尽管已经描述了某些示例性实施例,但是这些实施例仅是通过示例的方式呈现的,并且并不旨在限制本文公开的本发明的范围。因此,以上描述中的任何内容都不意味着任何特定的特征、特性、步骤、模块或框是必要的或必不可少的。实际上,本文所述的新颖的方法和系统可以以多种其他形式来体现。此外,在不脱离本文公开的本发明的精神的情况下,可以对本文所述的方法和系统的形式进行各种省略、替换和改变。所附权利要求及其等同物旨在覆盖落入本文所公开的某些发明的范围和精神内的此类形式或修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号