首页> 中国专利> 癌症分类器模型、机器学习系统和使用方法

癌症分类器模型、机器学习系统和使用方法

摘要

本文公开了分类器模型、计算机实现的系统、机器学习系统及其方法,以用于将无症状患者分类为患有或患上癌症的风险类别和/或将患有或患上癌症的风险增加的患者分类为基于器官系统的恶性肿瘤类成员和/或分类为特定癌症类成员。

著录项

  • 公开/公告号CN112970067A

    专利类型发明专利

  • 公开/公告日2021-06-15

    原文格式PDF

  • 申请/专利权人 20/20基因系统股份有限公司;

    申请/专利号CN201980056329.0

  • 发明设计人 J·科恩;V·多西瓦;P·施;

    申请日2019-07-01

  • 分类号G16B25/10(20060101);G16B40/00(20060101);G16H10/40(20060101);G16H10/60(20060101);G16H50/20(20060101);G16H50/30(20060101);G16H80/00(20060101);G01N33/50(20060101);G01N33/574(20060101);

  • 代理机构44205 广州嘉权专利商标事务所有限公司;

  • 代理人黄琳娟

  • 地址 美国马里兰州

  • 入库时间 2023-06-19 11:26:00

说明书

相关申请的交叉引用

本申请要求于2018年6月30日提交的美国临时专利申请号62/692,683的权益,其全部内容通过引用并入本文。

技术领域

本申请总体上涉及由机器学习系统生成的分类器模型,其用纵向数据进行训练,以用于识别患上癌症风险增加的无症状患者和癌症类型,尤其是在无症状或症状不明确的患者中。

背景技术

对于许多类型的癌症,如果在肿瘤转移之前就开始手术和其他治疗干预措施,则患者的治疗效果会显著改进。因此,已经将成像和诊断测试引入医疗实践中,以试图帮助医生及早检测癌症。这些包括各种成像模式(诸如乳房X线摄影)以及用来识别血液和其他体液中的癌症特异性“生物标志物”的诊断测试,诸如前列腺特异性抗原(PSA)测试。许多这些测试的价值经常会被质疑,特别是关于与假阳性、假阴性等相关联的成本和风险是否超过了在实际挽救生命方面的潜在利益。此外,为了证明这种价值,必须在现实世界(前瞻性)研究中生成来自大量患者(数以千计或甚至数以万计)的数据,而非对实验室存储的样本进行回顾性分析。遗憾的是,对筛查工具进行大型前瞻性研究的成本不及理性预期的财务回报,因此,这些大型前瞻性研究几乎从未由私营部门完成,并且只是偶尔由政府资助。因此,数十年来,针对大多数癌症的早期检测的用于血液测试的使用范例几乎无进展。例如,在美国,PSA仍然是唯一被广泛用于癌症筛查的血液测试,甚至其使用也引起了争议。在世界的其他地区,尤其是远东地区,用于检测各种癌症的血液测试更为普遍,但在世界上那些地区几乎没有能确定或提高这种测试准确性的标准化或经验方法。

因此,期望在癌症筛查普遍的那些区域中提高癌症筛查的准确性和标准化,并且通过这样做,生成可以改进和/或鼓励在癌症筛查不那么普遍的那些区域中进行癌症筛查的工具和技术。

与检测病毒或细菌感染相比,癌症检测带来了重大的技术挑战,因为与病毒和细菌不同,癌细胞在生物学上与正常、健康的细胞类似并且难以区分。出于这种原因,与针对病毒或细菌感染的可比性测试或测量遗传、酶或激素异常的测试相比,用于癌症早期检测的测试通常遭受更高数量的假阳性和假阴性。这通常导致医疗保健从业者及其患者之间的混乱,从而在某些情况下导致不必要、昂贵和侵入性的后续检查,而在另一些情况下,则导致完全无视后续检查,从而引起过晚发现癌症而无法进行有效干预。医生和患者乐于接受产生二元决策或结果的测试,例如,患者对于某种疾病是阳性还是阴性,诸如在非处方验孕棒中观察到的那样,该非处方验孕棒呈现出例如加号或减号形状的免疫测定结果作为是否怀孕的指示。然而,除非诊断的灵敏度和特异性接近99%(对于大多数癌症测试而言无法达到的水平),否则这种二进制输出可能会高度误导或不准确。

因此,即使二进制输出并不实际,仍期望向医疗保健从业者及其患者提供关于他们患有或患上癌症(尤其是特定癌症)的可能性的更多定量信息。

由于与现代医学实践相关联的因素,检测早期癌症同样具有挑战性。特别是初级保健提供者,每天要看大量患者,而控制医疗保健费用的要求大大缩短了他们花费在每名患者身上的时间量。因此,医生通常没有足够的时间来深入了解家庭和生活方式的历史、就健康的生活方式向患者提供咨询,或对已经被建议进行超出其业务实践所提供测试范围的测试的患者进行随访。

因此,尤其期望为大量初级保健提供者提供有用的工具来帮助他们对患有癌症的患者进行分诊或比较其相对风险,以便他们可以为处于最高风险的那些患者预定附加的测试。

人工智能/机器学习系统可用于分析信息,并且可以帮助人类专家做出决策。例如,包含诊断决策支持系统的机器学习系统可以使用临床决策公式、规则、树或其他过程来协助医生作出诊断。

尽管已经开发了决策系统,但是这种系统并未在医疗实践中广泛使用,因为这些系统受到限制,使其无法集成到卫生组织的日常运营中。例如,决策系统可能会提供不可管理的数据量、仅依赖于略微重要的分析,并且与复杂的多重病症没有很好的关联(Greenhalgh,T.Evidence based medicine:a movement in crisis?BMJ(2014)348:g3725)。

许多不同的医护人员可能会查看患者,并且患者数据可能以结构化和非结构化形式散布在不同的计算机系统上。而且,系统难以交互(Berner,2006;Shortliffe,2006)。患者数据难以输入,诊断建议的列表可能过长,并且诊断建议背后的原因并不总是明显的。进一步,系统还没有足够专注于下一步行动,也没有帮助临床医生弄清楚该如何帮助患者(Shortliffe,2006)。

因此,期望提供允许使用人工智能/机器学习系统来辅助癌症的早期检测的方法和技术,特别是在利用血液测试的情况下。

发明内容

本文公开了分类器模型、机器学习系统、计算机实现的系统及其方法。

在实施例中,一种在包含至少一个处理器和至少一个存储器的计算机实现的系统中的方法,所述至少一个存储器包含由所述至少一个处理器执行以促使所述至少一个处理器实现一个或多个分类器模型以针对无症状患者预测患有或患上癌症的风险增加的指令,所述方法包含:从患者获得样本中的一组生物标志物的测量值,其中生物标志物的值对应于样本中的生物标志物的水平;获得对应于患者的包括至少年龄和性别的临床参数;使用第一分类器模型将患者分类为患有或患上癌症的风险类别,其中第一分类器模型由机器学习系统使用第一训练数据生成,所述第一训练数据包含针对患者群体的一组至少两个生物标志物、年龄和诊断指标的值;并且,其中当第一分类器模型的输出高于阈值时,第一分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量将患者分类为风险增加的类别;以及,当患者被分类为风险增加的类别时,向用户提供通知以对患者进行诊断测试。

在实施例中,机器学习系统进一步包含通过用新的训练数据训练第一分类器模型来迭代地重新生成第一分类器模型,以改进第一分类器模型的性能。在某些实施例中,分类器模型被迭代地重新生成,其中所述方法进一步包含:从诊断测试获得一个或多个测试结果,所述一个或多个测试结果确认或否认患者体内癌症的存在;将一个或多个测试结果合并到第一训练数据中,以用于进一步训练机器学习系统的第一分类器模型;以及由机器学习系统生成改进的第一分类器模型。

在某些实施例中,用于训练由机器学习系统生成的分类器模型的训练数据包含来自在提供样本后三个或更多个月没有癌症诊断的一组患者的一组数据。在某些其他实施例中,所述训练数据包含来自在提供样本后三个或更多个月具有癌症诊断的一组患者的一组数据。

在其他实施例中,一种在包含至少一个处理器和至少一个存储器的计算机实现的系统中的方法,所述至少一个存储器包含由所述至少一个处理器执行以促使所述至少一个处理器实现一个或多个分类器模型以针对患有或患上癌症的风险增加的患者预测基于器官系统的恶性肿瘤的指令,所述方法包含:

a)从患者获得样本中的一组生物标志物的测量值,其中生物标志物的值对应于样本中的生物标志物的水平;

b)从患者获得包括至少年龄和性别的临床参数;

c)使用癌症分类器模型将患者分类为器官系统类成员,其中癌症分类器模型由机器学习系统使用训练数据生成,所述训练数据包含针对患者群体的来自一组至少两个生物标志物、年龄和诊断指标的值;并且,

其中所述癌症分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量指定器官系统类成员;以及,

d)当患者被预测为患有基于器官系统的恶性肿瘤时,向用户提供通知以对患者进行诊断测试。

在某些实施例中,本文提供了一种在包含至少一个处理器和至少一个存储器的计算机实现的系统中的方法,所述至少一个存储器包含由所述至少一个处理器执行以促使所述至少一个处理器实现一个或多个分类器模型以针对患有或患上癌症的风险增加的患者预测基于器官系统的恶性肿瘤的指令,所述方法包含:

a)从患者获得样本中的一组生物标志物的测量值,其中生物标志物的值对应于样本中的生物标志物的水平;

b)获得对应于患者的包括至少年龄和性别的临床参数;

c)使用第一分类器模型将患者分类为患有或患上癌症的风险类别,其中第一分类器模型由机器学习系统使用第一训练数据生成,所述第一训练数据包含针对患者群体的一组至少两个生物标志物、年龄和诊断指标的值;并且,

其中当第一分类器模型的输出高于阈值时,第一分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量将患者分类为风险增加的类别;

d)使用第二分类器模型将患者分类为器官系统类成员,其中第二分类器模型由机器学习系统融合训练数据生成,所述训练数据包含针对患者群体的来自一组至少两个生物标志物、年龄和诊断指标的值;并且,

其中癌症分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量指定器官系统类成员;以及,

e)当患者被预测为患有基于器官系统的恶性肿瘤时,向用户提供通知以对患者进行诊断测试。

在实施例中,本文提供了一种用于针对患有或患上癌症的风险增加的患者预测基于器官系统的恶性肿瘤的机器学习,所述机器学习包含至少一个处理器,其中所述处理器配置为:

a)从患者获得样本中的一组生物标志物的测量值,其中生物标志物的值对应于样本中的生物标志物的水平;

b)从患者获得包括年龄和性别的临床参数;

c)由机器学习系统生成第一分类器模型,以将患者分类为患有或患上癌症的风险类别,

其中当第一分类器模型的输出大于阈值时,第一分类器模型将患者分类为风险增加的类别,并且

其中第一分类器模型由机器学习系统使用训练数据生成,所述训练数据包含针对患者群体的来自一组至少六个生物标志物、年龄、性别和诊断指标的值;

d)由机器学习系统生成第二分类器模型,以将患者分类为器官系统类成员,

其中癌症分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量指定器官系统类成员,并且

其中第二分类器模型由机器学习系统使用训练数据生成,所述训练数据包含针对患者群体的来自一组至少两个生物标志物、年龄和诊断指标的值;以及,

e)向用户提供通知以对患者进行诊断测试。

附图说明

附图通过示例而非限制的方式大体上示出了本文所公开的各种实施例。

图1A和图1B示出了性能最佳的机器学习模型、岭回归分析(AUC 0.875,约登指数0.628)(图1A)和SVM模型(AUC 0.816,约登指数0.631)(图1B)针对测试日期后约2年内男性受试者患上癌症的可能性的受试者工作特征(Receiver Operating Characteristic,ROC)曲线。参见示例1和表4。

图2示出了模式识别算法(kNN)的从被分类为患上癌症的“中度风险”或“高风险”的个体中确定前三个(N=3)器官系统的性能。该算法经过训练以预测个体中基于器官系统的恶性肿瘤风险,其中患上泛癌的概率大于0.5。参见示例2。

图3示出了分类器模型的输入变量(生物标志物测量值和年龄)表,以及基于输出(概率值)将每个患者分类为风险类别的情况。参见示例3。

图4示出了使用本发明的分类器模型对无症状患者执行预测患有或患上癌症的风险增加的方法的工作流程。

图5A和图5B示出了与用于预测癌症的个体生物标志物的测量(“任何高标志物”方法)相比,本发明的男性分类器模型针对灵敏度和特异性(图5A)以及0.87的对应曲线下面积(AUC)值(图5B)的显著改进。参见示例4。

图6A和图6B示出了本发明的男性分类器模型能够以82%的灵敏度和81%的特异性(阈值为0.5)区分癌症与非癌症。

图7A和图7B示出了本发明的女性分类器模型在预测一年内的癌症发展方面显著优于测量来自相同受试者的一组单独的生物标志物(图7A)和0.67的对应的AUC值(图7B)。与单个生物标志物“单阈值”方法相比,本发明的女性分类器模型是一种改进,其中与单阈值方法相比,灵敏度表现出4倍的增长。换句话说,与常规的“任何高标志物”方法相比,本发明的女性分类器模型在女性患者中识别出4倍多的癌症。

图8A和图8B示出了本发明的女性分类器模型能够以50%的灵敏度和74%的特异性(阈值为0.5)区分癌症与非癌症。

具体实施方式

本发明的实施例总体上涉及非侵入性方法、结合临床参数测量生物标志物(例如肿瘤抗原)的诊断测试特别是血液(包括血清或血浆)测试,以及由机器学习系统生成的分类模型,从而将患者指定为患有或患上癌症的风险类别,并且将被分类为患有或患上癌症的风险增加类别的患者指定为器官系统类成员,以确定是否应该以附加的更侵入性的诊断测试对该患者进行随访。

引言

本文公开了分类器模型,并且针对癌症用于无症状患者以用于肿瘤和/或隐匿性癌症的早期预测。分类器模型由机器学习系统使用训练数据生成,该训练数据包含针对患者群体的一组至少两个生物标志物、年龄和诊断指标的值。本发明的分类器模型已用生物标志物进行训练,这些标志物在患者接受诊断之前至少进行了3个月(甚至更长)的测量。在实施例中,训练数据包含来自在提供样本后三个或更多个月没有癌症诊断的一组患者的一组数据。在实施例中,训练数据包含来自在提供样本后三个或更多个月具有癌症诊断的一组患者的一组数据。参见示例1A。

在本发明中,通过从输入构建模型,使用机器学习系统来“训练”分类器模型。那些输入可以是纵向数据,其中已知的癌症诊断(包括匹配的对照)是在收集来自那些患者的测量的生物标志物和临床因素的数据后数月(甚至数年)来确定的。对于使用纵向癌症患者数据训练本发明的分类器模型,请参见示例1A和示例2。

本文提供了一种由机器学习系统生成的第一分类器模型,其中包括年龄作为输入变量(以及一组生物标志物值),并且对于模型的训练,显著且出乎意料地提高了第一分类器模型的性能。参见示例1B。在实施例中,分类器模型具有灵敏度值至少为0.8并且特异性值至少为0.8的受试者工作特征(ROC)曲线的性能。

在实施例中,本文提供了一种由机器学习系统生成的第一分类器模型,其将患者分类为患有或患上癌症的风险类别。在实施例中,当分类器模型的输出高于阈值时,使用的分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量将患者分类为风险增加的类别。在其他实施例中,当分类器模型的输出低于阈值时,分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量将患者分类为低风险类别。如本文所使用的,术语“风险增加”是指与该特定癌症在整个人群中的已知患病率相比,该癌症的存在或发展增加。参见示例3。

在实施例中,本文提供了一种由机器学习系统生成的第二分类器模型,其将患者分类为器官系统或特定癌症类成员。在实施例中,第二分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量指定器官系统或特定癌症类成员。在某些实施例中,当通过第一分类器模型将患者分类为风险增加的类别时,使用第二分类器模型将患者分类为器官系统或特定癌症类成员,并且其中第二分类器模型由机器学习系统使用训练数据生成,该训练数据包含针对患者群体的来自一组至少两个生物标志物、年龄和诊断指标的值。

在某些实施例中,分类器模型是静态的,并且其使用由包含至少一个处理器和至少一个存储器的计算机实现的系统来实现,该至少一个存储器包含由该至少一个处理器执行以促使该至少一个处理器执行以实现分类器模型的指令。在某些实施例中,机器学习系统通过用新的训练数据训练分类器模型来迭代地重新生成分类器模型,以改进分类器模型的性能。

在示例性实施例中,本发明方法使用第一分类器模型并且在包含至少一个处理器和至少一个存储器的计算机实现的系统中,该至少一个存储器包含由该至少一个处理器执行以促使该至少一个处理器实现一个或多个分类器模型以针对无症状患者预测患有或患上癌症的风险增加的指令,该方法包含:从患者获得样本中的一组生物标志物的测量值,其中生物标志物的值对应于样本中的生物标志物的水平;获得对应于患者的包括至少年龄和性别的临床参数;使用第一分类器模型将患者分类为患有或患上癌症的风险类别,其中该第一分类器模型由机器学习系统使用第一训练数据生成,该第一训练数据包含针对患者群体的一组至少两个生物标志物、年龄和诊断指标的值;并且,其中当第一分类器模型的输出高于阈值时,第一分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量将患者分类为风险增加的类别;以及当该患者被分类为风险增加的类别时,向用户提供通知以对患者进行诊断测试。参见示例1和示例3。

在其他示例性实施例中,本发明方法使用第二分类器模型并且在包含至少一个处理器和至少一个存储器的计算机实现的系统中,该至少一个存储器包含由该至少一个处理器执行以促使该至少一个处理器实现一个或多个分类器模型以针对患有或患上癌症的风险增加的患者预测基于器官系统的恶性肿瘤的指令,该方法包含:从患者获得样本中的一组生物标志物的测量值,其中生物标志物的值对应于样本中的生物标志物的水平;从患者获得包括至少年龄和性别的临床参数;使用第二分类器模型将患者分类为器官系统类成员,其中该分类器模型由机器学习系统使用训练数据生成,该训练数据包含针对患者群体的来自一组至少两个生物标志物、年龄和诊断指标的值;并且,其中癌症分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量指定器官系统类成员;以及,当患者被预测为患有基于器官系统的恶性肿瘤时,向用户提供通知以对患者进行诊断测试。参见示例2和示例3。

第一分类器模型为每位接受测试的患者得出数字风险评分,医生可以使用该数字风险评分进一步通知筛查程序,以更好地预测和诊断无症状患者的早期阶段癌症。可以使用第二分类器模型将被分类为风险增加的类别的那些患者进一步分类为类成员。该类成员可以是器官系统恶性肿瘤或特定的癌症类型。而且,如本文中更详细地公开的,机器学习系统适合于在实际临床环境中使用该系统时接收附加数据,并重新计算和改进性能,使得分类器模型使用得越多而变得越“智能”。

定义

如本文所使用的,如在专利文件中常见的那样,使用术语“一(a)”或“一(an)”用来包括一个或多于一个,这独立于“至少一个”或者“一个或多个”的任何其他实例或用法。

如本文所使用的,除非另有说明,否则术语“或”用于指非排他性的或,使得“A或B”包括:“A但不包括B”,“B但不包括A”,以及“A和B”。

如本文所使用的,术语“约”用于指近似、几乎、差不多或接近等于或等于所述的量的量,例如,所述量正/负约5%、约4%、约3%、约2%或约1%。

如本文所使用的,术语“无症状的”是指先前未被诊断出患有与现在被量化和分类的风险相同的癌症的患者或人类受试者。例如,人类受试者可能表现出诸如咳嗽、疲劳、疼痛等之类的症状,尽管先前未被诊断出患有肺癌,但是现在正在接受筛查以将其存在癌症的风险增加进行分类,对于目前的方法而言仍然被认为是“无症状的”。

如本文所使用的,术语“AUC”是指例如ROC曲线的曲线下面积。该值可以评估对给定样本群体的测试的优缺点或性能,其中值为1表示测试良好,范围往下到0.5,意味着该测试在对测试对象进行分类时提供了随机响应。由于AUC的范围仅为0.5到1.0,因此,AUC的小变化比度量范围为0到1或0到100%的类似变化具有显著的意义。当给出AUC的百分比变化时,将基于度量的整个范围为0.5到1.0的事实进行计算。各种统计数据包都可以计算ROC曲线的AUC,诸如JMP

如本文所使用的,术语“生物样本”和“测试样本”是指从任何给定受试者分离的所有生物流体和排泄物。在本发明的实施例的背景下,这种样本包括但不限于血液、血清、血浆、尿液、眼泪、唾液、汗液、活检、腹水、脑脊液、乳汁、淋巴液、支气管和其他灌洗样本或组织提取物样本。在某些实施例中,血液、血清、血浆和支气管灌洗液或其他液体样本是在本发明方法的背景下使用的方便的测试样本。

如本文所使用的,“生物标志物量度”是与可用于表征疾病存在或不存在的生物标志物有关的信息。这种信息可以包括浓度或与浓度成正比的测量值,或者以其他方式提供组织或生物流体中生物标志物表达的定性或定量指示。

如本文所使用的,术语“癌症”和“癌性”是指或描述哺乳动物中通常以不受控制的细胞生长为特征的生理状况。癌症的示例包括但不限于肺癌、乳腺癌、结肠癌、前列腺癌、肝细胞癌、胃癌、胰腺癌、宫颈癌、卵巢癌、肝癌、膀胱癌、泌尿道癌、甲状腺癌、肾癌、恶性肿瘤、黑素瘤和脑癌。

如本文所使用的,术语“群体”或“人群”是指具有共享因素或影响(诸如年龄、家族史、癌症危险因素、环境影响、病史等)的一组或一部分人类受试者。在一种情况下,如本文所使用的,“群体”是指具有共享的癌症危险因素的一组人类受试者;这在本文中也称为“疾病群体”。在另一种情况下,如本文所使用的,“群体”是指例如按年龄与癌症风险群体匹配的正常人群;在本文中也称为“正常群体”。“同一群体”是指与接受评估患有疾病(诸如癌症)风险的个体具有相同的共享癌症风险因素的一组人类受试者。

如本文所使用的,“机器学习”是指赋予计算机学习能力而无需明确编程的算法,包括从数据中学习并对数据做出预测的算法。机器学习算法包括但不限于决策树学习、人工神经网络(ANN)(在本文中也称为“神经网”)、深度学习神经网络、支持向量机、规则库机器学习、随机森林、逻辑回归、模式识别算法等。为清楚起见,可以将诸如线性回归或逻辑回归之类的算法用作机器学习过程的一部分。然而,可以理解,将线性回归或其他算法用作机器学习过程的一部分与用电子表格程序(诸如Excel)执行统计分析(诸如回归)不同。机器学习过程具有在新数据变得可用时不断学习和调整分类器模型的能力,并且不依赖于显式或基于规则的编程。统计建模依赖于发现变量之间的关系(例如数学方程式)来预测结果。

如本文所使用的,术语“病史”是指与患者相关联的任何类型的医疗信息。在一些实施例中,病史被存储在电子病历数据库中。病史可能包括临床数据(例如,成像模式、血液检查、生物标志物、癌性样本和对照样本、实验室等)、临床记录、症状、症状严重性、吸烟年限、疾病家族史、疾病历史、治疗和转归(outcomes)、指示特定的诊断的ICD代码、其他疾病的历史、放射学报告、影像学研究、报告、病史、从基因检测中鉴定出的遗传危险因素、基因突变等。

如本文所使用的,术语“风险增加”是指相对于在测试前人群已知的特定癌症的患病率,通过分类器模型分析后人类受试者的针对癌症的存在或发展的风险水平的增加。换句话说,在进行生物标志物测试和/或数据分析之前,人类受试者患癌症的风险可能为1%(基于人群中已知的癌症患病率),但是在使用分类器模型进行分析后,患者存在癌症的风险可能为8%,或者另选地为与群体相比增长了8倍。机器学习系统计算出患有癌症的风险为8%,并且在本文中更详细地提供了相对于群体或人群增加了8倍的风险。

如本文所使用的,术语“标志物”、“生物标志物”(或其片段)及其同义词,可互换使用,是指可以在样本中评估并与身体状况相关联的分子。例如,标志物包括表达的基因或它们的产物(例如蛋白质)或针对那些可以从人类样本(诸如血液、血清、实体组织等)中检测到的与身体或疾病状况相关联的蛋白质的自身抗体。这种生物标志物包括但不限于包含核苷酸、氨基酸、糖、脂肪酸、类固醇、代谢产物、多肽、蛋白质(诸如但不限于抗原和抗体)、碳水化合物、脂质、激素、抗体、用作生物分子的替代的感兴趣区域、它们的组合(例如,糖蛋白、核糖核蛋白、脂蛋白)的生物分子,以及涉及任何这种生物分子的任何复合物,诸如但不限于抗原与结合到所述抗原上的可用的表位的自身抗体之间形成的复合物。术语“生物标志物”还可以指包含至少5个连续氨基酸残基、优选地至少10个连续氨基酸残基、更优选地至少15个连续氨基酸残基并保留亲本多肽的生物学活性和/或某些功能特性(例如抗原性或结构域特征)的多肽(亲本)序列的一部分。本发明的标志物既指存在于癌细胞上或癌细胞中的肿瘤抗原,也指已经从癌细胞脱落到诸如血液或血清之类的体液中的肿瘤抗原。如本文所使用的,本发明的标志物还指身体针对那些肿瘤抗原产生的自身抗体。在一个方面,如本文所使用的“标志物”是指能够在人类受试者的血清中检测到的肿瘤抗原和自身抗体。还应理解的是,在本发明的方法中,在组中使用的标志物可以各自在分类器模型中做出相同的贡献,或者可以对某些生物标志物进行加权,其中组中的标志物在分类器模型中贡献不同的权重或数量。生物标志物可以包括指示癌症存在的任何生物物质,包括但不限于遗传、表观遗传、蛋白质组学、糖蛋白或成像生物标志物。生物标志物包括由肿瘤或癌症分泌的分子,包括无细胞的DNA、mRNA和基于蛋白质的产物(肿瘤标志物或抗原)等。

如本文所使用的,术语(肿瘤)癌症的“病理学”包括损害患者健康的所有现象。这包括但不限于异常或无法控制的细胞生长、转移、干扰邻近细胞的正常功能、以异常水平释放细胞因子或其他分泌产物、抑制或加重炎症或免疫反应、瘤形成、初癌、恶性肿瘤、侵袭周围或远处的组织或器官,诸如淋巴结等。

如本文所使用的,“生理学样本”包括来自生物流体和组织的样本。生物流体包括全血、血浆、血清、痰、尿液、汗液、淋巴液和肺泡灌洗液。组织样本包括来自实体肺组织或其他实体组织的活检、淋巴结活检组织、转移灶的活检。获得生理样本的方法是众所周知的。

如本文所使用的,术语“阳性预测评分”、“阳性预测值”或“PPV”是指生物标志物测试在一定范围内的评分是真阳性结果的可能性。它定义为真阳性结果的数量除以总阳性结果的数量。可以通过将测试灵敏度乘以测试人群中的疾病的患病率来计算出真阳性结果。假阳性可以通过乘以(1减去特异性)乘以(1-测试人群中的疾病的患病率)来计算。总阳性结果等于真阳性加假阳性。

如本文所使用的,术语“受试者工作特征曲线”或“ROC曲线”是用于区分两种人群(患有癌症的患者和对照(例如,没有癌症的人群))的特定特征的性能的图。基于单个特征的值,将整个人群(即患者和对照)中的数据按升序排序。然后,针对该特征的每个值,确定数据的真阳性率和假阳性率。真阳性率通过计算高于所考虑的该特征的值的病例数,然后除以患者总数来确定。假阳性率通过计算超出所考虑的该特征的值的对照数,然后除以对照总数来确定。

可以为单个特征以及其他单个输出生成ROC曲线,例如,组合在一起(诸如,相加、相减、相乘、加权等)以提供可以在ROC曲线中绘制的单个组合值的两个或更多个特征的组合。ROC曲线是测试的真阳性率(灵敏度)相对于测试的假阳性率(1-特异性)的图。ROC曲线提供了另一种快速筛选数据集的方法。如本文所使用的,本发明分类器模型的性能使用具有灵敏度和特异性值的计算的ROC曲线来确定。性能用于比较模型,同样也很重要的是,用于比较具有不同变量的模型,以选择对于预测患者是否患有或患上癌症具有最高准确度的分类器模型。

由机器学习系统生成的分类器模型及其使用

本文公开了分类器模型、计算机实现的系统、机器学习系统及其方法,以用于将无症状患者分类为患有或患上癌症的风险类别和/或将患有或患上癌症的风险增加的患者分类为基于器官系统的恶性肿瘤类成员和/或分类为特定癌症类成员。

本文公开的机器学习系统使用来自超过12,000名无症状男性患者和超过15,000名无症状女性患者的群体的纵向数据生成了本发明的分类器模型。参见示例1A和示例2。在这种情况下,测量了生物标志物,并对患者进行随访以提供将来的诊断指标(例如,无癌症发展或诊断出特定癌症)。通过使用在检测癌症之前数月甚至数年获得的生物标志物,提供了一种强大的工具来训练分类器模型,从而得到如由ROC曲线分析测量的高度准确的分类器模型。在实施例中,训练数据包含来自在提供样本后三个或更多个月没有癌症诊断的一组患者的数据。在实施例中,训练数据包含来自在提供样本后三个或更多个月具有癌症诊断的一组患者的数据。

在实施例中,无症状女性患者的群体用于训练要与女性患者一起使用的分类器模型,而无症状男性患者的群体用于训练要与男性患者一起使用的分类器模型。在实施例中,患者的性别用于选择分类器模型。在实施例中,训练数据包含的没有癌症的患者比患有癌症的患者的人数更多,其中分类器模型的训练包含通过使用分层抽样技术来对训练数据重新处理,以改进对阴性样本的选择。

出乎意料的是,包括年龄作为输入变量进行分类器模型的训练和使用进一步改进了分类器模型的性能。参见示例1B。在实施例中,分类器模型具有灵敏度值至少为0.8并且特异性值至少为0.8的受试者工作特征(ROC)曲线的性能。

在实施例中,机器学习系统生成可以是静态的分类器模型。换句话说,训练分类器模型,然后用计算机实现的系统实现其使用,其中输入患者数据(例如,生物标志物测量值和年龄),并且分类器模型提供用于对患者进行分类的输出。

在其他实施例中,分类器模型被连续地或例行地更新和改进,其中使用输入值、输出值连同来自患者的诊断指标进一步训练分类器模型。在实施例中,分类器模型具有灵敏度值至少为0.85并且特异性值至少为0.8的受试者工作特征(ROC)曲线的改进的性能。

在实施例中,通过机器学习系统进一步训练和改进分类器模型包含:(1)从诊断测试获得一个或多个测试结果,该一个或多个测试结果确认或否认患者体内癌症的存在,(2)将该一个或多个测试结果合并到训练数据中,以用于进一步训练该机器学习系统的分类器模型;以及(3)由该机器学习系统生成改进的分类器模型。在实施例中,诊断测试包含放射线照相筛查或组织活检。

在实施例中,本文提供了一种用于针对无症状患者预测患有或患上癌症的风险增加的分类器模型。在实施例中,该第一分类器模型由机器学习系统使用训练数据生成,该训练数据包含针对患者群体的一组至少两个生物标志物、年龄和诊断指标的值。在实施例中,使用仅来自男性群体或女性群体的数据来训练第一分类器模型。在实施例中,训练数据包含一组至少六个生物标志物的值。在实施例中,训练数据包含来自选自AFP、CEA、CA125、CA19-9、CA 15-3、CYFRA21-1、PSA和SCC的一组生物标志物的值。

在示例性实施例中,第一分类器模型由机器学习系统使用仅包含男性群体的训练数据(包含AFP、CEA、CA19-9、CYFRA21-1、PSA和SCC的一组六个生物标志物以及年龄的值)生成。在其他示例性实施例中,第一分类器模型由机器学习系统使用仅包含女性群体的训练数据(包含AFP、CEA、CA125、CA19-9、CA 15-3、CYFRA21-1和SCC的一组七个生物标志物以及年龄的值)生成。

在实施例中,当第一分类器模型的输出高于阈值时,第一分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量将患者分类为风险增加的类别。在实施例中,当第一分类器模型的输出低于阈值时,第一分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量将患者分类为低(例如,风险未增加)风险类别。在示例性实施例中,输出是概率值,其中阈值被设置成将患者分为低风险类别(其中其风险不超过反映训练数据的人群的那些患者)和风险增加的类别(与反映训练数据的人群相比,患有或患上癌症的风险增加的那些患者)。参见示例3和图3。在某些实施例中,风险增加的类别可以被进一步细分,诸如中风险类别和高风险类别。

在实施例中,可以将被分类为风险增加的类别的那些患者分配风险评分,诸如百分比,例如,100分之X或乘数。在某些实施例中,可以给患者分配2%至10%的风险评分(患有或患上癌症),其中用于训练分类器模型的群体中癌症的发生率约为1%。在实施例中,那些百分比风险评分可以表示为100分之X,例如,100分之3,其中具有该评分的患者在测量生物标志物后的一年内,患上癌症的风险大约为100分之3。在这种情况下,阈值截止值,其中等于或低于其的风险评分被认为是正常的,而高于其的风险评分被认为是风险增加的。在某些实施例中,阈值截止值可以是100分之1,对应于1%的异源群体中患有癌症的“正常”风险。

在某些其他实施例中,可以给患者分配乘数。在实施例中,风险评分不是输出值,而是分配给风险类别的值,诸如风险增加的类别,其中输出值用于将患者分类为风险类别。在某些实施例中,输出值是范围可以为0到1的预测概率值,其中该值用于将患者分类为风险类别。然后,通过将分配给风险类别的预测概率与群体中的癌症患病率进行比较,可以计算出分配给风险类别的风险评分。参见示例3。

在实施例中,患者可能患有或患上选自由以下项组成的群组中的癌症的风险增加:乳腺癌、胆管癌、骨癌、宫颈癌、结肠癌、结肠直肠癌、胆囊癌、肾癌、肝或肝细胞癌、小叶癌、肺癌、黑素瘤、卵巢癌、胰腺癌、前列腺癌、皮肤癌以及睾丸癌。

在实施例中,基于患者的性别来选择分类器模型。在实施例中,男性患者的输入变量包含来自一组至少六个生物标志物的测量值和年龄。在实施例中,该组生物标志物选自AFP、CEA、CA125、CA19-9、CA 15-3、CYFRA21-1、PSA和SCC。在示例性实施例中,男性患者的输入变量包含来自AFP、CEA、CA19-9、CYFRA21-1、PSA和SCC的测量值以及年龄。在其他实施例中,女性患者的输入变量包含来自一组至少六个生物标志物的测量值和年龄。在示例性实施例中,女性患者的输入变量包含来自AFP、CEA、CA125、CA19-9、CA 15-3、CYFRA21-1和SCC的测量值以及年龄。

在实施例中,第一分类器模型包含支持向量机、决策树、随机森林、神经网络、深度学习神经网络或逻辑回归算法。

本文公开了一种用于预测至少一种最可能的器官系统恶性肿瘤和/或特定癌症的第二分类器模型。在某些实施例中,将第二分类器模型应用于被分类为患有或患上癌症的风险增加的类别的患者。与第一分类器模型一样,用来自纵向研究的测量标志物和年龄训练第二分类器模型,其中一个分类器模型通过并针对女性患者进行训练,而另一个分类器模型通过并针对男性患者进行训练。

在实施例中,第二分类器模型由机器学习系统使用训练数据生成,该训练数据包含针对患者群体的来自一组至少两个生物标志物、年龄和诊断指标的值。在实施例中,使用来自仅男性群体或仅女性群体的数据来训练第二分类器模型。在实施例中,训练数据包含一组至少六个生物标志物的值。在实施例中,训练数据包含来自选自AFP、CEA、CA125、CA19-9、CA 15-3、CYFRA21-1、PSA和SCC的一组生物标志物的值。

在示例性实施例中,第二分类器模型由机器学习系统使用仅包含男性群体的训练数据(包含AFP、CEA、CA19-9、CYFRA21-1、PSA和SCC的一组六个生物标志物以及年龄的值)生成。在其他示例性实施例中,第二分类器模型由机器学习系统使用仅包含女性群体的训练数据(包含AFP、CEA、CA125、CA19-9、CA 15-3、CYFRA21-1和SCC的一组七个生物标志物以及年龄的值)生成。在实施例中,第二分类器模型具有灵敏度值至少为0.8并且特异性值至少为0.7的受试者工作特征(ROC)曲线的性能。

在实施例中,第二分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量将患者指定为器官系统类成员。在某些实施例中,第二分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量将患者指定为特定癌症类成员。在实施例中,类成员是针对选自泌尿生殖系统(GU)、胃肠道(GI)、肺、皮肤病学、血液学、神经系统、妇科或普通科的器官系统。参见示例3。在某些实施例中,类成员是针对选自乳腺癌、胆管癌、骨癌、宫颈癌、结肠癌、结肠直肠癌、胆囊癌、肾癌、肝或肝细胞癌、小叶癌、肺癌、黑素瘤、卵巢癌、胰腺癌、前列腺癌、皮肤癌或睾丸癌的癌症。

在实施例中,基于患者的性别来选择第二分类器模型。在实施例中,男性患者的输入变量包含来自一组至少六个生物标志物的测量值和年龄。在实施例中,该组生物标志物选自AFP、CEA、CA125、CA19-9、CA 15-3、CYFRA21-1、PSA和SCC。在示例性实施例中,男性患者的输入变量包含来自AFP、CEA、CA19-9、CYFRA21-1、PSA和SCC的测量值以及年龄。在其他实施例中,女性患者的输入变量包含来自一组至少六个生物标志物的测量值和年龄。在示例性实施例中,女性患者的输入变量包含来自AFP、CEA、CA125、CA19-9、CA 15-3、CYFRA21-1和SCC的测量值以及年龄。

在实施例中,第二分类器模型包含模式识别算法。在示例性实施例中,第二分类器模型包含k近邻算法(kNN)。在某些实施例中,第二分类器模型包含支持向量机、决策树、随机森林、神经网络、深度学习神经网络或逻辑回归算法。

本文公开了一种用于预测癌症的风险增加和/或基于器官系统的恶性肿瘤和/或特定癌症的机器学习系统,该机器学习系统包含至少一个处理器。

在某些实施例中,处理器配置为:从患者获得样本中的一组生物标志物的测量值,其中生物标志物的值对应于样本中的生物标志物的水平;从患者获得包括年龄和性别的临床参数;以及由机器学习系统生成第一分类器模型,以将患者分类为患有或患上癌症的风险类别,其中当第一分类器模型的输出大于阈值时,第一分类器模型将患者分类为风险增加的类别,并且其中第一分类器模型由机器学习系统使用训练数据生成,该训练数据包含针对患者群体的来自一组至少两个生物标志物、年龄、性别和诊断指标的值。在实施例中,训练数据来自纵向研究,其中在确认(或不确认)训练数据群体中的患者的癌症诊断之前的几个月或几年获得生物标志物测量值。

在某些其他实施例中,处理器配置为:从患者获得样本中的一组生物标志物的测量值,其中生物标志物的值对应于样本中的生物标志物的水平;从患者获得包括年龄和性别的临床参数;以及由机器学习系统生成第二分类器模型,以将患者分类为器官系统类成员,其中第二分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量指定器官系统类成员,并且其中第二分类器模型由机器学习系统使用训练数据生成,该训练数据包含针对患者群体的来自一组至少两个生物标志物、年龄和诊断指标的值。

在某些其他实施例中,处理器配置为:从患者获得样本中的一组生物标志物的测量值,其中生物标志物的值对应于样本中的生物标志物的水平;从患者获得包括年龄和性别的临床参数;以及由机器学习系统生成第二分类器模型,以将患者分类为特定癌症类成员,其中第二分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量指定特定癌症类成员,并且其中第二分类器模型由机器学习系统使用训练数据生成,该训练数据包含针对患者群体的来自一组至少两个生物标志物、年龄和诊断指标的值。

测量样本中的生物标志物

作为本发明方法的一部分,可以测量来自无症状人类受试者的一组标志物。本领域中有许多用于测量基因表达(例如,mRNA)或所得到的基因产物(例如,多肽或蛋白质)的已知方法,它们可以用于本发明方法中,并且是本领域技术人员已知的。然而,在至少二三十年中,肿瘤抗原(例如CEA、CA-125、PSA等)已成为全世界用于癌症检测的最广泛使用的生物标志物,并且作为本发明的优选肿瘤标志物类型。

对于肿瘤抗原的检测,优选地使用具有较大装机基础的公司的自动免疫测定分析仪进行测试。代表性的分析仪包括罗氏诊断(Roche Diagnostics)的

例如,可以使用本领域已知的一种或多种免疫测定法来确定测试样本中的一种或多种抗原或抗体的存在和定量。免疫测定法通常包含:(a)提供与生物标志物特异性结合的抗体(或抗原)(即抗原或抗体);(b)使测试样本与抗体或抗原接触;以及(c)检测测试样本中与抗原结合的抗体的复合物或测试样本中与抗体结合的抗原的复合物的存在。

众所周知的免疫结合测定包括例如酶联免疫吸附测定(ELISA)(也称为“夹心测定”)、酶免疫测定(EIA)、放射免疫测定(RIA)、荧光免疫测定(FIA)、化学发光免疫测定(CLIA)、计数免疫测定(CIA)、过滤介质酶免疫测定(META)、荧光连接免疫吸附测定(FLISA)、凝集免疫测定和多重荧光免疫测定(诸如Luminex Lab MAP)、免疫组化等。对于一般免疫测定的综述,另请参见Methods in Cell Biology:Antibodies in Cell Biology,volume 37(Asai,ed.1993);Basic and Clinical Immunology(Daniel P.Stites;1991)。

免疫测定可用于确定来自受试者的样本中的抗原的测试量。首先,可以使用上述免疫测定方法来检测样本中的抗原的测试量。如果样本中存在抗原,它将与抗体形成抗体-抗原复合物,该抗体如本文所述在合适培养条件下特异性结合抗原。抗体-抗原复合物的量、活性或浓度等可以通过将测量值与标准物或对照物进行比较来确定。然后可以使用已知的技术来计算抗原的AUC,诸如但不限于ROC分析。

在另一实施例中,在来自人类受试者的样本中测量标志物的基因表达(例如,mRNA)。例如,与石蜡包埋的组织一起使用的基因表达谱分析方法包括定量逆转录酶聚合酶链反应(qRT-PCR),但是,也可以使用其他技术平台,包括质谱仪和DNA微阵列。这些方法包括但不限于PCR、微阵列、基因表达的序列分析(SAGE)和通过大规模平行签名测序(MPSS)进行的基因表达分析。

提供用于测量来自人类受试者的标志物或标志物组的任何方法被考虑与本发明方法一起使用。在某些实施例中,来自人类受试者的样本是组织切片,诸如来自活检。在另一实施例中,来自人类受试者的样本是体液,诸如血液、血清、血浆或其一部分或一小部分。在其他实施例中,样本是血液或血清,并且标志物是从其测量的蛋白质。在又一实施例中,样本是组织切片,并且标志物是在其中表达的mRNA。也考虑来自人类受试者的样本形式和标志物形式的许多其他组合。

疾病(包括癌症)的许多标志物是已知的,并且可以选择已知的组,或者如本申请人所做的那样,可以基于对纵向临床样本中单独的标志物的测量来选择组,其中该组基于诸如癌症之类的期望疾病的经验数据生成。

可以采用的生物标志物的示例包括例如在体液样本(诸如抗体、抗原、小分子、蛋白质、激素、酶、基因等)中可检测的分子。然而,由于肿瘤抗原多年来的广泛使用以及经验证和标准化的检测试剂盒可用于其中许多与上述自动免疫测定平台一起使用的事实,使用肿瘤抗原具有许多优点。

在实施例中,一组生物标志物选自AFP、CEA、CA125、CA19-9、CA 15-3、CYFRA21-1、PSA和SCC。在某些实施例中,该组生物标志物选自抗p53、抗NY-ESO-1、抗ras、抗Neu、抗MAPKAPK3、细胞角蛋白8、细胞角蛋白19、细胞角蛋白18、CEA、CA125、CA15-3、CA19-9、Cyfra21-1、血清淀粉样蛋白A、proGRP和α1-抗胰蛋白酶(US 20120071334;US 20080160546;US20080133141;US 20070178504(各自均通过引用并入本文)。附加肿瘤标志物包括人类附睾蛋白4;降钙素、PAP、BR 27.29、Her-2;以及HE-4。

建议作为肺癌循环标志物的自身抗体包括p53、NY-ESO-1、CAGE、GBU4-5、膜联蛋白1、SOX2和IMPDH、磷酸甘油酸变位酶、ubiquillin、膜联蛋白I、膜联蛋白II和热休克蛋白70-9B(HSP70-9B)。

在某些实施例中,一组标志物包含与选自胆管癌、骨癌、胰腺癌、宫颈癌、结肠癌、结肠直肠癌、胆囊癌、肝或肝细胞癌、卵巢癌、睾丸癌、小叶癌、前列腺癌和皮肤癌或黑素瘤的癌症相关联的标志物。在其他实施例中,一组标志物包含与乳腺癌相关联的标志物。在某些实施例中,一组生物标志物包含与“泛癌”相关联的标志物。

在世界上的某些区域,最著名的是远东地区,许多医院和“健康检查中心”为患者提供了肿瘤标志物组,作为他们进行年度体检或检查的一部分。这些组是针对没有任何特定癌症的明显体征或症状或易感性的患者提供的,并不特定于任何一种肿瘤类型(即“泛癌”)。这种测试方法的示例是Y.-H.Wen et al.,Clinica Chimica Acta 450(2015)273-276,“Cancer Screening Through a Multi-Analyte Serum Biomarker Panel DuringHealth Check-Up Examinations:Results from a 12-year Experience”报告的一种。作者报告了2001年至2012年期间在中国台湾医院接受测试的40,000多名患者的结果。使用可从罗氏诊断、雅培诊断和西门子医疗诊断获得的试剂盒用以下生物标志物对患者进行了测试:AFP、CA 15-3、CA125、PSA、SCC、CEA、CA 19-9和CYFRA,21-1。该小组在该区域中识别出四种最常确诊的恶性肿瘤(即肝癌、肺癌、前列腺癌和结直肠癌)的敏感性分别为90.9%、75.0%、100%和76%。其中至少一种标志物显示出高于截止点的值的受试者被认为对该测定呈阳性。未报告算法。此外,该测试未考虑临床参数或生物标志物速度。

人们相信根据本发明的方法和机器学习系统可以改进和增强中国台湾人小组报告的泛癌生物标志物组,并容易地使其在世界其他地方使用。例如,可以采用将生物标志物值与临床参数相结合的算法,该算法可以使用机器学习软件自动进行改进。

组可以包含任何数量的标志物作为设计选择,从而寻求例如最大化分类器模型的特异性或灵敏度。因此,本发明的方法可以要求存在两个或更多个生物标志物、三个或更多个生物标志物、四个或更多个生物标志物、五个或更多个生物标志物、六个或更多个生物标志物、七个或更多个生物标志物、八个或更多个生物标志物中的至少一个作为设计选择。

因此,在一个实施例中,生物标志物组可以包含至少两个、至少三个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个或至少十个或更多个不同的标志物。在一个实施例中,生物标志物组包含约两至十个不同的标志物。在另一实施例中,生物标志物组包含约四至八个不同的标志物。在又一实施例中,标志物组包含约六个或约七个不同的标志物。

通常,将样本用于测定,并且结果可以是反映样本中该组的生物标志物中的每个生物标志物的存在的存在和水平(例如浓度、量、活性等)的数量范围。

对标志物的选择可以基于以下理解:每个标志物在进行测量和归一化时,均作为分类器模型的输入变量做出同等贡献。因此,在某些实施例中,测量并归一化组中的每个标志物,其中未对任何一个标志物赋予任何特定的权重。在这种情况下,每个标志物的权重为1。

在其他实施例中,对标志物的选择可以基于以下理解:每个标志物在进行测量和归一化时,作为分类器模型的输入变量做出不同等贡献。在这种情况下,组中的特定标志物可以加权为1的分数(例如,如果相对贡献较低)、1的倍数(例如,如果相对贡献较高)或1(例如,当相对贡献与组中其他标志物相比是中性的)。

在其他实施例中,机器学习系统可以在不对值进行归一化的情况下分析来自生物标志物组的值。因此,可以直接分析从用来进行测量的仪器获得的原始值。

现在,在“泛癌”和特定癌症筛查的背景下描述本文提出的实施例在临床环境中的用途。

在本文所公开的技术的使用者中有初级医疗保健从业者,他们可以包括专门从事内科医学或家庭实践的医生以及医生助手和执业护士。这些初级保健提供者通常每天都会接待大量患者。在一种情况下,由于吸烟史、年龄和其他生活方式因素,这些患者有患肺癌的风险。2012年,约有18%的美国人口是目前的吸烟者,而更多的是曾经吸烟的人,其罹患肺癌的风险要高于从未吸烟的人群。

来自患者(诸如50岁或更老的患者)的血液样本被发送到有资格使用一组生物标志物(诸如用于训练由机器学习系统生成的本发明分类器模型的那些生物标志物)测试样本的实验室。这种生物标志物的非限制性列表在本文中包括在包括示例的整个说明书在内。代替血液,也可以使用其他合适的体液,诸如痰或唾液。

然后将生物标志物的测量值与年龄一起用作输入值,以与计算机实现的系统中的第一分类器模型一起使用。获得输出值并将其与阈值进行比较,其中该阈值根据经验确定并被设置为将低风险类别的患者与患有或患上癌症的风险增加的患者分开。使用纵向临床数据根据经验确定该阈值。如果要在护理现场而不是在实验室做出风险计算,则可以采用与移动设备(例如平板电脑或智能手机)兼容的软件应用。

对于那些被分类为风险增加的类别的患者,可将测量的生物标志物和年龄的输入变量与计算机实现的系统中的第二分类器模型一起使用。获得输出值并将其与用于训练第二分类器模型并指定了类成员的纵向临床数据进行比较,其中类成员是器官系统。在某些实施例中,类成员进一步由特定的癌症类型(例如肺癌)定义。

一旦医生或医疗保健从业者具有患者的风险评分(即,相对于具有类似流行病学因素的其他人群,患者患有或将患上癌症的风险)和最可能的器官恶性肿瘤或特定癌症的风险评分,则可以对那些风险较高的患者建议进行随访测试,诸如放射线照相筛查或组织活检。应当理解,建议超过其进行进一步测试的精确数值截止值可能会根据许多因素而变化,这些因素包括但不限于:(i)患者的意愿及其总体健康和家族史,(ii)医务委员会设立或科学组织建议的实践指南,(iii)医生自身的执业偏好,以及(iv)生物标志物测试的性质,包括其总体准确性和验证数据的强度。

人们相信使用本文提出的实施例将具有双重有益效果,即确保风险最大的患者接受进一步的诊断测试以便检测可以通过手术治愈的早期肿瘤和隐匿性癌症,同时减少与独立筛查相关联的假阳性的费用和负担。

本发明的实施例进一步提供一种用于评估受试者存在癌症的风险水平并将该风险水平与测试后相对于群体或人群的存在癌症增加或减少进行关联的装置。该装置可以包含处理器,该处理器配置为执行计算机可读介质指令(例如,计算机程序或软件应用,例如,机器学习系统,以从对样本中生物标志物的评估中接收浓度值,并且与其他风险因素(例如患者的病史、与患上癌症的风险有关的信息的公共可用资源等)结合,可以确定风险评分并将其与包含多个风险类别的一组分层人群进行比较。

该装置可以采取各种形式中的任何一种,例如,手持设备、平板电脑或任何其他类型的计算机或电子设备。该装置还可以包含配置为执行指令的处理器(例如,计算机软件产品,用于手持设备的应用、配置为执行该方法的手持设备、万维网(WWW)页面或其他云或可网络访问的位置或任何计算设备。在其他实施例中,该装置可以包括手持设备、平板电脑或用于访问作为软件即服务(SaaS)部署提供的机器学习系统的任何其他类型的计算机或电子设备。因此,相关性可以被显示为图形表示,在一些实施例中,该图形表示被存储在数据库或存储器(诸如随机存取存储器、只读存储器、磁盘、虚拟存储器等)中。也可以使用本领域已知的其他合适的表示或范例。

该装置可以进一步包含用于存储相关性的存储装置、输入装置和用于根据特定医疗状况显示受试者的状态的显示装置。该存储装置可以是例如随机存取存储器、只读存储器、高速缓存、缓冲器、磁盘、虚拟存储器或数据库。输入装置可以是例如小键盘、键盘、存储的数据、触摸屏、声控系统、可下载程序、可下载数据、数字接口、手持设备或红外信号设备。显示装置可以是例如计算机监视器、阴极射线管(CRT)、数字屏幕、发光二极管(LED)、液晶显示器(LCD)、X射线、压缩数字化的图片、视频图片或手持设备。该装置可以进一步包含数据库或与该数据库通信,其中数据库存储因素的相关性并且可由用户访问。

在本发明的另一实施例中,该装置是计算设备,例如呈计算机或手持设备的形式,该计算机或手持设备包括处理单元、存储器和存储装置。计算设备可以包括或可以访问计算环境,该计算环境包含各种计算机可读介质,诸如易失性存储器和非易失性存储器、可移动存储装置和/或不可移动存储装置。计算机存储装置包括例如RAM、ROM、EPROM和EEPROM、闪存存储器或其他存储技术、CDROM、数字多功能磁盘(DVD)或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储设备或本领域已知的能够存储计算机可读指令的其他介质。计算设备还可以包括或可以访问包含输入、输出和/或通信连接的计算环境。输入可以是一个或若干个设备,诸如键盘、鼠标、触摸屏或手写笔。输出也可以是一个或若干个设备,诸如视频显示器、打印机、音频输出设备、触摸刺激输出设备或屏幕读取输出设备。如果需要,可以将计算设备配置为使用通信连接在联网环境中操作以连接到一个或多个远程计算机。通信连接可以是例如局域网(LAN)、广域网(WAN)或其他网络,并且可以在云、有线网络、无线射频网络和/或红外网络上操作。

人工智能系统包括配置为执行通常由人类完成的任务(例如语音识别、决策、语言翻译、图像处理和识别等)的计算机系统。通常,人工智能系统具有学习、维护和访问大型信息库的能力,进行推理和分析以便做出决策的能力,以及自我校正的能力。

人工智能系统可以包括知识表示系统和机器学习系统。知识表示系统通常提供用来捕获和编码用于支持决策的信息的结构。机器学习系统能够分析数据以识别数据中的新趋势和模式。例如,机器学习系统可以包括神经网络、归纳算法、遗传算法等,并且可以通过分析数据中的模式来得出解决方案。

在某些实施例中,本发明的分类器模型包含算法,诸如支持向量机、决策树、随机森林、神经网络、深度学习神经网络、逻辑回归或模式识别算法。本发明的分类器模型可用于将单独的患者分类为多个类别中的一个,例如,指示癌症可能性的类别或指示癌症可能性较小的类别。分类器模型的输入可以包括与癌症的存在相关联的一组生物标志物以及临床参数。参见示例3。在实施例中,临床参数包括以下项中的一项或多项:(1)年龄;(2)性别;(3)以年为单位的吸烟史;(4)每年包数;(5)症状;(6)癌症家族史;(7)伴随疾病;(8)结节数量;(9)结节大小;以及(10)成像数据等等。在示例性实施例中,作为输入值中使用的临床参数是年龄,其中性别用于训练分类器模型,从而为男性患者提供分类器模型,并且为女性患者提供单独的分类器模型。

在某些实施例中,临床参数包括以年为单位的吸烟史、每年包数以及年龄。

在其他实施例中,生物标志物组包含任何两个、任何三个、任何四个、任何五个、任何六个、任何七个、任何八个、任何九个或任何十个生物标志物。在实施例中,生物标志物组包含选自由以下项组成的群组的两个或更多个生物标志物:AFP、CA125、CA 15-3、CA 19-19、CEA、CYFRA 21-1、HE-4、NSE、Pro-GRP、PSA、SCC、抗细胞周期蛋白E2、抗MAPKAPK3、抗NY-ESO-1和抗p53。在其他实施例中,生物标志物组包含CA 19-9、CEA、CYFRA 21-1、NSE、Pro-GRP和SCC。在其他实施例中,生物标志物组包含AFP、CA125、CA 15-3、CA-19-9、CEA、HE-4和PSA。在其他实施例中,生物标志物组包含AFP、CA125、CA 15-3、CA-19-9、降钙素、CEA、PAP和PSA。在其他实施例中,生物标志物组包含AFP、BR 27.29、CA12511、CA 15-3、CA-19-9、降钙素、CEA、Her-2和PSA。

多种机器学习模(包括支持向量机、决策树、随机森林、神经网络或深度学习神经网络)是可用的。通常,支持向量机(SVM)是监督学习模型,其可对数据进行分析以进行分类和回归分析。SVM可以在n维空间中绘制数据点的集合(例如,其中n是生物标志物和临床参数的数量),并通过找到可以将数据点的集合分为类的超平面来进行分类。在一些实施例中,超平面是线性的,而在其他实施例中,超平面是非线性的。SVM在高维空间中有效,在维数高于数据点数的情况下有效,并且通常在有清晰分离边界的数据集上很好地工作。

决策树是一种同样用于分类问题的监督学习算法。决策树可用于识别提供最佳同质数据集的最重要变量。决策树将数据点组拆分为一个或多个子集,然后可以将每个子集拆分为一个或多个附加类别,依此类推,直到形成终端节点(例如,不拆分的节点)。可以使用各种算法来决定在何处发生拆分,包括基尼系数(一种二进制拆分)、卡方、信息增益或变异简化。决策树具有快速识别大量变量中最重要的变量以及识别两个或多个变量之间关系的能力。附加地,决策树既可以处理数值数据也可以处理非数值数据。通常认为这种技术是非参数方法,例如数据不必符合正态分布。

随机森林(或随机决策森林)是一种适用于分类和回归两者的方法。在一些实施例中,随机森林方法构造具有可控方差的决策树的集合。通常,对于M个输入变量,小于M的多个变量(nvar)用于拆分数据点组。选择最佳分割,并重复该过程直到到达终端节点。随机森林特别适合处理大量输入变量(例如,数千个)以识别最重要的变量。随机森林对于估计丢失的数据同样有效。

在整个本申请中描述了神经网(也称为人工神经网(ANN))。神经网(其是一种非确定性机器学习技术)利用一层或多层隐藏节点来计算输出。选择输入并为每个输入分配权重。训练数据用于训练神经网络,并且调整输入和权重直到达到指定的量度(例如合适的特异性和敏感性)。

在因变量和自变量之间的相关性不是线性的或者使用方程式无法轻松进行分类的情况下,可以使用ANN对数据进行分类。存在超过25种不同类型的ANN,其中每种ANN基于不同的训练算法、激活/传递函数、隐藏层数等产生不同的结果。在一些实施例中,超过15种类型的传递函数可用于与神经网络一起使用。对患有癌症的可能性的预测基于一种或多种类型的ANN、激活/传递函数、隐藏层数、神经元/节点数和其他可自定义参数。

深度学习神经网络,即另一种机器学习技术,与常规神经网类似,但更为复杂(例如,通常具有多个隐藏层),并且能够以自动化方式自动执行操作(例如,特征提取),从而相比于传统神经网要求与用户的互动更少。

在一些实施例中,可以选择输入以便改进分类器模型的性能。例如,不同于选择以临床相关的特异性(诸如80%或更高)实现最高可能敏感性的一组输入,而是选择达到敏感性阈值(例如80%或更高)的输入,并且一旦达到该阈值,则选择输入以优化分类器模型的性能,从而改进分类器模型的性能。

因此,本文提出了关于使用机器学习系统(例如,以生成分类器模型)以识别患者患有癌症的风险的系统、方法和计算机可读介质。数据集存储在存储器中,可以由分类器模型或机器学习系统访问,该数据集包含多个患者记录,每个患者记录包括多个参数和患者的对应值,并且其中数据集还包括指示患者是否已被诊断出患有癌症的诊断指标。多个参数包括各种生物标志物、临床因素和其他因素,它们可以被选择作为分类器模型的输入。诊断指标是患者患有癌症的肯定指标,例如,肺部X射线和/或证实癌症的诊断的活检。选择多个参数的子集以输入到机器学习系统中,其中该子集包括一组至少两个不同的生物标志物和至少一个临床参数,诸如年龄。

为了训练由机器学习系统生成的分类器模型,将数据集(例如纵向的)随机划分为训练数据和验证数据。如本文所述,使用机器学习系统基于训练数据、输入的子集和与机器学习系统相关联的其他参数来生成分类器模型。确定分类器是否满足某些性能标准,诸如预定的受试者工作特征(ROC)统计,其规定了用于正确分类患者的敏感性和特异性。在实施例中,特异性至少为80%,并且敏感性至少为75%。参见示例1A和示例2。

当分类器模型不满足预定的ROC统计时,可以基于训练数据和输入的不同子集来迭代地重新生成分类器,直到分类器满足预定的ROC统计。当机器学习系统满足预定的ROC统计时,可以生成分类器的静态配置。可以将这种静态配置部署到医生办公室,以用于识别患有肺癌风险的患者,或者将其存储在医生办公室可以访问的远程服务器上。

一旦已经在训练数据上训练了分类器模型,就可以使用验证数据来验证分类器模型。验证数据也包括多个参数和患者的对应值,并且包括指示患者是否已被诊断出癌症的诊断指标。可以使用分类器模型对验证数据进行分类,并且可以基于该数据来确定分类器是否满足预定的性能标准,诸如ROC统计。当分类器模型不满足预定的ROC统计时,可以基于训练数据和多个参数的不同子集来迭代地重新生成分类器,直到重新生成的分类器满足预定的ROC统计。然后可以重复验证过程。

可以访问具有静态分类器模型的计算设备的用户可以将对应于患者的输入值输入到计算设备中。然后可以使用静态分类器将患者分类为指示患有癌症的可能性的风险类别,或者分类为指示未患有癌症的可能性的另一风险类别。然后,当患者被分类为指示患有癌症的可能性的类别时,系统可以向用户(例如医生)发送通知,建议进行附加的诊断测试(例如CT扫描、胸部x光检查或活检)。

在一些实施例中,由机器学习系统生成的分类器模型可以随着时间连续地训练。从诊断测试获得的确认或否认癌症的存在的测试结果可以合并到训练数据集中,以用于进一步训练机器学习系统,并由机器学习系统生成改进的分类器。

因此,在一些实施例中,测量来自患者的样本中的一组生物标志物的值。由机器学习系统生成分类器模型,以将患者分类为患有或患上癌症的风险类别,其中分类器模型具有敏感性至少为80%并且特异性至少为80%的ROC曲线的性能,并且其中使用包含至少两个不同生物标志物的一组生物标志物和至少一个临床参数(诸如年龄)来生成分类器。当将患者分类为患有或患上癌症的风险增加的类别时,向用户提供进行诊断测试的通知。在实施例中,针对患有癌症的可能性,可以将患有或患上癌症的风险类别进一步分类为定性组(例如,高、低、中等),或者可以将其分类为患有癌症的可能性的定量组(例如,百分比、乘数、风险评分、综合得分)。

在某些实施例中,对于被分类为患有或患上癌症的风险增加的类别的患者,第二分类器模型由机器学习系统生成,以将患者指定为器官系统和/或特定的癌症类成员,其中分类器模型具有敏感性至少为70%并且特异性至少为80%的ROC曲线的性能,并且其中使用包含至少两个不同生物标志物的一组生物标志物和至少一个临床参数(诸如年龄)来生成分类器。在分类为类成员之后,向用户提供进行诊断测试的通知。

在其他实施例中,一种计算机实现的方法,其使用具有耦合到存储器的一个或多个处理器的计算机系统来预测受试者患有或患上癌症的风险,该存储器存储一个或多个计算机可读指令以由该一个或多个处理器执行,该一个或多个计算机可读指令包含用于以下操作的指令:存储包含多个患者记录的数据集,每个患者记录包括用于患者的多个参数,并且其中该数据集还包括指示患者是否被诊断出患有癌症的诊断指标;选择多个参数以输入到机器学习系统中,其中该参数包括一组至少两个不同的生物标志物值和至少一种类型的临床数据;以及使用机器学习系统生成分类器,其中该分类器包含至少70%的敏感性和至少80%的特异性,并且其中该分类器基于输入的子集。

在一些实施例中,尽管机器学习系统可以随着时间演进以做出更准确的预测,但是机器学习系统可能具有按预定计划的方式展开改进的预测的能力。换句话说,机器学习系统用来确定风险的技术可以在一段时间内保持静态,从而在确定风险评分方面实现一致性。在指定的时间,机器学习系统可以部署更新的技术,该技术结合了对新数据的分析以产生改进的风险评分。因此,本文所述的机器学习系统可以以下方式操作:(1)以静态方式;(2)以半静态的方式,其中根据预定的时间表(例如,在特定时间)更新分类器;或(3)以连续方式,随着有新数据可用而更新。

示例

给出以下示例以便说明本发明的实践。它们并非旨在限制或限定本发明的整个范围。

示例1A:用于关于患上癌症对无症状患者进行分类的多标志物模型的开发:“泛癌”测试

本文提供了一种用于识别患上癌症风险增加的无症状患者的多标志物分类模型和方法。该风险可以分类为患上癌症“低”、“中等/中度”或“高风险”,其中这些类别的范围可以基于,例如,在6个月至一年内患上癌症的概率,其中该概率相对于异源群体中癌症的基线水平来测量。在本领域中应理解,在普通群体中癌症的发生率约为1%。在用于开发本发明的泛癌测试的群体中,癌症的患病率约为1.5%。有关使用测试和概率值的更多详细信息,请参见以下示例。分类器模型的开发以及标志物(血液和临床参数两者)的选择可以基于准确性、曲线下面积(AUC)、敏感性、特异性值和/或约登指数(敏感性+特异性–1)的组合,它们提供对分类器模型性能的量度。

泛癌测试的分类器模型的开发和持续学习通过12年周期中的纵向数据和/或回顾性数据进行,其中测量了生物标志物(连同性别和年龄),进行了统计分析,并且将数据与患上癌症的那些个体进行了关联。据此,生成并训练了包含算法的模型,以识别在接下来的6个月至一年中患上癌症的风险增加的那些个体。应用相同的原理来不断提高模型的准确性,其中将个体及其生物标志物测量值添加到群体中,并进一步训练模型。

本发明的“泛癌”模型是使用来自中国台湾的12,622名无症状男性和15,316名无症状女性的数据开发的,对他们的血清标志物基于肿瘤标志物组在12年的周期内进行了测量。男性群体测量了一组六个标志物(AFP、CEA、CA19-9、CA15-3、CA125、PSA、SCC和CYFRA21-1),而女性群体测量了一组七个标志物(AFP、CEA、CA19-9、CA125、CA15-3、SCC和CYFRA21-1)。所有的肿瘤标志物均使用市售的体外诊断(IVD)试剂盒和罗氏或雅培诊断制造的仪器进行测量。对肿瘤标志物的所有测定均满足美国病理学家协会(CAP)实验室认可计划的要求。从癌症登记处获得结果数据,以确定每位患者在肿瘤标志物测试后1年内是否接受了新的恶性肿瘤诊断。

将所有27,938个人随机分配到训练(2/3)或测试(1/3)集中。使用Matlab(Math-Works,美国马萨诸塞州纳蒂克市)进行所有随机化。

由于本研究中使用的数据集不平衡的性质(非癌症比真正癌症的数量要大得多),因此采用分层抽样技术进行了数据重新处理以改进阴性样本的选择。采用1:1的癌症与非癌比率,将分别来自8291和10107个非癌症病例中的124例男性和104例女性随机分配到最终训练集。因此,使用了包含男性124例新诊断癌症和124例非癌症病例以及女性104例癌症和104例非癌症病例的训练集来训练机器学习模型。

统计分析。针对所有12,622位男性个体测量了生物标志物组AFP、CEA、CA19-9、CYFRA21-1、SCC和PSA,并且针对所有15,316位女性个体测量了生物标志物组AFP、CEA、CA19-9、CA125、CA15-3、SCC和CYFRA21-1。应用变量选择过程以从那些血清肿瘤标志物中选择可靠的变量来设计癌症检测模型。对准确性、敏感性、特异性、AUC(曲线下面积)和约登指数进行比较,以选择最佳的机器学习模型。

约登指数被用作性能指标,用于选择本研究中在分类器模型中使用的变量。约登指数(其是生物医学研究中使用最广泛的性能指标之一)使用以下公式计算:约登指数=敏感性+特异性–1。

癌症筛查的统计算法和模型。在本研究中,使用机器学习方法设计了使用以上所测量的血清肿瘤标志物的多种癌症筛查模型,包括:SVM、kNN、MLR、序列最小优化(SMO)、J48决策树、基于邻域的聚类算法(NBC)、支持向量机库LibSVM、集成投票分类器(LibSVM、LR、NBC)和多层感知器(MLP)。

结果。为了使用机器学习方法和在男性群体中测量的一组六个生物标志物来设计癌症检测模型,使用约登指数评估了63种肿瘤标志物组合,以选择用于构建具有最高AUC和/或约登指数的高效癌症分类模型的适当变量组合。使用ROC曲线和AUC值来评估用于癌症预测的各种机器学习方法的性能。这些结果在以下表1中提供。

表1:使用包括所有6个生物标志物(AFP、CEA、CA19-9、CYFRA21-1、PSA和SCC)和年龄的模型的各种癌症筛查方法(男性)的比较

整合了多个生物标志物的所有各种机器学习方法的AUC值均优于单个生物标志物的AUC值,如先前发表的(Wen YH,Chang PY,Hsu CM,Wang HY,Chiu CT,Lu JJ.(2015)Cancer screening through a multi-analyte serum biomarker panel during healthcheck-up examinations:Results from a 12-year experience.Clinica chimica acta,International Journal of Clinical Chemistry 450:273–6;Wang HY,Hsieh CH,WenCN,Wen YH,Chen CH,Lu JJ(2016)Cancer Screening in an Asymptomatic Populationby Using Multiple Tumour Markers.PLoS ONE 11(6))。通过将用于单独的生物标志物的单阈值方法与具有相同数据集的本发明分类器模型进行比较,进一步验证了这一点。参见示例4和示例5。

对于男性个体,结合所有6个生物标志物(AFP、CEA、CA19-9、CYFRA21-1、PSA和SCC)和年龄的SVM(SMO、PolyKernel、无归一化)模型均达到最高的约登指数(0.631)(表1)。然而,结合相同变量(6个生物标志物和年龄)的岭回归模型获得了最高的AUC(表1)。

忽略任何一种标志物对SMO模型的性能(约登指数或AUC)具有最小的负面影响(表2)。对于岭回归模型,观察到了类似的趋势,除了对LR模型的性能没有影响的SCC生物标志物的遗漏之外(表3)。

表2:使用SMO(PolyKernel)(男性模型)进行的留一法分析。

表3:使用岭回归进行的留一法分析(男性模型)

基于以上结果,包括5个肿瘤标志物(无SCC)和年龄的逻辑回归模型略优于SMO模型(6个生物标志物和年龄),从而得到略高的AUC(0.875)和类似的约登指数(0.628)。参见图1和表4。

表4:针对男性的最佳癌症筛查算法和模型的性能

对女性群体进行了与上述相同的分析。然而,机器学习SVM模型的敏感性和特异性不如男性模型的高。相对于单阈值方法,针对女性的最佳ML模型(投票(Lib SVM、LR、NBC))的性能也得到了极大提高(约登指数分别为0.244和0.028)。

ML模型适合定期检查和重新定义。通过结合美国和亚洲群体使用更大的数据集,可以通过利用附加数据并扩大临床因素预测因子的数量来进一步提高女性泛癌模型的准确性。在不希望受理论束缚的情况下,可能的是女性模型也可以任选地考虑激素的波动,诸如在怀孕或月经周期期间,以进一步改进性能。

对于男性或女性个体,可以将已开发的泛癌模型应用于测量的生物标志物组以及年龄和性别,以确定个体患上癌症风险的可能性。在某些实施例中,患上癌症的时间范围是几个月,诸如在3个月内,并且长达约2年。在某些实施例中,个体患上癌症风险的“可能性”是高于背景的概率,即受测个体将在几个月至约2年内患上癌症。例如,个体可以被分类为“中度风险”,其中他们患上癌症的概率比基线多五倍(5倍),其中基线在普通群体中约为1%。换句话说,与在该同一时期内患上癌症的风险为1%的“低风险”个体相比,被分类为“中度风险”的受试个体患上癌症的风险为5%的可能性。

因此,随后可以选择被识别为“中度风险”或“高风险”的个体用于进一步分析,以为患有癌症风险增加的患者预测基于器官系统的恶性肿瘤。在某些实施例中,通过使用表5的选定模型,概率高于0.5(50%)的个体被分类为“中度风险”或“高风险”。概率值低于0.5(50%)的个体被分类为“低风险”。所选模型的性能的敏感性值为0.82并且特异性值为0.81。

在某些实施例中,提供了一种用于针对无症状患者预测患有癌症的风险增加的方法,该方法包含;测量来自患者的样本中的一组生物标志物的值;从患者获得包括年龄和性别的临床参数;利用由机器学习系统生成的分类器将患者分类为患有或患上癌症的低风险、中度风险或高风险类别,其中该分类器提供概率值,并且那些概率为0.5或更大的个体被分类为中度风险或高风险,并且其中分类器使用一组至少六个生物标志物、年龄、性别和来自多个患者记录的诊断指标来生成,并且其中分类器具有基于受试者工作特征(ROC)的曲线的敏感性值至少为0.8并且特异性值至少为0.8的性能;以及通知用户进行诊断测试。

在实施例中,本发明的分类器模型包含针对每个变量和针对每个性别的以下重要性因子。

表A:女性分类器模型

表B:男性分类器模型

示例1B:用于关于患上癌症对无症状患者进行分类的多标志物模型的改进:在模型中包括了临床因素“年龄”。

本文公开了一种用于关于患有或患上癌症对无症状患者进行分类的改进的多标志物模型。上述仅使用一组测量的生物标志物的分类器模型先前已发表,其中男性群体的受试者工作特征(ROC)曲线的性能非常低;敏感性值为.515,并且特异性值为.851。女性群体的ROC曲线的性能甚至更低,敏感性值为.345,并且特异性值为.880。参见表7和8:WangH.Y.,Hsieh C.H.,Wen C.N.,Wen Y.H.,Chen C.H.and Lu J.J.,“Cancers Screening inan Asymptomatic Population by Using Multiple Tumour Markers”PLoS One,June 29,2016。换句话说,仅使用测量的血清生物标志物的先前分类器模型可以排除特异性值至少为0.8的患者患癌症的风险。然而,先前的分类器模型在男性癌症预测中并不优于50%,对于女性而言甚至低于50%。该模型的性能在临床环境中不可用,其中与其他诊断手段(诸如活检或放射线照相筛查)相比,分类器模型需要识别有患有或患上癌症风险的无症状患者。如先前公布的那样,仅使用测量的血清生物标志物的分类器模型就帮助了125-200名男性中的1名,而4-7名男性中的1名受到了伤害(错误诊断);并且200-333名女性中有1名得到了帮助,而3-8名女性中有1名受到了伤害。

申请人惊讶地发现,将年龄包括在分类器模型中作为变量显著提高了分类器模型的性能。如示例1中所公开的,年龄在本发明分类器模型中与测量的血清生物标志物AFP、CEA、CA19-9、CYFRA 21-1和SCC一起使用,男性连同PSA一起,并且女性连同CA 15-3和CA125一起。表1示出了包括所有6个生物标志物(AFP、CEA、CA19-9、CYFRA21-1、PSA和SCC)和年龄的各种模型的对比,其中分类器模型的性能显著提高,其中(ROC曲线的)敏感性值至少为0.8并且特异性值至少为0.8。

示例2:用于针对基于泛癌测试的“高风险”和“中度风险”类别中个体预测基于器官系统恶性肿瘤的模型开发

如示例1中所确定的,本文提供了针对患有癌症风险增加的患者预测基于器官系统的恶性肿瘤的技术。该信息随后可用于将患者转介给专科医生进行更具侵入性的诊断测试。

使用整个癌症受试者群体(n=186)和相同的六个(或对于女性个体而言是5个)生物标志物测量值以及年龄和性别,我们应用了包含模式识别算法和k近邻算法(kNN)的模型,采用留一法评估方法来预测针对每个样本的前1、2、3、4、5、6、7、8、9或10名癌症。表5中报告了准确性,并且其反映了在前N名(表5中N=10)预测的癌症中发现的每种癌症类型的病例的百分比。显然,预测的准确性基于癌症类型和在某种程度上基于在数据集中发现的该类型病例的数量而变化。

表5:前N名癌症类型模型的准确性(男性)

因此,决定根据器官系统对癌症进行更广泛的分类,考虑到这可以建议应将患者转介的专家。进行了类似的分析,并且总结果如图2所示。当报告了最可能受影响的前三名的器官系统时,可以达到平衡的敏感性和特异性。在很大程度上,准确性/敏感性最能反映数据集中给定癌症类型的总病例数(即胃肠道(GI)和泌尿生殖系统(GU)癌症相对于皮肤癌)以及生物标志物的性质(例如,PSA特定于前列腺,因此特定于GU。

表6:

当使用包含模式识别算法、k近邻算法(kNN)的选定模型来确定在“中度风险”或“高风险”分类组中最容易患上癌症的前三名器官时,测试的性能的敏感性值为81%并且特异性值为72%。

在某些实施例中,提供了一种用于针对患有癌症风险增加的患者预测基于器官系统的恶性肿瘤的方法,该方法包含:测量来自患者的样本中的一组生物标志物的值;从患者获得包括年龄和性别的临床参数;利用机器学习系统将患有或患上癌症的风险增加的患者分类为适当的类别,以为该患者识别至少一种最可能的器官系统恶性肿瘤,其中分类器提供类成员,并且其中分类器使用一组至少六个生物标志物、年龄、性别和来自多个患者记录的诊断指标来生成,并且其中分类器具有基于受试者工作特征(ROC)曲线的敏感性值至少为0.8并且特异性值至少为0.7的性能;以及,向用户提供通知以进行诊断测试。

示例3:使用两步模型对患者患上癌症的可能性进行筛查,并预测癌症中最可能涉及的器官

本文提供了一种针对患有癌症风险增加的患者预测基于器官系统的恶性肿瘤的方法,其中将通过示例1中的群体训练的模型应用于所测量的生物标志物组以及年龄和性别的临床因素,以识别那些患有或患上癌症的风险增加的患者;泛癌测试。接下来,对于被分类为中度或高风险的那些患有或患上癌症的风险增加的概率为0.5(50%)的患者,将使用示例2的群体训练的模型应用于所测量的生物标志物组以及年龄和性别的临床因素,以提供癌症中所涉及的类成员(例如最有可能的器官系统(或前2或3名的器官系统));基于器官系统的恶性肿瘤测试。

如示例2中所公开的,训练后的模型预测了前三名器官系统。模型的输出可以按一个器官系统(其中前三个器官系统都相同)、两个器官系统(其中前三名器官系统中的两个相同)或三个器官系统(其中模型预测的前三名器官系统都不同)提供类成员。对于每个类内的器官系统(类成员)和代表性的癌症类型的列表,请参见表6。

在本发明示例中,首先使用根据示例1的泛癌测试筛查了八例无症状的患者(5例男性和3例女性),然后使用根据示例2的基于器官系统的恶性肿瘤测试进一步筛查了被分类为中度或高风险的患者。

测量了一组八个血清生物标志物,除了女性患者未检测PSA,并且男性患者未检测CA 125和/或CA 15-3之外。参见以下表7。对于每名患者,获得以下信息:

一般信息(年龄、性别、身高、体重、人种、种族、当前健康状况、健身水平)

健康史(高血压、糖尿病、慢性胰腺炎、结肠直肠息肉、克罗恩病、溃疡性结肠炎、COPD、慢性支气管炎、肺气肿等)

吸烟史(包年(pack years)、吸烟持续时间、戒烟年龄)

饮酒(每周次数、持续时间)

仅针对女性:分娩和母乳喂养信息、月经状态、避孕药史、BRCA1、BRCA2或其他高风险基因突变(例如TP53、PALB2、CDH1或ATM)

癌症筛查史(结肠镜检查、乙状结肠镜检查、乳房X线照片、肺癌的X射线或CT扫描、PAP/HPV测试)

癌症家族史(被诊断患有任何癌症的直系亲属)。

关于所测量的血清生物标志物、年龄和性别的表,请参见图3,它们用作输入到逻辑回归算法的变量以提供概率值。概率值的范围为从0到1,并且用于创建低、中度和高风险类别的概率范围对于男性和女性患者是不同的。泛癌测试模型的当前应用迭代为

低风险;0至0.57

中度风险;0.58至0.79

高风险;0.8至1。

对于概率值被分类为低风险的男性患者,这意味着具有在该范围内的概率值的个体中不到1%有可能被发现患有癌症。该风险水平与一般的异类群体相同;换句话说,与基线相比,低风险类别表示男性患者的风险没有增加。对于概率值被分类为中度风险的男性患者,这意味着在测量生物标志物后的一年内,具有在该范围内的概率值的100个个体中大约有5个被诊断出患有癌症。该风险水平大约是一年内5%患有或患上癌症,或与低风险类别相比增加了五倍(5x)。对于概率值被分类为高风险的男性患者,这意味着在测量那些生物标志物后的一年内,具有在该范围内的概率值的100个个体中大约有10个被诊断出患有癌症。该风险水平大约是一年内10%患有或患上癌症,或与低风险类别相比增加了十倍(10x)。

泛癌测试模型的当前应用迭代为

低风险;0至0.56X

中度风险;0.57至0.79

高风险;0.8至1。

对于概率值被分类为低风险的女性患者,这意味着具有在该范围内的概率值的个体中不到1%有可能被发现患有癌症。该风险水平与一般的异类群体相同;换句话说,与基线相比,低风险类别表示女性患者的风险没有增加。对于概率值被分类为中度风险的女性患者,这意味着在测量生物标志物后的一年内,具有在该范围内的概率值的100个个体中大约有2个被诊断出患有癌症。该风险水平大约是一年内2%患有或患上癌症,或与低风险类别相比增加了两倍(2x)。对于概率值被归类为高风险的女性患者,这意味着在测量那些生物标志物后的一年内,具有在该范围内的概率值的100个个体中大约有8个被诊断出患有癌症。该风险水平大约是一年内8%患有或患上癌症,或与低风险类别相比增加了八倍(8x)。

在应用当前模型和生物标志物测量值的情况下,男女之间风险增加的差异的一种可能解释是,女性中至多40%的诊断癌症是乳腺癌,并且截至目前,尚无良好的血液生物标志物与乳腺癌的存在相关联。

基于图3中患者的风险类别分类,将示例2的经过训练的模式识别模型应用于高风险和中度风险的男性患者和高风险的女性患者。将与图3相同的变量用作基于器官系统的恶性肿瘤测试模型的输入。输出是表示一组癌症类型的器官系统类成员,可以用于建议专科医生进行随访护理,其中可能包括放射线照相或侵入性诊断测试。

应用基于器官系统的恶性肿瘤测试模型提供了以下结果:

表7:

在实施例中,提供了一种利用两步机器学习过程来针对患有癌症的风险增加的患者预测基于器官系统的恶性肿瘤的方法,其中使用所测量的血清生物标志物和年龄作为输入变量来应用第一机器学习模型,其中性别用于选择所测量的生物标志物并训练分类器,以将患者分类为低风险(无风险增加)或中度或高风险,其中后两类表示与基线(低风险)相比一年内患有或患上癌症的风险增加。对于那些被分类为中度或高风险的患者,使用所测量的生物标志物、年龄和性别作为输入变量来应用第二机器学习分类器,并针对器官系统提供表示多个不同癌症类型的类成员。

在某些实施例中,提供了一种针对患有癌症的风险增加的患者预测基于器官系统的恶性肿瘤的方法,该方法包含:a)测量来自患者的样本中的一组生物标志物的值;b)从患者获得包括年龄和性别的临床参数;c)利用由机器学习系统生成的第一分类器将患者分类为患有或患上癌症的低风险、中度风险或高风险,其中该分类器提供概率值,并且那些概率为0.5或更大的个体被分类为中度风险或高风险,并且其中分类器使用一组至少六个生物标志物、年龄、性别和来自多个患者记录的诊断指标来生成;当在步骤c)中将患者分类为患上癌症的中度或高风险类别时,利用由机器学习系统生成的第二分类器来为该患者识别至少一个最可能的器官系统恶性肿瘤,其中分类器提供了类成员,并且其中该分类器使用一组至少六个生物标志物、年龄、性别和来自多个患者记录的诊断指标来生成;以及,e)向用户提供通知以进行诊断测试。

在一些实施例中,机器学习系统包含一个或多个机器学习处理器。在其他实施例中,机器学习处理器是深度学习处理器。在其他方面,一个或多个深度学习处理器使用训练数据来训练一个或多个分类模型。在一些方面,机器学习系统生成一个或多个分类器,以预测患有癌症或患上癌症、具有类成员或两者兼有的可能性。

在一些方面,机器学习模型可以包含一个或多个分类器、一个或多个输入,以及用于对输入进行加权的一个或多个加权因子,以及一个或多个分类模型。随着新的训练数据可用,机器学习模型可以不断得到改进。

示例4:男性分类器模型优于测量用于预测癌症的生物标志物的单一阈值方法

本文提供的证明是,如示例1中所开发的本发明的男性分类器模型在预测一年内的癌症发展方面比对来自相同受试者的一组单独生物标志物的测量明显更好。本发明的方法和分类器模型综合了生物标志物测量值和临床因素(诸如年龄)来预测患者的癌症风险,而先前的方法可能会测量同一组标志物,但如果任何一个所测量的生物标志物是“高”,则预测或认为患者患上癌症的风险增加。换句话说,高于被认为与临床相关的阈值的任何一个生物标志物都将表明患上癌症的风险增加的阳性测试。例如,以下表8提供了良好验证的肿瘤标志物的正常范围,高于正常范围的给定标志物的测量将表明患上癌症的可能性增加。与“任何高标志物”方法相比,根据示例1并用在示例3中的本发明的男性分类器模型,显著改进了预测癌症的敏感性和特异性。参见图5。

表8:具有良好验证性能的男性生物标志物:

本发明的男性分类器模型相对于常规方法(例如任何高标志物方法)在诊断准确性方面提供了实质性的改进;其中检测到男性患癌症多出2倍证实了敏感性的改进。此外,本发明的男性分类器模型能够以82%的敏感性和81%的特异性区分癌症和非癌症。参见图6。在该图中,低风险与中度或高风险之间的截止为50或.5。风险评分可以提供为0到1或0到100。

示例5:女性分类器模型优于测量用于预测癌症的生物标志物的单一阈值方法

本文提供的证明是,如示例1中所开发的本发明的女性分类器模型在预测一年内的癌症发展方面比对来自相同受试者的一组单独生物标志物的测量明显更好。值得注意的是,本发明的女性分类器模型改进了单独的生物标志物的“单阈值”方法,其中与单阈值方法相比,敏感性表现出4倍的增长。换句话说,与常规的“任何高标志物”方法相比,本发明的女性分类器模型在女性患者中识别出4倍多的癌症。参见图7。

以下表9提供了良好验证的肿瘤标志物的正常范围,高于正常范围的给定标志物的测量将表明相比于使用常规方法患上癌症的可能性增加。

表9:具有良好验证性能的女性生物标志物:

本发明的女性分类器模型相对于常规方法(例如任何高标志物方法)在诊断准确性方面提供了实质性的改进;其中检测到女性患癌症多出4倍证实了敏感性的改进。此外,本发明的女性分类器模型能够以50%的敏感性和74%的特异性区分癌症和非癌症。参见图8。在该图中,低风险与中度或高风险之间的截止为50或.5。风险评分可以提供为0到1或0到100,或者在100个患者中X个((在用于开发算法的人群中)评分达到或高于您评分的患者在测试这些生物标志物一年内被诊断出患有癌症)。在实施例中,异源群体的癌症发病率为100分之1,其中任何风险评分为100分之1被认为是正常风险,或无风险增加。在其他实施例中,风险评分为100分之2(或更高),则将患者分类为风险增加的类别。

示例6:当所有测量的生物标志物均在正常范围内时,筛查患者患上癌症的可能性并识别患上癌症的风险增加的患者

本文提供了一种针对无症状患者预测患有或患上癌症的风险增加的方法,其中将通过示例1中的群体训练的模型应用于所测量的生物标志物组以及年龄和性别的临床因素,以识别那些患有或患上癌症的风险增加的患者;泛癌测试。在实施例中,该方法和本发明的分类器模型使用在正常临床范围内的测量生物标志物的输入变量,其中当第一分类器模型的输出高于阈值时,泛癌分类器模型使用年龄和来自患者的一组生物标志物的测量值的输入变量将患者分类为风险增加的类别。

在本发明示例中,使用根据示例1和示例3的泛癌测试筛选了4名无症状患者(2名男性和2名女性)。在该示例中,表8的生物标志物经测量在正常范围内,但是本发明的男性分类器模型使用1%的阈值(异源群体中的癌症发生率)将两名患者均分类到风险增加的类别中。一名患者(mp#1)被分类为患有癌症的风险增加为100分之5(阳性预测值),而另一名患者(mp#2)被分类为患有癌症的风险增加为100分之12。随后Mp#1被诊断为1期肝癌,而mp#2随后被诊断为1期膀胱癌。在这两种情况下,本发明的男性分类器模型均将男性患者以高风险进行分类,而通常所有肿瘤标志物均低并不会引起关注。

在该示例中,表9的生物标志物经测量在正常范围内,但是本发明的女性分类器模型使用1%的阈值(异源群体中的癌症发生率)将两名患者均分类到风险增加的类别中。一名患者(fp#1)被分类为患有癌症的风险增加为100分之2(阳性预测值),而另一名患者(fp#2)被分类为患有癌症的风险增加为100分之3。Fp#随后被诊断为1B期肺癌,而fp#2随后被诊断为2B期乳腺癌。在这两种情况下,本发明的女性分类器模型均将女性患者以高风险进行分类,而通常所有肿瘤标志物均低并不会引起关注。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号