首页> 中国专利> 用于生物样品的多分析物测定的机器学习实施方式

用于生物样品的多分析物测定的机器学习实施方式

摘要

描述了使用多种类别的分子分析基于血液的癌症诊断测试的系统和方法。所述系统使用机器学习(ML)来分析来自生物样品的多种分析物,例如无细胞DNA、无细胞微RNA和循环蛋白。所述系统可以使用多种测定,例如全基因组测序、全基因组亚硫酸氢盐测序或EM‑seq、小RNA测序和定量免疫测定。这可以通过利用信号之间的独立信息来增加诊断的敏感性和特异性。在操作期间,所述系统接收生物样品,并且从所述样品分离多种分子类别。对于多种测定,所述系统鉴定待输入到机器学习模型中的特征组。所述系统针对每种分子类别进行测定并且由测量值形成特征向量。所述系统将所述特征向量输入到所述机器学习模型中,并且获得所述样品是否具有指定特性的输出分类。

著录项

说明书

相关申请的交叉引用

本申请要求以下美国临时专利申请的权益:

2018年4月13日提交的US 62/657,602,

2018年10月24日提交的US 62/749,955,

2018年6月18日提交的US 62/679,641,

2018年11月14日提交的US 62/767,435,

2018年6月1日提交的US 62/679,587,

2018年9月14日提交的US 62/731,557,

2018年10月8日提交的US 62/742,799,

2019年2月2日提交的US 62/804,614,

2018年11月14日提交的US 62/767,369,以及

2019年3月29日提交的US 62/824,709,所述申请的内容通过引用整体并入。

背景技术

癌症筛选是复杂的,并且各种癌症类型需要不同的方法来进行筛选和早期检测。患者依从性仍是一个问题-需要非血清分析物的筛选方法频繁地导致低参与度。分别用乳房X光片、巴氏涂片检查和乙状结肠镜检查/FOBT进行的针对乳腺癌、宫颈癌和结直肠癌的筛选率远低于美国预防服务工作组(USPSTF)推荐的100%依从性(Sabatinoet al,CancerScreening Test Use–United States,2013,MMWR,2015 64(17):464-468,Adler etal.BMC Gastroenterology 2014,14:183)。最近的报告发现,在2016年,目前为止根据州进行结直肠癌筛选的符合条件的成年人的百分比范围是58.5%(新墨西哥州)至75.9%(缅因州),平均值为67.3%。(Joseph DA,et al.Use of Colorectal Screening Tests byState.Prev Chronic Dis 2018;15:170535)。

基于血液的测试具有极大希望作为癌症诊断法并且用于精准医学中。然而,大多数当前的测试局限于分析单一类别的分子(例如,循环肿瘤DNA、血小板mRNA、循环蛋白)。血液中存在生物分析物的广泛补充物用于潜在分析,并且相关数据生成是重要的。然而,分析全部分析物是费力的,不经济的,并且可能注入相对于有用信号的巨大生物噪音,并且混淆用于诊断或精准医学应用的可用分析。

甚至在早期检测和基因组表征的情况下,仍然存在大量基因组分析无法推荐有效药物或可应用临床试验的情况。甚至在发现可靶向的基因组改变时,患者并不总是对疗法产生应答。(Pauli et al.,Cancer Discov.2017,7(5):462–477)。此外,存在针对检测方法使用循环肿瘤DNA(ctDNA)的敏感性屏障。ctDNA最近已经被评估为检测早期癌症的前瞻性分析物,并且已经发现其需要大量的血液来以必需的特异性和敏感性检测ctDNA。(Aravanis,A.et al.,Next-Generation Sequencing of Circulating Tumor DNA forEarly Cancer Detection,Cell,168:571-574)。由此,仍然难以实现简单的现成可用的单分析物测试。

在癌症诊断领域,机器学习可以实现大规模统计方法和信号强度的自动表征。然而,在分子诊断环境下应用于生物学的机器学习仍然是很大程度上尚未开发的领域,并且先前未被应用于诊断和精准医学的方面,诸如分析物选择、测定选择和总体优化。

因此,需要分析易于获得的生物分析物以对有风险患癌或已经患癌的个体进行分层,并且提供早期癌症的有效表征以指导治疗决策的方法。还需要将机器学习方法与分析物数据组合并以开发并改进在对个体群体进行分层和检测疾病诸如癌症中使用的分类器的方法。

发明内容

本文描述了将机器学习方法与生物样品中的一种或多种生物分析物合并以用于对个体群体进行分层的各种应用的方法和系统。在具体实例中,所述方法和系统可用于预测疾病、治疗功效并指导针对患病个体的治疗决策。

本发明的方法与其他方法和系统的不同之处在于,本发明的方法聚焦于表征循环的非细胞部分的方法,所述非细胞部分包含衍生于肿瘤细胞、由微环境诱导或培育的健康非肿瘤细胞和可能已经由个体中存在的肿瘤细胞培育的循环免疫细胞的分析物。

虽然其他方法涉及表征免疫系统的细胞部分,但是本发明的方法和系统询问循环的癌症培育的非细胞部分,以提供有根据的生物信息,所述生物信息然后与机器学习工具组合以用于可用的应用。研究液体生物样品(例如,血浆)中的非细胞分析物允许对样品进行去卷积,以概括处于活细胞状态的个体的组织和免疫细胞的分子状态。研究免疫系统的非细胞部分提供癌症状态的替代指示物,并且取代在用单独的ctDNA进行筛选时对于检测癌细胞和相关生物标记物的大量的血液的需要。

在第一方面,本公开提供了一种使用能够区分个体群体的分类器的方法,其包括:

a)测定生物样品中的多种类别的分子,其中所述测定提供多组代表所述多种类别的分子的测量值,

b)鉴定待输入到机器学习或统计模型中的一组特征,所述特征对应于所述多种类别的分子中的每一种的特性,

c)由所述多组测量值中的每一组制备特征值的特征向量,每个特征值对应于所述组的特征中的一个特征并且包含一个或多个测量值,其中所述特征向量包含使用所述多组测量值中的每组获得的至少一个特征值,

d)将包括分类器的机器学习模型加载到计算机系统的存储器中,所述机器学习模型使用从训练生物样品获得的训练向量来训练,所述训练生物样品的第一子集被鉴定为具有指定特性,并且所述训练生物样品的第二子集被鉴定为不具有所述指定特性,

e)将所述特征向量输入到所述机器学习模型中,以获得所述生物样品是否具有所述指定特性的输出分类,从而区分具有所述指定特性的个体群体。

作为实例,所述类别的分子可以选自核酸、聚氨基酸、碳水化合物或代谢物。作为另外的实例,所述类别的分子可以包含包括脱氧核糖核酸(DNA)、基因组DNA、质粒DNA、互补DNA(cDNA)、无细胞(例如,非包封)DNA(cfDNA)、循环肿瘤DNA(ctDNA)、核小体DNA、染色体DNA、线粒体DNA(miDNA)、人工核酸模拟物、重组核酸、质粒、病毒载体和染色质的核酸。在一个实例中,所述样品包括cfDNA。在一个实例中,所述样品包括外周血单核细胞衍生的(PBMC衍生的)基因组DNA。

作为另外的实例,所述类别的分子可以包含包括核糖核酸(RNA)、信使RNA(mRNA)、转运RNA(tRNA)、微RNA(mitoRNA)、核糖体RNA(rRNA)、循环RNA(cRNA)、可变剪接的mRNA、小核RNA(snRNA)、反义RNA、短发夹RNA(shRNA)或小干扰RNA(siRNA)的核酸。

作为另外的实例,所述类别的分子可以包含包括聚氨基酸、肽、蛋白、自身抗体或其片段的聚氨基酸。

作为另外的实例,所述类别的分子可以包含糖、脂质、氨基酸、脂肪酸、酚类化合物或生物碱。

在各种实例中,所述多种类别的分子包含以下中的至少两种:cfDNA分子、cfRNA分子、循环蛋白、抗体和代谢物。

关于本公开的各方面、本文的系统和方法的各种实例,所述多种类别的分子可以选自:1)cfDNA、cfRNA、聚氨基酸和小化学分子,或2)cfDNA和cfRNA以及聚氨基酸,3)cfDNA和cfRNA以及小化学分子,或4)cfDNA、聚氨基酸和小化学分子,或5)cfRNA、聚氨基酸和小化学分子,或6)cfDNA和cfRNA,或7)cfDNA和聚氨基酸,或8)cfDNA和小化学分子,或9)cfRNA和聚氨基酸,或10)cfRNA和小化学分子,或11)聚氨基酸和小化学分子。

在一个实例中,所述多种类别的分子是cfDNA、蛋白和自身抗体。

在各种实例中,所述多种测定可以包含以下中的至少两种:全基因组测序(WGS)、全基因组亚硫酸氢盐测序(WGSB)、小RNA测序、定量免疫测定、酶联免疫吸附测定(ELISA)、邻近延伸测定(PEA)、蛋白微阵列、质谱法、低覆盖率全基因组测序(lcWGS);选择性标记5mC测序(WO2019/051484)、CNV识别;肿瘤分数(TF)估计;全基因组亚硫酸氢盐测序;LINE-1CpG甲基化;56个基因CpG甲基化;cf-蛋白免疫定量ELISA、SIMOA;以及cf-miRNA测序和衍生于以上测定中的任一种的细胞类型或细胞表型混合部分。

在一个实例中,全基因组亚硫酸氢盐测序包含甲基化分析。

在各种实例中,生物样品的分类通过根据以下中的一种或多种训练和构建的分类器进行:线性判别分析(LDA);偏最小二乘法(PLS);随机森林;k最近邻(KNN);具有径向基函数核的支持向量机(SVM,SVMRadial);具有线性基函数核的SVM(SVMLinear);具有多项式基函数核的SVM(SVMPoly)、决策树、多层感知机、多专家模型、稀疏因子分析、层次分解以及线性代数例程和统计的组合。

在各种实例中,所述指定特性可以是临床诊断的病症。所述临床诊断的病症可以是癌症。作为实例,所述癌症可以选自结直肠癌、肝癌、肺癌、胰腺癌或乳腺癌。在一些实例中,所述指定特性是对于治疗的应答性。在一个实例中,所述指定特性可以是患者性状或表型的连续测量。

在第二方面,本公开提供了一种用于进行生物样品的分类的系统,其包括:

a)接收器,其用于接收多个训练样品,所述多个训练样品中的每一个具有多种类别的分子,其中所述多个训练样品中的每一个包括一个或多个已知标记,

b)特征模块,其用于鉴定对应于测定的可操作来输入到针对所述多个训练样品中的每一个的机器学习模型中的一组特征,其中所述组的特征对应于所述多个训练样品中的分子的特性,

其中对于所述多个训练样品中的每一个,所述系统可操作来使所述训练样品中的多种类别的分子经受多种不同测定以获得多组测量值,其中每组测量值来自应用于所述训练样品中的一种类别的分子的一种测定,其中针对所述多个训练样品获得多组测量值,

c)分析模块,其用于分析所述组的测量值以获得所述训练样品的训练向量,其中所述训练向量包括对应测定的N组特征的特征值,每个特征值对应于一个特征并且包含一个或多个测量值,其中所述训练向量使用来自所述N组特征的对应于所述多种不同测定的第一子集的至少两个的至少一个特征来形成,

d)标记模块,其用于使用所述机器学习模型的参数向所述系统告知所述训练向量以获得所述多个训练样品的输出标记,

e)比较器模块,其用于将所述输出标记与所述训练样品的已知标记进行比较,

f)训练模块,其用于基于所述将所述输出标记与所述训练样品的已知标记进行比较来迭代地搜索所述参数的最佳值,作为训练所述机器学习模型的一部分,以及

g)输出模块,其用于提供所述机器学习模型的所述参数和所述机器学习模型的所述组的特征。

在第三方面,本公开提供了一种用于基于生物样品组合物中的多分析物分析对受试者进行分类的系统,其包括:(a)计算机可读介质,其包括可操作来基于所述多分析物分析对所述受试者进行分类的分类器;以及(b)一个或多个处理器,其用于执行存储在所述计算机可读介质上的指令。

在一个实例中,所述系统包括被配置为机器学习分类器的分类回路,所述机器学习分类器选自线性判别分析(LDA)分类器、二次判别分析(QDA)分类器、支持向量机(SVM)分类器、随机森林(RF)分类器、线性核支持向量机分类器、一阶或二阶多项式核支持向量机分类器、岭回归分类器、弹性网络算法分类器、序列最小优化算法分类器、朴素贝叶斯算法分类器以及NMF预测器算法分类器。

在一个实例中,所述系统包括用于进行前述方法中的任一种的装置。在一个实例中,所述系统包括被配置来进行前述方法中的任一种的一个或多个处理器。在一个实例中,所述系统包括分别进行前述方法中的任一种的步骤的模块。

本公开的另一方面提供了一种非暂时性计算机可读介质,其包括在被一个或多个计算机处理器执行时实现以上或本文其他地方所述的方法中的任一种的机器可执行代码。

本公开的另一方面提供了一种包括一个或多个计算机处理器和与其耦合的计算机存储器的系统。所述计算机存储器包括在被所述一个或多个计算机处理器执行时实现以上或本文其他地方所述的方法中的任一种的机器可执行代码。

在第四方面,本公开提供了一种检测个体中癌症的存在的方法,其包括:

a)测定从所述个体获得的生物样品中的多种类别的分子,其中所述测定提供多组代表所述多种类别的分子的测量值,

b)鉴定待输入到机器学习模型中的一组特征,所述特征对应于所述多种类别的分子中的每一种的特性,

c)由所述多组测量值中的每一组制备特征值的特征向量,每个特征值对应于所述组的特征中的一个特征并且包含一个或多个测量值,其中所述特征向量包含使用所述多组测量值中的每组获得的至少一个特征值,

d)将机器学习模型加载到计算机系统的存储器中,所述机器学习模型使用从训练生物样品获得的训练向量来训练,所述训练生物样品的第一子集从患有癌症的个体鉴定,并且所述训练生物样品的第二子集从未患癌症的个体鉴定,

e)将所述特征向量输入到所述机器学习模型中,以获得所述生物样品是否与所述癌症相关联的输出分类,从而检测所述个体中所述癌症的存在。

在一个实例中,所述方法包括将来自分类器分析的分类数据组合以提供检测值,其中所述检测值指示个体中癌症的存在。

在一个实例中,所述方法包括将来自分类器分析的分类数据组合以提供检测值,其中所述检测值指示个体中癌症的阶段。

作为实例,所述癌症可以选自结直肠癌、肝癌、肺癌、胰腺癌或乳腺癌。在一个实例中,所述癌症是结直肠癌。

在第五方面,本公开提供了一种确定患有癌症的个体的预后的方法,其包括:

a)测定生物样品中的多种类别的分子,其中所述测定提供多组代表所述多种类别的分子的测量值,

b)鉴定待输入到机器学习模型中的一组特征,所述特征对应于所述多种类别的分子的特性,

由所述多组测量值中的每一组制备特征值的特征向量,每个特征值对应于所述组的特征中的一个特征并且包含一个或多个测量值,其中所述特征向量包含使用所述多组测量值中的每组获得的至少一个特征值,

c)将机器学习模型加载到计算机系统的存储器中,所述机器学习模型使用从训练生物样品获得的训练向量来训练,所述训练生物样品的第一子集从具有良好癌症预后的个体鉴定,并且所述训练生物样品的第二子集从不具有良好癌症预后的个体鉴定,

d)将所述特征向量输入到所述机器学习模型中,以获得所述生物样品是否与良好的癌症预后相关联的输出分类,从而确定所述患有癌症的个体的预后。

作为实例,所述癌症可以选自结直肠癌、肝癌、肺癌、胰腺癌或乳腺癌。

在第六方面,本公开提供了一种确定对于癌症治疗的应答性的方法,其包括:

a)测定生物样品中的多种类别的分子,其中所述测定提供多组代表所述多种类别的分子的测量值,

b)鉴定待输入到机器学习模型中的一组特征,所述特征对应于所述多种类别的分子中的每一种的特性,

由所述多组测量值中的每一组制备特征值的特征向量,每个特征值对应于所述组的特征中的一个特征并且包含一个或多个测量值,其中所述特征向量包含使用所述多组测量值中的每组获得的至少一个特征值,

c)将机器学习模型加载到计算机系统的存储器中,所述机器学习模型使用从训练生物样品获得的训练向量来训练,所述训练生物样品的第一子集从对于治疗产生应答的个体鉴定,并且所述训练生物样品的第二子集从对于治疗不产生应答的个体鉴定,

d)将所述特征向量输入到所述机器学习模型中,以获得所述生物样品是否与治疗应答相关联的输出分类,从而确定对于所述癌症治疗的应答性。

在一个实例中,所述癌症治疗选自烷基化剂、植物生物碱、抗肿瘤抗生素、抗代谢物、拓扑异构酶抑制剂、类维生素A、检查点抑制剂疗法或VEGF抑制剂。

在一个实例中,所述方法包括将来自分类器分析的分类数据组合以提供检测值,其中所述检测值指示个体中对于治疗的应答。

以下详细地描述这些和其他实例。例如,其他实例涉及与本文所述的方法相关联的系统、装置和计算机可读介质。

可以参考以下详细描述和附图来获得对于本公开的实例的性质和优点的更好理解。

附图说明

图1示出了被编程或以其他方式被配置来实现本文提供的方法的示例性系统。

图2是说明用于分析生物样品的方法的流程图。

图3示出了根据各个方面的总体框架。

图4示出了多分析物方法的综述。

图5示出了用于设计根据各个方面的测定和对应的机器学习模型的迭代过程。

图6是说明用于根据一个实施例进行生物样品的分类的方法的流程图。

图7A和图7B示出了不同分析物的分类性能。

图8A和图8B示出了基于cfDNA-seq数据具有高(>20%)肿瘤分数的个体的肿瘤分数cfDNA样品的分布。

图9示出了LINE-1位点处的CpG甲基化分析。

图10示出了cf-miRNA测序分析。

图11A示出了循环蛋白生物标记物分布。图11B示出了根据单向ANOVA,接着Sidak的多重比较检验显示跨组织类型的显著不同的水平的蛋白。

图12A示出了作为肿瘤分数的函数的cfDNA、CpG甲基化、cf-miRNA和蛋白计数的PCA。图12B示出了作为患者诊断的函数的cfDNA、CpG甲基化、cf-miRNA和蛋白计数的PCA。

图13示出了由通过使用cfDNA样品的基因组区域的Pearson/Spearman/Kendall相关生成的相关矩阵的细微差别结构确定的染色体结构分数的热图。

图14示出了由与图13中相同的基因组区域的Hi-C测序确定的染色体结构分数的热图。

图15A示出了由Hi-C、来自多个cfDNA样品的空间相关片段长度和来自单个cfDNA样品的空间相关片段长度分布生成的相关图。图15B示出了来自Hi-C、多样品cfDNA和单样品cfDNA的区室A/B的基因组浏览器轨道。图15C示出了Hi-C、多样品cfDNA(图15C)和单样品cfDNA(图15D)之间区室水平下的一致性的散点图。

图16A示出了在像素水平(500-kb仓)下Hi-C与cfHi-C之间的相关。图16B示出了在区室水平(500-kb仓)下Hi-C与cfHi-C之间的相关。

图17A示出了G+C%之前的cfHi-C的热图通过LOWESS从chr1上每个仓中的片段长度回归。图17B示出了G+C%之后的cfHi-C的热图通过LOWESS从chr1上每个仓中的片段长度回归。图17C示出了G+C%之前的gDNA的热图通过LOWESS从chr1上每个仓中的片段长度回归。图17D示出了G+C%之后的gDNA的热图通过LOWESS从chr1上每个仓中的片段长度回归。图17E示出了跨图17A-17D中表示的全部染色体的与Hi-C(WBC,rep2)的像素水平相关(Pearson和Spearman)的盒形图。

图18A示出了来自多样品cfHi-C的二维空间中的G+C%和可映射性偏差分析。图18B示出了来自单样品cfHi-C的二维空间中的G+C%和可映射性偏差分析。图18C示出了来自多样品基因组DNA的二维空间中的G+C%和可映射性偏差分析。图18D示出了来自单样品基因组DNA的二维空间中的G+C%和可映射性偏差分析。图18E示出了来自多样品cfHi-C的二维空间中的G+C%和可映射性偏差分析。图18F示出了来自Hi-C(WBC)的二维空间中的G+C%和可映射性偏差分析。

图19A示出了其中一个配对的仓相对于任何其他个体随机重排(chr14)的多样品cfHi-C的热图。图19B示出了来自与图19A相同批次的样品(11个样品;chr14)上多样品cfHi-C的热图。图19C示出了具有与图19B相同样品大小的样品(11个样品;chr14)上多样品cfHi-C的热图。图19D示出了跨图19A-19C中表示的全部染色体的与Hi-C(WBC,rep2)的像素水平相关的盒形图。

图20A示出了在不同的样品大小下Hi-C(WBC,rep1)与多样品cfHi-C之间的Pearson相关。图20B示出了在不同的样品大小下Hi-C(WBC,rep1)与多样品cfHi-C之间的Spearman相关。图20C示出了在不同的样品大小下Hi-C(WBC,rep2)与多样品cfHi-C之间的Pearson相关。图20D示出了在不同的样品大小下Hi-C(WBC,rep2)与多样品cfHi-C之间的Spearman相关。

图21A示出了在不同的仓大小下Hi-C与多样品cfHi-C之间像素水平下的Pearson相关。图21B示出了在不同的仓大小下Hi-C与多样品cfHi-C之间像素水平下的Spearman相关。图21C示出了在不同的仓大小下Hi-C与单样品cfHi-C之间像素水平下的Pearson相关。图21D示出了在不同的仓大小下Hi-C与单样品cfHi-C之间像素水平下的Spearman相关。图21E示出了在不同的仓大小下Hi-C与多样品cfHi-C之间区室水平下的Pearson相关。图21F示出了在不同的仓大小下Hi-C与多样品cfHi-C之间区室水平下的Spearman相关。图21G示出了在不同的仓大小下Hi-C与单样品cfHi-C之间区室水平下的Pearson相关。图21H示出了在不同的仓大小下Hi-C与单样品cfHi-C之间区室水平下的Spearman相关。

图22A示出了在下采样之后在不同的读取数下Hi-C与单样品cfHi-C之间像素水平下的Pearson和Spearman相关。图22B示出了在下采样之后在不同的读取数下Hi-C与单样品cfHi-C之间区室水平下的Pearson和Spearman相关。

图23A示出了健康样品和来自结肠癌、肺癌和黑素瘤的高肿瘤分数样品的核PCA(RBF核)。图23B至图23F示出了健康样品和来自结肠癌、肺癌和黑素瘤的高肿瘤分数样品的CCA。

图24示出了来自相同细胞类型(GM12878)的Hi-C的DNA可及性与区室水平特征值之间的相关图。

图25A示出了从健康、结直肠癌、肺癌和黑素瘤样品的单样品cfDNA推断的细胞组成的热图。图25B示出了从健康、结直肠癌、肺癌和黑素瘤样品的单样品cfDNA推断的细胞组成的饼图。图25C示出了从来自100个健康个体的单样品cfDNA推断的白细胞分数和肿瘤分数的盒形图。

图26示出了通过仅使用肺癌、黑素瘤和结肠癌的没有CNV变化的基因组区域进行的来自ichorCNA的肿瘤分数与来自cfHi-C的肿瘤分数之间的比较。

图27A示出了训练模式fork-fold、k-batch、平衡k-batch和有序k-batch。图27B示出了使用机构下采样方案的k-batch。

图28A示出了针对癌症检测评估的所有验证方法(例如,k-fold、k-batch、平衡k-batch和有序k-batch)的接受者操作特征(ROC)曲线的实例。图28B示出了跨所评估的所有验证方法的CRC阶段的敏感性。图28C示出了跨所评估的所有验证方法的IchorCNA估计的肿瘤分数的AUC。图28D示出了跨所评估的所有验证方法的年龄仓的AUC。图28E示出了跨所评估的所有验证方法的性别仓的AUC。

图29A示出了针对乳腺癌的交叉验证(ROC曲线)中的分类性能。图29B示出了针对肝癌的交叉验证(ROC曲线)中的分类性能。图29C示出了针对胰腺癌的交叉验证(ROC曲线)中的分类性能。

图30示出了根据类别的估计的肿瘤分数(TF)的分布。

图31A示出了当每重的训练组作为样品的百分比下采样时CRC分类的AUC性能。图31B示出了当每重的训练组作为样品的百分比或作为批次的百分比下采样时CRC分类的AUC性能。

图32示出了具有高肿瘤分数的健康样品的实例。

图33A示出了k-fold模型训练方法和交叉验证程序。图33B示出了训练模式fork-fold、k-batch和平衡k-batch。

图34A示出了年龄为50-84的患者中CRC阶段的敏感性。图34B示出了年龄为50-84的患者中肿瘤分数的敏感性。图34C示出了样品的总量之间CRC分类的AUC性能。

图35示出了衍生自cfDNA捕获蛋白-DNA关联的V图的示意图,其示出了染色质架构和转录状态。TF=转录因子(受保护的小印记区),NS=核小体(受保护的大区域,DNA的完整缠绕)。

图36示出了用于预测基因表达的TSS区域周围的cfDNA衍生的V图。

图37示出了使用片段长度和位置的表示的分类器使用不同的截止值对开启和关闭基因进行准确归类。

图38A-38C示出了通过阶段和估计的肿瘤分数使用肿瘤靶向的基因组进行的分类准确性。基于IchorCNA的肿瘤分数估计(ITF)随着阶段而增加,但是大多数I-III期CRC具有低估计ITF(<1%)(图38A)。性能随着阶段而增加,最主要在IV期(图38B)。性能最强烈地随着肿瘤分数而增加(图38C)。

图39A示出了肿瘤分数估计/44个结肠基因平均值P(开启的)。图39B示出了针对在chr8和chr9中含有拷贝数变化的强有力证据的健康样品的相对于平均值的倍数变化。

术语

除非明确地相反指示,否则“一个”、“一种”或“所述”的引用旨在意指“一个/种或多个/种”。除非明确地相反指示,否则使用“或”旨在意指“兼或”且不是“异或”。对于“第一”组分的提及不一定需要提供第二组分。此外,除非明确声明,否则对于“第一”或“第二”组分的提及不限制特定位置的参考组分。术语“基于”旨在意指“至少部分地基于”。

术语“曲线下的面积”或“AUC”是指接受者操作特征(ROC)曲线的曲线下的面积。AUC测量值可用于跨完整数据范围比较分类器的准确性。具有更大AUC的分类器具有更大的能力来在两个目标组(例如,癌症样品和正常或对照样品)之间正确地分类未知量。ROC曲线可用于对特定特征(例如,本文所述的生物标记物中的任一种和/或另外的生物医学信息的任何条目)在区分两个群体(例如,对于治疗剂产生应答和不产生应答的个体)中的性能进行作图。通常,跨整个群体(例如,病例和对照)的特征数据基于单个特征的值以升序分选。然后,对于该特征的每个值,计算所述数据的真阳性率和假阳性率。通过计数高于该特征的值的病例的数量并且然后除以病例的总数量来确定真阳性率。通过计数高于该特征的值的对照的数量并且然后除以对照的总数量来确定假阳性率。虽然此定义是指其中与对照相比特征在病例中升高的情况,但是此定义还适用于其中与对照相比特征在病例中更低的情况(在这种情况中,可以计数低于该特征的值的样品)。可以针对单个特征以及针对其他单个输出生成ROC曲线,例如,可以数学方式(例如,加、减、乘等)组合两个或更多个特征的组合以提供单个总和值,并且可以在ROC曲线中对该单个总和值进行作图。另外,可以在ROC曲线中对多个特征的任何组合(其中所述组合衍生单个输出值)进行作图。这些特征组合可以包括检验。ROC曲线是检验的真阳性率(敏感性)针对检验的假阳性率(1-特异性)的图。

术语“生物样品”(或简单地“样品”)是指从受试者获得的任何物质。样品可以含有或假定含有来自受试者的分析物,例如本文所述的那些(核酸、聚氨基酸、碳水化合物或代谢物)。在一些方面,样品可以包含体内获得、体外培养或原位处理的细胞和/或无细胞材料,以及谱系包含系谱和系统发育。在各个方面,生物样品可以是组织(例如,固体组织或液体组织),诸如来自受试者的正常或健康组织。固体组织的实例包含原代肿瘤、转移肿瘤、息肉或腺瘤。液体样品(例如,体液)的实例包含全血、来自血液的血沉棕黄层(其可以包含淋巴细胞)、尿液、唾液、脑脊液、血浆、血清、腹水、痰、汗液、泪液、颊样品、腔冲洗液或器官冲洗液。在一些情况下,液体是作为基本上无细胞液体样品的无细胞液体或包括无细胞核酸,例如无细胞DNA。在一些情况下,可以针对液体富集或从液体分离细胞(包含循环肿瘤细胞)。

术语“癌症”和“癌性”是指或描述哺乳动物的特征通常在于细胞生长不受调控的生理病状。肿瘤形成、恶性肿瘤、癌症和肿瘤经常可互换使用,并且是指由过度细胞分裂导致的组织或细胞的异常生长。

术语“无癌症”是指未被诊断患有该器官的癌症或不具有可检测癌症的受试者。

术语“遗传变体”(或“变体”)是指从一个或多个预期值偏离。实例包含序列变体或结构变化。在各种实例中,变体可以是指已知的(诸如科学上确认的且在文献中报告的)变体、与生物变化相关联的推定的变体、文献中报告但生物上未确认的推定的变体或文献中未报告但基于计算机分析推断的推定的变体。

术语“种系变体”是指诱导天然或正常变化(例如,肤色、发色和正常体重)的核酸。体细胞突变可以是指诱导获得性或异常变化(例如,癌症、肥胖、症状、疾病、病症等)的核酸。种系变体是遗传性的,并且因此对应于他或她与生俱来的相对于典型人类基因组的个体遗传差异。体细胞变体是在受精卵中或随后在细胞分裂、发育和老化的任何点处发生的变体。在一些实例中,分析可以区分种系变体,例如个人变体和体细胞突变。

术语“输入特征”(或“特征”)是指模型用于预测样品的输出分类(标记)例如病状、序列内容物(例如,突变)、建议的数据采集操作或建议的治疗的变量。可以针对样品确定变量的值并且用于确定分类。遗传数据的输入特征的实例包含:涉及序列数据(例如,序列读取)与基因组的比对的比对变量,和例如涉及序列读取的序列内容物、蛋白或自身抗体的测量值或基因组区域处的平均甲基化水平的非比对变量。

术语“机器学习模型”(或“模型”)是指参数和函数的集合,其中在一组训练样品上训练参数。参数和函数可以是线性代数运算、非线性代数运算和张量代数运算的集合。参数和函数可以包含统计函数、检验和概率模型。训练样品可以对应于具有样品的测量特性(例如,基因组数据和其他受试者数据,诸如图像或健康记录)以及受试者的已知分类/标记(例如,表型或治疗)的样品。模型可以在优化参数(和潜在地函数)的训练过程中从训练样品学习,以提供用于分类新样品的最佳质量度量(例如,准确性)。训练函数可以包含期望最大化、最大似然法、贝叶斯参数估计法(诸如马尔科夫链蒙特卡洛法、吉布斯采样、哈密尔顿蒙特卡洛法和变分推理)或基于梯度的方法(诸如随机梯度下降和布罗依丹-弗莱彻-戈德福布-香诺(BFGS)算法)。示例性参数包含例如在回归或神经网络中乘以值的权重(例如,向量或矩阵变换)、概率分布族或者分配分数并指导模型训练的损失、成本或目标函数。示例性参数包含例如在回归或神经网络中乘以值的权重。模型可以包含多个子模型,其可以是多层模型或独立模型,所述多层模型或独立模型可以具有不同的结构形式,例如神经网络和支持向量机(SVM)的组合。机器学习模型的实例包含深度学习模型、神经网络(例如,深度学习神经网络)、基于核的回归、自适应基础回归或分类、贝叶斯法、集成学习算法、逻辑回归和延伸、高斯过程、支持向量机(SVM)、概率模型和概率图模型。机器学习模型可以进一步包含特征工程化(例如,将特征集合到数据结构中,诸如1维、2维或更多维向量)和特征表示(例如,将特征的数据结构处理成变换特征以在训练中用于干扰分类)。

“标记物”或“标记物蛋白”是患者中存在的诊断指示物,并且直接或通过本发明的方法间接检测。优选间接检测。具体地,已经显示本发明的标记物全部导致在癌症患者或有风险发展癌症的患者中产生(自身)抗原。因此,检测这些标记物的简单方法是在来自患者的血液或血清样品中检测这些(自身)抗体。此类抗体可以通过在测定中结合其相应抗原来检测。此类抗原具体地是标记物蛋白本身或其抗原片段。合适的方法可以用于特异性地检测此类抗体-抗原反应,并且可以根据本公开的系统和方法使用。优选地,对样品的整个抗体含量进行归一化(例如,稀释至预定浓度)并应用于抗原。优选地,专一使用IgG、IgM、IgD、IgA或IgE抗体部分。优选的抗体是IgG。

术语“非癌性组织”是指来自其中恶性赘生物形成但是不具有赘生物的特征性病理的同一器官的组织。通常,非癌性组织在组织学上表现正常。如本文所用,“正常组织”或“健康组织”是指来自一个器官的组织,其中所述器官是非癌性的。

术语“多核苷酸”、“核苷酸”、“核酸”和“寡核苷酸”可互换使用。它们是指具有任何长度,仅在长度1处最小设界的核苷酸的聚合物形式,脱氧核糖核苷酸或核糖核苷酸或其模拟物。在一些实例中,多核苷酸具有任何三维结构,并且可以执行任何已知或未知的功能。核酸可以包括RNA、DNA(例如,基因组DNA、线粒体DNA、病毒DNA、合成DNA、从RNA逆转录的cDNA、细菌DNA、病毒DNA)和染色质。多核苷酸的非限制性实例包含基因或基因片段的编码或非编码区、由连锁分析定义的基因座(基因座)、外显子、内含子、信使RNA(mRNA)、转运RNA、核糖体RNA、核酶、cDNA、重组多核苷酸、支链多核苷酸、质粒、载体、任何序列的分离DNA、任何序列的分离RNA、核酸探针和引物,并且也可以是核苷酸的单个碱基。在一些实例中,多核苷酸包括经修饰的核苷酸,诸如甲基化或糖基化的核苷酸和核苷酸模拟物。如果存在,那么可以在聚合物装配之前或之后赋予对核苷酸结构的修饰。在一些实例中,通过非核苷酸组分中断核苷酸的序列。在某些实例中,在聚合之后诸如通过与标记组分缀合来进一步修饰多核苷酸。

术语“多肽”或“蛋白”或“肽”具体地旨在覆盖天然存在的蛋白以及重组或合成产生的那些。应注意,术语“多肽”或“蛋白”可以包含蛋白的天然存在的修饰形式,诸如糖基化形式。如本文所用,术语“多肽”或“蛋白”或“肽”旨在涵盖任何氨基酸序列并且包含修饰的序列,诸如糖蛋白。

如本文所用,术语“预测”是指患者对于药物或药物组有利地或不利地产生应答的可能性、概率或分数,并且还是指这些应答的程度和疾病的检测。本公开的示例性预测方法可以在临床上用于通过选择对于任何特定患者最适当的治疗模式来做出治疗决策。本公开的预测方法是预测患者是否可能对于治疗方案(诸如手术干预、化疗和给定药物或药物组合和/或放射疗法)有利地产生应答的有价值的工具。

如本文所用,术语“预后”是指罹患特定疾病或病症的受试者的临床结果的可能性。关于癌症,预后是受试者将存活(诸如一年、两年、三年、四年或五年)的可能性(概率)和/或肿瘤将转移的可能性(概率)的表示。

术语“特异性”(还被称为真阴性率)是指本身被正确地鉴定的实际阴性的比例的测量值(例如,正确地被鉴定为不具有病状的健康人的百分比)。特异性是真阴性识别(TN)和假阳性识别(FP)的数量的函数。特异性被测量为(TN)/(TN+FP)。

术语“敏感性”(还被称为真阳性率或检测概率)是指本身被正确地鉴定的实际阳性的比例的测量值(例如,正确地被鉴定为具有病状的患病人的百分比)。敏感性是真阳性识别(TP)和假阴性识别(FN)的数量的函数。敏感性被测量为(TP)/(TP+FN)。

术语“结构变化(SV)”是指与参考基因组的大小相差大约50bp和更大的DNA的区域。SV的实例包含倒位、易位和拷贝数变异(CNV),例如插入、删除和扩增。

术语“受试者”是指含有遗传物质的生物实体。生物实体的实例包含植物、动物或微生物,包含例如细菌、病毒、真菌和原生动物。在一些实例中,受试者是哺乳动物,例如可以是男性或女性的人类。此类人类可以是各种年龄,例如1天至约1岁、约1岁至约3岁、约3岁至约12岁、约13岁至约19岁、约20岁至约40岁、约40岁至约65岁或65岁以上。在各种实例中,受试者可以是健康的或正常的、异常的或被诊断或怀疑有风险患病的。在各种实例中,疾病包括癌症、病症、症状、综合征或其任何组合。

术语“训练样品”是指对于其分类可能是已知的样品。训练样品可以用于训练模型。样品的特征的值可以形成输入向量,例如训练样品的训练向量。训练向量(或其他输入向量)的每个元素可以对应于包含一个或多个变量的特征。例如,训练向量的元素可以对应于矩阵。样品的标记的值可以形成含有串、数字、字节码或前述数据类型的任何集合的任何大小、维度或组合的向量。

如本文所用,术语“肿瘤”、“肿瘤形成”、“恶性肿瘤”或“癌症”通常是指肿瘤形成性细胞生长和增殖,无论是恶性的还是良性的,以及全部癌前和癌性细胞和组织和异常和非受控的细胞生长的结果。

术语“肿瘤负荷”是指个体中肿瘤的量,其可以被测量为肿瘤的数量、体积或重量。不转移的肿瘤被称为“良性的”。侵入周围组织和/或可以转移的肿瘤被称为“恶性的”。

术语核酸样品涵盖“核酸文库”或“文库”,如本文所用,其包含通过任何合适的方法制备的核酸文库。衔接子可以与PCR引物退火以有利于通过PCR进行的扩增,或者可以是通用引物区,诸如像测序尾部衔接子。衔接子可以是通用测序衔接子。如本文所用,术语“效率”可以是指计算为测序之后序列可用的独特分子的数量除以原初样品中初始存在的独特分子的数量的可测量度量。另外,术语“效率”还可以是指减少所需的初始核酸样品材料、降低样品制备时间、降低扩增工艺和/或减少核酸文库制备的总体成本。

如本文所用,术语“条形码”可以是用于使多核苷酸片段与产生其的输入多核苷酸或靶多核苷酸关联的已知序列。条形码序列可以是合成核苷酸或天然核苷酸的序列。条形码序列可以含在衔接子序列内,使得条形码序列含在测序读取内。每个条形码序列可以包含长度为至少4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个或更多个核苷酸。在一些情况下,条形码序列可以具有足够的长度,并且可以彼此足够不同以允许基于样品与之相关联的条形码序列来鉴定样品。在一些情况下,条形码序列可以用于加标记并且随后鉴定“初始”核酸分子(来自受试者的样品中存在的核酸分子)。在一些情况下,条形码序列或条形码序列的组合可以与内源序列信息结合使用来鉴定初始核酸分子。例如,条形码序列(或条形码序列的组合)可以与条形码相邻(例如,内源序列的开端和末端)的内源序列和/或与内源序列的长度一起使用。

在一些实例中,本文所用的核酸分子可以经受“标记化”或“连接”反应。“标记化”将片段化和连接反应组合到文库制备工艺的单个步骤中。加标记的多核苷酸片段在标记化期间用转座子末端序列“加标记”,并且可以进一步包含在几个扩增周期期间在延伸期间添加的额外序列。可替代地,生物片段可以直接“加标记”,因为加工核酸分子或其片段可以包括进行核酸扩增。例如,任何类型的核酸扩增反应均可以用于扩增靶核酸分子或其片段并生成扩增产物。

具体实施方式

提供了检测生物样品中的分析物、测量分析物的各种度量并且将作为特征的度量输入到机器学习模型中以训练用于医学诊断用途的分类器的方法和系统。使用本文所述的方法产生的训练的分类器可用于多种方法,包含疾病检测和分期、鉴定治疗应答者和对有需要的患者群体进行分层。

本文提供了将机器学习方法与生物样品中的一种或多种生物分析物合并以用于对个体群体进行分层的各种应用的方法和系统。提供了检测生物样品中的分析物、测量分析物的各种度量并且将作为特征的度量输入到机器学习模型中以训练用于医学诊断用途的分类器的方法和系统。使用本文所述的方法产生的训练的分类器可用于多种方法,包含疾病检测和分期、鉴定治疗应答者和对有需要的患者群体进行分层。在具体实例中,所述方法和系统可用于预测疾病、治疗功效并指导针对患病个体的治疗决策。

本发明的方法与其他方法和系统的不同之处在于,本发明的方法聚焦于表征循环免疫系统的非细胞部分的方法,但是也可以使用细胞部分。造血转换的过程是循环免疫细胞的自然死亡和裂解。血液的血浆部分在细胞死亡并将细胞内内容物释放到循环中时含有免疫系统的片段富集样品。具体地,血浆提供生物分析物的富含信息的样品,其反映在临床症状呈现之前通过癌细胞的存在培育的免疫细胞群体。虽然其他方法涉及表征免疫系统的细胞部分,但是本发明的方法询问免疫系统的癌症培育的非细胞部分,以提供生物信息,所述生物信息然后与机器学习工具组合以用于可用的应用。研究液体(诸如血浆)中的非细胞分析物允许对液体样品进行去卷积,以概括免疫细胞在存活时的分子状态。研究免疫系统的非细胞部分提供癌症状态的替代指示物,并且取代对于检测癌细胞和相关生物标记物的大量的血液的需要。

I.循环分析物和用生物测定进行的细胞解构

对于完全或部分地基于体液诊断的健康相关或生物预测(例如,预测药物抗性/敏感性),对于每个问题开发具有成本效益且高质量的测定是重要的。迫切需要能够快速且有效地生成代表不同分析物的数据,所述分析物可能携带成功学习高性能(精准)预测模型所需的最强信号。

A.分析物

在各种实例中,生物样品包含为本文所述的模型、方法和系统提供特征信息源的不同分析物。分析物可以衍生于肿瘤、非肿瘤或免疫细胞的细胞凋亡、坏死和分泌。四种高度信息性类别的分子生物标记物包含:1)基于DNA谱、序列或修饰的分析的基因组生物标记物;2)基于RNA表达谱、序列或修饰的分析的转录组生物标记物;3)基于蛋白谱、序列或修饰的分析的蛋白组或蛋白生物标记物以及4)基于代谢物丰度的分析的代谢组生物标记物。

1.DNA

核酸的实例包括但不限于脱氧核糖核酸(DNA)、基因组DNA、质粒DNA、互补DNA(cDNA)、无细胞(例如,非包封)DNA(cfDNA)、循环肿瘤DNA(ctDNA)、核小体DNA、染色体DNA、线粒体DNA(miDNA)、人工核酸模拟物、重组核酸、质粒、病毒载体和染色质。在一个实例中,所述样品包括cfDNA。在一个实例中,所述样品包括PBMC衍生的基因组DNA。

2.RNA

在各种实例中,生物样品包含包含有核糖核酸(RNA)、信使RNA(mRNA)、转运RNA(tRNA)、微RNA(miRNA)、核糖体RNA(rRNA)、循环RNA(cRNA)、可变剪接的mRNA、小核RNA(snRNA)、反义RNA、短发夹RNA(shRNA)、小干扰RNA(siRNA)的编码和非编码转录物。

核酸分子或其片段可以包括单链或者可以是双链。样品可以包括一种或多种类型的核酸分子或其片段。

核酸分子或其片段可以包括任何数量的核苷酸。例如,单链核酸分子或其片段可以包括至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少110个、至少120个、至少130个、至少140个、至少150个、至少160个、至少170个、至少180个、至少190个、至少200个、至少220个、至少240个、至少260个、至少280个、至少300个、至少350个、至少400或更多个核苷酸。在双链核酸分子或其片段的情况下,核酸分子或其片段可以包括至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少110个、至少120个、至少130个、至少140个、至少150个、至少160个、至少170个、至少180个、至少190个、至少200个、至少220个、至少240个、至少260个、至少280个、至少300个、至少350个、至少400或更多个碱基对(bp),例如核苷酸对。在一些情况下,双链核酸分子或其片段可以包括100bp至200bp,诸如120bp至180bp。例如,样品可以包括cfDNA分子,其包括120bp至180bp。

3.聚氨基酸、肽和蛋白

在各种实例中,分析物是聚氨基酸、肽、蛋白或其片段。如本文所用,术语聚氨基酸是指一种聚合物,其中单体是通过酰胺键连接在一起的氨基酸残基。当氨基酸是α-氨基酸时,可以使用L-光学异构体或D-光学异构体,L-异构体是优选的。在一个实例中,分析物是自身抗体。

在癌症患者中,生成了血清-抗体谱变化以及针对癌性组织的自身抗体。这些谱变化为作为用于早期诊断癌症的标记物的肿瘤相关抗原提供许多可能性。肿瘤相关抗原的免疫原性被赋予给突变的氨基酸序列,其暴露改变的非自身表位。其他解释也牵涉该免疫原性,包含可变剪接、成人中胚胎蛋白的表达(例如,异位表达)、细胞凋亡或坏死过程的失调(例如,过表达)、异常细胞定位(例如,核蛋白被分泌)。已经显示由内含子序列编码的肿瘤限制型抗原(例如,部分未剪接的RNA被翻译)的表位的实例使得肿瘤相关抗原具有高度免疫原性。

示例性的本发明的标记物是在肿瘤中过表达的合适的蛋白抗原。标记物通常在患者中导致抗体反应。因此,检测患者中这些标记物的存在的最方便的方法是在来自患者的样品,尤其是体液样品(诸如血液、血浆或血清)中检测针对这些标记物蛋白的(自身)抗体。

4.其他分析物

在各种实例中,生物样品包含小化学分子,诸如但不限于糖、脂质、氨基酸、脂肪酸、酚类化合物和生物碱。

在一个实例中,分析物是代谢物。在一个实例中,分析物是碳水化合物。在一个实例中,分析物是碳水化合物抗原。在一个实例中,碳水化合物抗原连接至O-聚糖。在一个实例中,分析物是单糖、二糖、三糖或四糖。在一个实例中,分析物是四糖。在一个实例中,四糖是CA19-9。在一个实例中,分析物是核小体。在一个实例中,分析物是富血小板血浆(PRP)。在一个实例中,分析物是细胞元素,诸如淋巴细胞(嗜中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、淋巴细胞、PBMC和单核细胞)或血小板。

在一个实例中,分析物是细胞元素,诸如淋巴细胞(嗜中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、淋巴细胞、PBMC和单核细胞)或血小板。

在各种实例中,对分析物的组合进行测定以获得可用于本文所述的方法的信息。在各种实例中,所测定的分析物的组合针对癌症类型或针对所需的分类有所不同。

在各种实例中,分析物的组合选自:1)cfDNA、cfRNA、聚氨基酸和小化学分子,或2)cfDNA和cfRNA以及聚氨基酸,3)cfDNA和cfRNA以及小化学分子,或4)cfDNA、聚氨基酸和小化学分子,或5)cfRNA、聚氨基酸和小化学分子,或6)cfDNA和cfRNA,或7)cfDNA和聚氨基酸,或8)cfDNA和小化学分子,或9)cfRNA和聚氨基酸,或10)cfRNA和小化学分子,或11)聚氨基酸和小化学分子。

II.样品制备

在一些实例中,样品例如从来自受试者的组织或体液或两者获得。在各种实例中,生物样品是液体样品,诸如血浆或血清、血沉棕黄层、粘液、尿液、唾液或脑脊液。在一个实例中,液体样品是无细胞液体。在各种实例中,样品包含无细胞核酸(例如,cfDNA或cfRNA)。

可以处理包括一种或多种分析物的样品以提供或纯化特定核酸分子或其片段或其集合。例如,可以处理包括一种或多种分析物的样品以将一种类型的分析物(例如,cfDNA)与其他类型的分析物分离。在另一个实例中,将样品分为等分试样,以用于分析来自样品的每个等分试样中的不同分析物。在一个实例中,可以处理包括不同大小(例如,长度)的一种或多种核酸分子或其片段的样品,以去除较高分子量和/或较长核酸分子或其片段或较低分子量和/或较短核酸分子或其片段。

本文所述的方法可以包括处理或修饰核酸分子或其片段。例如,可以修饰核酸分子或其片段的核苷酸以包含经修饰的核碱基、糖和/或接头。核酸分子或其片段的修饰可以包括氧化、还原、水解、加标记、条形码化、甲基化、去甲基化、卤化、脱氨基化或任何其他过程。核酸分子或其片段的修饰可以使用酶、化学反应、物理过程和/或暴露于能量来实现。例如,未甲基化的胞嘧啶的脱氨基化可以通过使用用于甲基化分析的亚硫酸氢盐来实现。

样品处理可以包括例如一种或多种过程,诸如离心、过滤、选择性沉淀、加标记、条形码化和分配。例如,细胞DNA可以通过选择性聚乙二醇和基于珠的沉淀过程诸如离心或过滤过程从cfDNA分离。样品中包括的细胞在不同类型的核酸分子或其片段分离之前可以裂解或可以不裂解。在一个实例中,样品基本上不含细胞。在一个实例中,针对可以作为特征输入到机器学习方法或模型中的测量值测定细胞组分。在各种实例中,可以检测(例如通过流式细胞术、质谱法或免疫淘选)细胞组分,诸如PBMC、淋巴细胞。处理的样品可以包括例如至少1毫微微克(fg)、10fg、100fg、1皮克(pg)、10pg、100pg、1纳克(ng)、10ng、50ng、100ng、500ng、1微克(μg)或更多特定大小或类型的核酸分子或其片段。

在一些实例中,血液样品从健康个体和患癌的个体,例如患有I期、II期、III期或IV期癌症的个体获得。在一个实例中,血液样品从健康个体和具有良性息肉、晚期腺瘤(AA)和I-IV期结直肠癌(CRC)的个体获得。本文所述的系统和方法可用于检测AA和CRC的存在和区分其阶段和大小。此类区分可用于针对行为和/或治疗决策的变化对群体中的个体进行分层。

A.文库制备和测序

纯化的核酸(例如,cfDNA)可以用于制备用于测序的文库。可以使用平台特异性文库制备方法或试剂盒制备文库。所述方法或试剂盒可以是可商购获得的并且可以生成测序仪就绪的文库。平台特异性文库制备方法可以将已知的序列添加到核酸分子的末端;已知的序列可以被称为衔接子序列。任选地,文库制备方法可以并入一个或多个分子条形码。

为了使用大规模平行测序系统对双链DNA片段的群体进行测序,DNA片段必须被已知的衔接子序列侧接。此类DNA片段与在任一末端处的衔接子的集合被称为测序文库。用于从纯化的DNA生成测序文库的合适的方法的两个实例是(1)已知衔接子与片段化DNA的任一末端的基于连接的附接,和(2)衔接子序列的转座酶介导的插入。任何合适的大规模平行测序技术可以用于测序。

对于甲基化分析,在测序之前处理核酸分子。用亚硫酸氢盐、酶促甲基-seq或羟甲基-seq处理核酸分子(例如,DNA分子)使未甲基化的胞嘧啶碱基脱氨基并且将其转换为尿嘧啶碱基。该亚硫酸氢盐转换过程不使在5'位置处甲基化或羟甲基化(5mC或5hmC)的胞嘧啶脱氨基。在结合测序分析使用时,涉及核酸分子或其片段的亚硫酸氢盐转换的过程被称为亚硫酸氢盐测序(BS-seq)。在一些情况下,核酸分子可以在经历亚硫酸氢盐转换之前进行氧化。核酸分子的氧化可以将5hmC转换为5-甲酰基胞嘧啶和5-羧基胞嘧啶,两者对于亚硫酸氢盐转换为尿嘧啶均是敏感的。在结合测序分析使用时,在使核酸分子或其片段经受亚硫酸氢盐测序之前核酸分子或其片段的氧化可以被称为氧化亚硫酸氢盐测序(oxBS-seq)。

1.测序

核酸可以使用测序方法进行测序,诸如下一代测序、高通量测序、大规模平行测序、合成测序、双端测序、单分子测序、纳米孔测序、焦磷酸测序、半导体测序、连接测序、杂交测序、RNA-Seq、数字基因表达、单分子合成测序(SMSS)、克隆单分子阵列(Solexa)、鸟枪测序、马克西姆-吉尔伯特测序、引物步移和桑格测序。

测序方法可以包括靶向测序、全基因组测序(WGS)、低深度测序、亚硫酸氢盐测序、全基因组亚硫酸氢盐测序(WGBS)或其组合。测序方法可以包含合适的文库的制备。测序方法可以包含核酸的扩增(例如,靶向或通用扩增,诸如PCR)。测序方法可以在所需深度下进行,诸如至少约5X、至少约10X、至少约15X、至少约20X、至少约25X、至少约30X、至少约35X、至少约40X、至少约45X、至少约50X、至少约60X、至少约70X、至少约80X、至少约90X、至少约100X。靶向测序方法可以在所需深度下进行,诸如至少约500X、至少约1000X、至少约1500X、至少约2000X、至少约2500X、至少约3000X、至少约3500X、至少约4000X、至少约4500X、至少约5000X、至少约6000X、至少约7000X、至少约8000X、至少约9000X、至少约10000X。

生物信息可以使用任何可用的方法来制备。生物信息可以包括测序信息。测序信息可以使用例如针对转座酶可接近的染色质的测定,使用测序(ATAC-seq)方法、微球菌核酸酶测序(MNase-seq)方法、脱氧核糖核酸酶超敏感位点测序(DNase-seq)方法或染色质免疫沉淀测序(ChIP-seq)方法制备。

测序读取可以由各种来源获得,所述各种来源包含例如全基因组测序、全外显子组测序、靶向测序、下一代测序、焦磷酸测序、合成测序、离子半导体测序、基于标签的下一代测序、半导体测序、单分子测序、纳米孔测序、连接测序、杂交测序、数字基因表达(DGE)、大规模平行测序、克隆单分子阵列(Solexa/Illumina)、使用PacBio进行的测序和通过寡核苷酸连接和检测进行的测序(SOLiD)。

在一些实例中,测序包括例如通过将条形码、独特分子标识符(UMI)或另一个标签连接到核酸分子或其片段进行的核酸分子或其片段的修饰。将条形码、UMI或标签连接到核酸分子或其片段的一个末端可以有利于在测序之后分析核酸分子或其片段。在一些实例中,条形码是独特条形码(即,UMI)。在一些实例中,条形码是非独特的,并且条形码序列可以结合内源序列信息诸如靶核酸的起始序列和终止序列使用(例如,靶核酸被条形码侧接,并且条形码结合在靶核酸的开端和末端处的序列产生独特加标记的分子)。

测序读取可以使用以下方法处理,诸如去复用、去重复(例如,使用独特分子标识符,UMI)、衔接子修剪、质量过滤、GC校正、扩增偏差校正、批次效应校正、深度归一化、去除性染色体和去除较差质量基因组仓。

在各种实例中,测序读取可以与参考核酸序列进行比对。在一个实例中,参考核酸序列是人类参考基因组。作为实例,人类参考基因组可以是hg19、hg38、GrCH38、GrCH37、NA12878或GM12878。

2.测定

鉴于系统的临床目标,基于训练机器学习模型的结果整合使用哪种测定的选择。如本文所用,术语“测定”包含已知的生物测定,并且还可以包含用于将生物信息转化为作为机器学习分析和建模的输入的可用特征的计算生物方法。各种预处理计算工具可以包含在本文所述的测定内,并且术语“测定”不意图是限制性的。各种类别的样品、样品级分、这些级分的部分/具有不同类别的分子的样品以及各种类型的测定可以用于生成特征数据,以用于在计算方法和模型中使用来告知在本文所述的方法中可用的分类器。在一个实例中,将样品分为等分试样以用于进行生物测定。

在各种实例中,对生物样品的不同部分进行生物测定,以提供对应于所述部分中的分析物的生物测定的数据组。各种测定是本领域技术人员已知的并且可用于询问生物样品。此类测定的实例包括但不限于:全基因组测序(WGS)、全基因组亚硫酸氢盐测序(WGSB)、小RNA测序、定量免疫测定、酶联免疫吸附测定(ELISA)、邻近延伸测定(PEA)、蛋白微阵列、质谱法、低覆盖率全基因组测序(lcWGS);选择性标记5mC测序(WO2019/051484)、CNV识别;肿瘤分数(TF)估计;全基因组亚硫酸氢盐测序;LINE-1CpG甲基化;56个基因CpG甲基化;cf-蛋白免疫定量ELISA、SIMOA;以及cf-miRNA测序和衍生于以上测定中的任一种的细胞类型或细胞表型混合部分。该分析同时来自同一生物样品或其级分的多种分析物(诸如但不限于DNA、RNA、蛋白、自身抗体、代谢物或其组合)的能力可以通过利用信号之间的独立信息来增加此类体液诊断测试的敏感性和特异性。

在一个实例中,通过低覆盖率全基因组测序(lcWGS)或靶向测序或全基因组亚硫酸氢盐测序(WGBS)或全基因组酶促甲基测序来评定无细胞DNA(cfDNA)含量,通过小RNA测序或PCR(数字微滴或定量)评定无细胞微RNA(cf-miRNA),并且通过定量免疫测定测量循环蛋白的水平。在一个实例中,通过全基因组亚硫酸氢盐测序(WGBS)评定无细胞DNA(cfDNA)含量,通过定量免疫测定(包含ELISA或邻近延伸测定)测量蛋白,并且通过蛋白微阵列测量自身抗体。

B.使用WGS进行的cf-DNA测定

在各种实例中,概述cfDNA的特征的测定用于生成可用于计算应用的特征。在一个实例中,cf-DNA的特征用于机器学习模型并且用于生成分类器以对个体进行分层或检测如本文所述的疾病。示例性特征包括但不限于提供关于基因表达、3D染色质、染色质状态、拷贝数变异、来源组织和cfDNA样品中的细胞组成的生物信息的那些特征。可以用作机器学习方法和模型的输入特征的cfDNA浓度的度量可以通过以下方法获得,所述方法包括但不限于定量指定大小范围内的dsDNA的方法(例如,Agilent TapeStation、Bioanalyzer、Fragment Analyzer)、使用dsDNA结合染料定量所有dsDNA的方法(例如,QuantiFluor、PicoGreen、SYBR Green)和定量在特定大小下或低于特定大小的DNA片段(dsDNA或ssDNA)的方法(例如,短片段qPCR、长片段qPCR和长/短qPCR比率)。

生物信息还可以包含关于转录起始位点、转录因子结合位点、使用测序(ATAC-seq)数据进行的针对转座酶可接近的染色质的测定、组蛋白标记物数据、DNAse超敏感性位点(DHS)或其组合的信息。

在一个实例中,测序信息包含关于多种遗传特征的信息,所述遗传特征诸如但不限于转录起始位点、转录因子结合位点、染色质开闭状态、核小体定位或占位等。

1.cfDNA血浆浓度

cfDNA的血浆浓度可以作为在各种实例中指示癌症的存在的特征进行测定。在各种实例中,循环中cfDNA的总量和对cfDNA的肿瘤衍生的贡献的估计(还被称为“肿瘤分数”)两者用作预后生物标记物和对于疗法的应答和抗性的指示物。对注释基因组区域内比对的测序片段进行计数并且针对测序深度进行归一化以产生30,000维向量/样品,每个元素对应于基因的计数(例如,与参考基因组中的该基因比对的读取的数量)。在一个实例中,针对一系列具有注释区域的已知基因,对于这些注释区域中的每一个,通过计数与该区域比对的片段的数量来确定序列读取计数。以各种方式对基因的读取计数进行归一化,例如使用部署基因组的全局期望;样品内归一化;和交叉特征归一化。交叉特征归一化是指平均到指定值(例如,0、不同的负值、一,或者范围是0至2)的这些特征中的每一个。对于交叉特征归一化,来自样品的总读取是变量,并且因此可以取决于制备工艺和测序仪加载工艺。归一化可以至读取的恒定量作为全局归一化的一部分。

对于样品内归一化,可以通过特征中的一些或定量一些区域(具体地对于GC偏好)的特征来归一化。因此,每个区域的碱基对构成可以是不同的并且用于归一化。并且在一些情况下,GC的数量显著高于或低于50%,并且这具有热动力学作用,因为碱基是更具能量的,并且所述过程是偏置的。由于实验室中样品制备的生物人工因素,一些区域提供比预期更多的读取。因此,可能需要通过在建模时应用另一种特征/特征转化/归一化方法来校正此类偏差。

在一个实例中,软件工具ichorCNA用于通过稀疏(约0.1×覆盖率)至深度(约30x覆盖率)全基因组测序(WGS)检测的拷贝数变化来鉴定cfDNA的肿瘤分数组分。在另一个实例中,通过定量个体等位基因的存在测量肿瘤含量用于评定其中这些等位基因是已知的克隆驱动物的癌症中对于疗法的应答或抗性。

拷贝数变化(CNV)可以在被识别为平均人类基因组活力的主要来源的基因组区域中扩增或删除,并且显著有助于表型变异。肿瘤衍生的cfDNA携带对应于拷贝数变化的基因组变化。拷贝数变化在许多癌症(包含CRC)中在癌变中发挥重要。拷贝数变化的全基因组检测可以在cfDNA中表征,从而充当肿瘤生物标记物。在一个实例中,检测使用深度WGS。在另一个实例中,通过低覆盖率全基因组测序进行的无细胞DNA中的染色体不稳定性分析可以用作cfDNA的测定。可用于检测肿瘤DNA片段的cfDNA测定的其他实例包含长度混合模型(LMM)和片段终点分析。

在一个实例中,通过大规模CNV的手动检查鉴定具有高(>20%)肿瘤分数的样品。

在一个实例中,基因表达的变化也在血浆cfDNA浓度水平中反映,并且诸如微阵列分析的方法可以用于测定cfDNA样品中基因表达水平的变化。可以用作机器学习方法和模型的输入特征的cfDNA浓度的度量包括但不限于Tape Station、短qPCR、长qPCR和长/短qPCR比率。

2.体细胞突变分析

在一个实例中,低覆盖率全基因组测序(lcWGS)可以用于对样品中的cf-DNA进行测序,并且然后询问与特定癌症类型相关联的体细胞突变。使用来自lcWGS、深度WGS或靶向测序(通过NGS或其他技术)的体细胞突变可以生成特征,所述特征可以输入到本文所述的机器学习方法和模型中。

体细胞突变分析已经成熟以包含高度复杂的技术,诸如微阵列和下一代测序(NGS)或大规模平行测序。该方法可以在单个测试中实现广泛的多重复用能力。这些类型的热点组在单个测定中的基因数量的范围可以是若干至数百。其他类型的基因组包含全外显子或全基因测序,并且提供鉴定特定基因组中的新型突变的优点。

3.转录因子分析

由cfDNA推断转录因子结合在癌症中具有巨大的诊断潜力。对转录因子结合位点(TFBS)处核小体特征中涉及的成分进行测定,以评定并比较不同血浆样品中转录因子结合位点可及性。在一个实例中,由取自健康供体和患有转移性前列腺癌、结肠癌或乳腺癌的癌症患者的血浆样品的血液样品获得的深度全基因组测序(WGS)数据在cfDNA也包括循环肿瘤DNA(ctDNA)的情况下使用。低深度WGS数据分析个体转录因子,而不是使用由多种细胞类型产生的cfDNA信号的混合以及通过傅立叶变换和统计概述进行的分析建立一般组织特异性模式。因此,本文提供的方法提供了对于组织贡献和生物过程两者的更细致的观点,其允许鉴定适用于来源组织和衍生肿瘤分析两者的谱系特异性转录因子。在一个实例中,来自患有癌症的患者的cfDNA中的转录因子结合位点可塑性用于分类癌症亚型、阶段和对于治疗的应答。

在一个实例中,cfDNA片段化模式用于检测非造血特征。为了鉴定由cfDNA作图的转录因子-核小体相互作用,首先鉴定来自健康对照的血浆样品中的造血转录因子-核小体印记。来自公共可及的数据库(例如,基因转录调节数据库(GTRD))的转录因子结合位点的组织的列表可以用于由cfDNA生成综合转录因子结合位点-核小体占位图。不同的严格性准则用于测量转录因子结合位点处的核小体特征,并且建立被称为“可及性分数”的度量和z分数统计,以客观地比较不同血浆样品中转录因子结合位点可及性的显著变化。出于临床目的,可以鉴定一组谱系特异性转录因子,其适用于鉴定cfDNA的来源组织或患癌患者中的衍生肿瘤。可及性分数和z分数统计用于解释患癌患者的cfDNA的改变的转录因子结合位点可及性。

在一方面,本公开提供了一种用于诊断受试者的疾病的方法,所述方法包括:(a)提供来自从所述受试者提取的脱氧核糖核酸(DNA)的序列读取;(b)生成转录因子的覆盖模式;(c)处理所述覆盖模式以提供信号;(d)将所述信号与参考信号进行比较,其中所述信号和所述参考信号具有不同的频率;以及(e)基于所述信号诊断所述受试者的疾病。

在一些实例中,(b)包括将所述序列读取与参考序列进行比对以提供比对序列模式,选择所述比对序列模式的对应于转录因子的结合位点的区域,以及将所述区域中的比对序列模式归一化。

在一些实例中,转录因子选自由以下组成的群组:GRH-L2、ASH-2、HOX-B13、EVX2、PU.1、Lyl-1、Spi-B和FOXA1。

在一些实例中,(e)包括鉴定转录因子的更高可及性的迹象。在一些实例中,转录因子是上皮转录因子。在一些实例中,转录因子是GRHH-L2。

4.推断染色体结构/染色质状态

在其他实例中,测定用于使用无细胞DNA(cfDNA)推断基因组的三维结构。具体地,本公开提供了用于检测与疾病或病状(诸如癌症)相关联的染色质异常的方法和系统。虽然不受任何特定机制限制,但是据信DNA片段从细胞释放到例如血流中。一旦从细胞释放,被称为无细胞DNA(cfDNA)的释放的DNA片段的半衰期可以依赖于染色质重塑状态。因此,生物样品中cfDNA片段的丰度可以指示cfDNA片段所衍生于的基因的染色质状态(被称为cfDNA的“位置”)。基因的染色质状态可以在疾病中变化。鉴定基因的染色质状态的变化可以充当鉴定受试者中疾病的存在的方法。基因的染色质状态可以使用计算机辅助技术由生物样品中cfDNA片段的丰度和位置来预测。染色质状态还可以用于推断样品中的基因表达。可以用于预测染色质状态的计算机辅助技术的非限制性实例是概率图模型(PGM)。PGM可以使用统计技术诸如期望最大化或梯度方法来估计,以通过将PGM的参数与训练组拟合和估计这些参数的统计技术来鉴定开闭TSS(或中间状态)的cfDNA谱。训练组可以是已知的开闭转录起始位点的cfDNA谱。一旦经过训练,PGM就可以预测原初(从未见过)样品中的一个或多个基因的染色质状态。预测可以进行分析和定量。通过比较来自健康和患病样品的一个或多个基因的染色质状态的预测,可以开发生物标记物或诊断测试。PGM可以包含有助于可以被制成更准确的模型的变化信息、测量值和数学对象。这些对象可以包含其他测量协变量,诸如数据的生物环境和样品的实验室处理条件。

在其中遗传特征是染色质状态的一个实例中,第一阵列提供作为参考的多种细胞类型的构成开放性的测量值,第二阵列提供样品中的细胞类型的相对比例,并且第三阵列提供样品中染色质状态的测量值。

基因表达可以通过细胞机器对于转录起始位点的可及性来控制。转录起始位点的可及性可以由转录起始位点所位于的染色质的状态决定。染色质状态可以通过染色质重塑来控制,所述染色质重塑可以压缩(闭合)或放松(开放)转录起始位点。闭合转录起始位点导致基因表达降低,而开放转录起始位点导致基因表达增加。另外,cfDNA片段的长度可以取决于染色质状态。染色质重塑可以通过修饰组蛋白和其他相关蛋白来发生。可以控制染色质状态和转录起始位点的组蛋白修饰的非限制性实例包含例如甲基化、乙酰化、磷酸化和泛素化。

基因表达还通过更远端的元件诸如增强子来控制,所述增强子与物理基因组的3D空间中的转录机器相互作用。ATAC-seq和DNAse-seq提供开放染色质的测量值,其与这些更远端的元件的结合相关,所述元件可能不与特定基因明显地相关联。例如,ATAC-seq数据可以针对多种细胞类型和状态获得,并且用于鉴定各种基础区域的具有开放染色质的基因组的区域,诸如活性转录起始位点或结合的增强子或抑制子。

一旦从细胞释放,cfDNA的半衰期可以依赖于染色质重塑状态。因此,生物样品中cfDNA片段的丰度可以指示cfDNA片段所衍生于的基因的染色质状态(在本文中被称为cfDNA的“位置”)。基因的染色质状态可以在疾病中变化。鉴定基因的染色质状态的变化可以充当鉴定受试者中疾病的存在的方法。在比较表达和未表达的基因时,无细胞DNA(cfDNA)片段的数量和位置分布两者存在定量位移。更具体地,在转录起始位点(TSS)周围约1000-3000bp区域内存在读取的强烈删除,并且TSS下游的核小体强烈地定位(所述位置变得更可预测)。本公开提供了一种解决逆向关系的方式:从cfDNA开始,可以推断基因的表达或染色质开放性。在一个实例中,该测定用于本文所述的多分析物方法。

本公开还提供了一种生成也针对例如抑制区、活性或平衡态启动子和更多中的其他染色质状态的预测的方式。这些预测可以定量不同个体(或样品),例如健康、结直肠癌(CRC)患者或其他确诊疾病或癌症的样品之间的差异。

因为开放染色质的存在也广泛地通过核小体的不存在或通过侧接开放染色质的内部区域的强烈定位的核小体的存在捕获,所以本文所述的方法也可以用于增强子、抑制子或原初地用于参考样品中通过其他手段鉴定的开放染色质的区域。

基因组内cfDNA序列读取的位置可以通过将序列“映射”到参考基因组来确定。映射可以借助于计算机算法来进行,所述计算机算法包含例如尼德曼-翁施算法、BLAST算法、史密斯-沃特曼算法、伯罗斯-惠勒比对、后缀树或定制算法。

染色体的三维构象涉及将核区室化并且将空间分离的功能元件紧密接合。分析染色体的空间排列和理解染色体如何折叠可以提供对于染色质结构、基因活性和细胞的生物状态之间的关系的见解。

DNA相互作用的检测和三维染色质结构的建模可以使用染色体构象技术来实现。此类技术包含例如3C(染色体构象捕获)、4C(环化染色体构象捕获)、5C(染色体构象捕获副本)、Hi-C(具有高通量测序的3C)、ChIP-环(具有ChIP-seq的3C)和ChIA-PET(具有ChIP-seq的Hi-C)。

Hi-C测序用于通过将基于邻近性的连接与大规模平行测序结合来探测全基因组的三维结构。Hi-C测序利用高通量下一代测序来无偏地定量跨整个基因组的相互作用。在Hi-C测序中,DNA与甲醛交联;交联的DNA用限制性酶消化以产生5'-突出端,其然后被生物素化的残基填充;并且所得的钝端片段在有利于交联的DNA片段之间的连接的条件下连接。所得的DNA样品含有连接产物,所述连接产物由在核中空间邻近的在接点处用生物素标记的片段组成。Hi-C文库可以通过剪切DNA并且用链霉亲和素珠选择生物素化的产物来产生。所述文库可以通过使用大规模平行双端DNA测序来分析。使用该技术,可以计算基因组中的所有成对相互作用以推断潜在的染色体结构。

在一个实例中,cfDNA的核小体占位提供DNA的开放性的指示和推断转录因子结合的能力。在某些实例中,核小体占位与肿瘤细胞表型相关联。

cfDNA表示通过内源生理过程生成的独特分析物,以通过全基因组测序生成核小体占位的体内图。利用转录起始位点处的核小体占位来由将其DNA释放到循环中的细胞推断表达的基因。cfDNA核小体占位可以反映转录因子的印记。

在各种实例中,cfDNA包含例如在血液或血浆样品中的非包封的DNA,并且可以包含ctDNA和/或cffDNA。cfDNA的长度可以是例如小于200个碱基对(bp),诸如长度120bp至180bp。通过将cfDNA片段末端映射到参考基因组生成的cfDNA片段化模式可以包含增加读取深度的区域(例如,片段堆积)。这些增加读取深度的区域的大小可以是大约120-180bp,其反映核小体DNA的大小。核小体是被约147bp的DNA缠绕的8个组蛋白的核。染色体包含核小体加组蛋白(例如,组蛋白H1)和栓系到核小体的外侧的约20bp的缔和DNA。cfDNA的增加读取深度的区域可以与核小体定位相关。因此,如本文公开的分析cfDNA的方法可以有利于核小体的映射。当cfDNA读取映射到参考基因组时所见的片段堆积可以反映核小体结合,其防止某些区域在细胞死亡(细胞凋亡)过程期间被核酸酶消化或者循环cfDNA被肝和肾系统性清除。如本文公开的分析cfDNA的方法可以通过例如DNA或染色质被MNase消化和随后测序(MNase测序)来补充。该方法可以揭示由于在规则间隔处结合核小体组蛋白而防止MNase消化的DNA区域(其中干涉区域优先被降解),从而反映核小体定位的印记。

5.来源组织测定

cfDNA样品中的多个核酸分子衍生于一种或多种细胞类型。在各种实例中,测定用于鉴定样品中的核酸序列的来源组织。推断样品中的分析物的细胞衍生贡献可用于解构生物样品中的分析物信息。在各种实例中,诸如调控区学习(LRR)和免疫DHS特征的方法可用于确定生物样品中的分析物的衍生细胞类型和细胞类型贡献的方法。在各种实例中,遗传特征诸如V图测量、FREE-C、转录起始位点上的cfDNA测量值和cfDNA片段上的DNA甲基化水平用作机器学习方法和模型的输入特征。

在一个实例中,可以制备第一阵列值,其对应于多种细胞类型的多个遗传特征的状态。在一个实例中,针对参考群体获得对应于多个遗传特征的状态的值。参考群体提供用于提供多个遗传特征的构成状态的指示的值。

在一个实例中,还可以制备第二阵列值,其对应于核酸样品的多个核酸分子的多个遗传特征。第一阵列和第二阵列然后可以用于制备第三阵列值。

在一个实例中,第一阵列和第二阵列是矩阵,并且用于通过矩阵乘法和参数优化来制备第三阵列值。在一个实例中,第三阵列值对应于样品的多个核酸分子的多种细胞类型的估计比例。来自样品的核酸数据结合信息的参考群体用于估计最佳拟合样品的多个核酸的参考群体的混合物。该混合物可以归一化至1并且用于表示样品中的那些参考群体的比例或分数。

因此可以确定多个核酸分子所衍生于的一种或多种细胞类型的类型和比例。

在第一方面,本公开提供了一种处理包括多个核酸分子的样品的方法,其包括:

(a)提供包括多个核酸分子的样品的测序信息,所述测序信息包含关于多个遗传特征的信息,并且所述多个核酸分子衍生于一种或多种细胞类型;

(b)制备对应于多种细胞类型的多个遗传特征的一方面的第一阵列值,所述多种细胞类型包括所述一种或多种细胞类型;

(c)制备对应于样品的多个核酸分子的多个遗传特征的所述方面的第二阵列值;以及

(d)使用第一阵列值和第二阵列值来制备对应于样品的多个核酸分子的多种细胞类型的第三阵列值,从而确定多个核酸分子所衍生于的一种或多种细胞类型的类型和比例。

C.使用WGBS进行的甲基化的cfDNA测定

1.甲基化测序

测定用于对全基因组进行测序(例如,通过WGBS、酶促甲基测序(“EMseq”)),其能够通过表征基因组中的几乎每一个核苷酸的DNA甲基化来提供最终分解。其他靶向方法可以用于甲基化分析,例如高通量测序、焦磷酸测序、桑格测序、qPCR或ddPCR。DNA甲基化是指将甲基基团添加到DNA,是最广泛表征的表观遗传修饰之一,具有重要的功能结果。通常,DNA甲基化在核酸序列的胞嘧啶碱基处发生。酶促甲基测序是尤其有用的,因为它使用三步转换,需要用于分析的较低量的样品。

在任何前述方面的一些实例中,使DNA或条形码化的DNA经受足以将DNA或条形码化的DNA的胞嘧啶核碱基转换为尿嘧啶核碱基的条件包括进行亚硫酸氢盐转换。在一些实例中,进行亚硫酸氢盐转换包括氧化DNA或条形码化的DNA。在一些实例中,氧化DNA或条形码化的DNA包括将5-羟甲基胞嘧啶氧化为5-甲酰基胞嘧啶和5-羧基胞嘧啶。在一些实例中,亚硫酸氢盐转换包括简并代表性亚硫酸氢盐测序。

在其他实例中,用于甲基化分析的测定选自质谱法、甲基化特异性PCR(MSP)、简并代表性亚硫酸氢盐测序(RRBS)、HELP测定、GLAD-PCR测定、芯片上ChIP测定、限制性路标基因组扫描、甲基化DNA免疫沉淀(MeDIP)、亚硫酸氢盐处理的DNA的焦磷酸测序、分子断裂光测定、甲基敏感性萨瑟恩印迹、高分辨率熔体分析(HRM或HRMA)、古DNA甲基化重构或甲基化敏感性单核苷酸引物延伸测定(msSNuPE)。

在一个实例中,用于甲基化分析的测定是全基因组亚硫酸氢盐测序(WGBS)。核酸分子或其片段的修饰可以使用酶或其他反应来实现。例如,胞嘧啶的脱氨基化可以通过使用亚硫酸氢盐来实现。用亚硫酸氢盐处理核酸分子(例如,DNA分子)使未甲基化的胞嘧啶碱基脱氨基并且将其转换为尿嘧啶碱基。该亚硫酸氢盐转换过程不使在5位置处甲基化或羟甲基化(5mC或5hmC)的胞嘧啶脱氨基。在结合测序分析使用时,涉及核酸分子或其片段的亚硫酸氢盐转换的过程被称为亚硫酸氢盐测序(BS-seq)。在一些情况下,核酸分子可以在经历亚硫酸氢盐转换之前进行氧化。核酸分子的氧化可以将5hmC转换为5-甲酰基胞嘧啶和5-羧基胞嘧啶,两者对于亚硫酸氢盐转换为尿嘧啶均是敏感的。在结合测序分析使用时,在使核酸分子或其片段经受亚硫酸氢盐测序之前核酸分子或其片段的氧化可以被称为氧化亚硫酸氢盐测序(oxBS-seq)。

与侧接DNA相比,CpG位点处的胞嘧啶的甲基化可以极大地富集在跨核小体的DNA中。因此,CpG甲基化模式还可以用于使用机器学习方法推断核小体定位。分别通过微球菌核酸酶-seq(MNase-seq)和WGBS生成的来自同一cfDNA样品的匹配的核小体定位和5mC数据组可以用于训练机器学习模型。BS-seq或EM-seq数据组还可以根据用于WGS的相同方法来分析,以生成输入到机器学习方法和模型中的特征,无论甲基化转换如何。然后,5mC模式可以用于预测核小体定位,其可以帮助推断疾病和癌症的基因表达和/或分类。在另一个实例中,特征可以由甲基化状态和核小体定位信息的组合获得。

用于甲基化分析的度量包括但不限于M-偏差(CpG、CHG、CHH的碱基甲基化%)、转换效率(CHH的100-平均甲基化%)、甲基化不足块、甲基化水平(CPG、CHH、CHG、chrM、LINE1、ALU的全局平均甲基化)、二核苷酸覆盖率(二核苷酸的归一化覆盖率)、覆盖均匀性(在1x和10x下的独特CpG位点)、平均基因组覆盖率(对于S4运行)、全局平均CpG覆盖率(深度)和在CpG岛、CGI架、CGI岸处的平均覆盖率。这些度量可以用作机器学习方法和模型的特征输入。

在一方面,本公开提供了一种方法,其包括:(a)提供来自受试者的包括脱氧核糖核酸(DNA)的生物样品;(b)使DNA经受足以将DNA的未甲基化的胞嘧啶核碱基转换为尿嘧啶核碱基的条件,其中所述条件至少部分地降解DNA;(c)对DNA进行测序,从而生成序列读取;(d)对序列读取进行计算机处理以(i)基于尿嘧啶核碱基的存在确定DNA的甲基化程度,并且(ii)对DNA的至少部分降解进行建模,从而生成降解参数;以及(e)使用降解参数和甲基化程度确定遗传序列特征。

在另一方面,本公开提供了一种方法,其包括:(a)提供来自受试者的包括脱氧核糖核酸(DNA)的生物样品;(b)使DNA经受足以任选富集样品中的甲基化DNA的条件;(c)以及将DNA的未甲基化的胞嘧啶核碱基转换为尿嘧啶核碱基;(d)对DNA进行测序,从而生成序列读取;(e)对序列读取进行计算机处理以(i)基于尿嘧啶核碱基的存在确定DNA的甲基化程度,并且(ii)对DNA的至少部分降解进行建模,从而生成降解参数;以及(f)使用降解参数和甲基化程度确定遗传序列特征。

在一些实例中,(d)包括基于未转换的胞嘧啶核碱基与转换的胞嘧啶核碱基的比率确定DNA的甲基化程度。在一些实例中,转换的胞嘧啶核碱基作为尿嘧啶核碱基被检测到。在一些实例中,尿嘧啶核碱基在序列读取中作为胸腺嘧啶核碱基被观察到。

在一些实例中,生成降解参数包括使用贝叶斯模型。

在一些实例中,贝叶斯模型是基于链偏好或亚硫酸氢盐转换或过转换。在一些实例中,(e)包括在配对HMM或朴素贝叶斯模型的框架下使用降解参数。

在某些实例中,测定特异性基因标记物的甲基化用于告知本文所述的分类器。在各种实例中,测定启动子的甲基化,所述启动子诸如APC、IGF2、MGMT、RASSF1A、SEPT9、NDRG4和BMP3或其组合。在各种实例中,测定这些标记物中的2个、3个、4个或5个的甲基化。

2.差异甲基化区域(DMR)

在一个实例中,甲基化分析是差异甲基化区域(DMR)分析。DMR用于定量基因组的区域上的CpG甲基化。所述区域通过发现动态地分配。可以分析来自不同类别的多个样品,并且可以鉴定不同分类之间最大差异甲基化的区域。子集可以选择为差异甲基化的并且用于分类。所述区域中捕获的CpG的数量可以用于分析。所述区域可能往往具有可变大小。在一个实例中,进行预发现过程,其将多个CpG位点集合在一起作为一个区域。在一个实例中,DMR用作机器学习方法和模型的输入特征。

3.单倍型块

在一个实例中,对样品应用单倍型块测定。鉴定甲基化单倍型块帮助来自血浆DNA的异质组织样品和肿瘤来源组织映射的去卷积。可以在WGBS数据中鉴定被称为甲基化单倍型块(MHB)的紧密偶联的CpG位点。被称为甲基化单倍型负荷(MHL)的度量用于在块水平下进行组织特异性甲基化分析。该方法提供可用于异质样品的去卷积的信息性块。该方法可用于肿瘤负荷的定量估计和循环cfDNA中的来源组织映射。在一个实例中,单倍型块用作机器学习方法和模型的输入特征。

D.cfRNA测定

在各种实例中,测定cfRNA可以使用诸如以下的方法实现:RNA测序、全转录组鸟枪测序、北方印迹、原位杂交、杂交阵列、基因表达系列分析(SAGE)、逆转录PCR、实时PCR、实时逆转录PCR、定量PCR、数字微滴PCR或微阵列、Nanostring、FISH测定或其组合。

在使用小cfRNA(包含onc-RNA和miRNA)作为分析物时,测量值与这些cfRNA的丰度相关。它们的转录物具有某一大小,并且存储每个转录物,并且可以计数对于每一个所发现的cfRNA的数量。可以将RNA序列与参考cfRNA数据库,诸如像对应于人类转录组中的已知cfRNA的一组序列进行比对。每个所发现的cfRNA可以用作其本身的特征,并且跨所有样品所发现的多个cfRNA可以成为特征组。在一个实例中,对与注释的cfRNA基因组区域进行比对的RNA片段进行计数,并且针对测序深度进行归一化以产生生物样品的多维向量。

在各种实例中,每个可测量的cfRNA(cfRNA)用作一个特征。一些样品具有为0的特征值,其中对于该cfRNA没有检测到表达。

在一个实例中,取每个样品,并且将读取集合在一起。对于样品中发现的每个微RNA,可能发现众多集合读取。应注意,具有高表达排名的微RNA可以提供更好的标记物,因为更大的绝对变化可以产生更可靠的信号。

在一个实例中,cfRNA可以用直接检测方法诸如nCounter Analysis

在各种实例中,测定mRNA水平包括使生物样品与能够与一个或多个序列的mRNA特异性地杂交的多核苷酸探针接触,并且从而形成探针-靶杂交复合物。基于杂交的RNA测定包括但不限于传统“直接探针”方法,诸如北方印迹或原位杂交。所述方法可以各种各样的形式使用,包括但不限于底物(例如,膜或玻璃)结合方法或基于阵列的方法。在典型的原位杂交测定中,将细胞固定到固体支撑物,通常是载玻片。如果探测核酸,则通常将细胞用热或碱变性。然后将细胞在中等温度下与杂交溶液接触,以允许退火对编码蛋白的核酸序列具有特异性的标记探针。然后通常将靶(例如,细胞)在预先确定的严格性下或在增加的严格性下洗涤,直至获得适当的信噪比。通常用例如放射性同位素或荧光报告因子标记探针。优选的探针足够长,以便在严格条件下与靶核酸特异性地杂交。在一个实例中,大小范围是约200个碱基至约1000个碱基。在小RNA的另一个实例中,使用大小范围是约20个碱基至约200个碱基的更短探针。适用于本发明的方法的杂交方案描述于例如Albertson(1984)EMBOJ.3:1227-1234;Pinkel(1988)Proc.Natl.Acad.Sci.USA 85:9138-9142;EPO Pub.No.430,402;Methods in Molecular Biology,Vol.33:In situ Hybridization Protocols,Choo,ed.,Humana Press,Totowa,N.J.(1994),Pinkel,et al.(1998)Nature Genetics 20:207-211和或Kallioniemi(1992)Proc.Natl Acad Sci USA89:5321-5325(1992)。在一些应用中,需要阻断重复序列的杂交能力。因此,在一些实例中,使用tRNA、人基因组DNA或Cot-IDNA来阻断非特异性杂交。

在各种实例中,测定mRNA水平包括使生物样品与能够与单外显子基因(SEG)特异性地杂交的多核苷酸引物接触,从而形成引物-模板杂交复合物,并且进行PCR反应。在一些实例中,多核苷酸引物包括约15-45bp、20-40bp或25-35bp的与表1中列出的SEG序列相同(对于正向引物)或互补(对于反向引物)的序列。作为非限制性实例,STMN1(例如,NM_203401、智人微管去稳蛋白1(STMN1)、转录物变体1、mRNA,1730bp)的多核苷酸引物可以包括与STMN1的bp 1-20、5-25、10-30、15-35、20-40、25-45、30-50等,直至STMN的末端bp1690-1710、1695-1715、1700-1720、1705-1725、1710-1730相同(对于正向引物)或互补(对于反向引物)的序列。虽然由于空间未在此穷尽性地列出,但是表1中列出的STMN1和其他SEG的所有这些多核苷酸引物可以用于本公开的系统和方法中。在各种实例中,用放射性同位素或荧光分子标记多核苷酸引物。因为标记的引物发出无线电信号或荧光信号,所以可以用各种成像设备检测并分析含有标记的引物的PCR产物。

“定量”扩增的方法是各种合适的方法。例如,定量PCR涉及使用相同的引物同时共扩增已知量的对照序列。这提供可以用于校准PCR反应的内部标准。定量PCR的详细方案在Innis,et al.(1990)PCR Protocols,A Guide to Methods and Applications,AcademicPress,Inc.N.Y.中提供。使用定量PCR分析测量微卫星基因座处的DNA拷贝数描述于Ginzonger,et al.(2000)Cancer Research 60:5405-5409。基因的已知核酸序列足以使技术人员能够常规地选择引物来扩增基因的任何部分。荧光定量PCR还可以用于本发明的方法。在荧光定量PCR中,定量是基于荧光信号(例如,TaqMan和SYBR绿)的量。其他合适的扩增方法包括但不限于连接酶链反应(LCR)(参见Wu and Wallace(1989)Genomics4:560,Landegren,et al.(1988)Science 241:1077和Barringer et al.(1990)Gene 89:117)、转录扩增(Kwoh,et al.(1989)Proc.Natl.Acad.Sci.USA 86:1173)、自主序列复制(Guatelli,et al.(1990)Proc.Nat.Acad.Sci.USA 87:1874)、斑点PCR和接头衔接子PCR等。

在各种实例中,与癌症相关联的RNA标记物选自miR-125b-5p、miR-155、miR-200、miR21-5pm、miR-210、miR-221、miR-222或其组合。

E.聚氨基酸和自身抗体测定

1.蛋白和肽

在各种实例中,使用免疫测定和质谱法测定蛋白。例如,可以通过液相色谱法-串联质谱法(LC-MS/MS)测量蛋白。

在各种实例中,通过亲和试剂或免疫测定诸如蛋白测定、SIMOA(抗体;Quanterix)、ELISA(Abcam)、O-link(DNA缀合的抗体;O-link Proteomics)或SOMASCAN(适体;SomaLogic)、Luminex和Meso Scale Discovery测量蛋白。

在一个实例中,通过标准曲线对蛋白数据进行归一化。在各种实例中,作为基本上独特的免疫测定处理每种蛋白,每种具有可以各种方式计算的标准曲线。浓度关系通常是非线性的。然后可以运行样品,并且基于原初样品中的预期荧光浓度进行计算。

多种癌症相关联的肽和蛋白序列是已知的,并且在各种实例中可用于本文所述的系统和方法。

在一个实例中,测定包含检测标记物中的至少2种、3种、4种、5种、6种或更多种的组合。

在各种实例中,癌症相关联的肽或蛋白标记物选自癌胚胎抗原(例如,CEA、AFP)、糖蛋白抗原或碳水化合物抗原(例如,CA125、CA 19.9、CA 15-3)、酶(例如,PSA、ALP、NSE)、激素受体(ER、PR)、激素(b-hCG、降钙素)或其他已知的生物分子(VMA、5HIAA)。

在各种实例中,癌症相关联的肽或蛋白标记物选自1p/19q删除、HIAA、ACTH、AE1,3、ALK(D5F3)、AFP、APC、ATRX、BOB-1、BCL-6、BCR-ABL1、β-hCG、BF-1、BTAA、BRAF、GCDFP-15、BRCA1、BRCA2、b72.3、c-MET、降钙素、CALR、钙视网膜蛋白、CA125、CA27.29、CA 19-9、CEA M、CEA P、CEA、CBFB-MYH11、CALA、c-Kit、syndical-1、CD14、CD15、CD19、CD2、CD20、CD200、CD23、CD3、CD30、CD33、CD4、CD45、CD5、CD56、CD57、CD68、CD7、CD79A、CD8、CDK4、CDK2、嗜铬粒蛋白A、肌酸激酶同工酶、Cox-2、CXCL 13、细胞周期素D、CK 19、CYFRA 21-1、CK 20、CK5,6、CK 7、CAM 5.2、DCC、脱-γ-羧基凝血酶原、E-钙粘素、EGFR T790M、EML4-ALK、ERBB2、ER、ESR1、FAP、胃泌素、胰高血糖素、HER-2/neu、SDHB、SDHC、SDHD、HMB45、HNPCC、HVA、β-hCG、HE4、FBXW7、IDH1 R132H、IGH-CCND1、IGHV、IMP3、LOH、MUM1/IRF4、JAK外显子12、JAK2V617F、Ki-67、KRAS、MCC、MDM2、MGMT、黑色素A、MET、变肾上腺素类物质、MSI、MPL密码子515、Muc-1、Muckiest-4、MEN2、MYC、MYCN、MPO、myf4、肌红蛋白、肌球蛋白、天冬氨酸蛋白酶A、神经丝、NSE P、NMP22、NPM1、NRAS、Oct 2、p16、p21、p53、胰多肽、PTH、Pax-5、PAX8、PCA3、PD-L128-8、PIK3CA、PTEN、ERCC-1、埃兹蛋白、STK11、PLAP、PML/RARa易位、PR、胰岛素原、催乳素、PSA、PAP、PGP、RAS、ROS1、S-100、S100A2、S100B、SDHB、血清素、SAMD4、MESOMARK、鳞状细胞癌抗原、SS18 SYT 18q11、突触素、TIA-1、TdT、甲状腺球蛋白、TNIK、TP53、TTF-1、TNF-α、TRAFF2、urovysion、VEGF或其组合。

在一个实例中,癌症是结直肠癌,并且CRC相关联的标记物选自APC、BRAF、DPYD、ERBB2、KRAS、NRAS、RET、TP53、UGT1A1及其组合。

在一个实例中,癌症是肺癌,并且肺癌相关联的标记物选自ALK、BRAF、EGFR、ERBB2、KRAS、MET、NRAS、RET、ROS1、TP53及其组合。在一个实例中,癌症是乳腺癌,并且乳腺癌相关联的标记物选自BRCA1、BRCA2、ERBB2、TP53及其组合。在一个实例中,癌症是胃癌,并且胃癌相关联的标记物选自APC、ERBB2、KRAS、ROS1、TP53及其组合。在一个实例中,癌症是胶质瘤,并且胶质瘤相关联的标记物选自APCAPC、BRAF、BRCA2、EGFR、ERBB2、ROS1、TP53及其组合。在一个实例中,癌症是黑素瘤,并且黑素瘤相关联的标记物选自BRAF、KIT、NRAS及其组合。在一个实例中,癌症是卵巢癌,并且卵巢癌相关联的标记物选自BRAF、BRCA1、BRCA2、ERBB2、KRAS、TP53及其组合。在一个实例中,癌症是甲状腺癌,并且甲状腺癌相关联的标记物选自BRAF、KRAS、NRAS、RET及其组合。在一个实例中,癌症是胰腺癌,并且胰腺癌相关联的标记物选自APC、BRCA1、BRCA2、KRAS、TP53及其组合。

2.自身抗体

在另一个实例中,在样品中检测抗体(例如,自身抗体)并且所述抗体是早期肿瘤发生的标记物。自身抗体在肿瘤发生早期产生并且已经证明在临床症状发生之前数月或数年被检测到的可能性。在一个实例中,使用以下中所述的方案用微APS阵列(ITSI-Biosciences,Johnstown,PA,USA)筛选血浆样品:Somiari RI等人(Somiari RI,et al.,Alow-density antigen array for detection of disease-associated autoantibodiesin human plasma.Cancer Genom Proteom 13:13-19,2016)。自身抗体标记物可以用作机器学习方法或模型的输入特征。

用于检测自身抗体的测定包含免疫吸附测定,诸如ELISA或PEA。在检测抗体时,优选地,标记物蛋白或至少含有其片段的表位结合固体支撑物,例如微量滴定孔。样品的自身抗体结合该抗原或片段。结合的自身抗体可以通过具有可检测标记(例如,荧光标记)的二级抗体检测。所述标记然后用于生成依赖于结合自身抗体的信号。如果患者是人类,则二级抗体可以是抗人抗体,或者针对依赖于待分析的患者样品的任何其他生物体。试剂盒可以包括针对此类测定的装置,诸如固体支撑物以及优选地二级抗体。优选地,所述二级抗体结合患者的(自身)抗体的Fc部分。还可以添加缓冲液和洗涤或漂洗溶液。固体支撑物可以用封闭化合物涂覆以避免非特异性结合。

在一个实例中,用蛋白微阵列或其他免疫测定来测定自身抗体。

可以用作输入特征的自身抗体测定的度量包括但不限于所有自身抗体的经调整的分位数归一化z分数、二进制0/1或基于特定z分数截止值的每种自身抗体的不存在/存在。

在各种实例中,自身抗体标记物与不同亚型或阶段的癌症相关联。在各种实例中,自身抗体标记物涉及或能够以高亲和力结合肿瘤相关抗原。在各种实例中,肿瘤相关抗原选自癌胚胎抗原/未成熟层粘连蛋白受体蛋白(OFA/iLRP)、甲胎蛋白(AFP)、癌胚抗原(CEA)、CA-125、MUC-1、上皮肿瘤抗原(ETA)、酪氨酸酶、黑素瘤相关抗原(MAGE)、ras的异常产物、p53的异常产物、ras的野生型形式、p53的野生型形式或其片段。

在一个实例中,显示ZNF700是用于检测结直肠癌中的自身抗体的捕获抗原。在具有其他锌指蛋白的组中,ZNF特异性自身抗体检测允许检测结直肠癌(O'Reilly et al.,2015)。在一个实例中,测定抗p53抗体,因为此类抗体可以在癌症的临床诊断之前数月至数年发生。

F.碳水化合物

存在用于测量生物样品中的碳水化合物的测定。薄层色谱法(TLC)、气相色谱法(GC)和高效液相色谱法(HPLC)可以用于分离并鉴定碳水化合物。碳水化合物的浓度可以重量分析的方式(曼森-沃克法)、分光光度法或通过滴定(例如,兰-爱农法)确定。另外,分析碳水化合物的量热法(蒽酮法、苯酚-硫酸法)。表征碳水化合物的其他物理方法包含旋光法、折射率、IR和密度。在一个实例中,来自碳水化合物测定的度量用作机器学习方法和模型的输入特征。

III.示例性系统

在一些实例中,本公开提供了可以包含在测量装置(例如,实验室仪器,诸如测序机器)中实现的数据分析、在计算机硬件上执行的软件代码的系统、方法或试剂盒。软件可以存储在存储器上并且在一个或多个硬件处理器上执行。软件可以组织到可以彼此通信的例程或软件包中。模块可以包括一个或多个装置/计算机以及潜在地在一个或多个装置/计算机上执行的一个或多个软件例程/软件包。例如,分析应用程序或系统可以至少包含数据接收模块、数据预处理模块、数据分析模块(其可以对一种或多种类型的基因组数据进行操作)、数据解读模块或数据可视化模块。

数据接收模块可以将实验室硬件或仪器与处理实验室数据的计算机系统连接。数据预处理模块可以对准备进行分析的数据进行操作。预处理模块中可以应用于数据中的操作的实例包含仿射变换、去噪操作、数据清理、重新格式化或子采样。可以专用于分析来自一个或多个基因组材料的基因组数据的数据分析模块可以例如取组装的基因组序列并且进行概率和统计分析,以鉴定与疾病、病理学、状态、风险、病状或表型相关的异常模式。数据解读模块可以使用例如从统计学、数学或生物学得出的分析方法,以支持理解鉴定的异常模式与健康状况、功能状态、预后或风险之间的关系。数据分析模块和/或数据解读模块可以包含一个或多个机器学习模型,其可以在硬件中实施,所述硬件例如执行体现机器学习模型的软件。数据可视化模块可以使用数学建模、计算机图形或绘制的方法,以产生可以有利于结果的理解或解读的视觉数据表示。本公开提供了进行编程以实施本公开的方法的计算机系统。

在一些实例中,本文公开的方法可以包含对来自一个个体或来自多个个体的样品的核酸测序数据进行计算机分析。分析可以鉴定由序列数据推断的变体,以基于概率建模、统计建模、机械建模、网路建模或统计推断鉴定序列变体。分析方法的非限制性实例包含主元素分析、自动编码器、奇异值分解、傅立叶基、小波、判别分析、回归、支持向量机、基于树的方法、网络、矩阵分解和聚类。变体的非限制性实例包含种系变化或体细胞突变。在一些实例中,变体可以是指已知的变体。已知的变体可以是科学证实的或在文献中报告的。在一些实例中,变体可以是指与生物变化相关联的推定的变体。生物变化可以是已知的或未知的。在一些实例中,推定的变体可以是文献中报告的,但是尚未生物证实的。可替代地,推定的变体从未在文献中报告,但是可以基于本文公开的计算机分析来推断。在一些实例中,种系变体可以是指诱导天然或正常变化的核酸。

天然或正常变化可以包含例如肤色、发色和正常体重。在一些实例中,体细胞突变可以是指诱导获得性或异常变化的核酸。获得性或异常变化可以包含例如癌症、肥胖、病状、症状、疾病和病症。在一些实例中,分析可以包含区分种系变体。种系变体可以包含例如个人变体和体细胞突变。在一些实例中,鉴定的变体可以被临床医师或其他健康专家用于改善健康护理方法、诊断准确性和成本减少。

图1示出了被编程或以其他方式被配置来进行本文所述的方法的系统100。作为各种实例,系统100可以处理和/或测定样品,进行测序分析,测量多组代表分子类别的值,由测定数据鉴定多组特征和特征向量,使用机器学习模型处理特征向量以获得输出分类,并且训练机器学习模型(例如,迭代搜索机器学习模型的参数的最佳值)。系统100包含计算机系统101和可以测量各种分析物的一个或多个测量装置151、152或153。如图所示,测量装置151-153测量相应的分析物1-3。

计算机系统101可以调节本公开的样品处理和测定的各个方面,诸如像激活将试剂或样品从一个室转移到另一个的阀或泵或向样品施加热(例如,在扩增反应期间),处理和/或测定样品、进行测序分析、测量多组代表分子类别的值、由测定数据鉴定多组特征和特征向量、使用机器学习模型处理特征向量以获得输出分类以及训练机器学习模型(例如,迭代搜索机器学习模型的参数的最佳值)的其他方面。计算机系统101可以是相对于电子装置远程定位的用户或计算机系统的电子装置。

计算机系统101包含中央处理单元(CPU,在本文也是“处理器”和“计算机处理器”)105,其可以是单核或多核处理器,或用于平行处理的多个处理器;存储器110(例如,高速缓冲存储器、随机存取存储器、只读存储器、闪存或其他存储器);电子存储单元115(例如,硬盘);用于与一个或多个其他系统通信的通信接口120(例如,网络适配器);以及外围装置125,诸如高速缓冲存储器的适配器、其他存储器、数据存储器和/或电子显示器。存储器110、存储单元115、接口120和外围装置125可以通过通信总线(实线)诸如主板与CPU 105通信。存储单元115可以是用于存储数据的数据存储单元(或数据仓库)。一个或多个分析物特征输入可以由一个或多个测量装置151、152或153输入。本文描述了示例性分析物和测量装置。

计算机系统101可以借助于通信接口120与计算机网络(“网络”)130操作性地耦合。网络130可以是因特网、因特网和/或外联网或与因特网通信的内联网和/或外联网。在一些情况下,网络130是电信和/或数据网络。网络130可以包含一个或多个计算机服务器,其可以在网络130(“云”)上实现分布计算(诸如云计算),以进行本公开的分析、计算和生成的各个方面,诸如像激活将试剂或样品从一个室转移到另一个的阀或泵或向样品施加热(例如,在扩增反应期间),处理和/或测定样品、进行测序分析、测量多组代表分子类别的值、由测定数据鉴定多组特征和特征向量、使用机器学习模型处理特征向量以获得输出分类以及训练机器学习模型(例如,迭代搜索机器学习模型的参数的最佳值)的其他方面。此类云计算可以由云计算平台提供,诸如像亚马逊网络服务(AWS)、微软Azure、谷歌云平台和IBM云。在一些情况下,网络130借助于计算机系统101可以实现对等网络,其可以使与计算机系统101耦合的装置能够充当客户端或服务器。

CPU 105可以执行一系列机器可读指令,其可以在程序或软件中体现。指令可以存储在存储器位置诸如存储器110中。指令可以被引导到CPU 105,其随后可以编程或以其他方式配置CPU 105来实现本公开的方法。CPU 105可以是电路诸如集成电路的一部分。系统101的一个或多个其他组件可以包含在电路中。在一些情况下,电路是专用集成电路(ASIC)。

存储单元115可以存储文件,诸如驱动器、库和保存的程序。存储单元115可以存储用户数据,例如用户偏好和用户程序。在一些情况下,计算机系统101可以包含一个或多个额外的数据存储单元,所述数据存储单元在计算机系统101的外部,诸如位于远程服务器上,所述远程服务器通过内联网或因特网与计算机系统101通信。

计算机系统101可以通过网络130与一个或多个远程计算机系统通信。例如,计算机系统101可以与用户的远程计算机系统通信。远程计算机系统的实例包含个人计算机(例如,便携式PC)、平板(slate或tablet)PC(例如,

如本文所述的方法可以通过存储在计算机系统101的电子存储位置上(诸如像存储在存储器110或电子存储单元115上)的机器(例如,计算机处理器)可执行代码来实现。机器可执行或机器可读代码可以软件的形式提供。在使用期间,代码可以由CPU 105执行。在一些情况下,代码可以从存储单元115检索并且存储在存储器110上以用于易于被CPU 105访问。在一些情况下,可以排除电子存储单元115,并且机器可执行指令存储在存储器110上。

代码可以被预编译并配置用于被具有适于执行代码的处理器的机器使用,或者可以在运行时间期间编译。代码可以编程语言提供,所述编程语言可以被选择来使代码能够以预编译或已编译方式执行。

本文提供的系统和方法的方面(诸如计算机系统101)可以在编程中体现。所述技术的各个方面可以被认为是“产品”或“制品”,其通常呈在一种类型的机器可读介质上携带或在一种类型的机器可读介质中体现的机器(或处理器)可执行代码和/或相关联数据的形式。机器可执行代码可以存储在电子存储单元,诸如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘上。“存储”类型介质可以包含计算机、存储器等的有形存储器或其相关联的模块,诸如各种半导体存储器、磁带驱动器、盘驱动器等中的任一种或全部,其可以在软件编程的任何时间处提供非暂时性存储。软件的全部或一部分有时可以通过因特网或各种其他电信网络通信。此类通信例如可以实现将软件从一个计算机或处理器加载到另一个中,例如从管理服务器或主机计算机加载到应用服务器的计算机平台中。因此,可以携带软件元件的另一种类型的介质包含光波、电波和电磁波,诸如通过有线和光学地上网络以及越过各种空中链接穿过本地装置之间的物理接口使用。携带此类波的物理元件,诸如有线或无线连接、光学连接等也可以被认为是携带软件的介质。如本文所用,除非限于非暂时性有形“存储”介质,否则诸如计算机或机器“可读介质”的术语是指涉及向处理器提供指令以用于执行的任何介质。

因此,机器可读介质诸如计算机可执行代码可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包含例如光盘或磁盘,诸如任何计算机等中的存储装置中的任一种,诸如可以用于实现附图中所示的数据库等。易失性存储介质包含动态存储器,诸如此类计算机平台的主存储器。有形传输介质包含同轴电缆;铜线和光纤,包含在计算机系统内包括总线的线。

载波传输介质可以采取电信号或电磁信号,或声波或光波诸如在射频(RF)或红外(IR)数据通信期间生成的那些的形式。因此,计算机可读介质的常见形式包含例如:软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片、纸带、任何其他带有孔图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或卡带、传输数据或指令的载波、传输此类载波的电缆或连接或者计算机可以由其读取编程代码和/或数据的任何其他介质。计算机可读介质的许多这些形式可以涉及将一个或多个指令的一个或多个序列携带到处理器以用于执行。

计算机系统101可以包含电子显示器135或与所述电子显示器通信,所述电子显示器包括用户接口(UI)140,以用于提供例如样品的处理或测定的当前阶段(例如,特定步骤,诸如裂解步骤或正在进行的测序步骤)。输入从一个或多个测量装置151、152或153被计算机系统接收。UI的实例包括但不限于图形用户接口(GUI)和基于网的用户接口。算法可以例如处理和/或测定样品,进行测序分析,测量多组代表分子类别的值,由测定数据鉴定多组特征和特征向量,使用机器学习模型处理特征向量以获得输出分类,并且训练机器学习模型(例如,迭代搜索机器学习模型的参数的最佳值)。

IV.机器学习工具

为了确定用于实验测试的一组测定,可以利用机器学习系统来评定由给定测定或多种测定生成并在给定分析物上运行的给定数据组增加分类的总体预测准确性的有效性。以这种方式,可以解决新的生物/健康/诊断问题以设计新的测定。

机器学习可以用于将由全部(原初样品/分析物/测试)组合生成的一组数据减少为最佳预测组的特征(例如,其满足指定准则)。在各种实例中,可以应用统计学习和/或回归分析。可以在交叉验证范式中将做出各种建模假设的简单至复杂和小至大的模型应用于数据。简单至复杂包含考虑线性至非线性和非分层至分层特征表示。小至大模型包含考虑将数据所投射于的基础向量空间的大小以及建模过程中包含的特征之间的相互作用的数量。

机器学习技术可以用于评定对于如初始问题中定义的成本/性能/商业目的最佳的商业测试模式。可以进行阈值检查:如果应用于未用于交叉验证的保留数据组的方法超过初始化约束,则测定被锁定并且产生开始。例如,测定性能的阈值可以包含所需的最小准确性、正预测值(PPV)、负预测值(NPV)、临床敏感性、临床特异性、曲线下面积(AUC)或其组合。例如,所需的最小准确性、PPV、NPV、临床敏感性、临床特异性或其组合可以是至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%。作为另一个实例,所需的最小AUC可以是至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.81、至少约0.82、至少约0.83、至少约0.84、至少约0.85、至少约0.86、至少约0.87、至少约0.88、至少约0.89、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98或至少约0.99。测定的子集可以选自基于进行测定的子集的总成本针对给定样品进行的一组测定,其受测定性能的阈值的约束,所述阈值诸如所需的最小准确性、正预测值(PPV)、负预测值(NPV)、临床敏感性、临床特异性、曲线下面积(AUC)及其组合。如果未达到阈值,则测定工程化程序可以环回到针对可能松弛设置的约束,或环回到湿实验室以改变获取数据的参数。鉴于临床问题,生物约束、预算、实验室机器等可以约束问题。

在各种实例中,机器学习技术的计算机处理可以包含统计学、数学、生物学或其任何组合的方法。在各种实例中,计算机处理方法中的任一种可以包含降维方法、逻辑回归、降维、主元素分析、自动编码器、奇异值分解、傅立叶基、奇异值分解、小波、判别分析、支持向量机、基于树的方法、随机森林、梯度提升树、逻辑回归、矩阵分解、网络聚类、统计测试和神经网络。

在各种实例中,机器学习技术的计算机处理可以包含逻辑回归、多线性回归(MLR)、降维、偏最小二乘法(PLS)回归、主成分回归、自动编码器、变分自编码器、奇异值分解、傅立叶基、小波、判别分析、支持向量机、决策树、分类和回归树(CART)、基于树的方法、随机森林、梯度提升树、逻辑回归、矩阵分解、多维尺度变换(MDS)、降维方法、t-分布随机近邻嵌入(t-SNE)、多层感知机(MLP)、网络聚类、神经模糊、神经网络(浅和深)、人工神经网络、Pearson积矩相关系数、Spearman秩相关系数、Kendallτ秩相关系数或其任何组合。

在一些实例中,计算机处理方法是监督机器学习方法,包含例如回归、支持向量机、基于树的方法和神经网络。在一些实例中,计算机处理方法是无监督机器学习方法,包含例如聚类、网络、主成分分析和矩阵分解。

对于监督学习,训练样品(例如,数千个)可以包含测量数据(例如,各种分析物的测量数据)和已知的标记,其可以通过其他耗时的过程来确定,诸如受试者的成像和经训练的执业医师的分析。示例性标记可以包含受试者的分类,例如受试者是否患有癌症的离散分类或提供离散值的概率(例如,风险或分数)的连续分类。学习模块可以优化模型的参数,使得用一个或多个指定准则实现质量度量(例如,对于已知标记的预测的准确性)。确定质量度量可以针对任何任意函数,包含所有风险、损失、效用和决策函数的组来实现。梯度可以结合学习步骤(例如,对于优化过程的给定时间步骤,模型参数应该更新多少的量度)来使用。

如上所述,实例可以用于各种目的。例如,可以从有病状(例如,已知具有病状)的受试者和健康受试者采集血浆(或其他样品)。可以获取遗传数据(例如,cfDNA),进行分析以获得各种不同的特征,其可以包含基于全基因组的分析的特征。这些特征可以形成特征空间,其进行搜索、延伸、旋转、平移和线性或非线性转化,以生成准确的机器学习模型,所述机器学习模型可以区分健康受试者和具有病状的受试者(例如,鉴定受试者的疾病或非疾病状态)。衍生于该数据和模型的输出(其可以包含病状的概率、病状的阶段(水平)或其他值)可以用于生成另一个模型,所述另一个模型可以用于推荐进一步的程序,例如推荐活检或保持监测受试者病状。

V.输入特征的选择

如上所述,可以生成较大组的特征以提供可以由其确定特征向量的特征空间。来自一组训练样品中的每一个的该特征向量然后可以用于训练机器学习模型的当前版本。所使用的特征类型可以取决于所使用的分析物的类型。

特征的实例可以包含与结构变化(SV)相关的变量,诸如拷贝数变化和易位;融合;突变(例如,SNP或其他单核苷酸变化(SNV)或稍微更大的序列变化);端粒缩短;以及核小体占位和分布。这些特征可以基于全基因组来计算。以下提供特征的示例性类别(类型)。当从至少一种分析物获得遗传序列数据时,示例性特征可以包含比对的特征(例如,与一个或多个参考基因组的比较)和未比对的特征。示例性的比对特征可以包含序列变化和基因组窗口中的序列计数。示例性的非比对特征可以包含来组序列读取的kmer和来自读取的生物衍生的信息。

在一些实例中,至少一个特征是遗传序列特征。作为实例,遗传序列特征可以选自DNA的甲基化状态、单核苷酸多态性、拷贝数变化、插入/删除和结构变体。在各种实例中,甲基化状态可以用于确定核小体占位和/或确定DNA或条形码化的DNA的CpG岛中的甲基化密度。

理想地,特征选择可以选择不变的或在具有相同分类(例如,具有特定表型的相同概率或相关联的风险)的样品内的低变化的特征,但是其中此类特征在具有不同分类的样品组之间变化。可以实施程序来鉴定什么特征在特定群体(例如,共享分类或当分类是实数时至少具有相似分类的群体)内似乎是最不变的。程序还可以鉴定在群体之间变化的特征。例如,可以分析与基因组的各种基因组区域部分或完全重叠的序列读取的读取计数以确定它们在群体内如何变化,并且可以将此类读取计数与单独的群体(例如,已知患有疾病或病症或没有疾病或病症的症状的受试者)的读取计数进行比较。

各种统计度量可以用于分析跨群体的特征变化以用于选择可以预测分类的特征的目的,并且因此可以有利于训练。另外的实例还可以基于特征空间的分析和用于特征向量的所选特征选择特定类型的模型。

A.特征向量的产生

特征向量可以作为可以针对每个训练样品再现的任何数据结构产生,使得对应的数据跨训练样品在数据结构中出现在相同的位置中。例如,特征向量可以与索引相关联,其中特定值在每个索引处存在。如以上所解释,矩阵可以存储在特征向量的特定索引处,并且矩阵元素可以具有进一步的子索引。特征向量的其他元素可以由此类矩阵的概括统计生成。

作为另一个实例,特征向量的单个元素可以对应于跨基因组的一组窗口的一组序列读取。因此,特征向量的元素本身可以是向量。此类读取计数可以具有所有读取或某一组(类别)读取,例如具有特定序列复杂度或熵的读取。可以诸如针对GC偏好和/或可映射性偏差对一组序列读取进行过滤或归一化。

在一些实例中,特征向量的元素可以是多个特征串联的结果。这可以与其中元素本身是阵列(例如,向量或矩阵)的其他实例不同,因为与值的集合相反,串联值可以作为单个值处理。因此,特征可以串联、合并和组合以作为工程化特征或特征表示用于机器学习模型。

可以进行合并特征的多个组合和方法。例如,当在相同窗口(仓)上对不同量度进行计数时,这些仓之间的比率(诸如倒位除以删除)可以是有用的特征。此外,空间上接近和其合并可以传递生物信息的仓的比率(诸如转录起始位点计数除以基因体计数)也可以充当有用的特征。

还可以例如通过设置多任务无监督学习问题来对特征进行工程化,其中给予一组参数的所有特征向量和潜在向量的联合概率最大化。在试图由生物序列数据预测表型(或其他分类)时,该概率程序的潜在向量经常充当优异的特征。

B.训练中使用的权重

在将特征添加到特征向量时,可以对特征应用权重。此类权重可以基于特征向量内的元素或特征向量的元素内的特定值。例如,基因组中的每个区域(窗口)可以具有不同的权重。一些窗口可以具有零权重,这意味着窗口对于分类没有贡献。其他窗口可以具有更大的权重,例如在0至1之间。因此,可以对用于产生特征向量的特征的值应用加权掩模,所述值例如应用于群体中的计数、序列复杂度、频率、序列相似度等的特征的掩模的不同值。

在一些实例中,训练过程可以学习待应用的权重。以这种方式,技术人员在训练过程之前不需要知道任何先前知识或对于数据的生物见解。初始应用于特征的权重可以被认为是模型的第一层的一部分。一旦模型经过训练并满足一个或多个指定准则(例如,所需的最小准确性、正预测值(PPV)、负预测值(NPV)、临床敏感性、临床特异性、曲线下面积(AUC)或其组合),模型就可以用于生产运行以分类新样品。在此类生产运行中,不需要计算具有零初始权重的任何特征。因此,可以减小从训练到生产的特征向量的大小。在一些实施例中,主成分分析(PCA)可以用于训练机器学习模型。对于机器学习模型,在各种实例中,每个主成分可以是一个特征,或者串联在一起的所有主成分可以是一个特征。基于分析物的这些中的每一个的PCA的输出,可以产生模型。可以基于PCA之前的原始特征(不一定是PCA输出)更新模型。在各种方法中,每个单个字节的数据可以使用原始特征;可以进行对每个批次的数据的随机选择并始终运行;可以进行随机森林;或者可以产生其他树或随机数据组。与任何降维的结果相反,特征本身也可以是测量值,但是两者均可以使用。

C.在训练迭代之间选择特征

如以上所提及,训练过程可能不产生满足所需准则的模型。此时,可以再次进行特征选择。特征空间可以是相当大的(例如,35000或100000个),所以特征向量中使用的不同特征的不同可能排列的数量可以是巨大的。某些特征(可能很多)可以属于同一类别(类型),例如窗口中的读取计数、来自不同区域的计数的比率、不同位点处的变体等。此外,将特征串联成单个元素可以进一步增加排列的数量。

可以基于来自训练过程的前一次迭代的信息来选择新一组的特征。例如,可以分析与特征相关联的权重。这些权重可以用于确定是否可以保留或丢弃特征。可以保留与大于阈值的权重或平均权重相关联的特征。可以去除与小于阈值(与用于保留的相同或不同)的权重或平均权重相关联的特征。

可以重复用于训练模型的特征的选择和特征向量的产生,直至满足一个或多个所需的准则,例如模型的合适质量度量(例如,所需的最小准确性、正预测值(PPV)、负预测值(NPV)、临床敏感性、临床特异性、曲线下面积(AUC)或其组合)。其他准则可以是从用不同的特征向量生成的一组模型中选择具有最好的质量度量的模型。因此,可以选择在由数据检测表型的能力方面具有最好的统计性能和泛化性的模型。此外,一组训练样品可以用于针对不同的目的训练各种模型,例如病状(例如,患有癌症或未患癌症的个体)、治疗(例如,具有治疗应答或不具有治疗应答的个体)、预后(例如,具有良好预后或不具有良好预后的个体)的分类等。良好的癌症预后可以对应于个体具有症状解决或改善的可能性或预期在治疗之后恢复(例如,肿瘤缩小,或者预期癌症不重现)的情况,如本文所用是指与侵袭性更小和/或更具可治疗性的疾病形式相关联的预后。例如,癌症的侵袭性更小、更具可治疗性的形式比侵袭性更大和/或可治疗性更小的形式具有更高的预期存活率。在各种实例中,良好的预后是指保持相同大小或响应于治疗降低的肿瘤、缓解或改善的总体存活率。

相似地,如本文所用的较差的预后(或不具有良好预后的个体)是指与侵袭性更大和/或可治疗性更小的疾病形式相关联的预后。例如,侵袭性的可治疗性更小的形式比侵袭性更小的和/或可治疗性的形式具有更差的存活率。在各种实例中,较差的预后是指保持相同大小或增加的肿瘤、或重现或未降低的癌症。

VI.机器学习模型用于多分析物测定的用途

图2示出了根据一个实例的用于分析生物样品的示例性方法200。方法200可以通过本文所述的系统中的任一种来实现。在一个实例中,所述方法使用能够在个体群体中进行类别辨别的机器学习模型。在各种实例中,该能够进行类别辨别的模型(例如,分类器)用于区分健康和疾病群体、治疗应答者/非应答者和疾病阶段,以提供可用于指导治疗决策的信息。

在框210处,所述系统接收包含多种类别的分子的生物样品。本文描述了示例性生物样品,例如血液、血浆或尿液。还可以接收单独的样品。可以将单个样品(例如,血液的单个样品)采集到多个容器,例如一组小瓶中。

在框220处,所述系统将生物样品分为多个部分,多种类别的分子中的每一种均在多个部分中的一个中。样品可以是较大样品的一个级分,例如从血液样品获得的血浆。并且,然后可以从此类级分获得所述部分。在一些实例中,一个部分可以包含多种类别的分子。对于一个部分的测定可以仅测试一种类别的分子,并且因此一个部分中的一种类别的分子可能未被测量,但是可以在不同部分中测量。作为实例,测量装置151、152和153可以对于样品的不同部分进行相应的测定。计算机系统101可以分析来自各种测定的测量数据。

在框230处,对于多种测定中的每一种,所述系统鉴定待输入到机器学习模型中的一组特征。所述组的特征可以对应于生物样品中的多种类别的分子中的一种的特性。待使用的所述组的特征的定义可以存储在计算机系统的存储器中。所述组的特征可以例如使用本文所述的机器学习技术先前进行鉴定。在使用特定测定时,可以从存储器检索对应组的特征。每种测定可以具有用于检索对应组的特征的分类器以及用于产生特征的任何特定软件代码。此类代码可以是模块化的,使得可以独立地更新部分,其中特征的最终集合基于所使用的测定和各组特征的存储的定义来定义。

在框240处,对于多个部分中的每个部分,所述系统针对所述部分中的一种类别的分子进行测定,以获得生物样品中所述类别的分子的一组测量值。所述系统可以从多种测定获得生物样品的多组测量值。根据所指定的测定(例如,通过输入文件或用户指定的测量配置),特定组的测量装置可以用于为计算机系统提供特定测量值。

在框250处,所述系统由多组测量值形成特征值的特征向量。每个特征值可以对应于一个特征,并且包含一个或多个测量值。特征向量可以包含使用多组测量值中的每一组形成的至少一个特征值。因此,可以使用由针对多种类别的分子的测定中的每一种测量的值确定特征向量。用于形成特征向量和提取特征向量的其他细节在其他部分中描述,但适用于形成特征向量的所有情况。

可以使用主成分分析确定给定分析物的特征。对于机器学习模型,在各种实例中,每个主成分可以是一个特征,或者串联在一起的所有主成分可以是一个特征。基于分析物的这些中的每一个的PCA的输出,可以产生模型。在其他实例中,还可以在任何PCA之前基于原始特征更新模型,并且因此所述特征可以不一定包含任何PCA输出。在各种方法中,原始特征可以包含每个单个字节的数据;可以使用对分析物的每个批次的数据的随机选择;可以进行随机森林;或者可以产生其他树或随机数据组。与任何降维(例如,PCA)的结果相反,特征本身也可以是测量值,但是两者均可以使用。

在框260处,所述系统将机器学习模型加载到计算机系统的存储器中,所述机器学习模型使用由训练生物样品获得的训练向量来训练。训练样品可以具有进行的相同测量,并且因此可以生成相同的特征向量。可以基于所需的分类(例如,如临床问题所指示)选择训练样品。不同的子集可以具有不同的特性,例如,如对其分配的标记所确定。训练生物样品的第一子集可以被鉴定为具有指定特性,并且训练生物样品的第二子集可以被鉴定为不具有指定特性。特性的实例是各种疾病或病症,但是也可以是中间分类或测量值。此类特性的实例包含癌症存在或癌症的阶段,或例如针对癌症治疗的癌症的预后。作为实例,癌症可以是结直肠癌、肝癌、肺癌、胰腺癌或乳腺癌。

在框270处,所述系统将特征向量输入到机器学习模型中,以获得生物样品是否具有指定特性的输出分类。分类可以各种方式提供,例如作为一个或多个分类中的每一个的概率。例如,癌症存在可以被分配一个概率和输出。相似地,癌症不存在可以被分配一个概率和输出。可以使用具有最高概率的分类,例如受一个或多个准则的约束,这种分类比第二高的分类具有足够更高的概率。差值可能需要高于阈值。如果未满足一个或多个准则,则输出分类可以是模糊的。因此,输出分类可以包含指示个体中癌症存在的检测值(例如,概率)。并且,机器学习模型可以进一步输出另一个分类,其提供生物样品不具有癌症的概率。

在这种分类之后,可以为受试者提供治疗。示例性治疗方案可以包含手术干预、用给定药物或药物组合进行的化疗和/或放射疗法。

VII.分类器生成

本公开的方法和系统可以涉及鉴定与样品之间的类别辨别相关的一组信息性特征(例如,基因组基因座),其包括根据它们在样品中的存在与类别辨别相关的程度来对特征(例如,基因)进行分选,以及确定所述相关是否比偶然预期的更强。机器学习技术可以隐含地使用来自输入特征向量的此类信息性特征。在一个实例中,类别辨别是已知类别,并且在一个实例中,类别辨别是疾病类别辨别。具体地,疾病类别辨别可以是癌症类别辨别。在各种实例中,所述癌症是结直肠癌、肺癌、肝癌或胰腺癌。

本公开的一些实例还可以涉及确定待测试的至少一个样品被分类到其中的至少一种先前未知的类别(例如,疾病类别、增殖性疾病类别、癌症阶段或治疗应答),其中所述样品从个体获得。在一方面,本公开提供了一种能够区分个体群体内的个体的分类器。所述分类器可以是机器学习模型的一部分。机器学习模型可以接收对应于生物样品的多种类别的分子中的每一种的特性的一组特征作为输入。可以对生物样品中的多种类别的分子进行测定,以获得多组代表所述多种类别的分子的测量值。可以鉴定对应于所述多种类别的分子中的每一种的特性的一组特征,并且输入到机器学习模型中。可以生成来自多组测量值中的每一组的特征值的特征向量,使得每个特征值对应于所述组的特征的一个特征并且包含一个或多个测量值。特征向量可以包含使用多组测量值中的每一组获得的至少一个特征值。包括分类器的机器学习模型可以被加载到计算机存储器中。所述机器学习模型可以使用从训练生物样品获得的训练向量来训练,使得所述训练生物样品的第一子集被鉴定为具有指定特性,并且所述训练生物样品的第二子集被鉴定为不具有所述指定特性。所述特征向量可以被输入到所述机器学习模型中,以获得所述生物样品是否具有所述指定特性的输出分类,从而区分具有所述指定特性的个体群体。作为实例,所述指定特性是个体是否患有癌症。

在一方面,本公开提供了一种用于基于生物样品的多分析物分析对受试者进行分类的系统,其包括:(a)计算机可读介质,其包括可操作来基于所述多分析物分析对所述受试者进行分类的分类器;以及(b)一个或多个处理器,其用于执行存储在所述计算机可读介质上的指令。

在一个实例中,所述系统包括被配置为机器学习分类器的分类回路,所述机器学习分类器选自线性判别分析(LDA)分类器、二次判别分析(QDA)分类器、支持向量机(SVM)分类器、随机森林(RF)分类器、线性核支持向量机分类器、一阶或二阶多项式核支持向量机分类器、岭回归分类器、弹性网络算法分类器、序列最小优化算法分类器、朴素贝叶斯算法分类器以及NMF预测器算法分类器。

在一个实例中,对癌症样品(例如,组织)中的生物标记物的信息性特征(例如,基因组基因座)进行测定以形成谱。对线性分类器标量输出的阈值进行优化,以最大化准确性、正预测值(PPV)、负预测值(NPV)、临床敏感性、临床特异性、曲线下面积(AUC)或其组合,诸如在训练数据组内观察到的交叉验证下的敏感性和特异性的总和。

可以使用本领域技术人员已知的方法对给定样品的总体多分析物测定数据(例如,表达数据或序列数据)进行归一化,以便校正不同量的起始材料、提取和扩增反应的变化的效率等。针对归一化数据使用线性分类器以有效地进行诊断性或预后性识别(例如,对于治疗剂的应答性或抗性)意指通过分离超平面将数据空间(例如,分类器中的所有特征(例如,基因)的表达值的所有可能组合)分为不相交的两半。该分离是针对例如来自对于治疗剂显示应答性或抗性的患者的大组的训练实例根据经验得出的。在不失一般性的情况下,技术人员可以假设仅一个生物标记物的某一固定组的值,其可以自动定义该剩下的生物标记物的阈值,其中决策可以例如由对于治疗剂的应答性或抗性改变。高于该动态阈值的表达值然后可以指示对于治疗剂的抗性(对于具有负权重的生物标记物)或应答性(对于具有正权重的生物标记物)。该阈值的精确值取决于分类器内所有其他生物标记物的实际测量表达谱,但是某些生物标记物的一般性指示保持固定,例如高值或“相对过表达”总是有助于应答性(具有正权重的基因)或抗性(具有负权重的基因)。因此,在总体基因表达分类器的情况下,相对表达可以指示某些生物标记物的上调或下调是否指示对于治疗剂的应答性或抗性。

在一个实例中,患者生物(例如,组织)样品的生物标记物谱(例如,表达谱)通过线性分类器来评估。如本文所用,线性分类器是指个体生物标记物特征成为混合决策分数(“决策函数”)的加权和。然后将决策分数与预定义的截止分数阈值进行比较,所述截止分数阈值对应于关于准确性、正预测值(PPV)、负预测值(NPV)、临床敏感性、临床特异性、曲线下面积(AUC)或其组合的某一设定点,其指示样品高于分数阈值(正决策函数)或低于分数阈值(负决策函数)。有效地,这意味着数据空间(例如,生物标记物特征值的所述组的所有可能组合)被分为互斥的两半,其对应于不同的临床分类或预测,例如一半对应于对于治疗剂的应答性并且另一半对应于对于治疗剂的抗性。

该量(即,对于治疗剂的截止阈值应答性或抗性)的解读在来自一组具有已知结果的患者的开发阶段(“训练”)中得出。决策分数的对应权重和应答性/抗性截止阈值是通过本领域技术人员已知的方法由训练数据事先固定的。在一个实例中,偏最小二乘法判别分析(PLS-DA)用于确定权重。(L.Stale,S.Wold,J.Chemom.1(1987)185-196;D.V.Nguyen,D.M.Rocke,Bioinformatics 18(2002)39-50)。在应用于癌症分类器的测定数据(例如,转录物)时,用于进行分类的本领域技术人员已知的其他方法也可以是本文所述的方法。

不同的方法可以用于将针对这些生物标记物测量的定量测定数据转换为预后或其他预测用途。这些方法包括但不限于模式识别领域的方法(Duda etal.PatternClassification,2.sup.nd ed.,John Wiley,New York 2001)、机器学习领域的方法(Scholkopf et al.Learning with Kernels,MIT Press,Cambridge 2002,Bishop,NeuralNetworks for Pattern Recognition,Clarendon Press,Oxford 1995)、统计学领域的方法(Hastie et al.The Elements of Statistical Learning,Springer,New York 2001)、生物信息性领域的方法(Dudoit et al.,2002,J.Am.Statist.Assoc.97:77-87,Tibshirani et al.,2002,Proc.Natl.Acad.Sci.USA 99:6567-6572)或化学计量学领域的方法(Vandeginste et al.,Handbook of Chemometrics and Qualimetrics,Part B,Elsevier,Amsterdam 1998)。

在训练步骤中,测量针对应答性和抗性两种情况的一组患者样品(例如,包含对于治疗显示应答性的患者、对于治疗未显示应答性的患者、对于治疗显示抗性的患者和/或对于治疗未显示抗性的患者),并且使用来自该训练数据的固有信息优化预测方法,以最佳地预测训练组或未来样品组。在该训练步骤中,对所述方法进行训练或参数化,以便由特定测定数据谱预测到特定预测性识别。合适的转化或预处理步骤可以用测量数据进行,之后使测量数据经受分类(例如,诊断性或预后性)方法或算法。

形成测定数据中的每一个(例如,转录物)的预处理特征(例如,强度)值的加权和,并且与针对训练组优化的阈值进行比较(Duda et al.Pattern Classification,2

数据可以非线性地转化,之后应用如上所述的加权和。该非线性转化可以包含增加数据的维度。非线性转化和加权和还可以例如通过使用核函数隐含地进行。(Scholkopfet al.Learning with Kernels,MIT Press,Cambridge 2002)。

在另一个实例中,决策树(Hastie et al.,The Elements of StatisticalLearning,Springer,New York 2001)或随机森林(Breiman,Random Forests,MachineLearning 45:5 2001)用于由测定数据(例如,转录物组)或其产物的测量值(例如,强度数据)进行分类(例如,诊断性或预后性识别)。

在另一个实例中,神经网络(Bishop,Neural Networks for PatternRecognition,Clarendon Press,Oxford 1995)用于由测定数据(例如,转录物组)或其产物的测量值(例如,强度数据)进行分类(例如,诊断性或预后性识别)。

在另一个实例中,判别分析(Duda et al.,Pattern Classification,2nd ed.,John Wiley,New York 2001)(包括诸如线性、对角线性、二次和逻辑判别分析的方法)用于由测定数据(例如,转录物组)或其产物的测量值(例如,强度数据)进行分类(例如,诊断性或预后性识别)。

在另一个实例中,微阵列的预测分析(PAM,(Tibshirani et al.,2002,Proc.Natl.Acad.Sci.USA 99:6567-6572))用于由测定数据(例如,转录物组)或其产物的测量值(例如,强度数据)进行分类(例如,诊断性或预后性识别)。

在另一个实例中,软独立建模分类法(SIMCA,(Wold,1976,Pattern Recogn.8:127-139))用于由转录物组或其产物的测量强度数据进行预测性识别。

可以处理各种类型的信号,并且使用机器学习模型推断分类(例如,表型或表型的概率)。一种类型的分类对应于受试者的病状(例如,疾病和/或疾病的阶段或严重性)。因此,在一些实例中,所述模型可以基于模型针对其进行训练的病状的类型来对受试者进行分类。此类病状可以对应于训练样品的标记或类别变量的集合。如以上所提及,这些标记可以通过更密集的测量或病状后期的患者确定,其使得病状更易于被鉴定。

使用具有规定病状的训练样品产生的这种模型可以提供某些优点。技术的优点包含:(a)疾病或病症的提前筛选(例如,症状发作之前的年龄相关的疾病,或通过替代性方法进行的可靠检测,其中应用可以包括但不限于癌症、糖尿病、阿尔茨海默氏病和可以具有遗传特征例如体细胞遗传特征的其他疾病);(b)对于现有诊断方法的诊断性确认或补充性证据(例如,癌症活检/医学成像扫描);和(c)用于预后报告、治疗应答、治疗抗性和复发检测的治疗和治疗后监测。

在各种实例中,生物状况可以包括疾病或病症(例如,年龄相关的疾病)、老化状态、治疗作用、药物作用、手术作用、可测量的性状或生活方式改变(例如,饮食变化、吸烟变化、睡眠模式变化等)之后的生物状态。在一些实例中,生物状况可以是未知的,其中分类可以被确定为另一种状况不存在。因此,机器学习模型可以推断未知的生物状况,或者解读未知的生物状况。

在一些实例中,可能存在分类的逐渐变化,并且因此可能存在许多等级的状况分类,例如对应于实数。因此,分类可以是概率、风险或关于具有病状或其他生物状态的受试者的量度。此类值中的每一个可以对应于不同的分类。

在一些实例中,分类可以包含推荐,其可以是基于先前的状况分类。先前的分类可以通过使用相同训练数据(虽然输入特征可能不同)的单独模型或作为包含各种分类的较大模型的一部分的早期子模型进行,其中一个模型的输出分类可以用作另一个模型的输入。例如,如果受试者被分类为具有心肌梗塞的高风险,则模型可以推荐改变生活方式,例如定期锻炼、饮食健康、维持体重、戒烟和降低LDL胆固醇。作为另一个实例,模型可以为受试者推荐临床测试以确认分类(例如,诊断性或预测性识别)。该临床测试可以包括成像测试、血液测试、计算机断层扫描(CT)、磁共振成像(MRI)扫描、超声扫描、胸部X射线、正电子发射断层扫描(PET)、PET-CT扫描或其任何组合。此类推荐的行为可以作为本文所述的方法和系统的一部分进行。

因此,实例可以提供许多不同的模型,每个模型涉及不同类型的分类。作为另一个实例,初始模型可以确定受试者是否患有癌症。另一个模型可以确定受试者是否具有特定癌症的特定阶段。另一个模型可以确定受试者是否患有特定癌症。另一个模型可以对受试者对于特定手术、化疗(例如,药物)、放疗、免疫疗法或其他类型的治疗的预测应答进行分类。作为另一个实例,在子模型链早期的模型可以确定某些遗传变化是否是准确的或是否是相关的,并且然后使用该信息来生成后期子模型(例如,在管线后期)的输入特征。

在一些实例中,表型的分类衍生于生理过程,诸如由于感染或生理应激导致的细胞更新的变化,所述感染或生理应激诱导实验者可能在患者的血液、血浆、尿液等中观察到的分子的种类和分布的变化。

因此,一些实例可以包含主动学习,其中机器学习程序可以提出未来实验或基于数据降低分类的不确定性的概率提出待获取的该数据。此类问题可以与受试者基因组的足够覆盖、缺乏时间点分辨率、患者背景序列不足或其他原因有关。在各种实例中,模型可以基于缺失变量而提出许多后续步骤中的一个,所述步骤包含以下中的一个或多个:(i)对全基因组测序(WGS)进行再测序,(ii)对全染色体测序(WES)进行再测序,(iii)对受试者基因组的特定区域进行靶向测序,(iv)特异性引物或其他方法,以及(v)其他湿实验室方法。推荐可以在患者之间变化(例如,由于受试者的遗传数据或非遗传数据)。在一些实例中,分析的目的在于使一些函数,诸如成本、风险或患者的发病率最小化,或使分类性能诸如准确性、正预测值(PPV)、负预测值(NPV)、临床敏感性、临床特异性、曲线下面积(AUC)或其组合最大化,同时提出得到最准确分类的最好的下一个步骤。

VIII.癌症诊断和检测

本文所述的训练的机器学习方法、模型和判别分类器可用于各种医学应用,包含癌症检测、诊断和治疗应答性。因为模型是用个体元数据和分析物衍生的特征训练的,所以可以对应用进行定制以对群体中的个体进行分层并因此指导治疗决策。

A.诊断

本文提供的方法和系统可以使用基于人工智能的方法来进行预测性分析,以分析从受试者(患者)获取的数据,以便生成患有癌症(例如,结直肠癌,CRC)的受试者的诊断的输出。例如,应用可以对获取数据应用预测算法以生成患有癌症的受试者的诊断。预测算法可以包括基于人工智能的预测器,诸如基于机器学习的预测器,其被配置来处理获取的数据以生成患有癌症的受试者的诊断。

机器学习预测器可以使用来自一组或多组患有癌症的患者群组的数据组(例如,通过进行个体的生物样品的多分析物测定生成的数据组)作为输入和受试者的已知诊断(例如,分期和/或肿瘤分数)结果作为机器学习预测器的输出来训练。

训练数据组(例如,通过进行个体的生物样品的多分析物测定生成的数据组)可以由例如一组或多组具有常见特征(特征)和结果(标记)的受试者生成。训练数据组可以包括一组特征和对应于与诊断相关的特征的标记。特征可以包括诸如以下的特征,例如某一范围或类别的cfDNA测定测量值,诸如从健康和疾病样品获得的生物样品中的cfDNA的计数,其重叠或落在参考基因组的一组仓(基因组窗口)中的每一个内。例如,在给定时间点处从给定受试者采集的一组特征可以总体上充当诊断特征,其可以指示在给定时间点处受试者的鉴定的癌症。特征还可以包含指示受试者的诸如针对一种或多种癌症的诊断结果的标记。

标记可以包括结果,诸如像受试者的已知诊断(例如,分期和/或肿瘤分数)结果。结果可以包含与受试者的癌症相关联的特征。例如,特征可以指示受试者患有一种或多种癌症。

训练组(例如,训练数据组)可以通过对应于一组或多组受试者(例如,患有或未患一种或多种癌症的患者的回顾性和/或前瞻性群组)的一组数据的随机采样来选择。可替代地,训练组(例如,训练数据组)可以通过对应于一组或多组受试者(例如,患有或未患一种或多种癌症的患者的回顾性和/或前瞻性群组)的一组数据的成比例采样来选择。训练组可以跨对应于一组或多组受试者(例如,来自不同临床站点或试验的患者)的多组数据进行平衡。可以对机器学习预测器进行训练,直至满足准确性或性能的某些预先确定的条件,诸如具有对应于诊断准确性量度的最小所需值。例如,诊断准确性量度可以对应于受试者的一种或多种癌症的诊断、分期或肿瘤分数的预测。

诊断准确性量度的实例可以包含敏感性、特异性、正预测值(PPV)、负预测值(NPV)、准确性和接受者操作特征(ROC)曲线的曲线下面积(AUC),其对应于检测或预测癌症(例如,结直肠癌)的诊断准确性。

在另一方面,本公开提供了一种用于鉴定受试者的癌症的方法,其包括:(a)提供来自所述受试者的包括无细胞核酸(cfNA)分子的生物样品;(b)对来自所述受试者的所述cfNA分子进行测序以生成多个cfNA测序读取;(c)将所述多个cfNA测序读取与参考基因组进行比对;(d)在所述参考基因组的多个第一基因组区域中的每一个处生成所述多个cfNA测序读取的定量量度以生成第一cfNA特征组,其中所述参考基因组的所述多个第一基因组区域包括至少约10个不同区域,所述至少约10个不同区域中的每一个包括选自由表1中的基因组成的群组的基因的至少一部分;以及(e)对所述第一cfNA特征组应用训练算法以生成所述受试者患有所述癌症的概率。

在一些实例中,所述至少约10个不同区域包括至少约20个不同区域,所述至少约20个不同区域中的每一个包括选自表1中的群组的基因的至少一部分。在一些实例中,所述至少约10个不同区域包括至少约30个不同区域,所述至少约30个不同区域中的每一个包括选自表1中的群组的基因的至少一部分。在一些实例中,所述至少约10个不同区域包括至少约40个不同区域,所述至少约40个不同区域中的每一个包括选自表1中的群组的基因的至少一部分。在一些实例中,所述至少约10个不同区域包括至少约50个不同区域,所述至少约50个不同区域中的每一个包括选自表1中的群组的基因的至少一部分。在一些实例中,所述至少约10个不同区域包括至少约60个不同区域,所述至少约60个不同区域中的每一个包括选自表1中的群组的基因的至少一部分。在一些实例中,所述至少约10个不同区域包括至少约70个不同区域,所述至少约70个不同区域中的每一个包括选自表1中的群组的基因的至少一部分。

表1

例如,此类预先确定的条件可以是预测癌症(例如,结直肠癌、乳腺癌、胰腺癌或肝癌)的敏感性包括例如至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的值。

作为另一个实例,此类预先确定的条件可以是预测癌症(例如,结直肠癌、乳腺癌、胰腺癌或肝癌)的特异性包括例如至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的值。

作为另一个实例,此类预先确定的条件可以是预测癌症(例如,结直肠癌、乳腺癌、胰腺癌或肝癌)的正预测值(PPV)包括例如至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的值。

作为另一个实例,此类预先确定的条件可以是预测癌症(例如,结直肠癌、乳腺癌、胰腺癌或肝癌)的负预测值(NPV)包括例如至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的值。

作为另一个实例,此类预先确定的条件可以是预测癌症(例如,结直肠癌、乳腺癌、胰腺癌或肝癌)的接受者操作特征(ROC)曲线的曲线下面积(AUC)包括例如至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.95、至少约0.96、至少约0.97、至少约0.98或至少约0.99的值。

在前述方面中的任一个的一些实例中,一种方法进一步包括监测受试者的疾病的进展,其中所述监测至少部分地基于遗传序列特征。在一些实例中,所述疾病是癌症。

在前述方面中的任一个的一些实例中,一种方法进一步包括确定受试者的癌症的来源组织,其中所述确定至少部分地基于遗传序列特征。

在前述方面中的任一个的一些实例中,一种方法进一步包括估计受试者的肿瘤负荷,其中所述估计至少部分地基于遗传序列特征。

B.治疗应答性

本文所述的预测性分类器、系统和方法可用于针对多种临床应用对个体群体进行分类。(例如,基于对个体的生物样品进行多分析物测定)。此类临床应用的实例包含检测早期癌症、诊断癌症、将癌症分类为疾病的特定阶段、确定对于用于治疗癌症的治疗剂的应答性或抗性。

本文所述的方法和系统适用于各种癌症类型,与等级和阶段类似,并且由此不限于单个癌症疾病类型。因此,分析物和测定的组合可以在本发明的系统和方法中用于预测不同组织中跨不同癌症类型的癌症治疗剂的应答性并且基于治疗应答性对个体进行分类。在一个实例中,本文所述的分类器能够将一组个体分层为治疗应答者和非应答者。

本公开还提供了一种用于确定目标病状或疾病的药物靶(例如,对于特定类别相关/重要的基因)的方法,其包括评定从个体获得的样品的至少一种基因的基因表达的水平;以及使用邻里分析例程确定对于样品的分类相关的基因,从而确定与分类相关的一个或多个药物靶。

本公开还提供了一种用于确定被设计来治疗疾病类别的药物的功效的方法,其包括从具有所述疾病类别的个体获得样品;使所述样品经受所述药物;评定暴露于药物的样品的至少一种基因的基因表达的水平;以及使用以加权投票方案构建的计算机模型,根据样品相对于模型的基因表达水平的相对基因表达水平将暴露于药物的样品分类为疾病的一种类别。

本公开还提供了一种用于确定被设计来治疗疾病类别的药物的功效的方法,其中使个体经受所述药物,其包括从经受所述药物的个体获得样品;评定样品的至少一种基因的基因表达的水平;以及使用以加权投票方案构建的模型,将样品分类为疾病的一种类别,包含评估样品的与模型的基因表达水平相比的基因表达水平。

又一种应用是一种用于确定个体是否属于表型类别(例如,智力、对于治疗的应答、寿命、病毒感染的概率或肥胖)的方法,其包括从个体获得样品;评定样品的至少一种基因的基因表达的水平;以及使用以加权投票方案构建的模型,将样品分类为疾病的一种类别,包含评估样品的与模型的基因表达水平相比的基因表达水平。

需要鉴定可用于预测患有结肠癌的患者的预后的生物标记物。将患者分类为高风险(较差预后)或低风险(有利预后)的能力可以实现对于这些患者的适当疗法的选择。例如,高风险患者可能受益于侵入性疗法,而疗法对于低风险患者可能不具有显著优点。然而,尽管具有该需要,该问题仍然没有解决方案。

寻求可以指导治疗决策的预测性生物标记物,以鉴定可能是对于特定癌症疗法的“优异应答者”的患者子集或可能受益于替代性治疗模式的个体。

在一方面,本文所述的涉及基于治疗应答性对群体进行分类的系统和方法是指用各种类别的化疗剂、DNA损伤剂、DNA修复靶疗法、DNA损伤信号传导的抑制剂、DNA损伤诱导的细胞周期停滞的抑制剂和间接导致DNA损伤的过程的抑制(但不限于这些类别)治疗的癌症。当术语在本文中使用时,这些化疗剂中的每一种被认为是“DNA损伤治疗剂”。

患者的分析物数据在高风险和低风险患者组中进行分类,诸如具有临床复发的高风险或低风险的患者,并且结果可以用于确定治疗过程。例如,被确定为高风险患者的患者可以在手术之后用辅助化疗治疗。对于被认为是低风险患者的患者,辅助化疗可以在手术之后停止。因此,在某些方面,本公开提供了一种用于制备指示复发风险的结肠癌肿瘤的基因表达谱的方法。

在各种实例中,本文所述的分类器能够将个体群体分层为对于治疗的应答者和非应答者。

在各种实例中,所述治疗选自烷基化剂、植物生物碱、抗肿瘤抗生素、抗代谢物、拓扑异构酶抑制剂、类维生素A、检查点抑制剂疗法或VEGF抑制剂。

可以将群体分层为应答者和非应答者的治疗的实例包括但不限于:化疗剂,包含索拉非尼、瑞戈菲尼、伊马替尼、艾日布林、吉西他滨、卡培他滨、帕唑帕尼、拉帕替尼、达拉非尼、苹果酸舒尼替尼、克唑替尼、依维莫司、tori西罗莫司、西罗莫司、阿昔替尼、吉非替尼、阿那曲唑、比卡鲁胺、氟维司群、雷替曲塞、培美曲塞、乙酸戈舍瑞林、厄洛替尼、维罗非尼、维索得吉、柠檬酸他莫昔芬、紫杉醇、多西他赛、卡巴他赛、奥沙利铂、ziv-阿柏西普、贝伐单抗、曲妥珠单抗、帕妥珠单抗、帕帝单抗、紫杉烷、博来霉素、美法仑、兰雪醌、开普拓、丝裂霉素C、米托蒽醌、SMANCS、多柔比星、聚乙二醇化多柔比星、亚叶酸、5-氟尿嘧啶、替莫唑胺、帕瑞肽、替加氟、吉美嘧啶、欧塔拉昔、伊曲康唑、硼替佐米、来那度胺、伊林替康、表柔比星和罗米地辛、瑞诺司他、他喹莫德、瑞美替尼、拉帕替尼、泰立沙、Arenegyr、帕瑞肽、signifor、替西木单抗、特姆单抗、兰素拉唑、PrevOnco、ABT-869、立尼布、沃洛拉尼、梯瓦替尼、特罗凯、厄罗替尼、拜万戈、瑞格拉芬尼、氟-索拉菲尼、布立尼布、脂质体多柔比星、冷瓦替尼、雷莫芦单抗、培维A酸、Ruchiko、母帕司汀、Teysuno、替加氟、吉美嘧啶、欧塔拉昔和奥安替尼;以及抗体疗法,包含阿仑单抗、阿特珠单抗、伊匹木单抗、纳武单抗、奥伐单抗、派姆单抗或利妥昔单抗。

在其他实例中,群体可以被分层为对于检查点抑制剂疗法(诸如结合PD-1或CTLA4的化合物)的应答者和非应答者。

在其他实例中,群体可以被分层为对于结合VEGF途径靶的抗VEGF疗法的应答者和非应答者。

IX.适应症

在一些实例中,生物状况可以包含疾病。在一些实例中,生物状况可以是疾病的阶段。在一些实例中,生物状况可以是生物状态的逐渐变化。在一些实例中,生物状况可以是治疗作用。在一些实例中,生物状况可以是药物作用。在一些实例中,生物状况可以是手术作用。在一些实例中,生物状况可以是生活方式改变之后的生物状态。生活方式改变的非限制性实例包含饮食变化、吸烟变化和睡眠模式变化。

在一些实例中,生物状况是未知的。本文所述的分析可以包含机器学习以推断未知的生物状况或解读未知的生物状况。

在一个实例中,本发明的系统和方法尤其可用于与结肠癌相关的应用,所述结肠癌是:在结肠(大肠的最长部分)的组织中形成的癌症。大部分结肠癌是腺癌(在产生一系列内部器官并且具有腺体样特性的细胞中开始的癌症)。癌症进展通过阶段或体内癌症的程度来表征。分期通常是基于肿瘤的大小、淋巴结是否具有癌症以及癌症是否从初始部位扩散到身体的其他部分。结肠癌的阶段包含I期、II期、III期和IV期。除非另外规定,否则术语结肠癌是指处于0期、I期、II期(包含IIA期或IIB期)、III期(包含IIIA期、IIIB期或IIIC期)或IV期的结肠癌。在本文的一些实例中,结肠癌来自任何阶段。在一个实例中,结肠癌是I期结直肠癌。在一个实例中,结肠癌是II期结直肠癌。在一个实例中,结肠癌是III期结直肠癌。在一个实例中,结肠癌是IV期结直肠癌。

可以通过所公开的方法推断的病状包含例如癌症、肠相关疾病、免疫介导的炎性疾病、神经性疾病、肾脏疾病、产前疾病和代谢性疾病。

在一些实例中,本公开的方法可以用于诊断癌症。

癌症的非限制性实例包含腺瘤(腺瘤性息肉)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育异常、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质性肿瘤(GIST)、淋巴瘤和肉瘤。

可以通过所公开的方法和系统推断的癌症的非限制性实例包含急性淋巴细胞性白血病(ALL)、急性髓系白血病(AML)、肾上腺皮质癌、卡波西肉瘤、肛门癌、基底细胞癌、胆管癌、膀胱癌、骨癌、骨肉瘤、恶性纤维组织细胞瘤、脑干胶质瘤、脑癌、颅咽管瘤、室管膜母细胞瘤、室管膜瘤、髓母细胞瘤、髓上皮瘤、松果体实质肿瘤、乳腺癌、支气管肿瘤、伯基特氏淋巴瘤、非霍奇金淋巴瘤、类癌瘤、宫颈癌、脊索瘤、慢性淋巴细胞白血病(CLL)、慢性粒细胞性白血病(CML)、结肠癌、结直肠癌、皮肤T细胞淋巴瘤、原位导管癌、子宫内膜癌、食管癌、尤文肉瘤、眼癌、眼内黑素瘤、视网膜母细胞瘤、纤维组织细胞瘤、胆囊癌、胃癌、胶质瘤、毛细胞白血病、头颈癌、心脏癌、肝细胞性(肝)癌、霍奇金淋巴瘤、下咽癌、肾癌、喉癌、唇癌、口腔癌、肺癌、非小细胞癌、小细胞癌、黑素瘤、口癌、骨髓增生异常综合征、多发性骨髓瘤、髓母细胞瘤、鼻腔癌、鼻窦癌、神经母细胞瘤、鼻咽癌、口腔癌、口咽癌、骨肉瘤、卵巢癌、胰腺癌、乳头状瘤病、副神经节瘤、甲状旁腺癌、阴茎癌、咽癌、垂体瘤、浆细胞瘤、前列腺癌、直肠癌、肾细胞癌、横纹肌肉瘤、涎腺癌、塞扎里综合症、皮肤癌、小肠癌、软组织肉瘤、鳞状细胞癌、睾丸癌、喉癌、胸腺瘤、甲状腺癌、尿道癌、子宫癌、子宫肉瘤、阴道癌、外阴癌、华氏巨球蛋白血症和维尔姆斯瘤。

可以通过所公开的方法和系统推断的肠相关疾病的非限制性实例包含克罗恩氏病、结肠炎、溃疡性结肠炎(UC)、炎性肠病(IBD)、肠易激综合征(IBS)和乳糜泻。在一些实例中,所述疾病是炎性肠病、结肠炎、溃疡性结肠炎、克罗恩氏病、显微镜性结肠炎、胶原性结肠炎、淋巴细胞性结肠炎、转向性结肠炎、贝赛特氏病和未定型结肠炎。

可以通过所公开的方法和系统推断的免疫介导的炎性疾病的非限制性实例包含银屑病、结节病、类风湿性关节炎、哮喘、鼻炎(枯草热)、食物过敏、湿疹、狼疮、多发性硬化症、纤维肌痛、1型糖尿病和莱姆病。可以通过所公开的方法和系统推断的神经性疾病的非限制性实例包含帕金森氏病、亨廷顿氏病、多发性硬化症、阿尔茨海默氏病、中风、癫痫、神经变性和神经病。可以通过所公开的方法和系统推断的肾脏疾病的非限制性实例包含间质性肾炎、急性肾衰竭和肾病。可以通过所公开的方法和系统推断的产前疾病的非限制性实例包含唐氏综合征、非整倍体、脊柱裂、三体、爱德华氏综合征、畸胎瘤、尾骨畸胎瘤(SCT)、脑室扩张、肾发育不全、囊性纤维化和胎儿水肿。可以通过所公开的方法和系统推断的代谢性疾病的非限制性实例包含胱氨酸病、法布瑞氏症、戈谢病、莱施-奈恩综合征、尼曼-皮克病、苯丙酮尿症、庞贝氏症、泰-萨病、方基盖氏病、肥胖、糖尿病和心脏病。

特定实例的具体细节可以在不脱离本发明的公开实例的精神和范围的情况下以任何合适的方式组合。然而,本发明的其他实例可以涉及与每个个体方面或这些个体方面的特定组合相关的特定实例。本文提及的所有专利、专利申请、公布和描述出于所有目的通过引用整体并入。

X.实例

以上描述和本发明以下提供的实例出于例示和描述的目的呈现。其并不意图是详尽的或将本发明限于所描述的精确形式,并且许多修改和变化根据以上教示是可能的。

A.实例1:制备生物样品的多分析物测定

该实例提供了一种多分析物方法以利用信号之间的独立信息。以下针对使用进行准确分类的对应机器学习模型的测定的系统的不同组件描述了流程图。鉴于系统的临床目标,可以基于训练机器学习模型的结果整合使用哪种测定的选择。可以使用各种类别的样品、样品级分、这些级分的部分/具有不同类别的分子的样品以及各种类型的测定。

1.系统图

图3示出了所公开的系统和方法的总体框架300。框架300可以使用样品的测量值(湿实验室320)和关于受试者的其他数据结合机器学习来鉴定用于对受试者进行分类(例如,诊断或预后)的一组测定和特征。在该实例中,过程步骤可以如下。

在阶段310的框311处,询问临床、科学和/或商业相关性的问题,例如针对可采取的随访的早期结直肠癌检测。在框312处,鉴定受试者(新测试的或先前测试的)。受试者可以具有已知的分类(标记)以用于后期在机器学习中使用。因此,可以鉴定不同的群组。在框313处,分析可以选择将要开采的样品类型(即,在最终测定中可能并不最终结束的样品),并且确定每个样品(例如,血液)中生物分子的集合,其可以生成足够的信号以评定病状/病症(例如,早期结直肠癌恶性肿瘤)的存在或不存在。可以对测定/模型施加约束,例如与准确性相关。示例性约束包含:测定的最小敏感性;测定的最小特异性;测定的最大成本;可用于开发测定的时间;可用的生物材料和预期积累速率;确定可以对这些生物材料进行的最大组的实验的可用组的先前开发的工艺;以及限制可以对于这些生物材料运行以获取数据的工艺数量的可用硬件。

可以设计患者群组并进行采样以准确地表示适当地实现临床目标所需的不同分类(健康、其他结直肠癌、晚期腺瘤、结直肠癌(CRC)。可以选择患者群组,其中所选的群组可以被视为对系统的约束。示例性群组是100个CRC、200个晚期腺瘤、200个非晚期腺瘤和200个健康受试者。所选的群组可以对应于用于最终测定的预期用途群体,并且群组可以指定对其计算测定性能的样品的数量。

一旦选择了群组,可以采集样品以满足群组设计。可以采集各种样品,例如血液、脑脊液(CSF)和本文提及的其他样品。此类分析可以在图3的框313中发生。

在阶段320中,可以对于初始组的测定进行湿实验室实验。例如,可以选择未约束组的测试(原初样品/分析物/测试组合)。可以进行由原初样品分离分析物的方案和模式。可以生成用于测试执行的方案和模式。可以使用硬件装置进行湿实验室活动,包含测序仪、荧光检测器和离心机。

在框321处,例如通过离心将样品分为子组分(还被称为级分或部分)。作为实例,将血液分为血浆、血沉棕黄层(白细胞和血小板)、血清、红细胞和细胞外小泡(诸如外泌体)的级分。可以将级分(例如,血浆)分为等分试样以测定不同的分析物。例如,可以使用不同的等分试样来提取cfDNA和cfRNA。因此,可以从级分或级分的等分试样分离分析物以允许多分析物测定。可以保留级分(例如,一些血浆)以用于测量蛋白浓度。

在框323处,执行实验程序以测量以上分子在其相应级分中的特征和量,例如(1)血浆中存在的无细胞DNA片段的序列和沿基因组的估算位置,(2)血浆中存在的cfDNA片段的甲基化模式,(3)血浆中存在的微RNA的量和类型,以及(4)来自文献的已知与CRC相关的蛋白的浓度(CRP、CEA、FAP、FRIL等)。

可以验证在任何给定管线上处理的每个样品的QC。cfDNA QC包含:插入物大小分布、GC偏好的相对表示、加标物(针对样品可追踪性引入)的条形码序列等。示例性甲基化QC包含对照DNA的亚硫酸氢盐转换效率、插入物大小分布、平均测序深度、%复制等。示例性miRNA QC包含插入物大小分布、归一化加标物的相对表示等。示例性蛋白QC包含标准曲线的线性、对照样品浓度等。

接下来,对样品进行处理,并且针对群组中的所有患者获取数据。通过患者元数据对原始数据进行索引。获得来自其他来源的数据并且存储在数据库中。可以从相关开放数据库诸如GTEX、TCGA和ENCODE组织数据。这包含ChIP-seq、RNA-seq和eQTL。

在阶段340中,可以获得来自其他来源的数据,例如可穿戴装置、图像等。此类其他数据对应于生物样品以外确定的数据。此类测量值可以是心率、活性测量值或可从可穿戴装置获得的其他此类数据。成像数据可以提供诸如器官大小和位置的信息以及鉴定未知的块。

数据库330可以存储数据。可以从相关开放数据库诸如GTEX、TCGA和ENCODE组织数据。这包含ChIP-seq、RNA-seq和eQTL。每个受试者的记录可以包含具有测量数据的字段和受试者的标记,例如病状是否存在、病状的严重性(阶段)等。受试者可以具有多个标记。

在框350处,可以进行干实验室操作。“干实验室”工作可以查询数据库开始,以生成相关数据和元数据的值的矩阵,以执行预测任务。通过处理输入数据并且可能选择相关输入的子集来生成特征。

在框351处,机器学习可以用于将由全部(原初样品/分析物/测试)组合生成的整组数据减少为框352处的最佳预测组的特征。可以将不同组的特征的准确性度量彼此进行比较以确定最佳预测组的特征。在一些实施例中,可以鉴定满足准确性阈值的特征/模型的集合,并且然后可以使用其他约束(例如,成本和测试数量)来选择最佳模型/特征分组。

可以测试各种不同的特征和模型。可以在交叉验证范式中将做出各种建模假设的简单至复杂和小至大的模型应用于数据。简单至复杂包含考虑线性至非线性和非分层至分层特征表示。小至大模型包含考虑将数据所投射于的基础向量空间的大小以及建模过程中包含的特征之间的相互作用的数量。

机器学习技术可以用于评定对于如初始问题中定义的成本/性能/商业目的最佳的商业测试模式。可以进行阈值检查:如果应用于未用于交叉验证的保留数据组的方法超过初始化约束,则测定被锁定并且产生开始。因此,测定可以在框360处输出。

如果未达到阈值,则测定工程化程序环回到针对可能松弛设置的约束,或环回到湿实验室以改变获取数据的参数。

鉴于临床问题,生物约束、预算、实验室机器等可以约束问题。然后群组设计可以是基于临床样品,其实际上是基于性能或先验知识库;可以实现的事情的统计信息巢;以及样品积累速率。

2.样品及其部分的分层

在一个实例中,从群组中的患者取多种分析物并且通过多种测定分析成多种分子类型。然后通过ML模型分析测定结果,并且在重要的特征和分析物选择之后,输出临床上、科学上或商业上重要的问题的相关测定结果。

图4示出了用于示例性‘液体活检物’的多分析物方法的分层综述。在阶段401处,采集不同的样品。如图所示,采集血液、CSF和唾液。在阶段402处,可以将样品分为级分(部分),例如显示血液被分为血浆、血小板和外泌体。在阶段403处,可以分析每个级分以测量一种或多种类别的分子,例如DNA、RNA和/或蛋白。在阶段404处,可以使每种类别的分子经受一种或多种测定。例如,可以将甲基化和全基因组测定应用于DNA。对于DNA,可以应用检测mRNA或短RNA的测定。对于蛋白,可以使用酶联免疫吸附测定(ELISA)。

在这些实例中,使用多分析物测定分析采集的血浆,包含:低覆盖率全基因组测序;CNV识别;肿瘤分数(TF)估计;全基因组亚硫酸氢盐测序;LINE-1CpG甲基化;56个基因CpG甲基化;cf-蛋白免疫定量ELISA、SIMOA;以及cf-miRNA测序。可以将全血采集在K3-EDTA管中并进行双旋转以分离血浆。可以将血浆分为等分试样以用于cfDNA lcWGS、WGS、WGBS、cf-miRNA测序和定量免疫测定(酶联免疫吸附测定[ELISA]或单分子阵列[SIMOA])。

在阶段405处,在计算机硬件上执行的学习模块可以接收来自各种样品的各种级分的各种测定的测量数据。学习模块可以提供模型/特征的各种分组的度量。例如,可以针对多个模型中的每一个鉴定各组特征。不同模型可以使用不同的技术,诸如神经网络或决策树。阶段406可以选择模型/特征分组以使用或潜在地提供指令(命令)来进行进一步的测量。阶段407可以指定样品、级分和个体测定来用作将用于测量新样品和进行分类的总测定的一部分。

3.模块之间的迭代流程

图5示出了用于设计根据本发明的实施例的测定和对应的机器学习模型的迭代过程。左侧示出了湿实验室组件,并且右侧示出了计算机组件。忽略的模块包含外部数据、先验结构、临床元数据等。这些元组件可以流到湿实验室和干实验室(计算机)组件中。通常,迭代过程可以包含各种阶段,包含开始阶段、探索阶段、细化阶段和验证/确认阶段。开始阶段可以包含框502-508。探索阶段可以包含通过框512-528的第一通道。细化阶段可以包含通过框512-528的额外通道以及框530和框532。验证/确认阶段可以使用框524和框529进行。各个框可以是任选的或硬编码以提供指定结果,例如可以总是通过模块518选择特定模型。

在框502处,接收临床问题,以例如筛选结直肠癌(CRC)的存在。此类临床问题还可以包含所需要的分类的数量。例如,分类的数量可以对应于癌症的不同阶段。

在框504处,设计群组。例如,群组的数量可以等于分类的数量,群组中的受试者具有相同的标记。在过程的后面的阶段处,可以增加额外的群组。

在一个实施例中,在进行任何生化测试之前,进行样品和/或测试的初始选择。例如,可以选择全基因组测序以便获得初始样品(例如,血液)的信息。此类初始样品和初始测定可以基于临床问题,例如基于相关器官来选择。

在框506处,获取初始样品。样品可以是各种类型,例如血液、尿液、唾液、脑脊液。作为获取初始样品的一部分,可以将样品分为级分(例如,将血液分为血浆、血沉棕黄层、外泌体等),并且可以将这些级分进一步分为具有特定类别的分子的部分,如上所述。

在框508处,进行一种或多种初始测定。初始测定可以针对个别类别的分子进行。初始组的测定中的一些或全部可以用作跨各种临床问题的默认值。可以将初始数据510传送到计算机511以评定数据并确定机器学习模型,并且潜在地提出进一步进行的测定。计算机511可以进行该部分和本公开的其他部分中所述的操作。

数据过滤模块512可以过滤初始数据510以提供一组或多组过滤数据。此类过滤可以仅鉴定来自不同测定的数据,但是可以是更复杂的,例如进行统计分析以提供来自原始数据的测量值,其中初始数据510被认为是原始数据。过滤可以包含降维,例如主成分分析(PCA)、非负矩阵分解(NMF)、核PCA、基于图形的核PCA、线性判别分析(LDA)、广义判别分析(GDA)或自动编码器。多组过滤数据可以由单个测定的原始数据确定。不同组的过滤数据可以用于确定不同组的特征。在一些实施例中,数据过滤模块512可以考虑通过下游模块进行的处理。例如,机器学习模型的类型可以影响所使用的降维的类型。

特征提取模块514可以例如使用遗传数据、非遗传数据、过滤数据和参考数据来提取特征。特征提取还可以被称为特征工程化。从测定获得的数据的特征将对应于在该测定中获得的分子类别的特性。作为实例,特征(及其对应的特征值)可以是从过滤输出的测量值、此类测量值中的仅一些、此类测量值的进一步统计结果或彼此附加的测量值。提取特定特征,其目标是特征中的一些可以在不同组的受试者之间具有不同的值(例如,具有病状和没有病状的受试者之间具有不同的值),从而区分不同的组或推断特性、状态或性状的程度。特征的实例在部分V中提供。

成本/损失选择模块516可以选择特定成本函数(还被称为损失函数)以优化机器学习模型的训练。成本函数可以具有用于定义当前模型的准确性的各种术语。此时,可以在算法上施加其他约束。例如,成本函数可以测量误分类(例如,假阳性和假阴性)的数量,并且具有针对不同类型的误分类中的每一种的比例因子,从而提供可以与阈值进行比较以确定当前模型是否令人满意的分数。此类准确性测试还可以隐含地确定一组特征和一组测定是否可以提供令人满意的模型;如果所述组的特征和测定不提供令人满意的模型,则可以选择不同组的特征。

在一个实例中,数据分布可以影响损失函数例如针对具有系统的技术控制的无监督任务的选择。在这种情况下,损失函数可以对应于匹配输入数据的分布。

模型选择模块518可以选择使用哪些模型。此类模型的实例包含逻辑回归、具有不同核(例如,线性或非线性核)的支持向量机、神经网络(例如,多层感知机)和各种类型的决策树(例如,随机森林、梯度树或梯度提升技术)。可以使用多个模型,例如其中模型可以依次地使用(例如,一个模型的输出成为另一个模型的输入)或平行地使用(例如,使用投票以确定最终分类)。如果选择多于一个模型,则这些模型可以被称为子模型。

成本函数与模型不同,模型与特征不同。架构的这些不同部分对彼此可以具有显著的影响,但是它们也通过测试设计及其对应约束的其他组件来定义。例如,成本函数可以通过包含以下的组件来定义:特征的分布、特征的数值、标记分布的多样性、标记的种类、标记的复杂性、与不同的误差类型相关联的风险等。特征的某些变化可以改变模型和成本函数并且反之亦然。

特征选择模块520可以选择用于训练机器学习模型的当前迭代的一组特征。在各种实施例中,可以使用通过特征提取模块514提取的所有特征,或者可以使用特征的仅一部分。可以确定所选特征的特征值并且用作用于训练的输入。作为选择的一部分,一些或所有提取的特征可以经历转化。例如,可以基于某些特征相对于其他特征的预期重要性(概率)对某些特征应用权重。其他实例包含降维(例如,矩阵的降维)、分布分析、归一化或正则化、矩阵分解(例如,基于核的判别分析和非负矩阵分解),其可以提供对应于矩阵的低维流形。另一个实例是将原始数据或特征从一种类型的仪器转化到另一种类型的仪器,例如,如果使用不同的仪器测量不同样品的话。

训练模块522可以进行机器学习模型的参数的优化,所述机器学习模型可以包含子模型。可以使用各种优化技术,例如梯度下降或使用第二导数(Hessian)。在其他实施例中,训练可以用不需要hessian或梯度计算的方法,诸如动态编程或进化算法来实施。

评定模块524可以确定当前模型(例如,如通过一组参数定义)是否满足输入约束中包含的一个或多个准则。例如,质量度量可以测量模型相对于标记已知的训练组和/或验证组的样品的预测准确性。此类准确性度量可以包含敏感性和特异性。质量度量可以使用准确性以外的其他值,例如测定的数量、测定的预期成本和进行测定的测量的时间来确定。如果满足约束,则可以提供最终测定529。最终测定529可以包含用于对测试样品进行测定的特定顺序,例如当选择不在默认列表上的测定时。

如果不满足输出约束,则可以更新各种条目。例如,可以更新所述组的所选特征,或者可以更新所述组的所选模型。可以评定、检查一些或所有上游模块,并且提出替代方案。因此,可以向上游管线中的任何地方提供反馈。如果评定模块524确定已经足够地搜索特征和模型的空间而未满足约束(例如,穷尽),则过程可以流到另外的模块以确定新测定和/或获得的样品类型。此类确定可以通过约束定义。例如,用户可能仅希望进行如此多的测定(和相关联的时间和成本),具有如此多的样品,或进行迭代回路(或一些回路)如此多次。这些约束可以有助于停止替代所超过的最小度量的当前组的特征、模型和测定的测试设计。

测定鉴定模块526可以鉴定进行的新测定。如果确定特定测定是非重要的,则可以丢弃其数据。测定鉴定模块526可以接收某些输入约束,其可以用于确定例如基于进行测定的成本或时间选择的一种或多种测定。

样品鉴定模块528可以确定使用的新样品类型(或其部分)。所述选择可以取决于进行哪些新测定。还可以向样品鉴定模块528提供输入约束。

当评定是测定和模型不满足输出约束(例如,准确性)时,可以使用测定鉴定模块526和样品鉴定模块528。丢弃测定可以在下一轮测定设计中实施,其中不使用测定或样品类型。新测定或样品可以是先前测量但不使用其数据的测定或样品。

在框530处,获取新样品类型或潜在地相同类型的更多样品,例如以增加群组中的样品的数量。

在框532处,可以例如基于由测定鉴定模块526提出的测定进行新测定。

最终测定529可以指定例如顺序、数据量、数据质量和所述组中的测定的数据吞吐量。测定的顺序可以优化成本和时间。测定的顺序和时间可以是被优化的参数。

在一些实施例中,计算机模块可以告知湿实验室步骤的其他部分。例如,对于一些测定开发程序,诸如当外部数据可以用于告知湿实验室实验的开始点时,一些计算机模块可以在湿实验室步骤之前。此外,湿实验室实验组件的输出可以馈送到计算机组件中,诸如群组设计和临床问题。另一方面,计算机结果可以馈送回到湿实验室中,诸如成本函数选择对于群组设计的影响。

4.用于设计多分析物测定的方法

图6示出了所公开的方法的总体过程流程图。在该实例中,过程步骤如下。

在框610处,在操作期间,系统接收多个训练样品,每个包含多种类别的分子,其中对于训练样品中的每一个,一个或多个标记是已知的。本文提供了分析物的实例,诸如无细胞DNA、无细胞RNA(例如,miRNA或mRNA)、蛋白、碳水化合物、自身抗体或代谢物。标记可以是针对特定病状(例如,癌症或特定癌症的不同分类)或治疗应答性。框610可以通过接收器进行,所述接收器包含一个或多个接收装置,诸如测量装置,例如图1中的测量装置151-153。测量装置可以实施不同的测定。测量装置可以将样品转换为可用的特征(例如,针对来自样品的每种分析物的文库量的信息),使得计算机可以选择特定ML模型对特定生物样品进行分类所需的输入特征的组合。

在框620处,对于多种不同测定中的每一种,系统鉴定可操作来输入到多个训练样品中的每一个的机器学习模型中的一组特征,所述组的特征可以对应于训练样品中的分子的特性。例如,特征可以是不同区域中的读取计数、区域中的甲基化百分比、不同miRNA的计数的数量或一组蛋白的浓度。不同测定可以具有不同特征。框620可以通过图5的特征选择模块520进行。在图5中,特征选择可以在特征提取之前或之后进行,例如如果可能的特征基于所进行的测定的类型是已知的。作为迭代程序的一部分,新组的特征可以例如基于来自评定模块524的结果来鉴定。

在框630处,对于多个训练样品中的每一个,系统使训练样品中的一组类别的分子经受多种不同的测定以获得多组测量值。每组测量值可以来自应用于训练样品中的一种类别的分子的一种测定。可以针对多个训练样品获得多组测量值。作为实例,不同的测定可以是lcWGS、WGBS、cf-miRNA测序和蛋白浓度测量。在一个实例中,一个部分含有多于一种类别的分子,但是仅对所述部分应用一个类型的测定。测量值可以对应于从原始数据(例如,序列读取)的分析产生的值。测量值的实例是部分或完全与基因组的不同基因组区域重叠的序列的读取计数、区域中的甲基化百分比、不同miRNA的计数的数量或一组蛋白的浓度。特征可以由多个测量值,例如测量值的分布的统计值或彼此附加的测量值的串联确定。

在框640处,系统分析所述组的测量值以获得训练样品的训练向量。训练向量可以包括对应于测定的所述组的特征的特征值。每个特征值可以对应于一个特征并且包含一个或多个测量值。训练向量可以使用来自对应于多种不同测定的第一子集的N组特征中的至少两个的至少一个特征形成,其中N对应于不同测定的数量。可以针对每个样品确定训练向量,其中训练向量潜在地包含来自测定中的一些或全部的特征并且因此包含所有类别的分子。框640可以通过图5的特征提取模块514进行。

在框650处,系统使用机器学习模型的参数针对训练向量进行操作以获得多个训练样品的输出标记。框650可以通过实施机器学习模型的机器学习模块进行。

在框660处,系统将输出标记与训练样品的已知标记进行比较。比较器模块可以进行标记的此类比较,以形成机器学习模型的当前状态的误差测量值。比较器模块可以是图5的训练模块522的一部分。

多个训练样品的第一子集可以被鉴定为具有指定标记,并且多个训练样品的第二子集可以被鉴定为不具有指定标记。在一个实例中,指定标记是临床诊断的病症,例如结直肠癌。

在框670处,系统基于将输出标记与训练样品的已知标记进行比较来迭代地搜索参数的最佳值,作为训练机器学习模型的一部分。本文描述了用于进行迭代搜索的各种技术,例如梯度技术。框670可以通过图5的训练模块522进行。

机器学习模型的训练可以例如在细化阶段之后提供机器学习模型的第一版本,所述细化阶段可以包含通过模块512-528的一个或多个额外阶段。可以针对第一版本确定质量度量,并且可以将质量度量与一个或多个准则,例如阈值进行比较。质量度量可以由各种度量构成,所述各种度量例如准确性度量、成本度量、时间度量等,如图4所述。这些度量中的每一个可以个体地与阈值进行比较,或者其他确定该度量是否满足一个或多个准则。基于比较,可以确定是否选择测定的新子集以用于确定多组特征,例如在图5的框526和532处。

新子集的测定可以包含不在第一子集中的多种不同测定中的至少一个和/或潜在地去除一种测定。新子集的测定可以包含来自第一子集的至少一种测定,并且可以针对来自第一子集的一种测定确定新组的特征。当新子集的测定的质量度量满足一个或多个准则时,新子集的测定可以例如作为图5的最终测定529的输出。

如果新子集包含先前未进行的新测定,则可以使训练样品中的分子经受不在多种不同测定中的新测定,以基于不满足一个或多个准则的新子集的测定的质量度量获得新组的测量值。新测定可以针对不在所述组的类别的分子中的新类别的分子进行。

在框680处,系统提供机器学习模型的参数和机器学习模型的所述组的特征。机器学习模型的参数可以预定义的形式存储,或者与鉴定每个参数的数量和身份的标签一起存储。特征的定义可以从用于例如通过特征提取模块514和特征选择模块520的当前迭代指定的特征提取和选择中的设定获得。框680可以通过输出模块进行。

5.用于鉴定癌症的方法

在一方面,本公开提供了一种用于鉴定受试者的癌症的方法,其包括:(a)提供来自所述受试者的包括无细胞核酸(cfNA)分子的生物样品;(b)对来自所述受试者的所述cfNA分子进行测序以生成多个cfNA测序读取;(c)将所述多个cfNA测序读取与参考基因组进行比对;(d)在所述参考基因组的多个第一基因组区域中的每一个处生成所述多个cfNA测序读取的定量量度以生成第一cfNA特征组,其中所述参考基因组的所述多个第一基因组区域包括至少约15000个不同的甲基化不足区域;以及(e)对所述第一cfNA特征组应用训练算法以生成所述受试者患有所述癌症的概率。

在一些实例中,所述训练算法包括通过奇异值分解进行降维。在一些实例中,所述方法进一步包括在所述参考基因组的多个第二基因组区域中的每一个处生成所述多个cfNA测序读取的定量量度以生成第二cfNA特征组,其中所述参考基因组的所述多个第二基因组区域包括至少约20000个不同的编码蛋白的基因区域;以及对所述第二cfNA特征组应用所述训练算法以生成所述受试者患有所述癌症的所述概率。在一些实例中,所述方法进一步包括在所述参考基因组的多个第三基因组区域中的每一个处生成所述多个cfNA测序读取的定量量度以生成第三cfNA特征组,其中所述参考基因组的所述多个第三基因组区域包括相等大小的连续非重叠基因组区域;以及对所述第三cfNA特征组应用所述训练算法以生成所述受试者患有所述癌症的所述概率。在一些实例中,所述参考基因组的所述多个第三非重叠基因组区域包括至少约60000个不同的基因组区域。在一些实例中,所述方法进一步包括生成包括指示所述受试者患有所述癌症的所述概率的信息的报告。在一些实例中,所述方法进一步包括至少部分地基于所述患者患有所述癌症的所述生成的概率为所述受试者生成治疗所述癌症的一个或多个推荐的步骤。在一些实例中,所述方法进一步包括当所述受试者患有所述癌症的所述概率满足预先确定的准则时诊断所述受试者患有所述癌症。在一些实例中,所述预先确定的准则是所述概率大于预先确定的阈值。在一些实例中,所述预先确定的准则基于所述诊断的准确性度量来确定。在一些实施例中,所述准确性度量选自由以下组成的群组:敏感性、特异性、正预测值(PPV)、负预测值(NPV)、准确性和曲线下面积(AUC)。

在一些实例中,计算机模块可以告知湿实验室步骤的其他部分。例如,对于一些测定开发程序,诸如当外部数据可以用于告知湿实验室实验的开始点时,一些计算机模块可以在湿实验室步骤之前。此外,湿实验室实验组件的输出可以馈送到计算机组件中,诸如群组设计和临床问题。另一方面,计算机结果可以馈送回到湿实验室中,诸如成本函数选择对于群组设计的影响。

6.结果

表2示出了不同分析物的结果和根据本公开的实例的对应最佳性能的模型。

使用跨分析物相似的样品。

在表2中,SD是指显著差异,如通过在不同分类的标记之间比较不同基因的读取计数所确定的。这是降维的一部分。对这些的特征进行过滤在两个分类之间时显著不同的,并且然后将这些进行分类。虽然PCA考虑坍塌组的特征,但是其以特定方式相关,SD单方面考虑个体特征。具有最高SD的特征(例如,基因的读取计数)可以用于受试者的特征向量。PCA涉及通过前几个组件投射测量值。它是例如在更小维的空间中的许多特征的精简表示。

所述表通过用针对分析物的不同组合的不同降维(不包含降低)分析不同模型的结果来创建。所述表包含性能最好的模型。作为实例,对于涉及蛋白的多分析物测定数据组,可能不需要PCA,因为维度较小(14)并且因此仅使用逻辑回归(LR)。

在模型中,尝试LR,连同PCA(前5个组件)和显著差异的特征选择(保留10%的特征)。可以跨分析物或在仅在一种分析物内进行PCA。

特征列对应于分析物的不同组合,例如基因(无细胞DNA分析)加甲基化。当使用多于一种分析物时,两个选择是将特征组合成单组特征,或运行两个模型以输出两个分类(例如,分类的概率)并且使用这些作为投票,例如多数投票或一些加权平均值或概率以确定哪个分类具有最高的分数。作为另一个实例,可以取预测的平均值或模式而不是考虑分数。

进行5x交叉验证以获得图7A和图7B中的接受者操作特征曲线的AUC信息。可以将样品分为五个不同的数据组,其中针对数据组中的四个进行训练并且针对第五个数据组进行验证。可以针对4个的一组确定敏感性和特异性。另外,可以用随机种子更新对组的分配以提供另外的数据。为了确定敏感性和特异性,将四个分类减少至4个,其中健康和良性息肉作为一个分类,并且AA和CRC作为另一个分类。

图7A和图7B示出了不同分析物的分类性能。

B.实例2:用于生物样品分类的个体测定的分析

该实例描述了多种分析物和多种测定的分析以区分健康个体、AA和CRC的阶段。

将血液样品分为不同的部分,并且研究三种类别的分子的四种测定。分子的类别是无细胞DNA、无细胞miRNA和循环蛋白。针对cfDNA进行两种测定。

从健康个体和具有良性息肉、晚期腺瘤(AA)和I-IV期结直肠癌(CRC)的个体获得去标识的血液样品。在血浆分离之后,如下测定多种分析物。首先,通过低覆盖率全基因组测序(lcWGS)和全基因组亚硫酸氢盐测序(WGBS)评定无细胞DNA(cfDNA)含量。接下来,通过小RNA测序评定无细胞微RNA(cf-miRNA)。最后,通过定量免疫测定测量循环蛋白的水平。

将测序的cfDNA、WGBS和cf-miRNA读取与人参考基因组(hg38)进行比对并且如下进行分析。在材料和方法部分中提供进一步的细节。cfDNA(lcWGS):对注释基因组区域内比对的片段进行计数并且针对测序深度进行归一化以产生30,000维向量/样品,每个元素对应于基因的计数(例如,与参考基因组中的该基因比对的读取的数量)。通过大规模CNV的手动检查鉴定具有高(>20%)肿瘤分数的样品。

WGBS:跨靶向基因(56个基因)中的LINE-1CpG和CpG位点计算每个样品的甲基化百分比。

cf-miRNA:对与注释的miRNA基因组区域进行比对的片段进行计数,并且针对测序深度进行归一化以产生1700维向量/样品。

可以过滤这些组的数据中的每一组以鉴定测量值(例如,读取与参考基因组进行比对以得到不同基因的读取的计数)。可以对测量值进行归一化。在每种分析物的单独子部分中描述关于每种分析物的归一化的进一步细节。

针对每种分析物进行PCA分析,并且提供结果。在单独部分中提供机器学习模型的应用。

1.cf-DNA低覆盖率全基因组测序

对于具有注释区域的已知基因的列表,通过计数与该区域比对的片段的数量针对这些注释区域中的每一个确定序列读取计数。可以各种方式对基因的读取计数进行归一化,例如使用部署基因组的全局期望;样品内归一化;和交叉特征归一化。交叉特征归一化可以是指平均到指定值(例如,0、不同的负值、一,或者范围是0至2)的这些特征中的每一个。对于交叉特征归一化,来自样品的总读取是变量,并且因此可以取决于制备工艺和测序仪加载工艺。归一化可以至读取的恒定量作为全局归一化的一部分。

对于样品内归一化,可以通过特征中的一些或定量一些区域(具体地对于GC偏好)的特征来归一化。因此,每个区域的碱基对构成可以是不同的并且用于归一化。并且在一些情况下,GC的数量显著高于或低于50%,并且这具有热动力学作用,因为碱基是更具能量的,并且所述过程是偏置的。由于实验室中样品制备的生物人工因素,一些区域提供比预期更多的读取。因此,可能需要通过应用另一种特征/特征转化/归一化方法来校正此类偏差。

图8A和图8B示出了跨临床阶段如通过CNV推断的高肿瘤分数样品(即,高于20%)的分布,其指示健康与正常之间的差异。在该实例中,血浆cfDNA的lcWGS能够基于跨基因组的CNV鉴定具有高肿瘤分数(>20%)的CRC样品。此外,高肿瘤分数虽然在晚期CRC样品中更频繁,但是也在一些I期和II期样品中观察到。在来自健康个体或具有良性息肉或AA的那些个体的样品中未观察到高肿瘤分数。

图8A和图8B示出了基于cfDNA-seq数据具有高(>20%)肿瘤分数的个体的CNV图。应注意,图8A和图8B中的每个图对应于自读取DNA拷贝数的独特样品的直方图。还应注意,可以通过由CNV估计或使用开源软件诸如ichor DNA计算肿瘤分数。表3示出了跨临床阶段的高肿瘤分数cfDNA样品的分布。

表3:

高肿瘤分数样品不一定对应于临床上被分类为晚期的样品。在图中,健康人的总数量是26。“BP”是指良性息肉,“AA”是指晚期腺瘤,并且“Chr”是指染色体。

2.甲基化

针对CpG位点使用差异甲基化区域(DMR)。所述区域可以通过发现动态地分配。可以从不同类别取多个样品并且发现哪些区域在不同分类之间是最大差异甲基化的。然后技术人员选择差异甲基化的子集并且使用这些进行分类。使用所述区域中捕获的CpG的数量。所述区域可能往往具有可变大小。因此,可以进行预发现过程,其将多个CPG位点集合在一起作为一个区域。在该实例中,研究56个基因和LINE1元件(跨基因组重复的区域)。研究这些区域中的甲基化百分比并且用作训练机器学习模型的特征以进行分类。在该实例中,分类利用用于PCA的基本上57个特征。特定区域可以基于在样品中具有足够覆盖的区域来选择。

图9示出了LINE-1位点处的CpG甲基化分析,其指示健康样品与正常样品之间的差异。所述图示出了用于PCA的全部57个区域的甲基化。正常样品所示的每个数据点是针对不同的基因区域和甲基化。

在该实例中,仅在患有CRC的个体中观察到LINE-1CpG基因座处的全基因组甲基化不足。在没有CRC的样品,诸如来自健康个体或具有良性息肉或AA的个体的样品中未观察到甲基化不足。应注意,正常样品的每个数据点是针对不同基因区域和甲基化。在一个实例中,可以计算映射到区域的所有读取。系统可以确定读取是否是甲基化的位置,并且然后将甲基化的CpG(例如,依次相邻的C和G碱基)和甲基化的CpG的数量加和并且计算甲基化的CpG的数量/甲基化的CpG的数量的比率。

在该实例中,通过单向方差分析(ANOVA),接着Sidak的多重比较检验评定显著性。仅示出了显著调整的P值。仅在CRC病例中观察到了LINE-1的CpG甲基化不足。息肉(良性息肉)、AA、CRC(I-IV期)。5mC,5-甲基胞嘧啶。

可以在整个目标区域中研究与位点比对并具有甲基化的DNA片段的百分比。例如,对于每一个例如与第一个CpG位点比对的100个读取和与第二个CpG位点比对的90个读取(例如,总计190个),基因区域可以具有两个CpG位点(例如,彼此依次相邻的C和G)。发现映射到该区域的所有读取,并且观察到读取是否被甲基化。然后将甲基化的CpG的数量加和,并且计算甲基化的CpG的数量/未甲基化的CpG的数量的比率。

3.微RNA

在该实例中,基本上每一个可测量(在该实例中,大约1700个)的微RNA(miRNA)用作一个特征。测量值与这些miRNA的表达数据相关。它们的转录物具有某一大小,并且存储每个转录物,并且可以计数对于每一个所发现的miRNA的数量。例如,可以将RNA序列与参考miRNA序列,例如对应于人类转录组中的已知miRNA的一组1700个序列进行比对。每个所发现的miRNA可以用作其本身的特征,并且跨所有样品的每一个可以成为特征组。当对于该miRNA没有检测到表达时,一些样品具有为0的特征值。

图10示出了表征微RNA的cf-miRNA测序分析。示出了在从所有样品汇集读取之后根据表达按序排列的映射到每个miRNA的读取的数量。在文献中提出以红色指示的miRNA作为潜在的CRC生物标记物。使用bowtie2将衔接子修剪的读取映射到成熟人类微RNA序列(miRBase 21)。在具有至少1个读取的血浆样品中检测到多于1800个miRNA,其中375个miRNA以更高的丰度存在(以≥10读取/样品的平均值检测)。

在一个实例中,取每个样品,并且将读取集合在一起。对于样品中发现的每个微RNA,可能发现众多集合读取。在该实例中,发现约1000万个聚集读取映射到单个微RNA;总体上,在超过1,000个读取的情况下发现300个微RNA;在超过100个读取的情况下发现约600个微RNA;在10个读取的情况下发现1,200个微RNA;并且在仅单个读取的情况下发现约1,800个微RNA。应注意,具有高表达排名的微RNA可以提供更好的标记物,因为更大的绝对变化可以产生更可靠的信号。

患有CRC的个体中的cf-miRNA谱与健康对照中的那些不一致。在该实例中,在文献中作为潜在CRC生物标记物提出的miRNA往往以相对于其他miRNA更高的丰度存在。

4.蛋白

通过标准曲线对蛋白数据进行归一化(14种蛋白)。14种蛋白中的每一种是基本上独特的免疫测定,所以每一种具有其自身的标准曲线,通常重组蛋白在非常稳定且优化的缓冲液中。因此,生成标准曲线,其可以许多方式计算。浓度关系通常是非线性的。然后运行样品,并且基于原初样品中的预期荧光浓度进行计算。测量值可以是一式三份测量值,但是可以例如通过平均化或更复杂的统计分析减少至14个个体值。

图11A和图11B示出了循环蛋白生物标记物分布。图11A示出了指示所测定的所有循环蛋白的水平的盒形图,其中异常值显示为菱形。图11B示出了根据单向ANOVA,接着Sidak的多重比较检验显示跨组织类型的显著不同的水平的蛋白。仅示出了显著调整的P值。使用SIMOA(Quanterix)测量的蛋白:ATP结合盒转运子A1/G1(A1G1)、促酰化蛋白(C3ades Arg)、癌抗原72-4(CA72-4)、癌胚抗原(CEA)、细胞角蛋白片段21-1(CYFRA21-1)、FRILu-PA。通过ELISA(Abcam)测量的蛋白:AACT、组织蛋白酶D(CATD)、CRP、皮肤T细胞虏获趋化因子(CTACK)、FAP、基质金属蛋白酶-9(MMP9)、SAA1。

在该实例中,在CRC样品中,评估了α-1-抗胰凝乳蛋白酶(AACT)、C反应蛋白(CRP)和血清淀粉样蛋白A(SAA)蛋白的循环水平,同时与健康对照相比尿激酶型纤溶酶原激活物(u-PA)水平更低。在AA样品中,评估了成纤维细胞激活蛋白(FAP)和Flt3受体相互作用凝集素前体(FRIL)蛋白的循环水平,同时与CRC样品相比CRP水平更低。

在该实例中,在一些ANOVA图中可以观察到不同。例如,CRP似乎是预测性的。FAP由于不同样品而变化。因此,多分析物测试可以显示总体趋势,而每一种分析物可能单独难以评定。

5.降维(例如,PCA或显著差异)

对每种分析物进行主成分分析(PCA)。在一个实例中,针对蛋白、无细胞DNA、甲基化和微RNA数据进行PCA。因此,在该情况下可以进行四个PCA。

在一个实例中,全部14种蛋白可以被认为是单一分析物。对于蛋白,基于个体荧光,存在14个测量值,因此存在14个浓度。将这些用14矢量化。PCA的输出可以是解释31%的变化的组分1和解释17%的变化的组分二等。这可以鉴定哪些蛋白给出最多变化。

对于针对无细胞DNA的lcWGS,使用基因计数的统计值(例如,平均值、中值等)之间的差值来鉴定具有最多变化的基因。

图12A示出了作为肿瘤分数的函数的cf-DNA、CpG甲基化、cf-miRNA和蛋白计数的PCA分析的输出。图12B示出了作为分析物的函数的cf-DNA、CpG甲基化、cf-miRNA和蛋白计数的PCA。高肿瘤分数样品跨所研究的全部4种分析物具有恒定异常的行为。

在图12A的实例中,使用PCA来分开高肿瘤分数与低肿瘤分数之间的距离。在图12B中,它是不同分析物的样品分类(正常、健康、良性息肉和结直肠癌)。所公开的系统和方法可以用于使此类类别之间的差异最大化。在该实例中,跨分析物的异常谱指示高TF(如由cfDNA CNV所估计),而非癌症阶段。所显示的每个点对应于单独的样品;PCA是最高组分的值。

各种实施方式可以用于降维。对于降维,存在可以用于计算例如显著差异的多种不同的假设检验和用于设定包含多少的阈值的多种不同准则。PCA或SVD(奇异值分解)可以针对相关矩阵或协方差矩阵而非数据本身进行。可以使用自动编码或变分自动编码。此类过滤可以过滤具有低变化的测量值(例如,区域的计数)。

6.结论

血浆cfDNA的lcWGS能够基于跨基因组的拷贝数变化(CNV)鉴定具有高肿瘤分数(>20%)的CRC样品。高肿瘤分数虽然在晚期癌症样品中更频繁,但是也在一些I期和II期患者中观察到。也在癌症患者中观察到三种其他分析物(与健康对照中的那些不一致的cf-miRNA谱、LINE1(长散布核元件1)CpG基因组处的全基因组甲基化不足和循环癌胚抗原(CEA)和细胞角蛋白片段21-1(CYFRA21-1)蛋白的升高水平)中的每一个的异常信号。令人意外地,跨多种分析物的异常谱指示高肿瘤分数(如由cfDNA CNV所估计),而非癌症阶段。

这些数据表明肿瘤分数与癌症阶段相关,但是具有较大电势范围,甚至在早期样品中也是如此。针对检测癌症的基于血液的筛选的先前文献在不同单一分析物检测早期癌症的所声明的能力中展示出差异。肿瘤分数可以能够解释历史分歧,因为我们发现cfDNACpG甲基化、cf-miRNA和循环蛋白水平之间的异常谱相比于晚期与高肿瘤分数更强烈地相关联。这些发现表明一些阳性“早期”检测结果可能实际上是“高肿瘤分数”检测结果。结果进一步证明了由单一分析物测定多种分析物可以实现在低肿瘤分数下并且对于检测癌前或早期疾病而言可靠的分类器的开发。以下描述了此类多分析物分类器。

C.实例3:使用来自跨多个样品的CFDNA的两个不同基因组区域的序列深度协方差来鉴定HI-C样结构

该实例描述了一种鉴定来自单个样品中的cfDNA的两个不同基因组区域处的Hi-C样结构以将来源细胞类型鉴定为多分析物模型生成的特征的方法。

将多个cfDNA样品的基因组序列分段为不同长度的非重叠仓(例如,10-kb、50-kb和1-Mb非重叠仓)。然后定量每个仓内的高质量映射片段的数量。高质量映射片段满足质量阈值。然后使用Pearson/Kendall/Spearman相关来计算相同染色体内或不同染色体之间的来自仓的对之间的相关。使用由相关矩阵的细微差别结构计算的结构分数来生成热图,如图13所示。使用Hi-C测序确定的结构分数生成相似的热图,如图14所示。两个热图的相似性表明使用协方差确定的细微差别结构与通过Hi-C测序确定的结构相似。排除由GC偏好、基因组DNA和MNase消化中的相关结构导致的潜在技术偏差。

将基因组区域(较大的仓大小)分为较小的仓,并且使用科尔莫戈罗夫-斯米尔诺夫(KS)检验来计算两个较大仓之间的相关。KS检验分数提供关于Hi-C样结构的信息,其可以用于区分癌症组和对照组。

使用二维分割(HiCseg)来分段和识别cfDNA和Hi-C中的相关结构中的结构域。两种方法产生相似数量的结构域和高度重叠的结构域。

cfDNA特异性共释放模式的鉴定。cfDNA中的协方差结构指示来自多种来源的混合输入信号模式,所述多种来源包含染色质结构、基因组DNA、MNase消化和cfDNA的可能共释放模式。使用深度学习来去除来自其他来源的信号并且仅保留cfDNA的潜在共释放模式。

癌症和非癌症样品中的染色质的三维接近性可以由长范围空间相关片段化模式推断。来自不同基因组区域的cfDNA的片段化模式不是一致的并且反映基因组的局部表观遗传特征。长范围表观遗传相关结构与高阶染色质组织之间存在高度相似性。因此,长范围空间相关片段化模式可以反映染色质的三维接近性。使用仅cfDNA中的片段长度生成由共片段化模式推断的体内高阶染色质组织的全基因组图。由内源生理过程生成的片段可以降低与Hi-C文库制备期间的随机连接、限制性酶消化和生物素连接相关联的技术变化的可能性。样品采集和预处理:从被诊断有结肠癌(结直肠癌)的45名患者、被诊断有肺癌的49名患者和被诊断有黑素瘤的19名患者获取回顾性人类血浆样品(>0.27mL)。还获取来自没有当前癌症诊断的患者的100个样品。总体上,从来自南欧和北欧和美国的商业生物库采集样品。对所有样品进行去标识。将血浆样品储存在-80℃下并在使用之前解冻。

根据制造商说明书使用MagMAX无细胞DNA分离试剂盒(Applied Biosystems)从250μL血浆提取无细胞DNA(用独特的合成dsDNA片段加标以用于样品追踪)。使用NEBNextUltra II DNA文库制备试剂盒(New England Biolabs)制备双端测序文库,并且在2x51个碱基对下在多个S2或S4流动池上在具有二元指标的Illumina NovaSeq 6000测序系统上进行测序。

全基因组测序数据处理:使用BWA-MEM 0.7.15对读取进行去复用并与人类基因组(具有诱饵、alt contig和HLA contig的GRCh38)进行比对。使用独特分子标识符(UMI)去除PCR重复片段。使用在所有可能的基因型上边缘化的污染模型和如通过1000个基因组(IGSR)鉴定的常见SNP的污染分数评定污染。

检查测序数据的质量,并且如果满足以下条件中的任一个,则从分析忽略:AT随机失活>10或GC随机失活>2(两者均通过Picard 2.10.5计算)。在包含在数据组中之前,手动检查怀疑由于预期等位基因分数<0.99、非预期基因型识别或失败的阴性对照而被污染的任何样品。用默认参数通过Atropos修剪衔接子。仅两端独特映射(具有多于60的映射质量分数)、适当配对且不是PCR重复的高质量读取用于所有的下游分析。仅常染色体用于所有的下游分析。

Hi-C文库制备:使用Arima基因组服务进行全血细胞和嗜中性粒细胞的原位Hi-C文库制备。

Hi-C数据处理:通过Juicerbox命令行工具v1.5.6统一处理原始fastq文件。在过滤读取之后具有大于30的映射质量分数的结果用于生成Pearson相关矩阵和区室A/B。在Python 3.5中在scikit-learn 0.19.1下通过PCA函数计算主成分分析(PCA)。第一主成分用于对区室进行分段。对于每个染色体,基于现象将区室分组成两个组。具有基因密度的较低平均值的区室的组被定义为区室B。另一组被定义为区室A。通过集成v84注释的基因数确定基因密度。表4中示出了测序总结统计和相关元数据信息。

表4

多样品cfHi-C:针对下游分析去除具有小于0.75的可映射性的500-kb仓。首先将每个500-kb仓分为50-kb子仓。首先将每个子仓中的中值片段长度在500-kb仓中加和,并且然后用每个染色体和每个样品的平均值和标准偏差通过z分数方法归一化。跨所有个体在每个配对仓之间计算Pearson相关。

单样品cfHi-C:从下游分析去除具有小于0.75的可映射性的500-kb仓。然后确定每个500-kb仓中的所有高质量片段的片段长度。通过双向KS检验(用Python 3.6在SciPy1.1.0中实施的ks_2samp函数)计算500-kb仓的每对内片段长度的分布相似性。然后将P值转换至log10标度。然后计算特定配对仓的Pearson相关。

序列组成和可映射性偏差分析:针对51bp的读取长度通过GEM 17生成可映射性分数。通过来自UCSC基因组浏览器的gc5碱基轨道计算G+C%。对于每对500-kb仓,从仓1和仓2获得G+C%和可映射性。然后应用梯度提升机器(GBM)回归树(在Python3.6下在scikit-learn 0.19.1中实施的梯度提升回归函数),以从cfHi-C、gDNA和Hi-C数据的矩阵回归相关系数分数的每个像素的G+C%和可映射性。N_estimator在不同的模型复杂性下随深度=5变化。然后使用回归之后的残差值来计算在像素水平下与全血细胞(WBC)Hi-C数据的相关。计算r2值以测量模型的拟合优度。

cfHi-C中的来源组织分析:为了由cfHi-C数据推断来源组织,将cfHi-C数据(cfHi-C中相关矩阵上的第一PC)的区室建模为每个参考Hi-C数据(cfHi-C中相关矩阵上的第一PC)中区室的线性组合。重新评估特征值以确保区室A是正数。过滤掉具有小于0.75的可映射性的基因组区域。首先通过分位数归一化转化跨cfHi-C和参考Hi-C组的特征值。对于每个参考Hi-C数据组,仅使用对于参考Hi-C数据组的其余部分显示最高特征值(当特征值为负时最低)的基因组仓用于去卷积分析。将权重约束至总和为1,使得权重可以被解读为cfDNA的组织分布。使用二次规划来解决约束优化问题。为了定义肿瘤分数,对来自癌症的组织贡献分数进行加和。

ichorCNA分析:使用具有默认参数的ichorCNA v0.1.0来计算归一化到内部健康样品的组之后每个cfDNA WGS样品中的肿瘤分数。

代码和数据可用性:在Python 3.6和R 3.3.3中实施所有的分析代码。表5中示出了研究中所用的可公共获得的数据。在每个cfDNA样品的基因组仓水平下片段长度的详细总结统计。

表5:

针对来自568个不同健康个体的cfDNA进行双端全基因组测序(WGS)。对于每个样品,获得平均(大约12.8X覆盖率)3亿9500万个双端读取。在质量控制和读取过滤之后,对于每个样品获得平均(大约10X覆盖率)3亿1000万个高质量双端读取。将常染色体分为500-kb非重叠仓,并且由仅在每个个体样品的每个仓处的片段长度计算归一化的片段化分数。然后在跨所有个体的归一化的片段化分数下在每对仓之间计算Pearson相关系数。在来自两个健康个体的全血细胞(WBC)的cfDNA的片段化相关图与Hi-C实验的区室之间发现了相似的模式(图15A和图15B)。图15A示出了由Hi-C、来自多个cfDNA样品的空间相关片段长度和来自单个cfDNA样品的空间相关片段长度分布生成的相关图。图15B示出了来自Hi-C(WBC)、多样品cfDNA和单样品cfDNA的区室A/B的基因组浏览器轨道。所有的比较来自染色体14(chr14)。

为了定量相似性的程度,在Hi-C与来自cfDNA的推断染色质组织之间在像素水平下计算Pearson相关(全基因组平均Pearson r=0.76,p<2.2e-16)。由两个不同健康个体的重复计算Hi-C中所示的像素水平相关系数。通过与WBC个体2的相关计算cfDNA中所示的像素水平相关系数(多样品图15C和单样品图15D)。

进一步识别Hi-C数据下的区室A/B和来自cfDNA的推断染色质组织。Hi-C与区室水平下来自cfDNA的推断染色质组织之间存在更高的一致性(Pearson r=0.89,p<2.2e-16)。由Hi-C识别的区室A/B与来自cfDNA的结果在很大程度上重叠(超几何检验p<2.2e-16)。该方法被称为cfHi-C。

为了将cfHi-C的应用扩展至单样品水平,将每个样品中的每个500-kb仓分为较小的5-kb子仓,并且使用科尔莫戈罗夫-斯米尔诺夫(KS)检验来测量每个配对500-kb仓之间的片段化分数分布的相似性。KS检验进一步确认在像素水平和区室水平下Hi-C与cfHi-C之间的高相关(图16A和图16B)。为了排除由NovaSeq中的模式化流动池技术导致的可能的内部文库制备偏差和测序偏差,使用由HiSeq 2000平台(BH01)生成的公共可用的外部cfDNA数据组重复所述算法。使用该数据组观察到健康cfDNA样品中的相似模式(图15B)。

为了排除由序列组成导致的可能的技术偏差,应用局部加权回归散点平滑(LOWESS)方法,以对具有平均G+C%值的每个仓中的片段长度进行归一化。在回归G+C%之后,观察到WBC中的Hi-C与多样品cfHi-C之间的高相似性(Pearson相关r=0.57,p<2.2e-16,图17A和图17B)。

作为阴性对照,使用来自120个个体的原代白细胞的基因组DNA(gDNA)重复相同的步骤。再一次,在回归G+C%之前Hi-C与gDNA之间存在相对较高的相似性(Pearson相关r=0.40,p<2.2e-16;图17C和图17D)。然而,在gDNA中通过G+C%归一化之后,观察到Hi-C与gDNA之间的低残差相似性(Pearson相关r=0.15,p<2.2e-16;图17D),并且不再观察到Hi-C样块结构。图17E示出了跨图17A-17D中表示的全部染色体的与Hi-C(WBC,rep2)的像素水平相关(Pearson和Spearman)的盒形图。

为了阐明二维空间中G+C%和可映射性的作用,针对cfHi-C应用GBM回归树。对于cfHi-C矩阵上的每个像素,获得相互作用对仓下的两个G+C%和可映射性值,并且然后回归在cfHi-C矩阵的每个像素下来自信号的G+C%和可映射性。在回归G+C%和可映射性的偏差之后,观察到WBC中的Hi-C与多样品(Pearson相关r=0.28,p<2.2e-16,n_estimator=500;图18A)和单样品cfHi-C(Pearson相关r=0.36,p<2.2e-16,n_estimator=500;图18B)两者之间的显著残差相似性。

在使用gDNA的阴性对照中,在相同范围的模型相似性中未观察到WBC中的Hi-C与多样品(Pearson相关r=0.009,p=0.0002;图18C)和单样品gDNA(Pearson相关r=-0.03,p<2.2e-16;图18D)两者之间的残差相似性。此外,对于cfDNA中的每个配对仓,用来自具有相同G+C%和可映射性的另一个染色体的随机仓取代所述仓中的一个,并且重新计算共片段化分数。通过针对模拟cfHi-C矩阵使用相同GBM回归树方法,在相同范围的模型复杂性中观察到与Hi-C的显著更低的残差相似性(Pearson相关r=0.13,p<2.2e-16;图18E)。

为了证明在回归G+C%和可映射性之后模型保留生物信号,针对来自另一个个体的WBC Hi-C(rep1)应用相同的回归树方法。仍然观察到与重复的高相似性(Pearson相关r=0.53,p<2.2e-16;图18F)。

为了研究模型复杂性对于分析的影响,用不同的模型复杂性(n_estimator)重复回归树。使用来自另一个个体的多样品cfHi-C、单样品cfHi-C和Hi-C,甚至在高模型复杂性的情况下,也难以去除与Hi-C的相关。该现象在阴性对照样品,诸如多样品gDNA、单样品gDNA和具有变更仓的cfHi-C的情况下不发生。

为了排除在多样品cfHi-C中观察到的共片段化模式是由于测序和文库制备期间的批次缺陷的可能性,针对cfHi-C中的每个配对仓,将一个仓跨个体随机重排。如所预期的,未观察到与Hi-C的相关(Pearson相关r=-0.0002,p=0.74;图19A和图19D)。生成来自相同批次(18个样品)内的样品的多样品cfHi-C矩阵。在像素水平下的Hi-C(Pearson相关r=0.60,p<2.2e-16;图19B和图19D)与下采样到相同大小的样品(Pearson相关r=0.63,p<2.2e-16;图19C和图19D)之间观察到高相关。

为了测试该方法的稳健性,针对多样品cfHi-C对不同样品大小的数据进行随机子采样。在样品大小为10的情况下,实现在像素水平下大约0.55和在区室水平下0.7的与WBCHi-C的相关系数。实现大于80的样品大小的饱和(图20A-20D)。

为了理解仓大小的作用,针对不同的仓大小重复相同的程序。一致地观察到在不同分辨率下与Hi-C实验的高一致性(图21A-21H)。为了阐明单样品cfHi-C中测序深度的作用,将片段数量下采样为不同的大小。甚至在约0.7X覆盖率的情况下,仍然实现在像素水平下大约0.45和在区室水平下0.7的与WBC Hi-C的相关系数(图22A和图22B)。

为了确定所观察到的cfHi-C信号是否在不同的病理条件下变化,在从45名结直肠癌、48名肺癌和19名黑素瘤癌症患者获得的cfDNA上在相似测序深度下生成额外的WGS。在跨所有的cfHi-C样品在区室水平下标准化特征值之后,对所有的健康样品和含有高肿瘤分数(肿瘤分数>=0.2,通过ichorCNA估计)的所选癌症样品应用主成分分析(PCA)。甚至在500-kb分辨率下,在健康样品和不同类型的癌症样品之间观察到分离(图23A)。通过进一步应用半监督降维方法典型相关分析(CCA),在健康样品和癌症样品之间观察到明显的分离(图23B-23F)。

为了确定通过cfDNA测量的体内染色质组织是否可以用于推断健康个体和患有癌症的患者中有助于cfDNA的细胞类型,使Hi-C数据中观察到的特征值的幅值与染色体中开放/闭合状态的幅值相关。在500-kb分辨率下从GM12878观察到DNase-seq的信号强度与Hi-C区室中的特征值之间的显著高相关(Pearson相关r=0.8,p<2.2e-16;图24)。该观察表明区室水平下的特征值可以进一步用于定量染色体的开放性。

为了生成用于来源组织分析的参考Hi-C组,统一处理来自不同的病理和健康条件的18种不同细胞类型的Hi-C数据。为了确定相关模式是否是细胞特异性的,由具有19.6亿个配对读取和10.6亿个高质量接触的嗜中性粒细胞生成原位Hi-C数据(映射质量分数>30)。使用由参考Hi-C组鉴定的细胞类型特异性区室下的分位数归一化的特征值,由不同类型的白细胞检测到大约80%cfDNA,并且在cfHi-C中由癌细胞几乎没有检测到cfDNA(图25A-25C)。相比于健康样品,使用cfHi-C在结直肠癌、肺癌和黑素瘤样品中观察到来自相关细胞类型的癌症组分的增加分数(图25A和图25B)。

为了排除文库制备和测序期间的可能人工因素,使用来自健康个体、结直肠癌、鳞状细胞肺癌、小细胞肺癌和乳腺癌样品的可公共获得的cfDNA WGS数据重复所述程序。观察到相似结果(图25A和图25B)。

为了定量所述方法的准确性,将通过cfHi-C估计的肿瘤分数与通过ichorCNA估计的肿瘤分数进行比较。ichorCNA是一种用于使用cfDNA中的拷贝数变化(CNV)通过覆盖率估计肿瘤分数的正交法。在健康个体中观察到相似的低肿瘤分数(肿瘤分数中值=0.00,平均值=0.02;图25C),并且在不同的癌症患者中观察到与ichorCNA的显著高一致性(图26)。

为了避免来自晚期癌症的混淆CNV,排除用于来源组织分析的具有任何显著CNV信号的基因组区域。结果仍然与排除晚期癌症样品之前的结果高度相同。

如果在cfDNA中观察到的长范围空间相关片段化模式主要受表观遗传景观影响,则可以在不同的表观遗传信号的情况下观察到相似的二维Hi-C样模式。为了在单样品水平下测试该假设,使用改进的KS检验来确定来自GM12878的不同表观遗传信号下配对仓之间的相似性。在使用DNase-seq的来自相同细胞类型的Hi-C实验、来自全基因组亚硫酸氢盐测序(WGBS)的甲基化水平、H3K4me1 ChIP-seq和H3K4me2 ChIP-seq的情况下观察到高一致性。该观察表明由这些表观遗传标记推断的“虚拟区室”是用于进行细微差别来源组织分析的综合参考组。

总之,这些分析证明了使用cfDNA作为生物标记物来监测不同临床条件的体内染色质组织和细胞类型组成的纵向变化的可能性。

D.实例4:结直肠癌、乳腺癌、胰腺癌或肝癌的检测

该实例描述了使用基于人工智能的方法来分析从受试者获取的cfDNA数据(以生成患有癌症(例如,结直肠癌、乳腺癌或肝癌或胰腺癌)的受试者的诊断的输出)来进行预测性分析。

从被诊断有结直肠癌(CRC)的937名患者、被诊断有乳腺癌的116名患者、被诊断有肺癌的26名患者和被诊断有胰腺癌的76名患者获取回顾性人类血浆样品。此外,从没有当前癌症诊断(但是潜在地具有其他并存病或未诊断的癌症)的患者获取一组605个对照样品,其中127个具有确认的阴性结肠镜检查。总体上,从来自南欧和北欧和美国的11个结构和商业生物库采集样品。对所有样品进行去标识。

CRC模型的对照样品包含除肝对照样品以外的所有样品(n=524)。乳腺癌模型中的对照样品(n=123)包含来自贡献乳腺癌样品的相同机构的样品。肝癌样品来源于具有25个匹配对照样品的病例对照研究;对照样品实际上是HBV阳性的,但是对于癌症是阴性的。还从单个机构获得胰腺癌样品和对应的对照;在66个对照中,45个对照样品具有一些非癌病理,包含胰腺炎、CBD结石、良性狭窄、假性囊肿等。

针对每个样品获得每名患者的年龄、性别和癌症阶段(当可用时)。将从每名患者采集的血浆样品储存在-80℃下并在使用之前解冻。

根据制造商说明书使用MagMAX无细胞DNA分离试剂盒(Applied Biosystems)从250μL血浆提取无细胞DNA(用独特的合成双链DNA(dsDNA)片段加标以用于样品追踪)。使用NEBNext Ultra II DNA文库制备试剂盒(New England Biolabs),包含聚合酶链式反应(PCR)扩增和独特分子标识符(UMI)制备双端测序文库,并且在2x51个碱基对下在多个S2或S4流动池上使用Illumina NovaSeq 6000测序系统测序至最小4亿个读取(中值=6亿3600万个读取),不同的是将肝癌样品测序至最小400万个读取(中值=2800万个读取)。

使用Burrows Wheeler比对仪(BWA-MEM 0.7.15)对所获得的测序读取进行去复用,衔接子修剪并与人类参考基因组(具有诱饵、alt contig和HLA contig的GRCh38)进行比对。使用片段终点或独特分子标识符(UMI,当存在时)去除PCR重复片段。

对于除肝癌实验以外的所有样品,检查测序数据的质量,并且如果满足以下条件中的任一个,则从进一步的分析排除:大于约10的AT随机失活(通过Piccard 2.10.5计算),大于约2的GC随机失活(通过Piccard 2.10.5计算)或小于约10X的测序深度。另外,从进一步的处理去除其中性染色体中的相对计数与注释的性别不一致的样品并且将其丢弃。此外,在包含在数据组中之前,手动检查怀疑被污染(例如,由于预期等位基因分数小于约0.99、非预期基因型识别或具有被污染的阴性对照的批次)的任何样品。通过计数与基因组的每个推定的编码蛋白的区域比对的片段的数量来针对每个样品产生cfDNA“谱”。该类型的数据表示可以捕获至少两种类型的信号:(1)体细胞CNV(其中基因区域提供基因组的采样,从而实现任何一致的大规模扩增或删除的捕获);和(2)cfDNA中由导致覆盖率的观察到的变化的可变核小体保护表示的免疫系统中的表观遗传变化。[

在测序数据中注释人类基因组的包括推定的编码蛋白的基因区域的一组功能区域(其中基因组坐标范围包含内含子和外显子)。编码蛋白的基因区域(“基因”区域)的注释从综合人类表达序列(CHESS)计划(v1.0)获得。由注释的人类基因组区域生成特征组,其包括对应于一组基因组区域的cfDNA片段的计数的向量。通过计数具有至少60的映射质量的cfDNA片段的数量来获得特征组,所述cfDNA片段与注释的基因区域中的每一个重叠至少一个碱基,从而产生每个样品的“基因特征”组(D=24,152,覆盖1352Mb)。

通过以下转化预处理计数的特征化向量。首先,去除对应于性染色体的cfDNA片段的计数(仅保留常染色体)。第二,去除对应于质量较差的基因组仓的cfDNA片段的计数。第三,针对其长度对特征进行归一化。通过具有以下中的任一个来鉴定质量较差的基因组仓:跨仓的小于约0.75的平均可映射性、小于约30%或大于约70%的GC百分比,或大于约10%的参考基因组N含量。第四,针对cfDNA片段的计数进行深度归一化。对于每个样品的深度归一化,通过在计算样品中跨仓的计数的平均值之前去除后百分之十和前百分之十的仓来生成修剪的平均值,并且使用修剪的平均值作为比例因子。使用解决GC偏好的Loess回归校正,针对cIDNA片段的计数应用GC校正。在这些过滤转化之后,基因特征的所得向量具有17,582个特征的维度,覆盖1172Mb。

交叉验证程序可以作为机器学习技术的一部分进行,以获得模型对于新的前瞻性采集的未见数据的性能的近似值。此类近似值可以通过针对数据的子集依次训练模型,并且针对在训练期间模型未见的保留组的数据对其进行测试来获得。可以应用k-fold交叉验证程序,其要求将所有的数据随机分层为k组(或重)并且在拟合到其他重的模型上测试每个组。该方法可以是估计泛化性能的常见的易处理方式。然而,如果存在任何混淆类别的具有已知协变量的标记,则此类“k-fold”交叉验证方案可能产生过高性能问题,其可能不泛化到新的数据组。机器可以学习仅鉴定批次和相关联的标记分布。这可能导致误导性结果和较差的泛化性,因为分类器学习类别标记与训练组内的混淆因子之间的错误关联,并且在测试组中错误地应用。交叉验证性能可能高估泛化性能,因为测试组可能具有相同的混淆因子,但是没有混淆因子的前瞻性组可能无法工作,从而导致较大的泛化错误。

此类问题可以通过进行“k-batch”验证来减轻,对所述验证进行分层,使得测试组仅含有混淆因子的未见元素。此类“k-batch”验证可以提供对于在不同时间点处理的数据的泛化性能的更稳健评定。该影响可以通过进行验证来减轻,对所述验证进行分层,使得测试组仅含有混淆因子的未见元素。因为可以观察到与针对相同批次进行处理的样品同时发生的短期影响(例如,特异性GC偏好谱),所以交叉验证可以包括根据批次分层而不是随机分层。即,测试组中的任何样品可以不来自也在训练中见到的批次。此类方法可以被称为“k-batch”,并且这种方式的验证可以提供对于新批次上的数据的泛化性能的更稳健评定。

此外,样品采集和/或处理方案也可以表示偏差来源。方案的差异可以导致数据中的主要变化。此类变化可以通过根据样品所来源于的机构对样品进行分组来稳健地捕获。为了解决k-batch的该问题,可以平衡训练中来自一个机构的所有样品的类别标记。对于每重训练组中的每个来源机构,可以进行下采样来实现来源于该机构的病例与对照的匹配比率。如果对训练数据应用该下采样,则交叉验证可以被认为是平衡的,并且此类验证方法可以被称为“平衡k-batch”。

此外,k-batch交叉验证对于控制批次内偏差也发挥良好作用,但是也可能存在在延长时间段内(例如,在数月、1年、2年等内)处理样品时发生的过程漂移。与时间系列分割相似,可以仅在将它们按时间分选之后分割批次。因为样品的顺序仍然通过批次确定,所以此类验证方法可以被称为“有序k-batch”。

在处理特征组之后,针对数据进行全部4种类别的交叉验证(“k-fold”、“k-batch”、“平衡k-batch”、“有序k-batch”)。使用所有的交叉验证类别来训练恰好一次测试每个样品的模型。该方法允许直接比较通过不同的交叉验证技术训练的模型组。在使用完美数据组和完美机器的理想世界中,所有形式的交叉验证可以产生相同的结果。

图28A示出了训练模式fork-fold、k-batch、平衡k-batch和有序kbatch。每个正方形代表单个样品,其中填充颜色指示类别标记,边缘颜色表示类似混淆因子的机构,并且数字指示处理批次。通过虚线将保留测试组的样品与训练组分开。

作为实例,可以对CRC分类器训练应用使用机构下采样方案的k-batch(图27A)。可以跨来自每个结构的各组回顾性患者平衡训练组。可以关于测序批次构建重,如上所讨论,其中I 0%的批次随机保留为测试组,并且针对剩余90%的批次进行训练。在每个重内,由预分析处理程序中的潜在差异产生的混淆可以通过下采样输入训练样品以确保跨每个样品源的相等类别平衡来消除。换言之,对于给定样品源,如果70%的训练样品是CRC样品,则对来自该来源机构的CRC实例进行下采样,以实现CRC与对照样品之间的50%类别分割。

对于模型训练,在训练数据上拟合一系列转化并且应用于测试数据。用所观察的特征值的第99百分位数替换异常值(例如,每个特征高于训练数据的第99百分位数的任何值)。通过减去每个特征的平均值并且除以标准偏差来对数据进行标准化。比较降低输入特征向量的维度的靶向组的方法,包含针对输入数据进行奇异值分解并截短至前1500个组分;进行主成分分析(例如,类似地截短至前1500个组分);或者不应用降维步骤并且将标准化特征直接传到分类器。将转化数据作为输入提供到靶向组的分类器中,包含逻辑回归和支持向量机(SVM)。使用训练数据的20%的内部验证组的随机搜索在每个重中用于优化分类器超参数,包含正则化常数和(对于径向基函数SVM)核带宽。

跨测试重的平均AUC与标准偏差一起报告。所观察到的敏感性和特异性作为跨测试重的平均值报告,其中每个设定的阈值对应于该测试重的IU样品内85%的特异性。使用重采样自助法获得敏感性和AUC的置信区间。

为了理解个体特征对于分类的影响,在没有先验降维的情况下针对LI逻辑回归正则化(使用LASSO)的水平进行扫描。LI正则化通过其幅值的绝对值对逻辑回归模型内的权重系数进行罚分,并且允许鉴定稀疏特征组。鉴定正则化的水平,在该水平下,分类性能最接近于性能最佳的分类管线的性能。通过使跨多个实验的多重常见的基因相交来鉴定一组重要的稀疏基因特征。在所述组的重要稀疏特征的情况下,检查跨CRC和对照样品的两个主要类别分布的预处理读取计数的分布,并且与每个基因区域中的该区段中的拷贝数(如通过IchorCNA识别)的分布进行比较。对于两个群体之间拷贝数的分布重要的基因可以指示拷贝数变异(CNV),而非显著的差异可以指示其他生物机制。

针对从937个对照受试者和被诊断有CRC的524名患者获得的血浆DNA样品进行双端全基因组测序(WGS)。将整个群体根据性别(54%女性,46%男性)大约相等分割。CRC患者群体包含85%早期(I期和II期)样品,如表6所示。在所有报告的分析中,虽然在所有可用的样品上训练了模型,但是性能结果局限于来自年龄范围在50至84岁内的患者的样品,与在商业可用的CRC筛选测试中检查的预期使用群体一致。所得的对照样品群体比癌症样品群体(中值年龄=67,IQR=60-74岁,p<0.01,曼-惠特尼U检验)更偏向年轻(中值年龄=61岁,四分位间距[IQR]=56-67岁)。

表6:用于CRC实验的健康和癌症样品的数量(根据阶段、性别和年龄)

检查k-fold交叉验证程序以评定模型性能的泛化性。在k=10重的情况下,随机搜索超参数之后的优选方法是针对整个训练组的主成分分析(PCA)到支持向量机(SVM)。其他方法也在该模型的误差界内,并且可以用于替代性实例中。该方法实现0.87的平均曲线下面积(AUC)(其中跨重的标准偏差为0.026),在IU样品的85%特异性下平均敏感性为77%(其中跨重的标准偏差为0.059),如表7所示。

表7:预期使用群体中交叉验证程序的CRC性能

为了评定对于新数据的泛化性,评估了探索可能的混淆因子的各种验证方案(如图27B所示),包含k-batch、平衡k-batch和时间线k-batch,其是分别用于控制可能的短期、机构或长期偏差的各种方式。在先前所述的k-fold实验中在所选的相同方法的情况下进行这些形式的验证。重的数量(例如,k=10)跨所有程序是恒定的。首先,评定可以导致显著混淆的批次影响,尤其是当批次的数量较低时。在相同的PCA方法和针对SVM的随机搜索的情况下,k-batch交叉验证实现0.84的平均AUC(跨重的标准偏差为0.33),在85%特异性下平均敏感性为70%(表7),这与k-fold性能相似。

因为来自不同机构的回顾性样品可能已经经受不同的预分析处理和存储条件,所以还评估平衡k-fold验证,其中对机构进行采样,达到训练数据中针对该机构的癌症相对于非癌症的均匀分布(例如,机构A在训练数据组中具有相等数量的癌症样品和非癌症样品)。虽然训练数据通过该方法显著减少(训练中每重平均654.6个样品/在kfold或k-batch的情况下每重1314.9个样品),但是该程序仍然实现0.83的平均AUC(跨重的标准偏差为0.018),在85%特异性下平均敏感性为66%(表7)。

最后,使用时间线kbatch来实施评定更长期的过程漂移的方法,其通过处理日期分割样品并且将在时间上彼此接近处理的样品分组在相同重中来进行。使用该策略,训练日期的范围内关于技术过程学习的任何信息可能不泛华到测试日期。该技术实现0.81的平均AUC(跨重的标准偏差为0.10),在85%特异性下平均敏感性为62%(表7)。

为了开始理解所获得的模型,针对数据内的各种群体分析各种验证方法的性能。图28A示出了针对癌症检测评估的所有验证方法(例如,k-fold、k-batch、平衡k-batch和有序k-batch)的接受者操作特征(ROC)曲线的实例。在每种验证方法内,从I至III期实现恒定敏感性(在置信区间内),并且始终正确地分类IV期样品(图28B,示出了跨所评估的所有验证方法的CRC阶段的敏感性)。这并不令人感到意外,因为由于较大数量的所观察到的CNV,可以相对容易地区分晚期癌症。此外,观察到性能跨验证类型与总体AUC的一般趋势类似。接下来,单独由临床分期分析肿瘤分数。为了估计肿瘤分数,使用迭代估计每个样品的肿瘤分数和CNV区段化的隐马尔可夫模型(IchorCNA)。在肿瘤分数的各种仓内评估性能,其中发现癌症样品和对照样品与低于约2%的估计的肿瘤分数重叠(图28C)。如果仅使用肿瘤分数值来预测癌症,则可以在IU群体上实现63%的AUC,其低于所有的验证方法。再一次,在跨肿瘤分数的范围的交叉验证程序内观察到恒定的性能(图28C,示出了跨所评估的所有验证方法的IchorCNA估计的肿瘤分数的AUC),不同的是在高肿瘤分数仓(大于约6%)内,其中存在少数具有非常高的肿瘤分数的对照样品(例如,其可能是标记对换)。

因为年龄可以是已知的混淆因子,并且性别中的类别平衡是不均匀的(表6),所以在数据可用的样品之间,评定分类器仅根据年龄和性别预测癌症的能力。所得的性能是0.75的平均AUC,其确认了一般概念,即癌症是年龄相关疾病并且在我们的数据群体中得到反映。AUC性能在大龄带的情况下增加(图28D,示出了跨所评估的所有验证方法的年龄仓的AUC)。在此观察到性能特征的多样性,其表明年龄群体在这些重中的分布是非常不同的。

跨性别的性能跨验证类型是类似的(图28E,示出了跨所评估的所有验证方法的性别的AUC),跨不同的验证具有很少或没有差异。虽然女性样品的性能超过男性样品的性能,但是该观察可能是在数据组中具有更多的女性样品的人工因素,从而表明年龄是比性别更强的混淆因子。

为了估计哪些输入特征有助于分类器预测癌症类别的能力,训练了被设计来捕获稀疏信号的模型。使用k-fold交叉验证,进行针对正则化系数的扫描,并且发现了五种稀疏模型,其性能与初始组的实验的性能类似。五种模型的LI正则化强度的倒数C的范围是0.022至0.071,并且五种模型的平均AUC的范围是0.80至0.82。鉴定具有对应的学习加权系数的一组特征,所述学习加权系数具有跨七重或更多重的学习分类器的大于零的绝对值。五个实验相交产生表8中列出的29个基因,其针对癌症检测分类器可以被认为是“高度重要的特征”。

表8:

在表8的特征中,几乎全部在CRC样品与健康样品之间均具有单变量显著差异(p<0.05,班费罗尼校正)。此外,在癌症样品与对照样品之间的这些基因位点中的每一个处比较拷贝数分布,如通过IchorCNA识别。在高度重要的特征中,仅10个在CNV中具有显著差异,并且与具有单变量差异的显著特征匹配(p<0.05,班费罗尼校正)。更显著的CNV p值可以指示该基因区域的癌症样品与对照样品之间的CNV差异。这十个位点可以非常良好地挑选CNV,而其他位点可以挑选其他变化。这些变化可以是通过IchorCNA未检测到的CNV的变化或由于其他生物机制产生的变化。一些基因可以指示超过CRC相关基因的标记物,因为免疫基因出现在高度重要的特征的列表中。

作为此类高度重要的特征的用途的实例,分类器可以被编程或被配置来分析从受试者的样品获得的在高度重要的特征的组的多个基因组区域中的每一个处的cfNA测序读取的定量量度(例如,计数),以便检测受试者的癌症(例如,结直肠癌、乳腺癌、胰腺癌或肺癌),所述多个基因组区域包括至少约10个不同区域、至少约20个不同区域、至少约30个不同区域、至少约40个不同区域、至少约50个不同区域、至少约60个不同区域、至少约70个不同区域或至少约75个不同区域。除评估CRC检测之外,针对从被诊断有胰腺癌(n=126)、乳腺癌(n=116)和肝癌(n=26)的患者和机构匹配的对照患者获得的血浆cIDNA样品评估相同测序方案(图29A、29B和29C,分别示出针对乳腺癌、肝癌和胰腺癌的跨验证(ROC曲线)的分类性能)。大部分乳腺癌样品也偏向早期癌症:73%的乳腺癌样品是I期或II期(其中1.7%的乳腺癌样品缺乏阶段信息)。所有的肝癌和胰腺癌样品缺乏阶段信息。应用如上所述的相同分类框架,不同的是将重的数量扩大至数据大小(表9)。虽然结果较低,但是鉴于这些实验中样品数量较小,它们似乎是不合理的。图30示出了根据类别的估计的肿瘤分数的分布,并且图31A和图31B分别示出了当每重的训练组作为样品的百分比或作为批次的百分比下采样时CRC分类的AUC性能。当用CRC实验中类似的数量训练数据时,观察到相似的性能下降。图32示出了具有高肿瘤分数的健康样品的实例。

表9:乳腺癌、肝癌和胰腺癌的交叉验证结果

癌症k=验证AUC平均值±标准偏差,85%下的敏感性

结果证明了由血液检测早期(例如,I期和II期)癌症的优异性能。对来自样品源的国际池的早期CRC cfDNA样品的群组的较大集合应用机器学习技术,以有效地学习患者的cfDNA谱与癌症诊断之间的关系,在严格定义的样品外评估中,在85%的特异性下具有约62-77%的敏感性。此外,在对从患有乳腺癌、胰腺癌和肝癌的患者获得的cfDNA样品的群组应用相同的机器学习技术时,实现了相似水平的预测性能,在85%的特异性下敏感性的范围是47%至64%。虽然这些分析中包含了大量样品,但是分类性能可以继续随额外样品而增加,从而表明即使在没有进一步的方法学进展的情况下,也可以预期癌症检测性能随进一步的样品采集而改善。所述结果也与先前的研究一致,其中若干鉴定的重要特征与癌症具有推定的关系。

在进行学习和验证方法(如上所示)以使用回顾性样品来实施生物标记物发现时,控制混淆因子可以是重要的。通常,如果用类别标记混淆,则预分析处理(例如,离心速度、采集管类型、冻融循环的数量)以及分析处理(例如,文库制备批次、测序运行)中的差异可以提供误导性的泛化结果。例如,如果处理变量没有被适当地考虑在内,则可以在癌症-对照数据组中实现预测性能的更高验证度量(例如,可以在标准k-fold交叉验证方法中观察到87%AUC的AUC,与之相比,平衡k-batch方法(或并入泛化性能的更严谨计量的另一种方法)中为84%AUC)。通常,虽然统计方法通常对于混淆作用可能不是免疫的,但是如果不被适当地考虑在内,高维全基因组机器学习方法可能特别易受此类混淆作用的影响。

虽然此类处理作用可以在计算上在一定程度上减轻,但是稳健的实验设计可以是确保可泛化结果的高效方法,类别标记与任何潜在的诱导噪声的变量之间的相互信息最小化(例如,混淆最小化)。在回顾性研究中,并且甚至在较大的前瞻性集合研究中,鉴于大量的潜在重要的协变量,此类随机化可能并不总是可能的。在此类情况下,可以适当地使用诸如以下的技术:实行跨已知的混淆变量的类别平衡、学习期间稳健的交叉验证分层,或归一化潜在协变量的计算方法。技术,诸如进行下采样以确保通过样品来源的类别平衡和通过文库制备处理批次的样品外验证的方法,可以提供方法对新数据的泛化性的更实际评定。

输入cfDNA的cfDNA计数-谱表示可以充当血液中可用信号的无偏表示(例如,与基于突变或甲基化测定方法相比),从而允许捕获直接来自肿瘤的信号(例如,CNV)以及来自非肿瘤来源的那些,诸如来自例如循环免疫系统或肿瘤微环境的免疫表观遗传细胞状态的变化。鉴于早期癌症患者的预期低肿瘤分数,该方法的成功可以表明cfDNA可以用作衍生的表观遗传细胞信号以捕获生理状态的变化。

在主要为早期的群体中,肿瘤分数(如通过CNV识别估计)可能不一定对应于临床癌症阶段。有证据显示,计数-谱方法在具有一组高度重要的基因特征的模型中使用多种信号,所述一组高度重要的基因特征包含具有常见的CNV位点的基因(例如,7q32臂上的IRF5和KLF14)和对于CNV不重要但是对于免疫和结肠系统重要的基因(例如,CD4、WNTI和STATI)。

此外,因为此类信号跨基因组分布,并且与极其高深度靶向测序(例如,至少约1,000X、至少约5,000X、至少约10,000X、至少约20,000X、至少约30,000X、至少约40,000X、至少约50,000X或至少约60,000X测序深度)相比可能需要相对较低的测序深度来检测ctDNA突变,所以cfDNA方法在所需的样品量方面可以是更切实可行的且有利的。

使用人工智能和全基因组测序在人类血浆样品中检测早期结直肠癌,无细胞DNA人类血浆样品从被诊断有不同阶段(例如,I-IV期和未知)的结直肠癌(CRC)的797名患者获取,如表10所示。此外,从没有当前癌症诊断的受试者获取一组456个对照样品。从学术医疗中心和商业生物库采集样品。对所有样品进行去标识。

从250μL血浆提取无细胞DNA。制备双端测序文库并且使用Illumina NovaSeq6000测序系统测序至最小4亿个读取(中值=6亿3600万个读取)。

提取与注释的编码蛋白的基因比对的读取,并且将读取计数归一化以考虑读取深度的可变性、序列-内容物偏差和技术批次影响。

表10:具有CRC的患者和非癌症对照的临床特征和人口统计

使用不同的交叉验证技术来训练机器学习模型,所述交叉验证技术包含标准k-fold、k-batch和平衡k-batch(图34A)。在kfold上训练所有方法,并且选择性能最佳的方法以针对其他交叉验证程序训练模型。

图34A示出了训练模式fork-fold、k-batch和平衡k-batch。每个正方形代表单个样品,其中填充颜色指示类别标记(CRC或非癌症对照),边缘颜色表示来源机构,并且数字指示处理批次。通过虚线将保留测试组的样品(图33B)与训练组分开。

跨所有验证方法的预期使用年龄范围(50-84)内针对CRC的分类性能。图34A和图34B分别示出了CRC阶段或肿瘤分数的敏感性。

在图34A中,在每个测试重中在85%特异性下定义敏感性的阈值。N是每个阶段的样品的数量。CI=95%自助置信区间。82%的样品来自具有早期CRC(I期和II期)的患者。所有的验证方法基于置信区间实现跨I至III期的大约相等的敏感性。总是正确地分类IV期癌症。

在图34B中,在每个测试重中在85%特异性下定义敏感性的阈值。N是CRC样品的数量。肿瘤分数是衍生于肿瘤组织的cfDNA的比例(例如,ctDNA/cfDNA),并且使用IchorCNA估计。CI=95%自助置信区间。

图34C示出了当每重的训练组下采样时CRC分类的AUC性能。分类器性能继续随着添加更多的训练样品而改善。

表11示出了年龄为50-84的患者中交叉验证(ROC曲线)的分类性能。使用k-batch验证评估批次间技术可变性。使用平衡k-batch验证评估群体或样品处理中的机构特异性差异。敏感性跨所有的验证方法随着肿瘤分数增加而增加。单独的IchorCNA估计的肿瘤分数的AUC为0.63,其低于在任何交叉验证方案下来自ML模型的结果。

表11:年龄为50-84的患者中交叉验证程序的CRC性能

AUC=接受者操作特征曲线下的面积;CI=95%自助置信区间;SD=标准偏差。

使用cfDNA和机器学习的基于血液的原型CRC筛选测试在主要为早期CRC的群组(I期和II期)中实现高敏感性和特异性。分类器性能表明来自肿瘤和非肿瘤(例如,免疫)衍生的信号的贡献。在中等覆盖深度下评定全基因组cfDNA谱使得能够使用少量血浆样品。交叉验证方法突出了相似的混淆因子分析对于回顾性(和前瞻性)研究的重要性。

E.实例5:使用CFDNA片段覆盖率和长度来预测哪些基因在产生CFDNA的细胞中高表达或低表达的基因表达预测模型

该实例描述了用于通过使用一个或多个卷积神经网络(CNN)分析cfDNA谱来生成基因的表达或染色质状态的预测的方法。此类方法可用于分类具有和没有结直肠癌(CRC)的个体的多分析物平台。基因表达可以通过细胞机器对于转录起始位点(TSS)的可及性来控制。TSS的可及性可以由TSS所位于的染色质的状态决定。染色质状态可以通过染色质重塑来控制,所述染色质重塑可以压缩(闭合)或放松(开放)TSS。闭合TSS导致基因表达降低,而开放TSS导致基因表达增加。鉴定基因的染色质状态的变化可以充当鉴定受试者中疾病的存在的方法

从学术医疗中心和商业生物库获得来自具有结直肠癌的患者(n=532)和非癌症对照(n=234)的去标识的血浆样品。基于如下的CRC阶段信息来分离血浆样品:I期(n=169)、II期(n=256)、III期(n=97)、IV期(n=6)和未知的阶段信息(n=4)。

训练预测模型来确定基因在cfDNA中是“开启的”或“关闭的”。针对来自外部数据组的稳定基因的平均表达训练模型。使用来自预训练模型的知识来训练疾病预测模型。使用单独基因组来校准先前的模型以合理地改变癌症与非癌症之间的表达状态。

V图衍生自cfDNA捕获蛋白-DNA关联,其示出了染色质架构和转录状态。进行印记法来显示cfDNA对应于被蛋白保护的基因组的区域。原始测序数据:cfDNA的双端测序提供片段长度并且恢复DNA的受保护的片段。表达(“开启”)基因的平均V图:DNA-蛋白结合位置和结合位点大小可以由测序的cfDNA片段的片段长度和位置(基因组位置)推断。V图中的每个像素通过片段的数量着色,其中特定长度(Y轴)在该位置处具有中点(X轴)。更深的颜色指示更大的片段数量。(图35)

输入V图示出了基因的TSS区域中cfDNA片段位置和大小的丰富但稀疏的表示。应用小波压缩和平滑来降低复杂性,同时保留信号的关键部分。学习的逻辑回归系数:红色区域通常提供基因是“开启的”证据,而蓝色区域通常提供基因是“关闭的”证据。通过对数据应用这些系数,有助于更高的P(“开启的”)的区域显示为红色的,而有助于更低的P(“开启的”)的区域为蓝色的。(图36)除对开启的和关闭的基因表达进行归类之外,在血液的两个细胞群体中通过ATAC-seq测量可接近的染色质的存在或不存在,一个群体比另一个群体丰富得多。该方法仍然能够用来自pDC特异性峰的单核细胞特异性ATAC-seq峰来区分cfDNA区域。这些峰不限于任何特定功能并且可以包含例如TSS以及其他种类的远端增强子。

表12

归一化的TSS覆盖率仅使用“开启的”/“关闭的”基因中的归一化的片段计数来预测表达。“开启的”基因比“关闭的”基因具有更低的覆盖率(更少地被核小体保护)(1)。(图37)FPKM-相对表达片段的归一化的RNA-seq测量值/千碱基的转录物/百万的映射读取;pDC-浆细胞样树突状细胞;ROC-接受者操作特征;AUC-接受者操作特征曲线下的面积

使用肿瘤靶向的基因组通过阶段评估分类准确性,并且估计肿瘤分数。对于该方法,我们使用在结肠中且不在血细胞中表达的44个基因,如在路线图中所测量的。假设结肠基因在结肠癌以及相邻的健康结肠组织中表达,所述相邻的健康结肠组织不为健康个体中的cfDNA提供大量材料。(图38A-38C)

显示平均基因表达预测加强基于CNV的肿瘤分数估计。高肿瘤分数非癌症对照展示44个结肠基因的表达P(开启的)的低平均概率,从而将其与高肿瘤分数CRC样品区分开(图39A)。这些拷贝数变化可以是种系的或体细胞的且不是来源于肿瘤,而是来源于体内的非癌细胞(图39B)。虽然本文中已示出并描述了优选的实例,但是对本领域普通技术人员而言将明显的是,仅通过实例的方式提供此类实例。在不脱离本发明的情况下,本领域普通技术人员现将会想到众多变化、改变和替代。应理解,本文所述的实例的各种替代方案可以用于实践本公开。预期以下权利要求限定范围,并且因此覆盖这些权利要求及其等效物的范围内的方法和结构。

XI.计算机系统

本文提及的计算机系统或电路中的任一个可以利用任何合适数量的子系统。子系统可以通过系统总线75连接。作为实例,子系统可以包含输入/输出(I/O)装置、系统存储器、存储装置和网络适配器(例如,以太网、Wi-Fi等),其可以用于连接计算机系统其他装置(例如,引擎控制单元)。系统存储器和/或存储装置可以体现计算机可读介质。

计算机系统可以包含多个相同的组件或子系统,例如其通过外部接口、通过内部接口或通过可移除存储装置连接在一起,所述可移除存储装置可以由一个组件连接到另一个组件并且移除。在一些实施例中,计算机系统、子系统或仪器可以在网络上通信。

实施例的方面可以使用硬件电路(例如,专用集成电路或现场可编程门阵列)以控制逻辑的形式实现和/或使用具有通常可编程的处理器的计算机软件以模块或集成方式实现。如本文所用,处理器可以包含单核处理器、在相同集成芯片上的多核处理器或在单一电路板或网络上的多个处理单元以及专用硬件。基于本公开和本文提供的教示,本领域普通技术人员将知道并且了解其他方式和/或方法来使用硬件和硬件和软件的组合来实现本发明的实施例。

该应用中描述的软件组件或功能中的任一个可以作为软件代码实现,以便使用任何合适的计算机语言诸如像Java、C、C++、C#、Objective-C、Swift或脚本语言诸如Perl或Python,使用例如常规或面向对象的技术由处理器执行。软件代码可以作为一系列指令或命令存储在用于存储和/或传输的计算机可读介质上。合适的非暂时性计算机可读介质可以包含随机存取存储器(RAM)、只读存储器(ROM)、磁介质诸如硬盘驱动器或软盘或光学介质诸如致密光盘(CD)或DVD(数字多功能光盘)、闪存等。计算机可读介质可以是此类存储或传输装置的任何组合。

此类程序还可以使用适用于通过符合各种协议的有线、光学和/或无线网络(包含因特网)传输的载波信号来编码和传输。由此,可以使用此类程序编码的数据信号创建计算机可读介质。用程序代码编码的计算机可读介质可以用兼容的装置包装或与其他装置分开提供(例如,通过网络下载)。任何此类计算机可读介质可以驻留在单个计算机程序产品(例如,硬盘驱动器、CD或整个计算机系统)之上或其中,并且可存在于系统或网络中的不同计算机程序产品之上或其中。计算机系统可以包含监视器、打印机或用于向用户提供本文提及的任何结果的其他合适的显示器。

本文所述的任何方法可以完全或部分由计算机系统(包含一个或多个处理器)执行,所述计算机系统可以被配置来执行所述步骤。因此,实施例可以涉及计算机系统,其被配置来执行本文所述的任何方法的步骤,潜在地具有执行相应步骤或相应组的步骤的不同组件。虽然作为编号的步骤呈现,但是本文的方法步骤可以同时或在不同时间或以不同顺序执行。另外,这些步骤的部分可以与来自其他方法的其他步骤的部分一起使用。另外,步骤的全部或部分可以是任选的。另外,任何方法的任何步骤可以用执行这些步骤的系统的模块、单元、电路或其他装置来执行。

特定实施方案的具体细节可以在不脱离本发明的实施例的精神和范围的情况下以任何合适的方式组合。然而,本发明的其他实施例可以涉及与每个个体方面或这些个体方面的特定组合相关的特定实施例。

本发明的示例性实施例的以上描述出于例示和描述的目的呈现。其并不意图是详尽的或将本发明限于所描述的精确形式,并且许多修改和变化根据以上教示是可能的。

除非明确地相反指示,否则“一个”、“一种”或“所述”的引用旨在意指“一个/种或多个/种”。除非明确地相反指示,否则使用“或”旨在意指“兼或”且不是“异或”。对于“第一”组分的提及不一定需要提供第二组分。此外,除非明确声明,否则对于“第一”或“第二”组分的提及不限制特定位置的参考组分。术语“基于”旨在意指“至少部分地基于”。

本文提及的所有专利、专利申请、公布和描述出于所有目的通过引用整体并入。任何都不认为是现有技术。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号