首页> 中国专利> 分级和/或选择肿瘤特异性新抗原的方法

分级和/或选择肿瘤特异性新抗原的方法

摘要

本发明涉及患有癌症的受试者的肿瘤特异性新抗原的分级/选择。本发明还提供了在例如癌症的治疗或预防中使用分级/选择的肿瘤特异性新抗原的方法。分级和选择的新抗原可以在肿瘤疾病的诊断、监测和/或预后中用作生物标记物。

著录项

说明书

本发明涉及患有癌症的受试者的肿瘤特异性新抗原的分级/选择。本发明还提供了在例如癌症的治疗或预防中使用分级/选择的肿瘤特异性新抗原的方法。分级和选择的新抗原可以在肿瘤疾病的诊断、监测和/或预后中用作生物标记物。

在过去的十年中,围绕使用疫苗作为抗癌药的可能性重新激发了人们的热情。专门的翻译研究人员收集的数据表明,多个抗癌疫苗,包括基于细胞的、基于DNA的和基于纯化成分的疫苗,都能够规避肿瘤的免疫原性差和免疫抑制性高的特性,并在癌症中引起治疗相关的免疫响应。由于观察到的由肿瘤引起的抗肿瘤T细胞应答,“现成的(off-the-shelf)”肽疫苗(主要针对未突变的肿瘤相关抗原,例如在KRAS、促胃液素(Gastrin)G17DT、HSP-CC-96、WT1、VEGF-R、VEGFR2、hTERT、Her2/neu、KIF20A中)、重组疫苗(在痘病毒中带有GM-CSF的MUC-1和CEA)、表达减毒活李斯特菌间皮素(Listeria Mesothelin)的疫苗、辐照的全同种异体肿瘤和李斯特菌和全灭活的肿瘤细胞疫苗(Algenpantucel-L、同种异体GM-CSF)已被评估用于癌症的治疗。

这些研究已产生了有希望的结果,但未能在患者存活率方面带来稳健的、具有统计意义的相关改善。尽管如此,他们还是确定了成功设计下一代癌症疫苗的几个关键方面,即:癌症疫苗应具有肿瘤特异性并且与自身蛋白不同,所应用的佐剂应有效激活抗原呈递(antigen-presenting)细胞以刺激抗原特异性细胞毒性T淋巴细胞(CTL)和T辅助淋巴细胞介导的免疫反应,并且应包括打破免疫耐受的策略。

迄今为止,非自身抗原(例如由肿瘤基因组突变产生的独特的新抗原)难以检测。NGS技术的出现极大地简化了包括cDNA表达克隆、重组cDNA表达库(SEREX)的血清学分析和反向免疫学方法在内的研究。可以对整个癌症外显子组进行测序,并与正常外显子组进行比较,以便可靠地鉴定出肿瘤特异性和高度个体化突变。随后,可以应用生物信息学算法来预测哪些突变衍生的、改变的蛋白质序列会产生新的抗原(新抗原),这些新抗原可以通过患者各自的HLA分子以肽的形式呈现在相应肿瘤细胞的表面。通过将识别出的新抗原整合到癌症疫苗中,现在专门针对患者个体肿瘤畸变提供了根本新机会。这种个性化方法整合了不同个体中同一组织起源的肿瘤的巨大异质性,并增加了引发强大的抗肿瘤免疫反应的潜力,因为识别高亲合力新抗原的T细胞还未被胸腺阴性选择所清除。除驱动突变外,还可从引起高免疫原性新抗原的个体偶然突变(passenger mutation)中产生治疗上有用的靶标。

通过将抗癌疫苗与相对不同的疗法组合相结合,在显着功效方面取得了相当大的进步,这有助于打破肿瘤环境的免疫抑制特性。这些包括可引起免疫原性细胞死亡(immunogenic cell death,ICD)的免疫检查点、靶向疗法和/或化学疗法(即奥沙利铂(oxaliplatin))的多种抑制剂。

从WO 2017/205823A1中,用于受试者的个性化遗传测试的方法和系统是已知的,其中对来自受试者的生物样品进行测序试验,然后这会产生与受试者有关的遗传信息。建议基于从测序试验的数据中获得的遗传信息,对核酸分子进行阵列合成或选择。然后将至少一些核酸分子用于测定法中,该测定可提供有关来自受试者或受试者的生物学亲属的一个或多个生物样品的附加信息。

WO2017/011660提供了一种鉴定新抗原的方法,该方法使用了完整的外显子组测序和各种功能标准。在排除低于个别标准的特定阈值的新抗原之后,根据选定标准获得的结果确定最终优先级得分。此外,WO2018/045249提供了一种以跨物种的方式特别是在小鼠和人类癌细胞中鉴定癌症特异性免疫原性肽的方法。该方法使用得分值根据各种标准对肽进行分级。

然而,尽管遗传信息和功能数据可能有助于个性化医疗,但仍有许多问题有待解决。

首先,与任何测量一样,从一个人的生物样本中获得的遗传信息在一定程度上可能是不正确的,例如因为该信息包含一定数量的错误。考虑到在本发明的时候,医学知识仍然是有限的,从这样的遗传信息得出结论是困难的,甚至是不可能的。例如,可能存在一些罕见的肿瘤和癌症形式,但其至今仍不能以足够高的确定性归因于特定的遗传信息。因此,即使存在大量与某些疾病有关的遗传数据,例如以库的形式存在,此类库中包含的最佳信息在某一给定时刻可能与稍后时刻在类似库中包含的最佳信息有所不同,这仅仅是因为现有的遗传数据库需要根据科学进步来修改。

然后,包括医学数据的任何库和从患者的样品所获得的遗传信息都可以相当广泛,从而将从患者样品获得的遗传信息与一个或多个库中的数据进行比较可能需要大量计算。

同样,如果根据现有的最佳医学诊断确定某些新抗原可能与患者患有的或被认为患有的癌症疾病特别相关,则用于治疗干预的新抗原的选择将取决于新抗原所具有的性质。这样的性质可以例如在计算机上确定,即考虑到关于它们的结构的某些假设,通过数值计算的方式来确定。但是,数值计算既不是完全精确的,也不是基于计算或结构的假设是完全正确的。即使包括了经过实验验证的功能数据,在选择过程中也可能无法正确反映此类数据的相关性。

然而,尽管存在错误、缺乏知识、不确定性以及取决于患者的医疗状况,在某些情况下仍需要快速且以可接受的费用找到有效的治疗方法。

鉴于此,本领域需要提供用于对个性化新抗原进行分级的改进方法及其用途。

因此,本发明的一个目的特别是提供用于对个性化新抗原进行分级的新和具有创造性的方法。

因此,本发明提供了一种分级和/或选择方法,用于对患有癌症的受试者的新抗原进行分级和/或选择,其中通过以下步骤对携带至少一个被认为是癌症特异性的突变的多个潜在新抗原进行分级/选择:

(a)为患有癌症的受试者提供潜在新抗原的库;

(b)对来自所述库的多个潜在新抗原中的每一个(其中所述多个包括至少4个潜在新抗原),确定选自以下的至少两个描述符:

(i)指示性描述符,其指示是否已知所述新抗原存在于癌症相关基因内或是否未知所述新抗原存在于癌症相关基因内;

(ii)分类描述符,其与将指示所述受试者的新抗原中的至少一个肿瘤特异性突变的等位基因频率的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔进行排序;

(iii)分类描述符,其与将指示所述受试者的一个或多个癌细胞中新抗原内至少一个变体的相对表达率的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔进行排序;

(iv)分类描述符,其与将指示新抗原与根据受试者的HLA类型而呈递的特定HLA等位基因的结合亲合力的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔进行排序;

(v)分类描述符,其与将指示所述受试者特异性潜在新抗原相对于相应非突变野生型序列的相对HLA结合亲合力的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔进行排序;

(vi)分类描述符,其与将指示与根据所述受试者的HLA类型而呈递的多于一个的HLA等位基因的结合亲合力的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔进行排序;

(vii)分类描述符,其与将指示新抗原的HLA混杂性的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔进行排序;

(viii)分类描述符,其与将指示预测所述受试者的特异性潜在新抗原与相应患者的HLA等位基因的结合的可靠性的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔进行排序;

对所述至少两个描述符中的至少一个的确定为:使得各个值分所箱成的不同类别的数量小于所述多个潜在新抗原的数量;

(c)基于所述至少两个描述符以加权的方式计算所述多个潜在新抗原中的每一个的组合得分,使得至少一个描述符对组合得分的最大可能贡献将小于至少另一个描述符的组合得分的最大可能贡献;

(d)基于所述组合得分获得至少4个的多个潜在新抗原(the plurality of atleast four potential neoantigens)的分级。

本发明还提供了针对癌症特异性新抗原的选择方法,所述方法个性化用于治疗患有癌症的个体受试者,其中从携带至少一个被认为是癌症特异性的突变的多个潜在新抗原中,通过以下步骤进行选择:患有癌症的个体受试者,提供潜在新抗原的个体库;对于库中至少4个的多个潜在新抗原中的每一个,确定至少两个指示性描述符(其指示是否已知所述新抗原存在于癌症相关基因内或是否未知所述新抗原存在于癌症相关基因内,并选自:分类描述符,其与将指示所述受试者的所述新抗原中的至少一个肿瘤特异性突变的等位基因频率的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔进行排序;分类描述符,其与将指示在所述受试者的一个或多个癌细胞中的新抗原内的至少一个变体的相对表达率的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔进行排序;分类描述符,其与将指示新抗原与根据所述受试者的HLA类型呈现的特定HLA等位基因的结合亲合力的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔而排序;分类描述符,其与将指示所述受试者特异性潜在新抗原相对于相应非突变野生型序列的相对HLA结合亲合力的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值间隔而排序;分类描述符,其与将指示与根据所述受试者的HLA类型而呈递的多于一个的HLA等位基因的结合亲合力的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的间隔而排序;分类描述符,其与将指示新抗原的HLA混杂性的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的间隔而排序;分类描述符,其与将指示预测所述受试者的特异性潜在新抗原与相应患者的HLA等位基因的结合的可靠性的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的间隔而排序),使得对于至少一些值,所述分类描述符将各自的值归入的不同类别的数量小于所述潜在新抗原的数量;基于所述至少两个描述符并以加权的方式确定多个潜在新抗原中的每一个的组合得分,使得至少一个描述符对组合得分的最大可能贡献将低于至少另一个分类符对组合得分的最大可能贡献;确定基于所述组合得分对至少4个的多个潜在新抗原的分级;并响应于所述分级,从所述多个潜在新抗原中选择至少一个新抗原并且少于所有新抗原。

因此,本发明涉及用于以个性化方式对癌症特异性新抗原进行分级/选择的改进方法。现有技术的方法,例如WO2017/011660中提供的方法,包括基于预定的阈值排除候选肽。一旦排除了某个肽段,即使几乎达到所述阈值,它也不会构成用于后续测试的候选肽段总体的一部分。其他方法,例如WO2018/045249中提供的那些,包括根据功能测试的结果对肽进行分级。分级包括以线性且均等的方式分配数值的属性。

发明人已经做出了一些令人惊讶的发现以实现本发明。首先,使用现有技术的方法根据一个或多个功能参数被认为是非功能性的候选肽可能在随后的测试中显示出令人惊讶的良好功能性。因此,像现有技术方法的一部分一样排除肽将导致候选肽的分级次序有偏差。其次,考虑到各个参数将显示出对事实有效性的非均匀贡献,例如WO2018/045249中的线性且均等的分级将固有地引入了选择偏差。

相反,如下面进一步讨论的和在所附实施例所示,本发明的方法通过将候选肽分箱(binning),并将非线性得分值归入分箱(bins)中和参数对最终得分的贡献来减少选择偏差。

在根据本发明的方法的以上公开中,已经通过使用下述表达提及几个步骤的执行以及某些实体的派生和使用:例如指示性描述符,指示性值,分类描述符,分箱(binning),类,根据值的间隔、权重、贡献等进行排序的类。此外,还将在以下描述和所附权利要求书中提及阻碍(handicapping)、过滤等。

虽然相信本领域技术人员将容易理解这些共同表达中的一些或大多数,但是在下文中提供非限制性解释。

在本发明中,涉及指示性描述符和分类描述符。使用术语“描述符”时要牢记所谓分子描述符的标准定义,有时将其视为将分子的符号表示中编码的化学信息转换为有用数字的程序的最终结果或一些标准实验的结果。对于特定物质,此数字可能例如是分子内的结合长度、沸点、碳原子数等。然而,这里,当查看术语“有用数字”时,本申请中的重点不是“数字”而是“有用”。

更精确地,在本案中指示性描述符或分类描述符不必一定是数值,而也可以是例如,字母数字信息。

关于指示是否已知新抗原存在于癌症相关基因内或是否未知所述新抗原存在于癌症相关基因内的指示性描述符这一术语:通常,知晓关于是否已知特定新抗原位于癌症相关基因内,或是否未知所述新抗原位于癌症相关基因内。例如,技术人员知道存在某些突变,这些突变被认为是驱动突变、偶然突变和/或与耐药性有关。“驱动突变”是为通过增加其存活或繁殖而在其微环境中克隆提供选择优势的突变。驱动突变往往会导致克隆扩增。“偶然突变”是对克隆的适应性(fitness)没有已知影响,但可能与克隆扩增相关的突变,因为它与驱动突变发生在同一基因组中。这被称为进化生物学的搭便车(hitchhiker)。在本发明中,如果新抗原被确定为包含已知癌症相关基因中的驱动突变,与药物抗性有关的突变或偶然突变,则将其分类为存在于癌症相关基因中。如果已知新抗原存在于癌症相关基因内,则语句“是,所述新抗原存在于癌症相关基因内”将是指示性描述符;而表明未知新抗原存在于癌症相关基因内的描述符将是明文语句“不,未知新抗原存在于与癌症相关的基因内”。显然,可以使用更简短的描述符或其他描述符。作为非限制性示例,该对“是”和“否”将具有完全相同的目的,即一对“Y”/“N”、“Ja”/“Nein”、“J”/“N”、“Oui”/“Non”、“O”/“N”或“A”/“B”,一对表示逻辑“0”或“1”等的逻辑标志(logical flags)。此外,替代例如“Y”和“N”等字母数字的指示性描述符,也可以使用数值;例如对于YES,使用大于零的值;对于NO,使用小于或等于零的值。虽然在这种情况下使用“0”和“1”将是一种标准方法,但也可以使用“0.0543”和“-7.231”之类的其他值,只要可以将它们彼此清楚地区分开即可。特别地,可以使用值的给定范围内的数字值,例如0到1之间的值。在某些情况下,这可以提供其他优点。如果已知给定的新抗原存在于癌症相关基因中存在6σ(6sigma)科学确定性,则假设指示性描述符与1相同;而值“0.95”将表明已知给定的新抗原存在于癌症相关基因中仅存在5σ的确定性。而值0.5则应表明在这种特定情况下当前根本没有科学的理由认为给定的新抗原与癌症有关。在此,指示性描述符在指示的同时也可以提供附加信息。

同样,分类描述符也不必是数值。这也可以容易地理解,并且将针对人的身体尺寸进行解释,因为所述尺寸比相对例如HLA结合亲合力更常见的数量。假设这个人是一个6岁女孩,其物理尺寸为“127厘米”,对应于“4英尺2英寸”,这2个值均表示该人的物理尺寸。如果已知使用的单位(厘米、米、英尺),则尺寸可以显示为“4-2”、“1.27”、“127”、“6-4”等。现在对于一个不经常和孩子接触的人来说,这个绝对值将无助于决定这个女孩是否适合她的年龄。但是,由于通常能确定并已知大量女孩的身体尺寸,因此可以轻松地将特定尺寸(127厘米)与相同年龄的其他女孩具有的尺寸进行比较。因此可以建立:大约有95%的同龄女孩个头较小。如果只考虑3个类别,例如小、中、大,则特定的6岁女孩大多肯定被认为是“大”女孩。在这种情况下,分类描述符将是“大”,但也可以“S”、“M”、“L”之一,或者“1”、“2”或“3”之一,等。

重要的是要注意,在在示例中,参考了其他女孩的尺寸。在实践中,可以确定例如,一个特定的孩子是在其同龄人组的最小的10%(同龄组=同年龄、同性别)中、在其同龄人组的最大的10%中,还是介于两者之间。(为了完整起见:6岁女孩中最小的10%的尺寸达110cm;最大的10%的尺寸至少为124cm)。将孩子的尺寸分配到特定范围间隔(例如0cm-110cm;111cm-123cm;>124cm)称为分类。因此,为了确定一个6岁的女孩是一个大女孩,要做的是建立一个指示该女孩身体尺寸的值(“127厘米”),通过分类将该尺寸与其他女孩进行粗略比较(“属于最大的10%”),并确定分类描述符(“这是一个大女孩”或“L”或“3”),该分类描述符涉及对指示在同龄组中的物理尺寸的值进行的分类。

请注意,在示例中,分类或间隔不必具有相同的尺寸。定义为中等范围内的女孩与另一个也具有中等尺寸的女孩相差不超过12厘米。相反,一个非常小的女孩甚至可能小于95厘米,因此“小分类(small bin)”内的最大尺寸差异(或分类的间隔尺寸)与“中等”分类中的不同。还应注意,为了考虑不同的方面,可以使用不同的分类尺寸。例如,当确定一个孩子在学校的椅子是高一点还是矮一点时,应该设置其他限制,而不是决定是否考虑非平均尺寸时,指出是否对功能失调进行医疗治疗。

基本上,对于除物理尺寸以外的其他数量也是如此,例如所述新抗原中肿瘤特异性突变的等位基因频率、在肿瘤内所述新抗原的变体的相对表达率、新抗原与根据所述受试者的HLA类型而呈递的特定HLA等位基因的结合亲合力、所述受试者的特异性潜在新抗原相对于相应非突变野生型序列的相对HLA结合亲合力、所述新抗原的HLA混杂性。在此,也可以计算数值。

描述这种数量的数字和单位可以变化,但是对于本领域技术人员而言显而易见的是,例如如何以通常已知的方式,例如,可以确定结合亲合力。从通常已知的这类标准程序,对于所述受试者特异性潜在新抗原的HLA结合亲合力和相应非突变野生型序列的HLA结合亲合力,将确定一些值(数值)。然后,当将以通常已知的方式确定的所述受试者特异性潜在新抗原的HLA结合亲合力与相应非突变野生型序列的HLA结合亲合力进行比较时,可以确定相应非突变的野生型序列的HLA结合亲合力是否等于、大于或者小于所述受试者的特异性潜在新抗原的HLA结合亲合力。分配的对应的值可以是,例如“+1”、“0”或“-1”。应当理解,所有结合亲合力都是正数,因此当建立例如“小于”或“等于”之类的关系时,也可以确定比率,并且可以检查该比率是否大于1、小于大于1或等于1。因此,可以将比率确定为这样的指示值,可以通过将比率乘以100来确定百分比,可以将平方的比率确定为指示值等。

关于类别,可以定义几个类别或对范围分类的数量。在上面的示例中,孩子的尺寸被陈述为小、中或大,并且已经陈述了:不同的范围可能对不同的目的有用。同样,出于某些目的,可能有必要建立不同数量的类别(例如,当涉及服装时,XS、S、M、L、XL、XXL表示绝对尺寸)。以相同的方式,对于所考虑的数量,类别或范围的数量可以不同于3。但是,当认为样品元素之间的差异无关紧要时,使用比所检查的样品中的元素的数量更小的多个范围是必不可少的。通过使用小于样本数量的多个范围,至少两个样本将落入相同范围,因此可以忽略它们的绝对差。

关于基于所述至少两个描述符确定所述多个潜在新抗原中的每一个的组合得分,例如通过添加某些值,可以容易地获得新抗原的这种组合得分;最简单的方法是为每个描述符分配特定的数值,然后对于每个新抗原,将所有值相加。(例如,描述符涉及S、M和L这3种尺寸中的一个时,数字可以是“1”、“2”和“3”)。

然而,根据本发明,得分不是简单地相加,而是以特定的加权方式进行组合。基本上,加权组合是众所周知的,例如对于具有生物信息学为主要科目和例如生物化学等几个附属科目的学生。通常,将根据课程是否与该学生的附属科目或主要科目相关,对在不同课程中获得的学分进行加权,例如通过将主要科目的课程乘以因子2,即通过分配权重2。注意,本发明中的权重不是简单地以加权方式组合,而是以特定方式组合,使得至少一个描述符对组合得分的最大可能贡献将低于对另外至少一个描述符的组合得分的最大可能贡献。另外,应当注意,尽管简单地将值相加肯定会产生组合得分,但是其他组合方式也是可以的,例如,平方值相加或将值相乘等。

注意,在本发明的以上一般描述中,涉及从多个描述符中选择至少两个描述符。将理解的是,对于被考虑和被分级的每种新抗原,评估和使用相同的描述符。此外,应注意,可以选择2个以上的描述符。还可以选择多于3个或多于4个或多于5个的描述符,以从组合得分中获得分级,并且再次地,对于所有潜在新抗原,将评估和使用相同的描述符。此外,可以使用所有所指出的描述符来获得分级,甚至可以使用其他未列出的描述符,这些描述符也可以相似的方式对总得分以加权的方式产生贡献,从而获得分级。

本发明人令人惊讶和出乎意料地发现,以允许通过结果的适当组合来改进分级/选择的方式,与受试者的肿瘤细胞表面上的抗原呈现有关的多种决定的建议组合,由此为患者个性化的肿瘤疫苗提供了与使用现有技术的新抗原预测和分级/选择方法相比改进的特点。该发现基于所附实施例中展示的令人惊讶和出乎意料的结果。其中,示出了通过本发明的方法开发的基于个性化新抗原的疫苗的作用(实施例6)。具体而言,在所附的实施例中可获得总共12名患有各种恶性肿瘤的患者的长期随访数据。数据令人惊讶和出乎意料地证明,本发明的方法可用于揭示导致有效的新抗原特异性T细胞免疫应答(CD4+和CD8+)的个性化新抗原。

因此,基于根据本发明的方法分级/选择的新抗原,可以实现对现有疗法的明显改善。由于多个、至少两个预测因子和决定因子的组合以及随后的结果组合——优选地以加权方式,这些方法因此提供了所得疫苗的令人惊讶和出乎意料的优点。

已经得出结论,尽管由于潜在的不精确或错误的测量结果、计算机内计算的舍入误差等导致无法精确知晓,但是如果将描述符分类为几个范围之一,则令人惊讶地可以获得改进的预测、分级和选择。可以这样认为,尽管大多数时候将忽略描述符之间的细微差别,但仍可以粗略地考虑它们的整体价值,而不会高估细微的、但是鉴于事实的准确性可能无关紧要的差别。例如,可以区分下述值:所述值表示各个描述符指向可忽略不计的影响,指向虽然很小仍被认为是真实的影响,或指向被认为非常大的影响。指定这些类别之一并不需要以尽可能最高的精度确定描述符的各个值。相反,确定的值可能显示的误差将通过分类而消除。同时,通过根据描述符所分类的范围为描述符分配不同的权重,还应考虑到,很小的值可能会带来更高的值更大的不确定性。因此,将特别低的权重或分数贡献分配给原本由于低值而重要的因子可以降低原本与所述低值相关的噪声。应当注意,通过考虑多个描述符,即使其中一个描述符的值接近范围的边界,微小的误差也可以平均。

还应注意,即使在计算机上确定了某些参数或值的情况下,这些确定仍可能取决于容易出错的初始物理测量。例如,在确定针对新抗原的HLA结合亲合力时,虽然这种确定将取决于基于例如预测的分子结构,但是这些假设仍将依赖于某些先前的动力学或其他测量。例如,新抗原对特定HLA分子的结合亲合力可以基于可用的数据库(例如,IEDB)确定,所述数据库包括,例如,以一定的亲合力结合各自的HLA等位基因的无关肽的体外结合测定结果。编译结合和不结合某些HLA等位基因的许多肽的亲合力允许推导相应的HLA等位基因和相关HLA等位基因的肽结合动机。因此,这样的数据库允许基于某些分子或官能团的已知性质和预测的各自的立体化学结构进行计算,但是数据将从物理化学实验馈入这些数据库中。因此,值在计算机内的确定,本身并不是无误差的。

可获得的结果证明了用于鉴定所用肽的方法的优越特性。在一个优选的实施例中,这些方法包括以下参数中的至少几个的组合使用:来源于已知癌症相关基因;在所述受试者的所述新抗原中至少一个肿瘤特异性突变的等位基因频率;这种存在新抗原的变体在所述受试者的癌细胞中的相对表达率;与根据所述受试者的HLA类型而呈递的特定HLA等位基因的结合亲合力;所述新抗原相对于相应非突变野生型序列的相对HLA结合亲合力;与根据所述受试者的HLA类型而呈递的多于一个的HLA等位基因的结合亲合力;新抗原的HLA混杂性,其中对每个新抗原进行了分类,并且每个类别都赋予了一个值,如果该新抗原来源于癌症相关的基因,则所述值可能很高;可以随变体等位基因频率的增加而增加;可以随着各自的变体表达率而增加;可以随着所述新抗原的HLA结合亲合力增加;并且还可以随着所述相对HLA结合亲合力而增加(新抗原对野生型对应物);并且可以随着结合的HLA等位基因的数量增加。令人惊讶地,这些确定或参数中的至少2个,优选至少3个、至少4个、至少5个或6个的结果的组合导致潜在新抗原的分级,其中分级较高的新抗原肽显示出作为个性化癌症疫苗的令人惊讶地增加的潜力。分类后的至少两个参数组合,即适当地以加权方式相加。这样的加权方法提供了另外的令人惊讶和出乎意料的效果,即随着新抗原的分级更高,其分级得到了改善,显示出成为有效癌症疫苗的非常改善的潜力。完全出乎意料的是,可以将组合推广至本文所提供的所建议的方法,该方法通常适用于患有癌症的患者而无需个体适应。这是通过对不同确定结果进行分类,并以加权方式将其组合而实现的。

在用于癌症特异性新抗原分级/选择的分级/选择方法的一个优选实施例中,以加权方式确定多个潜在新抗原中的每一个的组合得分,使得对于至少一个分类描述符,对组合得分的类别依赖性贡献对于至少一个类别而言将偏离与类别顺序的线性关系或将是惩罚(penalty)。

在类别和贡献之间使用非线性关系使得可以对新抗原进行分类,从而可以最好地考虑对确定进行估计的不确定性。例如,在计算出的结合亲合力小的情况下,导致相同绝对误差的舍入误差将导致较大的相对变化,因此,计算出的结合亲合力受误差的影响更大。另外,在结合亲合力极低的情况下,确切的总值将不那么重要,而其他因素将变得更加重要。因此,忽略表面上或实际存在的差异,而仅考虑足够大的值是合理的。因此,合理地选择范围,使得在低范围内,该范围内的值对总得分的贡献较小。也可以区分低亲合力的权重,所述低亲合力尽管接近零,但会导致较小但可感知的结合,而几乎不易察觉并因此容易被其他因素压倒的结合亲合力的值的贡献将显著降低。类别的数量可能大于3个,但是使用3个类别已经给出了很好的结果,并简化了过程中的多个步骤。

在优选实施例中,分级/选择方法作为计算机辅助分级/选择方法而执行,其中以下步骤中的至少一个步骤是计算机辅助或实现的步骤:确定与值的分箱相关的至少一个分类描述符;确定至少一个要进行分类的值从而获得分类描述符;确定至少一些新抗原的组合得分;基于确定的组合得分对至少4个的多个潜在新抗原进行分级;过滤潜在新抗原;确定指示性描述符,其指示是否已知新抗原存在于癌症相关基因中或是否未知新抗原存在于癌症相关基因中;提供潜在新抗原的个体库,特别是根据至少一个生物学序列数据,特别是DNA序列数据、RNA序列数据、蛋白质序列数据或肽序列数据中的至少一个,特别是这些数据的组合,和/或从受试者的特异性生物肿瘤样品之一或从此类肿瘤材料和另外的受试者特异性生物非肿瘤材料获得的序列数据,所述获得特别是通过至少多个基因、优选所有基因的高通量DNA测序、信使RNA(mRNA)分子或总RNA的高通量测序获得,和/或通过使用例如串联质谱(特别是通过蛋白质组学和/或配体组学)进行蛋白质或肽序列分析获得。

因此应注意,选择和/或分级方法的通常至少一些步骤、典型地大多数步骤和经常地所有步骤可以并且将以计算机辅助的方式进行。在大多数情况下,以计算机辅助方式实现这些步骤远不只是一种方便。在字面意义上讲,以足够快的方式获得结果通常是至关重要的,因为在没有计算机支持的情况下计算所述结果,虽然理论上可行的,但这不仅成本昂贵,而且还可能导致患有癌症的患者在获得结果之前死亡。这对于利用计算机进行的以下确定尤其如此:例如受试者的新抗原中至少一个肿瘤特异性突变的等位基因频率、受试者的一个或多个癌细胞中新抗原内至少一个变体的相对表达率、新抗原与根据受试者的HLA类型而呈递的特定HLA等位基因的结合亲合力、所述受试者特异性潜在新抗原相对于相应非突变野生型序列的相对HLA结合亲合力、与根据受试者的HLA类型而呈递的多于一个的HLA等位基因的结合亲合力、新抗原的HLA混杂性、预测所述受试者特异性潜在新抗原与相应患者的HLA等位基因相结合的可靠性、每个预测因子的分类、每个新抗原总分的计算以及以HLA特异性或非特异性方式对新抗原进行最终分级。

即使“仅”确定是否已知新抗原存在于癌症相关基因内,或是否未知新抗原存在于癌症相关基因内时,该确定仍将与现有的以下数据库条目进行比较:与已知哪些基因是癌症相关的信息有关。应该注意的是,对于这样的比较,即使可以忽略所需的时间,使用计算机也被认为是至关重要的,因为如果由人来进行比较会很累,这反过来会导致错误的发生,这些错误可能会被证明是致命的,即使除了可能产生药物组合物这一事实之外,没有其他原因,因为这些错误不会改善患者的健康。因此,在这方面,计算机实现某些步骤也应该被认为远远不止是一种方便。

更详细地,还应注意,在本发明内,可以确定给定的新抗原是否已知源自癌症相关基因或甚至含有癌症驱动因子或耐药性突变。本领域技术人员从各种可用的数据库中已知与癌症相关的基因以及癌症驱动因子或耐药性突变,所述数据库包括但不限于COSMIC(Catalogue of Somatic Mutations in Cancer,癌症中的体细胞突变目录)、CCGD(Candidate Cancer Gene Database,候选癌症基因数据库)、ICGC(International CancerGenome Consortium,国际癌症基因组协会)、TGDB(Tumor Gene Database,肿瘤基因数据库)、PMKB(Precision Medicine Knowledgebase,精密医学知识库)、OncoKB自我癌症基因组(OncoKB My Cancer Genome)或Galperin等人(Galperin et al.(2016)Nucleic AcidResearch 45,Issue D1,pp.D1-D11)提供的基因。

COSMIC是《癌症中的体细胞突变目录》,是Wellcome Sanger研究所(WellcomeSanger Institute,WSI)的一个项目。WSI由基因研究有限公司(Genome ResearchLimited,GRL)运营,GRL是在英国注册的慈善机构,编号为1021457,是在英国注册的公司,注册号为2742969,其注册办公地址为伦敦尤斯顿路215,NW1 2BE(215Euston Road,London,NW1 2BE)。

CCGD是候选癌症基因数据库,是明尼苏达大学(University of Minnesota,UMN)的斯塔尔实验室(Starr Lab)的产品。关于该数据库的深入描述发布于Nucleic AcidsRes.2015年1月;43(数据库期号):D844-8.doi:10.1093/nar/gku770.Epub 2014年9月4日)。候选癌症基因数据库是来自小鼠的正向遗传筛选的癌症驱动基因的数据库。

ICGC是国际癌症基因组联盟,这是一个自愿的科学组织,为世界领先的癌症和基因组研究人员之间的合作提供了一个论坛。ICGC于2008年启动,旨在协调在全球范围内具有重要意义的50种癌症类型和/或亚型的肿瘤的大规模癌症基因组研究。ICGC整合了癌症基因组图谱(Cancer Genome Atlas,TCGA)和桑格癌症基因组计划(Sanger Cancer GenomeProject)的数据。该财团的秘书处位于加拿大多伦多的安大略癌症研究所,该研究所还将运营数据协调中心。

TGDB(肿瘤基因数据库)由得克萨斯州休斯敦市贝勒广场贝勒医学院(BaylorCollege of Medicine,One Baylor Plaza,Houston,Texas)提供。有关PMKB(PrecisionMedicine Knowledgebase,精密医学知识库)的更多详细信息,请参考(Huang et al.(2017)The cancer precision medicine knowledge base for structured clinical-grade mutations and interpretations.J Am Med Inform Assoc.2017May 1;24(3):513-519.doi:10.1093/jamia/ocw148.L,)。

Onco KB是一个精密肿瘤学知识库,其中包含有关642种特定癌症基因中基因改变的影响和治疗意义方面的信息,其中包括可以预测对特定癌症适应症中已批准药物的反应的此类改变。这些信息来自各种来源,例如来自FDA、NCCN或ASCO的指南、ClinicalTrials.gov和科学文献。该数据库是由纪念斯隆·凯特琳癌症中心(MSK)(Memorial Sloan Kettering Cancer Center)的玛丽·何塞(Marie Josée)和亨利·R·克拉维斯(Henry R.Kravis)分子肿瘤学中心的知识系统小组与基因组学的QuestDiagnostics和IBM Watson合作开发和维护的。

另外,应该注意的是,可以建立数据库汇编,该数据库汇编包括来自不同来源的信息,例如几个上述数据库和/或来自自身研究的结果。在示例中,将找到对此类数据库的引用。

因此,本领域技术人员能够确定潜在新抗原的序列是否位于已知的癌症相关基因内,或者它是否包含癌症驱动因子或耐药性突变。归因于相应新抗原的描述符可以发生变化,特别是随着潜在新抗原位于已知的癌症相关基因内或包含癌症驱动因子或耐药性突变的可能性而增加。在一个实施例中,仅需要归属于参数的2个离散值,该参数指示潜在新抗原是否源自已知的癌症相关基因。在另一个实施例中,仅需要归属于参数的2个离散值,该参数指示潜在新抗原是否包含癌症驱动因子突变或耐药性突变。

如果考虑大量的新抗原和/或大量的描述符,那么甚至分类和分级本身也可能很麻烦。因此,这里,计算机辅助也是优选的。

在本发明中,考虑到所述受试者的所述肿瘤中新抗原中至少一个肿瘤特异性突变的等位基因频率时,是基于以下假设:肿瘤中等位基因频率较高时,新抗原更可能存在于高比例的肿瘤细胞中。因此,重要性和因此归属于相应参数的总得分贡献随着等位基因频率而增加,在该等位基因频率中分析的样品中存在肿瘤特异性突变。所有肿瘤特异性变体的等位基因频率直接取决于所分析肿瘤样品的肿瘤含量。例如,如果肿瘤样品中只有一半的细胞确实是癌细胞,而另一半细胞是正常细胞,则肿瘤特异性变体的等位基因频率通常在该样品中不能高于50%(纯合变体)或25%(杂合变种)。但是,在某些情况下,拷贝数的改变可能会影响肿瘤特异性突变的等位基因频率。在本发明的优选实施例中,根据针对高、中和/或低等位基因频率确定的阈值来选择等位基因频率描述符。例如,高等位基因频率可以对应于高于或等于肿瘤含量一半的2/3倍的值,而低等位基因频率可以对应于较低为肿瘤含量一半的1/3倍的值,并且介于两者之间的值对应于中等位基因频率。

然后,本领域技术人员将注意到,下述也可能需要冗长的计算和/或与数据库条目进行繁琐的比较:在分级/选择之前过滤出潜在新抗原或基于新抗原肽的长度阻碍它们的组合得分;与新抗原(显示出与任何自身肽具有同一性或与不显示出与任何自身肽具有同一性)有关的值;与带有新抗原的基因的整体表达率有关的值;与新抗原疏水性有关的值;和/或与新抗原序列中包含的均聚氨基酸延伸有关的值。因此,在这里,作为计算机辅助方法步骤的实现即使不是重要的,也可以认为至少是有帮助的。

此外,应当指出,即使是计算机辅助分类、分箱和/或从有限数量的新抗原中确定总得分也可以认为是至关重要的,因为将这些步骤作为计算机辅助步骤实施有助于避免笔误。

在本发明的特别优选的实施例中,执行计算机辅助步骤,使得可以在新抗原分级/选择之前验证获得的中间结果。可以使用自动化专家系统执行这种验证,尽管通常最好是由人工控制最终的分级/选择,并因此也至少控制一些中间结果。在任何情况下,测序数据最好在每个选择的变体位点进行目视检查,以确认相应变体的存在和/或表达,并排除任何测序伪影。

在所述方法的一个优选实施例中,如果已知新抗原来自癌症相关基因,指示是否已知所述新抗存在于癌症相关基因或是否未知新抗原存在于癌症相关基因内的指示性描述符具有第一值,如果新抗原不存在于癌症相关基因中,则所述指示性描述符具有低于第一值的其他值。类似地,如果相应的新抗原存在于癌症相关基因内且另外已知携带有癌症驱动子或耐癌症药物突变时,则所述新抗原可以被赋予高于第一值的值。

对于某些基因,它们与癌症有关的科学证据可能不充分。因此,在另一个实施例中,是否已知新抗原存在于癌症相关基因内或是否未知新抗原存在于癌症相关基因内的指示性描述符可以分为对于2个、但至少3个类别,并根据新抗原衍生自癌症相关基因的可能性对新抗原进行分类。

换句话说,可以考虑特定的新抗原仅被假定为与癌症相关,即使该假定尚未通过科学方法以通常要求的置信度被完全验证。可以将这种新抗原与已经明确地且高确定度地发现与癌症有关的新抗原区分开。它也可以与过去曾被怀疑与癌症有关的新抗原区分开来,但是对它的大量数据的合理科学分析表明,尽管最初有相反的假设,但仍具有很高的置信度。这样给定的其他新抗原与癌症无关。因此,对于已知的与癌症无关的给定的新抗原,总得分可以很容易地因极低或甚至负的加权或由于从分级/选择中完全过滤出新抗原而受到阻碍。同样,通过给新抗原分配低但为正的非零权重,即使在置信度由于正在进行的科学评估而仍低于通常水平的情况下,在评分时仍被认为与癌症相关,在不会高估给定新抗原的重要性的情况下,也可以考虑当前的最佳假设。应当注意的是,分配给任何给定新抗原(鉴于其与癌症的相关性)的权重、描述符和类别和/或分箱间隔的权重,可以由治疗患者的医生和/或科学顾问在任何时间进行查阅,随着时间的推移,随着科学的进步,不可避免地需要改变选择的值。在本发明中,还可以在未知驻留在癌症相关基因内的新抗原和已知不驻留在癌症相关基因内的新抗原(即,对于那些可获得信息表明相应基因不与癌症相关的新抗原)之间进行区别。

因此,将理解,其他描述符和/或用于它们的分箱的间隔的权重也可以随着时间而调整。

在所述方法的优选实施例中,包括在选择和/或分级之前过滤过潜在新抗原的步骤,或者包括在分级之前对潜在新抗原的组合得分进行阻碍的步骤,所述阻碍或过滤尤其基于相对于新抗原肽长度的值、与新抗原是自身肽还是不是自身肽有关的值、与新抗原表达率有关的值、与新抗原所在基因的表达率有关的值、与新抗原疏水性有关的值、与新抗原聚氨基酸延伸有关的值,和/或与确定新抗原的稳定性、氧化敏感性或可制造性的特定肽基序有关的值。

在这方面,普通技术人员将意识到,根据目前的理解,不应对某些新抗原进行分级/选择,例如,因为认为其化学性质对于进行治疗非常不利。为了防止选择这样的新抗原,可以在评分之前和/或在确定评分中使用的描述符所基于的值之前将其过滤掉。然而,尽管目前存在某些担忧,但出于进一步考虑而包括此类新抗原而不是将其过滤掉可能是有利的。在这种情况下,此类新抗原的总得分可能会被一定程度的阻碍,所述程度为足以避免它们被选中。这可能是特别有利的,因为考虑到进一步的科学进展,如果发现后来导致其得分出现受到阻碍的新抗原的性能是不可忽视的,则允许对整个结果进行重新评估。

根据目前的理解,在本发明的一个优选实施例中,所述方法还包括确保在选择之前排除可能会或应该获得低分级位置的新抗原的步骤。如果根据肽长度、自身肽、表达率、疏水性、聚氨基酸延伸和/或确定稳定性、氧化敏感性和可制造性的其他肽基序中的至少一项的参数进行这种过滤或阻碍,这考虑了取决于HLA类型,即HLA-I或HLA-II,新抗原的结合受到所述类型的限制,已知肽的长度起着重要的作用。因此,可以以优选的方式,排除位于HLA-I或HLA-II型蛋白潜在地结合的肽的长度之外的新抗原,这有助于改善分级/选择。在本发明的一个优选实施例中,对于HLA-I限制的肽,排除了不包含8至11个氨基酸残基的肽。对于HLA-II限制的肽,优选排除那些长度不在12至32个氨基酸残基之间的肽。关于自身肽,优选排除已知属于内源性存在的野生型序列的一部分的那些肽。关于表达率,优选排除在肿瘤中不表达的那些新抗原。如果将新抗原转化为用于例如癌症疫苗生产的肽,则随后的额外过滤标准已被发现是有用的,以确保此类肽的稳定性、可制造性和溶解性。如果新抗原是通过其他方法使用例如病毒载体、编码新抗原的RNA或DNA而递送的,则后续的过滤标准可能不太相关。关于新抗原的疏水性,优选排除具有高疏水性的那些,其中所述高优选地涉及潜在新抗原中多于约64%的疏水性氨基酸的百分比。关于聚氨基酸延伸,优选排除包含3个或更多个相同的相邻氨基酸残基的那些。关于稳定性,优选排除在N末端含有半胱氨酸和/或谷氨酰胺/谷氨酸酯的那些新抗原。关于氧化敏感性,优选排除含有一个或多个半胱氨酸和/或蛋氨酸的那些。关于可制造性,优选排除在N末端含有谷氨酰胺或谷氨酸酯的那些新抗原,因为它们可以自发环化为焦谷氨酸酯。此外,应当从肽疫苗混合物(cocktail)中排除含有双氨基酸基序的新抗原,例如DG和/或DR,因为它们在肽合成过程中易于形成天冬酰亚胺(aspartimide)。

从上面可以看出,在选择根据本发明的新抗原时,可以考虑与结合亲合力有关的值。特别地,考虑与特定HLA等位基因的结合亲合力,考虑与未突变的野生型序列相比新抗原的相对HLA结合亲合力,并考虑与上面已经提及的根据受试者的HLA类型而呈递的多于一个的HLA等位基因的结合亲合力。然而,将理解的是,在某些肿瘤细胞中,通常存在于患者正常细胞中的某些HLA等位基因可能不存在。如果在这种情况下,不存在于肿瘤细胞中的HLA类型被排除在分析之外,即如上文所定义的结合亲合力分析之外,则是有利的。

因此,在用于癌症特异性新抗原选择的分级/选择方法的优选实施例中,确定下述分类描述符中的至少一个:与将与根据所述受试者的HLA类型呈现的特定HLA等位基因的结合亲合力的值分箱到至少三个不同类别中的一个中有关的分类描述符,所述类别根据分箱到每个类别中的值的间隔而排序;与将指示受试者特异性潜在新抗原相对于相应非突变野生型序列的相对HLA结合亲合力的值分箱到至少三个不同类别中的一个中有关的分类描述符,所述类别根据分箱到每个类别中的值的间隔而排序;将与根据所述受试者的HLA类型而呈递的多于一个的HLA等位基因的结合亲合力的值分箱到至少三个不同类别中的一个中有关的分类描述符,所述类别根据分箱到每个类别中的值的间隔而排序;与将新抗原的HLA混杂性的值分箱到至少三个不同类别中的一个中有关的分类描述符,所述类别根据分箱到每个类别中的值的间隔而排序。为了确定分类的值,优选地,排除下述HLA等位基因:假定其衍生自患有癌症的受试者的肿瘤细胞的浓度低于正常浓度。就本发明而言,如果浓度为例如低于5%、或者低于10%、或者低于15%、或者低于20%、或者低于25%、或者低于50%、或者低于75%、或者低于100%,则可以假定是这种情况。

关于结合亲合力值,根据本发明的一个优选实施例,可以将相应新抗原与根据受试者的HLA类型而呈递的特定HLA等位基因的结合亲合力相关值确定为输入数据的一部分。

将理解的是,得分/结合亲合力可以通过例如软件工具来确定。优选使用通过软件工具例如NetMHC、NetMHCpan、SYFPEITHI、MixMHCpred、MHCnuggets、MHCflurry和/或antigen.garnish软件计算的数据。

请注意,NetMHC数据库和NetMHCpan数据库均由丹麦技术大学(TechnicalUniversity of Denmark)DTU Bioinformatics(位于Kemitorvet 208号楼DK-2800)提供。SYFPEITHi是MHC配体和肽基序的数据库;参见“Hans-Georg Rammensee,Jutta Bachmann,Niels Nikolaus Emmerich,Oskar Alexander Bachor,Stefan Stevanovic:SYFPEITHI:database for MHC ligands and peptide motifs.Immunogenetics(1999)50:213-219”。

MixMHCpred预测软件已由David Gfeller的实验室(Swiss Institute ofBioinformatics,瑞士生物信息学研究所)开发,并以“Bassani-Sternberg M,Chong C,Guillaume P,Solleder M,Pak H,Gannon PO,Kandalaft LE,Coukos G,GfellerD.Deciphering HLA-I motifs across HLA peptidomes improves neo-antigenpredictions and identifies allostery regulating HLA specificity.PLoS ComputBiol.2017Aug 23;13(8):e1005725”发布。

MHCnuggets是由Rachel Karchin(Johns Hopkins University,约翰·霍普金斯大学)的实验室开发的;参见Bhattacharya et al.(2017)bioRxviv 154757。

MHCflurry由Jeff Hammerbacher的实验室开发;参见T.J.O’Donnell et al.(2018)Cell Systems 7(1);pp.129-132。

antigen.garnish软件由Andrew J.Rech等开发,参见Richman et al.(2019)CellSystems。

然而,在本发明内可以使用提供关于新抗原对特定HLA等位基因的结合亲合力的信息的任何替代方法。即,以上示例出的工具可以被附加的和/或替代的工具补充和/或替换。这样的工具例如依赖于SYFPEITHI,其为简单的模型(位置特异性计分矩阵),其基于在肽序列中特定位置上观察到的氨基酸频率来对结合特定HLA分子的新型肽进行评分。SYFPEITHI的训练数据由已知通过HLA分子呈现在细胞表面的肽组成。因此,训练数据不仅代表肽结合特定MHC等位基因的能力,而且还表示通过抗原处理途径(蛋白酶体裂解和TAP转运)产生肽的能力。NetMHC是基于神经网络的机器学习算法,可预测肽与特定的MHC I类等位基因的结合亲合力。训练数据由实验确定的肽:MHC复合物的结合亲合力和已知MHC配体的序列组成。NetMHC基于氨基酸的序列特性和物理化学特性使用肽的复杂表示形式。NetMHC可以从训练数据推广长度为8-11的肽与MHC的结合,该训练数据主要由9个氨基酸长度的肽组成。因此,它增加了MHC覆盖率,用于预测9-11长度的肽(对于许多等位基因,训练数据仅限于长度为9的肽)。NetMHCpan是NetMHC的进一步发展。在可用的训练数据中,MHC等位基因和不同的肽长度没有同样地表达。NetMHCpan利用关于MHC结合特异性和肽长度的信息,因此可以生成对任何肽与MHC I类相互作用的亲合力的预测。因此,对结合的预测可用于每个已知的MHC I类等位基因,而不是仅可用于训练数据中充分表示的那些等位基因。优选使用上述工具,但是,如果需要,技术人员可以使这些工具适应本文提供的方法的特定需要。例如,作为替代和/或另外地,还可以通过例如配体组学(HLA I结合的肽的洗脱和MS鉴定),或用肽和HLA I分子的体外结合试验确定肽—HLA I相互作用。

在优选使用软件工具,特别是上述的软件工具中的1个、2个、3个或更多个确定结合亲合力之后,可以组合优选使用多于1个的软件工具所得的分数,以便提供新抗原的分级。基于使用不同工具和/或模型导出的值获得分级减少了由工具实现的特定模型等引起的错误。在本发明中,这是有利的,因为它有助于获得分级/选择,甚至更少地受到初始测量中的误差或不精确的科学假设和估计的影响。

在优选实施例中,预先确定阈值以便提供不同类别的亲合力得分,例如高、中和低亲合力,为其提供离散的数值。

在本发明内,可以考虑基于相应新抗原与其非突变形式相比的相对HLA结合亲合力的描述符。为此,优选使用与上述相同的技术。在一个优选的实施例中,存在归属于新抗原的离散数值,其结果位于预定阈值内。例如,突变的新抗原与其野生型变体相比的相对结合亲合力大于1.1,可以归属于较高的数值(或对总得分的贡献较高),而低于0.9的相对结合亲合力可以归属于数值较低(或对总得分的贡献较低)。在另一个实施例中,对于突变的新抗原与其野生型变体相比的相对结合亲合力,新抗原的比率高出2倍或3倍可归属于高数值(或对总得分的贡献较大),而低于1/2或1/3的比率可归属于较低的数值(或对总得分的贡献较低)。

在本发明中,描述符可以基于预测其结合的HLA类型的数量,即,是否针对多于一个的HLA等位基因预测了结合亲合力,由此数值随结合的HLA类型的数量而增加。

如上所述,鉴于某些HLA等位基因在肿瘤细胞中的浓度低于正常浓度,应将其忽略。在这种情况下,在用于癌症特异性新抗原选择的分级/选择方法的优选实施例中,HLA等位基因被认为受到由于下述而衍生的表达减少、突变或缺失/丢失:肿瘤组织样本的肿瘤转录组、肿瘤外显子组或肿瘤蛋白质组或免疫组织化学染色,或正常组织样本的正常外显子组(如来自血液)、正常转录组或正常蛋白质组,或免疫组织化学染色。因此,可以使用遗传数据和其他数据得出结论:HLA的减少或丢失必须考虑在内。

作为第一步,本发明的方法可以包括访问或提供患有癌症的受试者的潜在新抗原的库,其中所述新抗原携带至少一个肿瘤特异性突变。因此,作为输入数据,本发明的方法可以使用患有癌症的患者的外显子组和/或转录组测序结果。这些测序数据集优选地包含关于体细胞错义变体的信息,即,非同义的单核苷酸变体(single nucleotide variants,SNVs)、非同义的多核苷酸变体(multi-nucleotide variants,MNV)、框移变体(frameshift variants)(例如来自Indels)和/或融合基因(例如,来自染色体易位)、相应的转录组数据和患者的HLA类型。基于该信息,本发明的方法能够提供在数据集中作为序列信息而包含的所有潜在新抗原的分级。本领域技术人员熟知适合于从患有癌症的患者那里获得这些数据集的方法,包括从肿瘤细胞和作为参考的健康细胞中接收的序列信息。优选使用通过本领域公知的方法(即下一代测序)产生的完整外显子组序列数据。

一旦完成分级,就可以进行选择。在这种情况下,普通技术人员将意识到可以选择多于1个的新抗原。在这方面,根据它们的分级位置,选择可以包括一个新抗原或多于1个,例如2个,3个、4个、5个、6个、7个、8个、9个、10个或更多个新抗原。

选择多于一个的新抗原是有用的并且是优选的。如果选择了多于一个的新抗原,可以通过要求一起选择的新抗原具有一定的集合体(ensemble)特性来小心地提高有效选择的可能性。例如,可以注意考虑不同的HLA类型。即使这可能会导致诸如选择了6个新抗原的集合体,这些新抗原不构成最初考虑的6个得分最高的新抗原,在这一情形下,整体选择仍能对治疗患者提供更好的结果,因为降低了所有新抗原由于下述原因而无效的可能性:因未知、不可预测、低估等原因,或在一段时间或治疗过程中,患者的一个或多个HLA等位基因的表达或完整性降低或丢失的情况下。实际上,由于例如免疫原性压力,在治疗过程中存在HLA等位基因丢失或突变的可能性。因此,出于治疗目的(例如对于癌症疫苗的设计),靶向结合不同HLA等位基因的其他新抗原是有用的。在此,靶向与所有可用的HLA等位基因结合的一组新抗原可避免竞争结合到某一个特定的HLA等位基因和以及1个肽相对于其他肽的免疫显性作用。

在用于癌症特异性新抗原的选择方法的一个优选实施例中,所述优选方法允许为患者的每个HLA I类分子选择至少一个新抗原以及另外的HLA II类限制性新抗原。

认为这样的选择是有利的,因为鉴于不同的HLA类别选择新抗原被认为会增加一个给定选择对治疗患者有效的可能性。HLA I类限制性新表位更有效地导致细胞毒性T细胞(CD8+T细胞)的激活,而HLA II类限制性新表位更有效地导致T辅助细胞(CD4+T细胞)的激活。由于两种T细胞群都具有不同但互补的抗肿瘤作用,因此诱导CD8+和CD4+T细胞应答均意味着对抗癌免疫疗法最有益。

在用于癌症特异性新抗原选择的分级/选择方法的优选实施例中,至少一个分类描述符将各自的值分箱为不多于5个有序类别、特别是不多于4个有序类别中的一个,特别优选地分箱为3个有序类别中的一个。

尽管看似更精确,但使用相应值可以分箱成的大量范围可能不是最优选的实施例。一方面,普通技术人员将在给定本公开的情况下意识到需要考虑大量影响因素。然后,基于总得分最初获得的分级将不能绝对肯定地确定:基于多个混合物,为一个混合物选择给定的新抗原。因此,仅当也满足例如来自其它描述符的若干因素时,在多个新抗原选择中包括一个给定的新抗原可能是有利的。

因此,尽管令人惊讶,但是已经发现仅区分少量不同范围就足够了。对任何给定的描述符使用少量不同的范围,不仅有助于消除伪科学推理,以合理化根据个人喜好而实际设置的特定阈值和限制,而且还可以降低对数据进行计算机内评估的精度,从而经常减少迭代次数,精确度较低的计算等,而不会显著影响采用相应新抗原选择的治疗效果。这也有助于减少选择方法的成本和时间要求,否则可能需要特别冗长且因此昂贵的计算。因此,高度优选小于或等于5个的多个范围。甚至在明显多于4个的潜在新抗原被分级的情况下,仍能如此,例如对至少5个、至少10个、至少15个或至少20个或至少30个潜在新抗原进行分级或至少在过滤之前从库中提供。应当理解,即使是4个范围,通常也足够了,从而允许将不能与零值分开的值、不能与最大值分开的值和这两个的中间值进行区分。但是,在一个典型示例中,具有中间范围且仅具有一个中间范围就足够了,甚至是优选的,因此仅需要“高-中-低”3个范围。

在用于癌症特异性新抗原的分级/选择方法的优选实施例中,所有分类描述符都是将各自的值分箱为不超过5个类别中的一个,特别是不超过4个类别,特别优选地3个类别中的一个。虽然每个描述符可以分箱为不同数量的可能范围中,但更直接,因此更快、更方便的方法是对所有分类描述符使用相同数量的范围。

已经发现,特别是在考虑到足够大量的不同描述符的情况下,例如4、5、6个或更多个描述符全部一起评估的情况下,可以减少范围的数量。在这种情况下,通常会存在多于一对的描述符a/b,以S=S(a)+S(b)的方式相加确定组合得分S,所述描述符对所述组合得分的贡献为使得对于3个、4个或更多个范围中的至少一对范围(a1,a2),第一描述符可以取一对范围(b1,b2),第二描述符可以取S=S(a)+S(b)对组合得分的贡献为,使得S(a1)+S(b1)>S(a2)+S(b1)、S(a2)+S(b1)>S(a2)+S(b2)而S(a1)+S(b2)>S(a2)+S(b1)。换句话说,可能存在例如[S(a1)+S(b1)]>[S(a1)+S(b2)]>[S(a2)+S(b1)]>[S(a2)+S(b2)]的关系。描述符影响的这种特性允许忽略某些微不足道的值之间的微小差异,但仍然获得了很好的选择。

在用于癌症特异性新抗原的分级/选择方法的优选实施例中,潜在新抗原的个体库响应于受试者特异性生物材料的外显子组和/或转录组测序和/或通过体细胞错义变体鉴定而提供,特别是对以下的体细胞错义变体鉴定:新鲜的冷冻肿瘤样品、福尔马林固定的石蜡包埋的肿瘤材料、稳定的肿瘤样品、在帕克斯基因(PaxGene)或施特雷克(Streck)管中稳定的肿瘤样品、循环肿瘤DNA(ctDNA)或循环/弥散的肿瘤细胞。PaxGene是PreAnalytiX的商标,PreAnalytiX是Becton、Dickinson和Qiagen之间的合资企业,位于Feldbachstrasse,CH 8634Hombrechtikon。施特雷克管可从美国的Streck,7002S-109大街,La Vista,Ne,68128购得。

如本领域普通技术人员将理解的,仅需要提供某些材料的测序以获得该方法可以基于的数据。还应该注意的是,某些测序数据可以使用来自患者的材料获得,这些材料不仅容易获得,而且也足够稳定,以便运送到实验室进行测序或分析。

应当注意并且将理解,在一个并且相同的精确位置制备药物组合物时,没有必要获得样品,分析样品、分析通过样品分析获得的数据,选择新抗原和使用所选择的抗原。

在根据本发明评估多个描述符,并且每个描述符可以根据描述符对于给定的新抗原具有的相应值而有不同的贡献的情况下,为了确定分级而分配的权重优选地为,使得新抗原不会简单地分组成,使得具有较高值的第一描述符的所有新抗原都在一个组中,具有中等值的所有新抗原都在低分级组中,具有较低值的所有新抗原都在第三组中,然后在这些组中的每一个组中都存在第二个描述符,它根据这个描述符具有的值等再次拆分每个(子)组,直到所有的描述符都被考虑。相反,通常并且优选地存在这样一种情况:其中在值相关的事项中分配每个描述符的权重,使得根据确切值和所分配的权重发生混合。因此,在数学术语中,对于以S=S(a)+S(b)的方式相加而贡献于组合得分S的至少两个描述符a/b,存在第一描述符可以取的至少一对值(a1,a2)和第二描述符可以取的一对值(b1,b2),使得S(a)+S(b)对组合得分的贡献为S(a1)+S(b1)>S(a2)+S(b1),S(a2)+S(b1)>S(a2)+S(b2),而S(a1)+S(b2)>S(a2)+S(b1)。换句话说,可能存在这样的关系:例如[S(a1)+S(b1)]>[S(a1)+S(b2)]>[S(a2)+S(b1)]>[S(a2)+S(b2)]。

注意到,通常存在具有这种性质的多对描述符,特别是至少2、3或4对描述符,并且在对于至少一个描述符的特别优选的实施例中,可以找到至少两对这样的描述符。

在用于癌症特异性新抗原的分级/选择方法的一个优选实施例中,这尤其可在下述情况下实现:指示是否已知新抗原与癌症相关的描述符对组合得分的最大可能贡献大于任一单个描述符(所述描述符为:与受试者一个或多个癌症细胞中的相对表达率有关的描述符、与根据所述受试者的HLA类型而呈递的特定HLA等位基因的结合亲合力有关的描述符、与所述受试者特异性潜在新抗原相对于相应非突变野生型序列的相对HLA结合亲合力有关的描述符、与根据所述受试者的HLA类型而呈递的多于一个的HLA等位基因的结合亲合力有关的描述符、与HLA混杂性有关的描述符,和与预测所述受试者特异性潜在新抗原的结合的可靠性有关的描述符)对组合得分的最大可能贡献;和/或其中与所述受试者的一个或多个癌细胞中的相对表达率有关的描述符对组合得分的最大可能贡献大于任何单个描述符(所述描述符为:与根据所述受试者的HLA类型而呈递的特定HLA等位基因的结合亲合力有关的描述符、与所述受试者特异性潜在新抗原相对于相应非突变野生型序列的相对HLA结合亲合力有关的描述符、与根据所述受试者的HLA类型而呈递的多于一个的HLA等位基因的结合亲合力有关的描述符、与HLA混杂性有关的描述符,和与预测所述受试者特异性潜在新抗原的结合的可靠性有关的描述符)对组合得分的最大可能贡献;和/或其中与根据所述受试者的HLA类型而呈递的特定HLA等位基因的结合亲合力有关的描述符对组合得分的最大可能贡献大于任何单个描述符(所述描述符为:与所述受试者特异性潜在新抗原相对于相应非突变野生型序列的相对HLA结合亲合力有关的描述符、与根据所述受试者的HLA类型而呈递的多于一个的HLA等位基因的结合亲合力有关的描述符、与HLA混杂性有关的描述符,和与预测所述受试者特异性潜在新抗原的结合的可靠性有关的描述符)对组合得分的最大可能贡献;和/或其中与所述受试者特异性潜在新抗原相对于相应未突变野生型序列的相对HLA结合亲合力有关的描述符对组合得分的最大可能贡献大于任何单个描述符(所述描述符为:与根据所述受试者的HLA类型而呈递的多于一个的HLA等位基因的结合亲合力有关的描述符、与HLA混杂性有关的描述符,和与预测所述受试者特异性潜在新抗原的结合的可靠性有关的描述符)对组合得分的最大可能贡献;和/或其中与根据所述受试者的HLA类型而呈递的多于一个的HLA等位基因的结合亲合力有关的描述符对组合得分的最大可能贡献大于任何单个描述符(所述描述符为:与HLA混杂性有关的描述符,和与预测所述受试者特异性潜在新抗原的结合的可靠性有关的描述符)对组合得分的最大可能贡献;和/或其中与HLA混杂性有关的描述符对组合得分的最大可能贡献大于与预测所述受试者特异性潜在新抗原的结合的可靠性有关的描述符对组合得分的最大可能贡献。关于预测结合力的可靠性,应当注意:通常使用一个模型对结合亲合力进行数值计算,并且在计算结合亲合力时可以使用不同的模型。如果使用多于一个的模型或计算方法,很可能是,使用一个模型计算的结合亲合力与使用其他模型计算的结合亲合力有所偏差。这种偏差可以例如,通过考虑绝对差或相对差、使用多个模型的平均差等,进行评估,以确定预测结合的可靠性。

应当注意,在用于癌症特异性新抗原选择的分级/选择方法的优选实施例中,选择了由多个不同的新抗原组成的集合体。在这种情况下,可以根据其分级来选择集合体中的新抗原,使得对于所考虑的多个HLA等位基因中的每一个,选择(未过滤或过滤的)最有利地分级的新抗原,优选地,对于每个HLA等位基因,选择(未过滤或过滤的)最有利地分级的新抗原,并且使得,如果该集合体包含的新抗原多于这些最有利地分级的新抗原,则从HLA-A或B等位基因开始为不同等位基因选择其他新抗原;

并且优选进一步使得,如果对于相同变体但以HLA-A或B等位基因开始的不同等位基因,至少有2个这样的新抗原被同等地分级,则选择其具有迄今在集合体中未被充分表示的HLA等位基因的新抗原,并且优选进一步使得,如果存在至少2个不与迄今未被充分表示的HLA等位基因结合的这样的新抗原,则选择具有较高HLA结合亲合力的新抗原,优选不是根据分类描述符而是根据分类的原始值来选择较高的结合亲合力;并且优选进一步使得,如果存在至少两个具有相等的HLA结合亲合力的这样的新抗原,则选择具有较高HLA混杂性的新抗原,并且优选进一步使得,如果存在至少两个具有相等HLA混杂性的这样的新抗原,则选择疏水性较低的新抗原;

并且优选进一步使得,如果对于不同的变体但是相同的HLA等位基因,至少2个这样的高度分级的新抗原被同等地分级,则选择具有较高表达的新抗原;优选进一步使得,如果存在至少两个具有相等表达的新抗原,则选择具有较高HLA结合亲合力的新抗原,优选是根据分类描述符而不是根据分类的原始值选择的较高结合亲合力;并且优选进一步使得,如果存在至少两个具有相等HLA结合亲合力的新抗原,则选择具有较高的HLA混杂性的新抗原,并且优选进一步使得,如果存在至少两个具有相等HLA混杂性的新抗原,则选择具有较低疏水性的新抗原。

因此,应当指出,不能保证实际上得分相当高的新抗原被选入集合体中。相反,实际选择可能取决于其他高得分新抗原具有的特性。然而,应该理解,为集合体选择新抗原的最终过程也可以是计算机实现的,并因此可自动化,特别是鉴于上面定义的附加条件。

在用于癌症特异性新抗原选择的分级/选择方法的优选实施例中,选择至少3个新抗原。应当注意的是,选择多于一个的新抗原是有帮助的,因为尽管有一个有利的分级,但仍可能发生根本不考虑其他不利因素的情况,从而导致这种未被考虑的不利因素给分级中分级最高的新抗原带来负担。然而,选中几个高分级但被不利因素带来负担的新抗原的风险极低。因此,优选选择至少3个新抗原,甚至优选更大数量的新抗原。然而,如果选择太多的新抗原,成本可能会变得过高。因此,所选择的新抗原的最佳数量不仅取决于特定患者、其疾病进展以及因此需要更快改善其健康的必要性,而且还取决于在药物组合物中使用大量新抗原而不是使用较小量新抗原的成本。选择的新抗原的最合适数量也可取决于递送机制。病毒载体、DNA或RNA可允许编码和递送大量新抗原,而由类似新抗原的个体肽组成的疫苗可限制为每个患者最多20或30个肽,这是由于成本、及时的可制造性和实际原因,如疫苗QC和几个子集合体中的递送。

关于不同分类描述符的不同范围的不同贡献,已经发现对于用于癌症特异性新抗原选择的选择方法,优选的是,确定与将受试者的新抗原中至少一个肿瘤特异性突变的等位基因频率的值分箱为至少三个不同类别(其根据分箱到每个类别中的值的间隔进行排序)有关的分类描述符,使得可定义肿瘤含量Y,并且如果等位基因频率至少为一半肿瘤含量的1/3,则等位基因频率的值定义为最高类别,如果等位基因频率不超过肿瘤含量Y的一半,则该等位基因频率的值定义为最低类别,其他情况下,等位基因频率的值定义为中等类别,并且,相应分类描述符在等位基因频率在中等类别时的最大贡献小于等位基因频率在最高类别时的贡献,并且多于等位基因频率在最低类别时的贡献。注意的是,尽管“1/3”和“1/6”可用于限制范围,但是仍可能存在偏差,例如,偏离指示值的约5%或10%或15%或25%。应当注意的是,此处,如果肿瘤细胞中的体细胞突变是杂合的,则涉及的是肿瘤含量的一半,或者如果体细胞突变是纯合的,则涉及的是肿瘤总含量。

应当注意,可以重复地再次使用与选择结果有关的各个数据和/或中间数据。特别地,可以重复使用整个选择结果,例如,因为要基于相同的给定选择重复进行个性化医疗和/或因为选择结果将与其他患者数据一起存储作为数据库的一部分,最终可以用来改善对患者或具有类似诊断的其他患者的治疗。将理解的是,包括这样的数据库的数据载体将具有显着的经济价值,反映了包含在其中的丰富的科学数据,并且允许访问数据库可以构成重大的财务收入的来源。可以以匿名方式提供访问。因此,以允许其进入这样的数据库的方式提供数据被认为既是本发明方法也是生产数据载体的重要步骤,其中数据载体包括将匿名或非匿名患者数据和选择相关数据组合在一起的数据库有关的数据,尤其是在选择方法中可用的描述符的可分箱的值。因此,与用于癌症特异性新抗原选择的选择方法有关的数据可以被认为是实施该方法的至关重要和必要的部分以及执行该方法的重要手段。不仅可以存储分级和/或选择的新抗原,还可以代替选择或除选择之外地,存储中间结果。通过存储诸如描述符的值等中间结果,变得尤其是可以将描述符重新分类到其他分箱中,以改变分配给特定描述符的权重或改变所选新抗原的数量。随着科学的进步,所有这些措施可能有助于将来改进个性化选择方法。因此,数据的使用超出了一次性使用范围。

此外,很明显,获得的任何数据都旨在用于创建新产品,例如个性化药品和/或用于此类药品的人工和/或机器可读处方。可以设想,基于选择得到的处方可以使用此类数据自动生成。

还应该注意的是,例如,通过对遗传数据进行计算机分析(其为本发明的新抗原分级和/或选择的步骤)而获得的数据可以通过一系列不同的方法来感知,例如通过在监视器上可视化数据库条目或通过打印出结果或中间结果。特别地,每个描述符分箱成的有限数量的不同范围允许生成一个显示,其中不同范围值或分数贡献由不同的颜色指示。例如,在使用3个不同的范围,例如高-中-低范围,来对描述符可能具有的值进行分箱时,可以分配绿色、黄色或红色。然后,对于许多新抗原或所有新抗原,可以使用特定描述符的权重来确定特定颜色区域的大小。例如,在描述符的值被分箱到高范围内来指示鉴于该描述符可以选择新抗原时,该区域可以是绿色的,并且如果同时描述符特别重要,例如如果已知新抗原与癌症相关,则可以相应地增大显示的绿色区域。以这种方式,可以产生显示,其中对于相应的新抗原,可以显示整个红色、黄色和绿色区域,使得大的绿色区域表明,总体上应该优先使用相应的新抗原,而大的红色区域表明,不宜使用相应的新抗原。

很明显,还存在其他可视化方式。例如,可以使用其他颜色,可以使用区域的强度而不是区域大小来指示是否应选择新抗原,每个描述符的区域可以间隔显示而不是彼此接触显示,等等。然而,对于本领域普通技术人员而言显而易见的是,本发明的计算机实现的方法建议的特定方式允许以特别容易控制的方式可视化中间结果。这是本发明的优点,因为对中间结果的控制不仅将简化计算机辅助方法的实施,而且还将提高用户和/或患者对方法的信心,从而增加接受度。

鉴于以上所述,还寻求保护一种药物组合物,所述药物组合物包含至少一种物质,所述物质响应于本文所述和公开的选择方法的结果而确定。在一个实施例中,本发明的药物组合物可以用于治疗癌症。在本发明的另一个实施例中,本发明的药物组合物可以与其他治疗例如放射疗法和/或与一种或多种其他药物例如化疗药物和/或抗血管生成药物(例如阿昔替尼(Inlyta)、贝伐单抗(Avastin)、卡博替尼(Cometriq)、依维莫司(Afinitor)、来那度胺(Revlimid)、甲磺酸仑伐替尼(Lenvima)、帕唑帕尼(Votrient)、雷莫芦单抗(Cyramza)、瑞戈非尼(Stivarga)、索拉非尼(Nexavar)、舒尼替尼(Sutent)、沙利度胺(Synovir,Thalomid)、凡德他尼(Caprelsa)和/或阿柏西普(Zaltrap)),和/或靶向疗法(例如阿法替尼(Gilotrif)、布加替尼(Alunbrig)、西妥昔单抗(Erbitux)、考比替尼(Cotellic)、达拉非尼(Tafinlar)、依维莫司(Afinitor)、伊马替尼(Gleevec)、拉帕替尼(Tykerb)、奥拉帕尼(Lynparza)、奥希替尼(Tagrisso)、帕博西尼(Ibrance)、瑞戈非尼(Stivarga)、利妥昔单抗(Rituxan,Mabthera)、芦卡帕尼(Rubraca)、曲美替尼(Mekinist)、曲妥珠单抗(Herceptin)、维莫非尼(Zelboraf))和/或免疫疗法,例如免疫检查点抑制剂(例如靶向CTLA-4、PD-1、PD-L1和/或靶向其他免疫检查点,例如CD27、CD28、CD40、CD137、GITR、ICOS、OX40(所有刺激性免疫检查点)、A2AR、CD272、CD276、IDO、KIR、VTCN1、LAG3、TIM-3、NOX2、VISTA(所有抑制性免疫检查点))和/或溶瘤病毒(例如拉他莫基(T-VEC,Imlygic)、佩拉列罗普(Reolysin)、HF10(Canerpaturev-C-REV)和CVA21(CAVATAK))组合使用。优选地,本发明的药物组合物可以与免疫检查点抑制剂组合,所述抑制剂例如帕博利珠单抗(Keytruda)、纳武单抗(Opdivo)、西米普利单抗(LIBTAYO)、易普利姆玛(Yervoy)、阿替利珠单抗(Tecentriq)、阿维单抗(Bavencio)、德瓦鲁单抗(Imfinz)、替西木单抗和/或斯巴达珠单抗。本领域技术人员熟知用于药物组合物的制剂以及如何优化用于治疗用途的制剂的方式。此外,本领域技术人员充分了解如何可以给药此类药物组合物以及如何优化给药途径以获得最佳治疗结果。例如,本发明的药物组合物可以皮内、皮下、肌肉内、静脉内或者接近或进入淋巴样器官如胸腺、骨髓、脾脏、扁桃体或淋巴结给药。为了增加在肿瘤部位的局部浓度,可以优选在接近肿瘤的部位或者在接近或引流到肿瘤引流性淋巴结中的部位施用药物组合物。技术人员也知道合适的治疗方案。在这方面,优选连续施用本发明的药物组合物,例如,在初始开始阶段具有较频繁的给药,之后每四周给药一次。技术人员还将知晓,通过在药物组合物之前、之后或与药物组合物一起,或作为药物组合物的一部分,来给药一种或多种佐剂而获得的优点。

此外,还寻求在制备个性化药物组合物时使用根据本文描述和公开的方法选择的一种或多种新抗原的保护。

然后,还寻求对数据载体的保护,所述数据载体包括与至少一个患有癌症的个体患者相关的数据,所述数据载体携带有与携带被认为是对所述的至少一个个体患者的癌症特异的至少一个突变的多个潜在新抗原相关的数据,其中对于所述多个新抗原中的至少4个潜在抗原中的每一个,提供组(a)到(h)中的至少两个,所述组(a)到(h)由下述组成:(a)指示性描述符,其指示是否已知新抗原存在于癌症相关基因内或是否未知新抗原存在于癌症相关基因内;和/或指示新抗原必须是或不必是癌症相关的可能性的估计值;(b)分类描述符,与将指示受试者的新抗原中的至少一个肿瘤特异性突变的等位基因频率的值分箱到至少两个不同类别中的一个中有关,所述类别是根据分箱到每个类别中的值的间隔排序;和/或将指示受试者的新抗原中至少一个肿瘤特异性突变的等位基因频率的值分箱到至少三个不同类别中的一个中,所述类别根据分箱到每个类别中的值的间隔来排序;(c)分类描述符,其与将指示受试者的一个或多个癌细胞中的新抗原内的至少一个变体的相对表达率的值分箱到至少两个、优选至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔而排序;和/或指示在受试者的一个或多个癌细胞中新抗原内至少一个变体的相对表达率的值;(d)分类描述符,与将指示新抗原与根据受试者的HLA类型而呈递的特定HLA等位基因的结合亲合力的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔而排序;和/或指示新抗原与根据受试者的HLA类型而呈递的特定HLA等位基因的结合亲合力的值;(e)分类描述符,与将指示受试者特定潜在新抗原相对于对应非突变野生型序列的相对HLA结合亲合力的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔而排序;和/或指示受试者特异性潜在新抗原相对于相应非突变野生型序列的相对HLA结合亲合力的值;(f)分类描述符,与将指示与根据受试者的HLA类型而呈递的多于一个的HLA等位基因的结合亲合力的值分箱到至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔而排序;和/或指示与根据受试者的HLA类型而呈递的多于一个的HLA等位基因的结合亲合力的值;(g)分类描述符,与将指示新抗原的HLA混杂性的值分箱到至少三个不同类别、优选至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔而排序;和/或指示新抗原的HLA混杂性的值;(h)分类描述符,与将指示预测受试者特异性潜在新抗原与相应患者的HLA等位基因结合的可靠性的值分箱到至少三个不同类别、优选至少三个不同类别中的一个中有关,所述类别根据分箱到每个类别中的值的间隔而排序;和/或指示预测受试者特异性潜在新抗原与相应患者的HLA等位基因结合的可靠性的值;和/或数据载体,其携带通过先前要求保护的方法之一获得的与新抗原评分有关的数据;和/或数据载体,其携带与根据前述权利要求之一选择的一个或多个新抗原有关的数据;和/或数据载体,其携带与用于生产药物组合物的说明有关的数据,所述药物组合物包含至少一种物质,所述至少一种物质是根据本文所述和公开的选择方法的结果而确定的。数据载体可以包括整个数据库或其一部分。

此外,寻求保护一种试剂盒,所述试剂盒包括以下中的至少一个:用于生物材料的容器,所述容器以允许确定个性化数据的方式制备,所述个性化数据可用作如本文所公开的分级和/或选择方法的输入,所述生物材料可从患有癌症的患者获得;或存储有个性化(遗传)数据的数据载体,所述个性化(遗传)数据可用作本文所公开的分级和/或选择方法的个体相关的输入;所述试剂盒还包括携带与患者身份有关的信息的信息载体,所述试剂盒还包括用于执行根据前述方法权利要求之一的方法的指令和/或用于为本文描述和公开的数据载体的产生提供数据的指令。

现在将更详细地公开本发明和新抗原的选择方法。

定义

除非从上面另外定义,否则从上文可理解和/或显而易见的,本文中使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。尽管与本文描述的那些类似或等同的方法和材料可以用于本发明的实践或测试中,但是下面描述了合适的方法和材料。在有冲突的情况下,以本说明书(包括定义)为准。另外,材料、方法和实施例仅是说明性的,并不意图是限制性的。

术语“优选地”用于描述在本发明中不是必需的但可以导致改进的技术效果的特征或实施例,因此是期望的但不是必需的。

除非另指出,否则本文所述的通用方法和技术可以根据本领域公知的常规方法以及如在本说明书全文中引用和讨论的各种通用和更具体的参考文献中所述的方法来执行。参见,例如,Sambrook et al.,Molecular Cloning:A Laboratory Manual,2d ed.,ColdSpring Harbor Laboratory Press,Cold Spring Harbor,N.Y.(1989)和Ausubel et al.,Current Protocols in Molecular Biology,Greene Publishing Associates(1992),Current Protocols in Immunology and Current Protocols in Human Genetics,Wileypress,和/或Harlow and Lane Antibodies:A Laboratory Manual,Cold Spring HarborLaboratory Press,Cold Spring Harbor,N.Y.(1990)。

尽管在附图和前述描述中详细说明和描述了本发明的各方面,但是这种说明和描述应被认为是说明性或示例性的,而不是限制性的。应当理解,本领域普通技术人员可以在所附权利要求的范围和精神内进行改变和修改。特别地,本发明覆盖具有来自上文和下文描述的不同实施方案的特征的任何组合的其他实施方案。本发明还分别覆盖各附图中所示的所有其他特征,尽管在上文或下文描述中可能未对其进行描述。而且,可以从本发明的另一方面的主题中去掉在附图和说明书中描述的实施方案的单个替代方案及其特征的单个替代方案。

图1:12名癌症患者对接种疫苗的类似新抗原肽(neoantigen-resemblingpeptides)(n=101)的免疫反应;

对癌症患者用根据所述方法选择的类似新抗原的肽接种疫苗至少两个月。联合应用免疫刺激佐剂GM-CSF。在接种疫苗过程中分离出PBMC(peripheral blood mononuclearcells,外周血单核细胞)。用单个类似新抗原的肽体外刺激患者PBMC11天后,检测新抗原疫苗特异性T细胞的应答,随后用相同的肽或DMSO(二甲基亚砜)(对照)短暂孵育,对细胞内细胞因子染色和进行FACS(流式细胞仪)分析,以量化在CD4+和CD8+T细胞中的T细胞活化标记物IFN-g、TNF、CD154和CD107a或IL-2。

图2:在接种疫苗过程中新抗原特异性T细胞的应答的增加。

在接种疫苗前(0个月)和接种疫苗4个月后,按图1所示测量对接种疫苗的类似新抗原的肽的免疫应答。

使用刺激指数(stimulation index,SI)进一步评估肽特异性反应。刺激指数是经肽刺激的样品中的多功能活化的CD4+或CD8+T细胞(对于CD154、IFN-γ、TNF和/或IL-2中的至少两个标记物,为阳性)与阴性对照样品(DMSO)的计算比率。该图显示,免疫应答在接种疫苗过程中增加(显示了一名示例性癌症患者的数据)。

图3:检测先前存在的T细胞对通过所述方法选择的新抗原的应答。

对于2号患者,检测了先前存在的CD8+和CD4+T细胞对3个和2个类似新抗原的肽的应答。此处显示了一种示例性肽的结果,其在疫苗接种开始之前获得。

此外,在权利要求中,“包括”一词不排除其他元件或步骤,并且冠词“一个”或“一种”不排除多个。单个单元可以实现权利要求中记载的几个特征的功能。与属性或值相关的术语“基本”、“大约”、“近似”等特别地也分别精确地定义了属性或值。权利要求中的任何附图标记都不应被解释为对范围的限制。

以下是本发明的方法和组合物的实施例。应当理解,鉴于上文提供的一般描述,可以实践各种其他实施方案。

通过以下说明性的非限制性实施例来另外描述本发明的各方面,这些实施例提供了对本发明的实施方案及其许多优点的更好的理解。包括以下实施例是为了说明本发明的优选实施方案。本领域技术人员应该理解,以下实施例中公开的技术代表了本发明中用于在本发明的实践中很好地起作用的技术,因此可以认为构成其实施的优选方式。然而,根据本公开,本领域技术人员应当理解,可以对所公开的特定实施方案进行许多改变,并且在不脱离本发明的精神和范围的情况下仍可获得相似或相似的结果。本文引用了许多文献,包括专利申请、制造商手册和科学出版物。这些文献的公开内容虽然不认为与本发明的可专利性有关,但其全部内容通过引用结合于本文中。更具体地,所有参考文献通过引用的方式并入,如同每个单独文献被具体地和单独地指示通过引用并入的程度一样。

实施例1—常规方法概述

步骤1:通过比较来自肿瘤和正常组织的外显子组测序数据来确定肿瘤特异性(偶然和驱动)突变:

-非常近的非同义单核苷酸变体(Single Nucleotide Variant,SNV)和多核苷酸变体(Multiple Nucleotide Variant,MNV)

-插入缺失(Indels)(导致MNV或框移,从而产生全新氨基酸序列)

-融合基因,其可能在断点处产生新抗原

步骤2:定义所有可能的突变肽,这些突变肽可以衍生自步骤1中发现的肿瘤特异性突变及其基因组序列背景(context)中。为了针对每个肿瘤特异性非同义变体设计此类突变的肽,优选考虑偏离了人类参考基因组的其他非同义肿瘤特异性或种系变体,其位于相应变体附近且与相应变体位于相同的染色体上。

步骤3:确定患者的HLA I类和/或II类类型

-例如,基于正常组织的外显子组数据。

步骤4:基于来自步骤2的突变肽列表和来自步骤3的HLA状态,识别可能存在于肿瘤细胞表面的突变肽(新抗原)。

这对于短肽可以基于相应患者的HLA I类类型实施和/或对于长肽基于HLAII类类型实施。

例如,可以使用SYFPEITHI、NetMHC和NetMHCpan方法预测长度为8-11个氨基酸的新抗原HLA I类限制性表位。

为了预测可能与HLA II类分子结合的长新抗原表位(12-32个氨基酸),可以使用例如NetMHCII和NetMHCIIpan等算法。由于此类算法目前不如预测短的I类限制性表位的算法可靠,因此II类限制性表位也可以手动设计:由非同义的肿瘤特异性SNV中衍生出,例如17个氨基酸的肽,其中改变的氨基酸残基位于中心位置,并且在两侧中的每一侧有8个氨基酸。如果解决了导致框移的变体,则这些肽需要覆盖断点(wt/突变体序列)或覆盖在框移突变下游但在新框的下一个终止密码子上游的任何序列。如果解决了导致融合基因的变体,则这些肽需要覆盖断点(DNA基因座(locus)1/DNA基因座2)。

步骤5:排除与UniProtKB/Swiss-Prot数据库中列出的任何人类野生型蛋白质同源的潜在新抗原。

步骤6:排除在特定肿瘤实体或患者个体肿瘤中不太可能表达的突变肽。例如,这可以基于:

-肿瘤特异性基因表达数据库(例如人类蛋白质图谱(Human Protein Atlas))

-转录组分析允许控制肿瘤中变体的表达/存在

-如果可能,配体组分析可以证明癌细胞表面存在相应的突变肽(即通过肽/HLA免疫沉淀、肽洗脱和质谱鉴定)。

步骤7:排除高疏水性表位,以避免疫苗配制过程中的肽溶解性问题

-排除疏水氨基酸超过64%的肽

步骤8:排除具有某些有问题的氨基酸基序的表位,例如:

-多于一个易于氧化并可导致分子内和分子间二硫键的形成和肽的络合的半胱氨酸(C),

-N端的谷氨酰胺(Q)或谷氨酸酯(E),其可自发环化为焦谷氨酸酯

-等于或大于3个氨基酸的某些聚氨基酸延伸(≥NNN)

步骤9:相对于步骤3中测试的正常组织,确定肿瘤中HLA等位基因的缺失。例如,通过:

-使用肿瘤外显子组数据或免疫组织化学方法确定肿瘤组织中的HLA I类和/或II类的状态(突变或缺失)

-使用肿瘤外显子组数据或免疫组织化学方法确定肿瘤组织中β-2微球蛋白的状态。如果B2M突变或丢失,则HLA I类复合物不能在肿瘤细胞表面形成,并且没有I类限制性肽存在于肿瘤细胞上。

-如果可获得,HLA分子和B2M的表达可以在肿瘤转录组数据中得到证实。

步骤10:排除被预测仅与肿瘤中丢失的HLA分子结合的表位(如步骤9所确定)

步骤11:对可能与患者的I类或II类HLA分子结合的新抗原进行独立优先级排序,以确定最佳的疫苗接种候选者。短的HLA I类限制性表位或长的II类限制性表位的评分方案应包括以下步骤中的一个或多个:

-对来自已知癌症相关基因(CeGaT肿瘤组TUM01,710个基因)的表位进行优先级排序

-对肿瘤中携带具有高等位基因频率的变体(variants with high allelefrequencies,VAF)的表位进行优先级排序。这种变体更可能出现在高比例的肿瘤细胞中并在其中翻译。对肿瘤中携带具有高表达水平的变体的表位进行优先级排序。这可在例如肿瘤转录组数据可用时确定。

-对与患者HLA分子具有高预测的结合亲合力的表位进行优先级排序

-对与相应野生型表位相比,具有更强预测的HLA结合亲合力的突变表位进行优先级排序

-对被预测与多于一个的HLA等位基因结合的表位进行优先级排序

-对通过多于一种的算法被预测能与患者HLA分子结合的表位进行优先级排序

步骤12:选择用于设计癌症疫苗的多个潜在新抗原

-选择具有最高得分的突变表位,以覆盖不同的变体(有利于驱动子和耐药性突变),以及如果可能,在肿瘤中存在并完整的所有HLA I类和/或II类等位基因。

-可以在肿瘤外显子组数据中手动验证相应DNA变体的存在,特别是在计算机支持下(例如,通过使用综合基因组学查看器(Integrative Genomics Viewer)目测NGS数据)或通过正交方法,例如肿瘤转录组分析、qRT-PCR、qPCR、dPCR或Sanger测序。

步骤13:合成在步骤12中选择的新抗原,例如,突变的肽

步骤14:制备靶向患者特异性新抗原的肽疫苗,例如通过:

-将各单个肽溶解在DMSO中

-加水并汇集所有肽(最终DMSO浓度=10%;每个肽400μg/500μl注射液等分试样)。

-无菌过滤和将疫苗等分试样装填在即用型无菌空玻璃小瓶中

步骤15:给予靶向患者特异性新抗原的疫苗

将疫苗与一个或多个免疫刺激佐剂一起反复皮内注射。

实施例2—用表达数据选择预测的HLA-I类限制性新抗原的示例性方法概述

1.输入

1.1.外显子组和转录组测序

·来自肿瘤/正常外显子组分析的体细胞错义变体(非同义单核苷酸和多核苷酸变体、插入缺失、基因融合)

·相应的肿瘤转录组数据,

·患者的HLA基因型(例如,根据患者正常样本的外显子组数据确定)

1.2.表位的产生和HLA结合亲合力的预测

·定义所有可衍生自肿瘤特异性突变的8-11个氨基酸长的突变肽。

·使用SYFPEITH、netMHC、netMHCpan方法对每个突变肽及其野生型对应物的HLAI类结合亲合力的预测

2.过滤

2.1.根据预测的HLA I类结合亲合力过滤潜在新抗原:

排除亲合力>500nM(netMHC、netMHCpan)和最大得分值的<50%的新抗原(SYFPEITHI)

2.2.过滤自身肽

·排除与任何人类野生型序列具有同源性的潜在新抗原(UniProtKB/Swiss-ProtHUMAN.fasta.gz)

2.3.表达数据

·如果变异等位基因频率(VAF)≥5%,并且序列覆盖率≥20,则保留新抗原

2.4.新抗原序列参数

·保持疏水性AA的含量≤64%

·如果基因在已知肿瘤相关基因的CeGaT“TUM01”列表中,保持半胱氨酸的数量≤1

·如果基因不在已知肿瘤相关基因的CeGaT“TUM01”列表中,保持半胱氨酸的数量=0

·保持聚氨基酸延伸<3(移除例如QQQ)

2.5.HLA缺失

·肿瘤转录组、肿瘤外显子组和血液外显子组的HLA分型(typing)

·必须评估肿瘤中HLA基因座或HLA表达的缺失(染色体6(chr6)上的HLA-A、HLA-B、HLA-C,在染色体15上的B2M)(外显子组测序数据中的CNV调用和等位基因频率)。如果某些HLA等位基因缺失、突变或在肿瘤中不表达,则必须除去那些被预测仅结合这些等位基因的新抗原。

3.评分

3.1.癌症相关基因(CeGaT肿瘤组TUM01,710个基因)

·TUM01组中任何与癌症相关的基因中未知结果的突变(得分50)

3.2.变异等位基因频率(VAF)

·通过组织病理学评估或基于检测到的体细胞SNV的等位基因频率限定肿瘤含量Y

·高变体等位基因频率:VAF≥2/3*Y/2(得分45)

·中等变体等位基因频率:1/3*Y/2≤VAF<2/3*Y/2(得分20)

·低变体等位基因频率:0

3.3.HLA结合亲合力

·根据NetMHC、NetMHCpan和SYFPEITHI的原始结果计算每个可能的肽/HLA对的亲合力得分。如下所述针对每种算法计算每个肽/HLA对的亲合力得分并取平均值。

·高亲合力(a):对于netMHCpan和netMHC,a≤50nm;对于SYFPEITHI,a≥最大分数的75%(得分40)

·中等亲合力(a):对于netMHCpan和netMHC,50nM

·低亲合力(a):对于netMHCpan和netMHC,200nM

3.4.变体表达水平(在肿瘤转录组中)

·RNA中的变体等位基因频率*转录本/百万(transcripts per million)(RNAVAF*FPKM)

·根据(RNA VAF*FPKM)进行分级。排除值为0的所有项。计数剩余变体的数量#。

·等级大小(Level size,ls)=剩余变体的#/3

·高表达范围:最高分级的变体,直到最高分级-1*ls(得分10)

·中度表达范围:最高分级-1*ls+1,直到最高分级-2*ls(得分5)

·低表达范围:其余变体(得分0)

3.5.突变肽vs野生型肽的HLA结合亲合力

·相对的HLA结合得分是根据NetMHC、NetMHCpan和SYFPEITHI对野生型肽(WT)和突变肽(MUT)的原始结果计算的,如下所示。针对每种算法计算亲合力得分并取平均值。

对于SYFPEITHI(亲合力以最大可能结合的%给出,越大越好):

·较高:MUT/WT>1.1(得分10)

·相等:0.9≤MUT/WT≤1.1(得分0)

·较低:MUT/WT<0.9(得分-10)

对于NetMHC和NetMHCpan(亲合力以nM给出,较小越好):

·较高:MUT WT<0.9(得分10)

·相等:0.9≤MUT/WT≤1.1(得分0)

·较低:MUT/WT>1.1(得分-10)

3.6.HLA混杂性

·对于每种肽,通过任何算法预测其结合不同HLA等位基因(HLA)的数量

·高:HLA≥3(得分10)

·中:HLA=2(得分5)

·低:HLA=1(得分0)

3.7.预测方法的一致性

·对于每个肽/HLA对,确定了对结合进行预测的方法的数量(m)

·高:m=3(得分5)

·中:m=2(得分2.5)

·低:m=1(得分0)

4.计算组合得分、分级和选择

4.1.对于每个肽/HLA对,通过将上一步中的各个分数相加来计算总得分。

4.2.根据总得分对肽进行排序。

4.3.对于每个HLA等位基因,选择分级前20位的肽和所有与20个肽同等分级的肽,并汇总在一个列表中。

4.4.通过下述排序(按此顺序):基因、总得分、HLA类型

4.5.用标志1标记:对每个基因的总得分最高的肽。如果2个肽对同一个基因具有相同的得分,两者都用标志1标记

4.6.通过下述排序(按此顺序):标志1、HLA类型、总得分

4.7.在每个HLA等位基因的“标志1”列表中的前4个肽用标志2标记。如果两者具有相同的总得分,两者都标志2标记。如果HLA等位基因代表性不足(没有4个具有标志1的肽),则添加来自未用标志1标记的肽中得分最好的肽。如果患者没有6个不同的HLA等位基因,则对每个HLA等位基因,用标志2标记20/HLA等位基因数(四舍五入)

4.8.目视检查标志2标记的肽的所有变体的测序数据

4.9.选择例如7个肽用于合成:对于每个HLA I类等位基因,得分最好的肽。从HLA-A或B等位基因开始,为不同等位基因填充得分最好的肽。

4.10.如有任何歧义,请遵循以下规则:

从2个相等分级的肽(所述肽是对于不同变体但具有相同HLA等位基因)中:

1.选择具有较高表达的肽

2.选择具有较高亲合力(原始值)的肽

3.选择具有较高混杂性的肽

4.选择具有较低疏水性的肽

来自2个相等分级的肽,所述肽是对于同一变体但具有不同的HLA等位基因:

1.选择具有代表性不足的HLA型的肽

2.选择具有较高亲合力(原始值)的肽

3.选择具有较高混杂性的肽

4.选择具有较低疏水性的肽

实施例3—用于选择没有表达数据的人工设计的HLA II类限制性新抗原的示例性方法概述

1.输入

1.1.外显子组测序

·来自肿瘤/正常外显子组分析的体细胞错义变体(非同义SNV、MNV、插入缺失、基因融合)

1.2.表位生成

人工设计16至17个氨基酸(AA)的II类限制性肽。如果可能,将改变的一个或多个氨基酸置于肽的中心,并使用以下规则:

·错义

·框

·框内删除:选择删除上游的8个AA和下游的8个AA;

·导致框移突变的插入缺失:在框移开始时选择上游的8各AA和下游的8个AA

·基因融合:选择断点上游的8个AA和下游的8个AA;如果任一位点的蛋白质序列<8,则在另一侧添加缺失的AA,因此总肽长度为16个AA

·对于上述任何变体,除了框内插入/MNV外:如果变体靠近任一蛋白质末端并因此该变体任一侧的蛋白质序列<8AA,则在另一侧添加缺失的AA,因此总肽长度始终至少为16AA

·对于框内插入/MNV(大小x氨基酸的):如果改变的氨基酸靠近蛋白质的任一末端并因此变体任一侧的蛋白质序列<8AA-(x/2四舍五入),则在另一侧添加缺失的AA,因此,则总肽长度为16AA(如果x为偶数)或总肽长度为17AA(如果x为奇数)。

2.过滤

2.1.自身肽的过滤

·排除与任何人类野生型序列具有同源性的潜在新抗原(UniProtKB/Swiss-ProtHUMAN.fasta.gz)

2.2.基因表达的估计

通过数据库搜索相应的肿瘤类型(《人类蛋白质图谱》,如果不可用,则用GEO)来检查蛋白质(或者RNA)的表达。排除在肿瘤类型中不表达的基因的肽。

2.3.新抗原序列参数

·保持疏水性AA的%≤64

·如果基因在已知肿瘤基因的CeGaT“TUM01”列表中,保持半胱氨酸的数量≤1

·如果基因不在已知肿瘤基因的CeGaT“TUM01”列表中,保持半胱氨酸的数量=0

·保持聚氨基酸延伸<3(移除例如QQQ)

3.评分

3.1.癌基因(CeGaT TUM01,649个基因)

·CeGaT的肿瘤组TUM01中列出的任何与癌症相关的基因中,未知结果的突变(得分50)

3.2.变体等位基因频率(VAF)

·定义肿瘤含量Y

·高等变体等位基因频率:VAF≥2/3*Y/2(得分45)

·中等变体等位基因频率:1/3*Y/2≤VAF<2/3*Y/2(得分20)

·低等变体等位基因频率:0

3.3.基因表达评估

通过数据库搜索相应的肿瘤类型(《人类蛋白质图谱》,如果不可用,则用GEO)来检查蛋白质的表达。标记相应肿瘤组织中的表达水平:高/中/低/异源性。“高”时得分为10,“中”时得分为5,“低”或“异源性”时得分为0。

4.计算组合得分、分级和选择

4.1.为每个潜在的II类限制性新抗原,通过上一步骤中的单个得分相加计算总得分

4.2.根据总得分对肽进行排序

4.3.选择例如前3个肽。如有歧义,请遵循以下规则:

从2个带有不同变体的同等分级的肽中:

1.选择带有具有较高表达的变体的肽

2.选择带有具有较高VAF的变体的肽

3.选择具有较低疏水性的肽

4.4.如果将HLA II类和I类限制性肽在疫苗中结合使用(请参见实施例2),则排除所有带有已被I类肽覆盖的变体的HLA II类肽。

实施施4—比较根据不同方法获得的肽集合体

如上所述,对于治疗患者,通常有用并且优选的是选择多于一个的新抗原。如果选择了多于一个的新抗原,则可以通过请求一起选择的新抗原具有作为集合体的某些特性来增加所述选择有效的可能性。例如,需要注意考虑不同的HLA分子。

然而,当选择多个新抗原使得集合体具有某些特性时,必须注意整个集合体仍然具有有利的特性。应当理解,在统计学上相关的并且因此非常大量的患者中比较通过不同选择方法获得的结果在伦理上是不可行的,并且鉴于每个肿瘤具有不同的HLA类型而且对每个患者而言突变需要选择独特且个性化的新抗原,因此也是不可行的。因此,不能将一个患者的结果与另一患者的结果进行比较。因此,唯一有效的比较是测试在一名患者中通过各种选择方法获得的不同的新抗原集合体。但是,测试患者的多个集合体的工作量、成本和负担太高,是不合理的。因此,必须以不同的方式比较通过不同方法获得的结果。

为此,基于从实际癌症患者获得的数据,确定5个新抗原肽的集合体,并且鉴于集合体的平均值来评估其结果。特别地,对于通过不同方法获得的相应的5个肽中的每一个,等位基因频率、混杂程度、结合亲合力以及野生型肽和突变的肽之间的差异都被汇编。此外,还指出了肽属于哪个基因,是否已知基因与癌症相关,以及结合HLA等位基因的确定。

然后使用该汇编来比较使用各种选择方法获得的不同集合体的质量。

a-随机选择集合体

在第一种方法中,从预测为肿瘤的新抗原的肽列表中随机选择5个肽。

对于这5个肽,计算了等位基因频率、混杂性、结合亲合力以及野生型肽和突变的肽之间的差异。此外,确定了该肽属于哪个基因、是否已知该基因与癌症相关、并确定了结合的HLA等位基因。

获得了以下结果(集合体a):

因此发现这5个肽的平均等位基因频率相当低,其值约为8%。平均结合亲合力为153,野生型结合亲合力与突变体结合亲合力之间的平均差仅为-172nM。该集合体涵盖了4个不同的HLA等位基因,但没有一个肽与多于一个的HLA等位基因结合,并且都与肿瘤基因无关。

b-根据未加权参数的得分的集合体

尽管肽的随机选择是非常容易的方法,但是对技术人员显而易见的是,可以考虑多种参数来改善选择。因此,以上给出的随机选择基本上可以用作基准。

如果使用一些主题的常识,例如肿瘤遗传学、细胞中蛋白质的降解以及肽在细胞表面的呈递,则可以选择许多参数用于建立肽的得分。使用这样的得分,可以选择5个肽,每个肽都涉及不同的基因。

对于该实施例,考虑了是否已知新抗原存在于癌症相关基因内。

然后,普通技术人员可能要考虑(受试者特定的)潜在新抗原与相应非突变野生型的HLA结合亲合力之间的差异是否很大;换句话说,可以考虑潜在新抗原与相应非突变野生型序列相比的相对HLA结合亲合力。

同样,可以考虑突变肽的结合亲合力,其使用由NetMHC和NetMHCpan获得的值并将这些值取平均值而获得。

最后,考虑了混杂性,即肽可以结合的等位基因的数量。

为了基于这4个参数选择5个肽,必须确定总得分。在此,必须考虑到不同的参数将具有非常不同的值。为了确定总得分,一种简单的方法是相对于每个参数对肽组进行分级,对所考虑的每个肽给出4个分级,然后将肽已获得的所有分级相加。基于该总和确定总“得分”,这有利于具有最低分级的那些肽。

使用该加和,可以选择5个肽,并注意任何一个基因都只能选择一次。因此,只有当所选的所有高分级的肽涉及不同基因时,才会选择该肽。

获得了以下结果(集合体b):

由此发现,对于所建议的5个肽,获得了非常高的亲合力,平均值为60nm,并且野生型结合亲合力和突变型结合亲合力之间的平均差值为-7,026nM。5个肽的等位基因频率平均约为22%。没有选择肿瘤基因。

c-根据本发明加权的参数的得分的集合体

尽管“b”下的方法是对随机选择的一种改进,但应理解,选择与肿瘤基因有关的肽可能会改善总体结果。为了评估这是否导致任何改善,执行类似于“b”的方法,唯一的区别是一旦获得4个分级的总和,首先,选择与肿瘤基因有关的肽。只有在没有发现肿瘤基因相关的其他肽的情况下,才能选择高分级的非肿瘤基因相关的肽,

以这种方式,进行了以下选择(集合体c):

可以看出,建议的5个肽的平均亲合力值为71nM,略高于方法“b”中获得的平均亲合力值,并且野生型和突变体结合亲合力的差异较大,平均差异为-11,358nM。平均等位基因频率为13%,低于“b”中的,并且在选择的5个肽中,有3个与肿瘤基因有关。

d-根据本发明选择的集合体

考虑到主要基于肿瘤基因的选择可能导致为集合体选择的肽可能具有多种不利特性,建议根据本发明进行评分,使得尤其是,一个肽可获得的总得分不仅仅由该肽是否与肿瘤基因有关来确定。

以这种方式,例如可以避免具有几乎不可用的结合亲合力的肿瘤基因相关肽将比非肿瘤基因相关肽更优选。

获得了以下结果(集合体d):

在给出的实施例中,可以看出GBP4中的非肿瘤基因肽比PARK2中分级较低的肿瘤基因相关肽具有更好的得分。此外,集合体中包括根据方法“b”建议的混杂性为2的肽,但使用方法“c”时不被考虑。

优选的方法建议了5个肽,其具有与方法“c”相似的平均亲合力(平均值为75nM),但显示出更大的野生型和突变体结合亲合力的差异,平均差异为-12,969nM。平均等位基因频率为14%,因此高于方法“c”中的平均等位基因频率。如在方法“c”中那样,五分之三的肽与肿瘤基因有关。

这表明本发明的使用了改进的得分的方法在不影响亲合力本身的同时,提高了等位基因频率以及野生型和突变体结合亲合力的差异。

下面比较总结了这些发现,从而表明,对于根据本发明的方法获得的整个集合体,发现平均而言相关性能非常好。可以认识到的是,在药物组合物中给药这些肽将在治疗患者中产生非常好的结果,因为所有新抗原由于未知、不可预测或被低估的原因而变得无效的可能性降低。而且,当在治疗过程中由于免疫原性压力而使HLA等位基因丢失时,优选的集合体将包含其他靶向新抗原的肽,这些肽与不同的HLA等位基因结合。在此,靶向与几个HLA等位基因结合的一组新抗原可减少与某一个HLA等位基因结合的竞争的影响,以及一个肽相对于其他肽的免疫显性作用。

实施例5—成年癌症患者的疫苗接种方案

疫苗:皮内注射配方肽(400μg/剂);I类短限制性肽(8-11个氨基酸)和II类长限制性肽(~17个氨基酸)。请注意,400μg/肽和注射液的使用与患者的体重无关。

佐剂:皮下注射Leukine(GM-CSF)

给药:第1、3、8、15、29天。每月重复一次。

实施例6—靶向个性化新抗原的疫苗

上述方法已用于开发用于治疗癌症患者的基于个性化新抗原的疫苗。得到的每个疫苗均由多达20个肽组成,这些肽类似于衍生自肿瘤特异性突变(新抗原)的独特的非自身抗原,不存在于相应患者的正常组织中。为了诱导针对通过MHC在癌症细胞表面呈递这种新抗原的癌细胞的持续免疫应答,将肽疫苗与免疫刺激佐剂(Leukine,GM-CSF)一起重复施用。根据建立的疫苗接种计划,在第1、3、8、5、29天并随后每4周将个性化肽疫苗皮内注射到大腿上部或腹部(每个肽/每次注射0.4毫克)。为了增加对疫苗接种肽的免疫反应,在接近疫苗接种部位的地方,另外地皮下注射了佐剂Leukine(GM-CSF,83μg/每次注射)。

每个疫苗接种混合物由短肽(8-11个氨基酸)和长肽(15-21个氨基酸)组成。虽然短肽通过MHC I分子被抗原呈递细胞(APC)摄取和呈现以激活新抗原特异性细胞毒性T细胞(CD8+),但长肽通过MHC II分子被APC内化、加工和呈现以激活新抗原特异性T辅助细胞(CD4+)。目的是激活这两个T细胞群体,因为它们被认为在对抗肿瘤细胞的过程中起着独特但互补的作用(Braumuller,H.;Wieder,T.;Brenner,E.;Assmann,S.;Hahn,M.;Alkhaled,M.et al.(2013)T-helper-1-cell cytokines drive cancer into senescence in:Nature 494(7437),S.361–365.DOI:10.1038/nature11824;Dudley,M.E.;Gross,C.A.;Langhan,M.M.;Garcia;Sherry,R.M.;Yang,J.C.et al.(2010):CD8+enriched"young"tumor infiltrating lymphocytes can mediate regression of metastatic melanomain:Clinical cancer research:an official journal of the American Associationfor Cancer Research 16(24),S.6122–6131.DOI:10.1158/1078-0432.CCR-10-1297;Heemskerk,B.;Kvistborg,P.;Schumacher,T.N.(2013):The cancer antigenome in:TheEMBOjournal 32(2),S.194–203.DOI:10.1038/emboj.2012.333;Kreiter,S.;Vormehr,M.;van de Roemer,N.;Diken,M.;Lower,M.;Diekmann,J.et al.(2015):Mutant MHC classII epitopes drive therapeutic immune responses to cancer in:Nature 520(7549),S.692–696.DOI:10.1038/nature14426;Schumacher,T.N.;Schreiber,R.D.(2015):Neoantigens in cancer immunotherapy in Science(New York,N.Y.)348(6230),S.69–74.DOI:10.1126/science.aaa4971;Tran,E.;Turcotte,S.;Gros,A.;Robbins,P.F.;Lu,Y.C.;Dudley,M.E.et al.(2014):Cancer immunotherapy based on mutation-specificCD4+T cells in a patient with epithelial cancer in:Science(New York,N.Y.)344(6184),S.641–645.DOI:10.1126/science.1251102.)。

许多患有不同来源和晚期肿瘤的患者,用标准疗法难以治疗,在同情的基础上使用根据本发明所述方法设计的靶向个性化新抗原的多肽疫苗治疗。个性化疫苗的使用已获得德国地方当局

对于9名患者,可获得来自多个后续时间点获得的可评估数据,而对于其中7名患者,免疫反应在疫苗接种计划过程中增加(如图2所示)。

在接种疫苗之前,一名乳腺癌患者(2号)对疫苗混合物中包括的10个肽中的5个(3个CD8+和2个CD4+T细胞应答)显示出已经存在的T细胞应答。因此,疫苗的计算机预测的新抗原肽必须在体内和接种前通过MHC分子在肿瘤细胞上呈现。反过来,这导致新抗原特异性T细胞的自然发生和有效启动(图3:对肽MSYQGLPSTQL、NOTCH1-p.R2372Q的示例性免疫应答)。这些结果突出表明,所选的新抗原确实呈现于肿瘤细胞表面上,并且所应用的新抗原预测和选择程序能够识别这种新的免疫原性的肿瘤表位。由于所述的患者目前处于完全缓解期,因此试图推测肿瘤特异性免疫反应可能有助于阳性结果。此外,这些发现证实了以下结论:在以前尚未建立针对相同肿瘤抗原的天然免疫应答的患者中,新抗原特异性免疫的诱导可能具有高度的临床意义。

总而言之,对12名接种过疫苗的癌症患者进行的免疫监测实验结果表明,疫苗注射后可引发有效的新抗原特异性T细胞应答(CD4+和CD8+)。观察到这种免疫应答在治疗过程中持续增加。在疫苗接种之前检测到的针对疫苗肽的预先存在的免疫应答进一步表明,在疫苗接种之前各自新抗原被呈递给肿瘤细胞表面上的免疫细胞,并且本发明所建立的新抗原选择方法导致有效选择此类免疫原性肿瘤特异性表位。

综上所述,显而易见,除此之外,本发明的公开内容还包括如权利要求和/或说明书中所建议而制备的用于治疗癌症的药物组合物。本发明还公开了根据权利要求中任一项的方法选择的新抗原在制备个性化药物组合物中的用途。此外,提出了一种治疗癌症的方法,包括向有需要的患者给药有效量的如权利要求所述的药物组合物。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号