首页> 中国专利> 用于癌症的非侵入性检测的DNA甲基化标志物和其用途

用于癌症的非侵入性检测的DNA甲基化标志物和其用途

摘要

一种“二元分类分化”方法,其用于在人类基因组中找到少量精致的DNA甲基化位置(CG ID)的组合,以检测源自患者的生物材料中的DNA中的癌症并将其与其它无组织细胞DNA和血细胞DNA进行区分。用于检测肿瘤DNA的起源组织的另一种方法使用人类基因组中独特的DNA甲基化位置(CG ID)的组合。公开了源自肿瘤DNA的CG ID的组合,所述组合用于通过测量特定CG ID的组合的DNA甲基化并得到“甲基化评分”来准确地检测癌症。用于使用CG ID预测癌症的试剂盒,所述试剂盒使用多重下一代测序甲基化测定、焦磷酸测序测定和少量血浆中的甲基化特异性PCR。使用生物材料的各种方法有助于预测不具有癌症的其它临床迹象的人的癌症。

著录项

  • 公开/公告号CN112236534A

    专利类型发明专利

  • 公开/公告日2021-01-15

    原文格式PDF

  • 申请/专利权人 香港精准医学技术有限公司;

    申请/专利号CN201980022469.6

  • 发明设计人 戴维·车世瑞;李慧;黄志发;

    申请日2019-07-09

  • 分类号C12Q1/6886(20060101);C12Q1/6883(20060101);C12N15/11(20060101);

  • 代理机构11205 北京同立钧成知识产权代理有限公司;

  • 代理人杨贝贝;臧建明

  • 地址 中国香港九龙尖沙咀广东道30号新港中心第一座812室

  • 入库时间 2023-06-19 09:33:52

说明书

技术领域

本发明涉及人DNA中的DNA甲基化签名,特别是在分子诊断领域。

背景技术

癌症已成为人类的主要杀手。癌症的早期检测可以显著提高治愈率,并降低患者及其家人和医疗保健系统的可怕的个人和财务费用。例如,肝细胞癌(HCC)是全球第五大最常见的癌症(El-Serag,2011)。其在亚洲特别流行,并且在乙型肝炎流行的地区其发生率最高,这表明可能存在因果关系(Flores和Marrero,2014)。对高风险人群(如慢性肝炎患者)进行随访,并及早诊断从慢性肝炎向HCC的转变将提高治愈率。肝细胞癌的存活率目前极低,因为其几乎总是在晚期被诊断出来。如果及早诊断,可以有效地治疗肝癌,其中治愈率>80%。成像的进步改善了HCC的非侵入性检测(Tan,Low和Thng,2011;Valente等人,2014)。然而,包含用单个蛋白质(如甲胎蛋白)进行成像和免疫测定的当前的诊断方法常常无法及早诊断出HCC(Flores和Marrero,2014)。这些挑战不仅限于HCC,还常见于其它癌症。例如,乳腺癌和结肠直肠癌的早期检测可以大大降低发病率和死亡率,并且降低公共卫生系统和保险公司的成本。此外,如胰腺癌等某些癌症几乎总是晚期才检测出,从而实际上导致了一定的死亡率。成像的进步改善了癌症的早期检测,然而高分辨率成像(如MRI)价格昂贵,需要训练有素的人员,并且在许多地方都无法使用。所述成像还没有进化成为筛查广泛人群的方法。为了对降低癌症的发病率和死亡率产生影响,有必要开发一种非侵入性、稳健但成本低廉的方法,所述方法可以在广泛的地理区域内用于人群的常规筛查。主要挑战是实体瘤隐藏在内部器官中并在其表现出临床症状很早之前就已经发生进化。然而非侵入性地获得肿瘤材料是可能的。

迄今为止,已经广泛确定肿瘤DNA流进系统,并且可以在血浆中发现(Warton和Samimi,2015),并且还可能在如尿液、唾液以及粪便等其它分泌性体液中发现。通过测量肿瘤DNA的分子特征,有可能确定在体液中发现的DNA起源于肿瘤(Zhai等人,2012)。尽管肿瘤细胞产生可以将肿瘤DNA与正常细胞DNA进行区分的突变,但可能的突变数量巨大,并且并非所有肿瘤都发生常见的突变(Dominguez-Vigil,Moreno-Martinez,Wang,Roehrl和Barrera-Saldana,2018)。

作为表观遗传调节基因组功能的主要机制的DNA甲基化(DNA的共价修饰)在肿瘤中无处不在地改变(Aguirre-Ghiso,2007;Baylin等人,2001;Ehrlich,2002;Issa等人,1993)。肿瘤的DNA甲基化图谱可能是用于肿瘤分类、预后和预测对化疗反应的稳健工具(Stefansson等人,2014)。在早期诊断中使用肿瘤DNA甲基化的主要缺点是,其需要侵入性手术和可疑肿瘤的解剖可视化。循环肿瘤细胞是肿瘤DNA的非侵入性来源,并且用于测量肿瘤抑制基因中的DNA甲基化(Radpour等人,2011)。患者的血液中可检测到HCC DNA的低甲基化(Ramzy,Omran,Hamad,Shaker和Abboud,2011),并且最近,全基因组亚硫酸氢盐测序被应用于检测来自HCC患者的血浆中的低甲基化DNA(Chan等人,2013)。然而,这种来源是有限的,特别是在癌症的早期阶段,并且DNA甲基化图谱被宿主DNA甲基化图谱混淆。全基因组亚硫酸氢盐测序是相对较昂贵的程序,并且需要大量的生物信息学分析,这使其用作筛查工具是不可行的。因此,面临的挑战是如何描绘少量可以将肿瘤DNA与非肿瘤DNA进行有力区分的CG,并开发出将能够筛查广泛而多样的地理区域中的广泛人群的高通量低成本测定。最近,几个小组对癌症和正常DNA以及血液DNA的全基因组DNA甲基化图执行了对比分析(Zhai等人,2012)。然而,这些方法的主要挑战在于,这些方法没有考虑到处于不同水平的血液中发现的来自其它组织的无细胞DNA,所述不同水平是先验无法预料的。污染来自具有与癌组织类似的甲基化图谱的另一组织的DNA可能导致假阳性。另外,过去的方法已经定量地比较了正常组织和癌组织中的DNA甲基化。当肿瘤DNA与来自其它未转化组织的不同量和未知量的DNA混合时,这种定量差异被稀释,这可能导致假阴性。当前方法中的这些缺陷使得在本发明主题中公开的不同方法有必要。

处理与用于检测癌症的系统和方法的用途有关的矿石的另外的出版物为:GriggG、Clark S,对基因组DNA中的5-甲基胞嘧啶残基进行测序(Sequencing 5-methylcytosineresidues in genomic DNA)《生物学论文集(Bioessays)》1994年6月;16(6):431-6,431;Zeschnigk M,Schmitz B,Dittrich B,Buiting K,Horsthemke B,Doerfler W.人类基因组中的印迹区段:如通过基因组测序方法确定的普拉德-威利/安格尔曼综合征区域中的不同DNA甲基化模式(Imprinted segments in the human genome:different DNAmethylation patterns in the Prader-Willi/Angelman syndrome region asdetermined by the genomic sequencing method)《人类分子遗传学(Hum Mol Genet)》1997年3月;6(3):387-95;Feil R,Charlton J,Bird A P,Walter J,Reik W.对单独染色体的甲基化分析:亚硫酸氢盐基因组测序的改进方案(Methylation analysis onindividual chromosomes:improved protocol for bisulphite genomic sequencing)《核酸研究(Nucleic Acids Res)》1994年2月25日;22(4):695-6;Martin V,Ribieras S,Song-Wang X,Rio M C,Dante R.基因组测序表明pS2基因的5'区域中的DNA低甲基化与其在人乳腺癌细胞系中的表达之间存在相关性(Genomic sequencing indicates acorrelation between DNA hypomethylation in the 5'region of the pS2 gene andits expression in human breast cancer cell lines)《基因(Gene)》1995年5月19日;157(1-2):261-4;WO 97 46705、WO 9515373和WO 45560Aguirre-Ghiso,J.A.(2007).癌症休眠的模型、机制和临床迹象(Models,mechanisms and clinical evidence for cancerdormancy)《癌症自然评论(Nat Rev Cancer)》7(11),834-846.doi:l0.l038/nrc2256。

Baylin,S.B.,Esteller,M.,Rountree,M.R.,Bachman,K.E.,Schuebel,K.和Herman,J.G.(2001).癌症中DNA甲基化、染色质形成和基因表达的异常模式(Aberrantpatterns of DNA methylation,chromatin formation and gene expression incancer)《人类分子遗传学》,10(1),687-692。

Breitbach,S.,Tug,S.,Helmig,S.,Zahn,D.,Kubiak,T.,Michal,M.,...Simon,P.(2014).对来自未经过纯化的血浆的无细胞循环DNA进行直接定量(Directquantification of cell-free,circulating DNA from unpurified plasma)《公共科学图书馆:综合(PLoS One)》,9(3),e87838.doi:10.1371/journal.pone.0087838。

Chan,K.C,Jiang,P.,Chan,C.W.,Sun,K.,Wong,J.,Hui,E.P.,...Lo,Y.M.(2013).通过血浆DNA亚硫酸氢盐测序非侵入性地检测癌症相关联的全基因组低甲基化和拷贝数异常(Noninvasive detection of cancer-associated genome-wide hypomethylation andcopy number aberrations by plasma DNA bisulfite sequencing)《美国国家科学院院刊(Proc Natl Acad Sci U S A)》,110(41),18761-18768.doi:10.1073/pnas.1313995110。

Dominguez-Vigil,I.G.,Moreno-Martinez,A.K.,Wang,J.Y.,Roehrl,M.H.A.和Barrera-Saldana,H.A.(2018).液体活检在对抗癌症中的曙光(The dawn of the liquidbiopsy in the fight against cancer)《肿瘤标靶(Oncotarget)》,9(2),2912-2922.doi:10.18632/oncotarget.23131。

Ehrlich,M.(2002).癌症中的DNA甲基化:太多,但也太少(DNA methylation incancer:too much,but also too little)《致癌基因(Oncogene)》,21(35),5400-5413。

El-Serag,H.B.(2011).肝细胞癌(Hepatocellular carcinoma)《新英格兰医学杂志(N Engl J Med)》,365(12),1118-1127.doi:10.1056/NEJMra 1001683。

Flores,A.和Marrero,J.A.(2014).肝细胞癌的新兴趋势:专注于诊断和治疗(Emerging trends in hepatocellular carcinoma:focus on diagnosis andtherapeutics)《临床医学见解:肿瘤(Clin Med Insights Oncol)》,8,71-76.doi:10.4137/CMO.S9926。

Issa,J.P.,Vertino,P.M.,Wu,J.,Sazawal,S.,Celano,P.,Nelkin,B.D.,...Baylin,S.B.(1993).结肠癌进展期间胞嘧啶DNA-甲基转移酶活性增加(Increasedcytosine DNA-methyltransferase activity during colon cancer progression)《美国国立癌症研究所杂志(J Natl Cancer Inst)》,85(15),1235-1240。

Luczak,M.W.和Jagodzinski,P.P.(2006).DNA甲基化在癌症发展中的作用(Therole of DNA methylation in cancer development)《叶片组织化学细胞生物学(FoliaHistochem Cytobiol)》,44(3),143-154。

Radpour,R.,Barekati,Z.,Kohler,C.,Lv,Q.,Burki,N.,Diesch,C.,...Zhong,X.Y.(2011).肿瘤抑制基因的超甲基化涉及用于开发乳腺癌中基于血液的测试的关键调节途径(Hypermethylation of tumor suppressor genes involved in criticalregulatory pathways for developing a blood-based test in breast cancer)《公共科学图书馆:综合》,6(1),e16080.doi:10.1371/journal.pone.00l6080。

Ramzy,II,Omran,D.A.,Hamad,O.,Shaker,O.和Abboud,A.(2011).血清LINE-1低甲基化作为肝细胞癌预后标志物的评估(Evaluation of serum LINE-1hypomethylationas a prognostic marker for hepatocellular carcinoma)《阿拉伯胃肠病学杂志(ArabJ Gastroenterol)》,12(3),139-142.doi:10.1016/j.ajg.2011.07.002。

Stefansson,O.A.,Moran,S.,Gomez,A.,Sayols,S.,Arribas-Jorba,C.,Sandoval,J.,...Esteller,M.(2014).生物学上不同的乳腺癌亚型的基于DNA甲基化的定义(A DNA methylation-based definition of biologically distinct breast cancersubtypes)《分子肿瘤学(Mol Oncol.)》doi:10.1016/j.molonc.2014.10.012。

Tan,C.H.,Low,S.C.和Thng,C.H.(2011).肝细胞癌成像诊断的APASL和AASLD共识指南:综述(APASL and AASLD Consensus Guidelines on Imaging Diagnosis ofHepatocellular Carcinoma:A Review)《国际肝脏病学杂志(Int J Hepatol)》,2011,519783.doi:10.4061/2011/519783。

Valente,S.,Liu,Y.,Schnekenburger,M.,Zwergel,C.,Cosconati,S.,Gros,C.,...Mai,A.(2014).人DNA甲基转移酶的选择性非核苷抑制剂在癌症中(包含在癌症干细胞中)具有活性(Selective non-nucleoside inhibitors of human DNAmethyltransferases active in cancer including in cancer stemcells)《药物化学杂志(J Med Chem)》,57(3),701-713.doi:10.1021/jm4012627。

Warton,K.和Samimi,G.(2015).在癌症诊断中的无细胞循环DNA的甲基化(Methylation of cell-free circulating DNA in the diagnosis of cancer)《分子生物科学前沿(Front Mol Biosci)》,2,13.doi:10.3389/fmolb.2015.00013。

Xu,R.H.,Wei,W.,Krawczyk,M.,Wang,W.,Luo,H.,Flagg,K.,...Zhang,K.(2017).用于肝细胞癌的诊断和预后的循环肿瘤DNA甲基化标志物(Circulating tumour DNAmethylation markers for diagnosis and prognosis of hepatocellular carcinoma)《自然材料(Nat Mater)》,16(11),1155-1161.doi:10.1038/nmat4997。

Zhai,R.,Zhao,Y.,Su,L.,Cassidy,L.,Liu,G.,和Christiani,D.C.(2012).食管腺癌和巴雷特(Barrett)食管中无细胞血清DNA的全基因组DNA甲基化图谱分析(Genome-wide DNA methylation profiling of cell-free serum DNA in esophagealadenocarcinoma and Barrett esophagus)《瘤形成(Neoplasia)》,14(1),29-33。

发明内容

所要求保护的主题的实施例表明,癌症与同任何正常组织和血细胞DNA甲基化图谱不同的一组“分类地”不同的DNA甲基化签名相关。这些位点在癌症与其它组织之间产生了二元分化,从而这些位点在癌症中仅被甲基化并且在其它癌症中完全未甲基化。因此,有可能使用深度下一代测序在甲基化的正常细胞DNA图谱背景下检测甚至几个癌细胞分子。本发明主题的实施例即使在来自其它组织的无细胞DNA的高背景下也能够检测无细胞肿瘤DNA,并且因此特别适用于使用从如唾液、血浆、尿液、粪便等体液中提取的无细胞(CF)DNA对癌症进行早期检测。实施例还允许对组织涂片(如幼崽涂片)以及活检和穿刺活检中的癌症进行早期检测。现有技术中的先前分析仅比较了来自同一组织和血液以及在其DNA甲基化水平上在数量上不同的衍生位点的正常细胞和癌细胞(Xu等人,2017)。然而,通过此类现有技术分析发现的位点在CF肿瘤DNA与其它组织CF DNA混合时无法检测CF肿瘤DNA(参见图2的来自中山大学肿瘤医院的HCC的ctDNA标志物)。本发明所要求保护的主题的一个实施例揭示了一组独特的位点,所述位点在所有组织中未甲基化但在特定癌症中甲基化。另一个实施例揭示了一种用于使用通过下一代测序、MeDIP阵列、MeDIP测序等得到的全基因组DNA甲基化数据的不同来源来发现在癌症、其它组织和其它疾病中分类地不同的甲基化位点的方法,所述方法称为“二元分类分化(BCD)方法”。一个实施例揭示了用于在一组发现的全基因组数据中检测以下的图谱的“分类的”DNA甲基化位点的组合:a.肝细胞癌(HCC),b.肺癌,c.前列腺癌,d.乳腺癌,e.结肠直肠癌,f.头颈部鳞状细胞癌(HNSC),g.胰腺癌,h.脑癌(成胶质细胞瘤),i.胃癌,j.卵巢癌,k.宫颈癌,l.食管癌,m.膀胱癌,n.肾癌,o.睾丸癌,p.常见实体瘤,q.血癌。另一个实施例还揭示了通过其起源组织来区分肿瘤的“分类的”DNA甲基化位点的组合。此实施例将测定与用于检测具有低组织特异性的甲基化CF DNA的现有技术方法区分开。实施例以高敏感性和特异性验证了用于检测来自数百名患者以及肿瘤起源组织的DNA甲基化数据中的癌症的多基因DNA甲基化测定。本发明公开了一种方法,所述方法通过使用靶特异性引物然后通过条形码引物进行顺序扩增,以及在单个下一代Miseq测序反应中进行多重测序,从少量体液(如血浆、唾液或尿液)中提取数据并进行甲基化定量,同时精确地测量数百人的一组多基因CG ID中的DNA甲基化。本发明主题的另一个实施例还公开了使用焦磷酸测序测定或甲基化特异性PCR来测量所述DNA甲基化CG ID的甲基化。另一个实施例公开了将患有癌症的人与健康的人进行区分的“分类”或多基因加权甲基化评分的计算。另一个实施例公开了一种新颖的方法,其从血浆、尿液、粪便、组织活检或组织拭子引导到预测不具有癌症的其它临床迹象的人的癌症。另一个实施例可以由本领域的任何技术人员用来检测癌症以及涉及细胞死亡和CF DNA释放的其它疾病,如阿尔茨海默病和神经元的其它神经退行性疾病、心肌细胞的心脏病。实施例中所描述的DNA甲基化标志物(CG ID)将用于:a.通过常规的“检查”在以其它方式“健康”人群中对癌症进行非侵入性地早期检测;b.监测“高风险”人群,如处于患有HCC的高风险的慢性肝炎患者或处于患有肺癌高风险的吸烟者;c.监测经历癌症治疗的患者对治疗的反应,以检测复发或转移。

实施例证明了基于本文所公开的DNA甲基化测量方法使用多基因或分类评分来检测未知样品的癌症的效用。所公开的实施例可以由本领域的任何技术人员用来使用本领域技术人员可用的任何用于甲基化分析方法(例如下一代亚硫酸氢盐测序、Illumina Epic微阵列、捕获测序、甲基化DNA免疫沉淀(MeDIP)甲基化特异性PCR以及任何可用的甲基化测量)检测任何癌症或患病组织的体液、粪便、尿液和组织中的癌症。

实施例还公开了用于使用本领域技术人员可用的用于全基因组测序的任何方法(如下一代亚硫酸氢盐测序、MeDip测序、离子激流测序、Epic微阵列等),然后使用用于发现将用于疾病的非侵入性检测的特异性和敏感性标志物的二元分类分化(BCD)分析方法来发现其它癌症和疾病的新的“多基因”分类DNA甲基化标志物的潜力。本发明主题的实施例包含:

在第一方面,实施例提供了如血浆等体液中的无细胞DNA中癌症的多基因DNA甲基化标志物,所述多基因DNA甲基化标志物用于癌症的早期检测,所述多基因DNA甲基化标志物集合是对通过映射方法(如llumina 450K或EPIC阵列、全基因组亚硫酸氢盐测序、甲基化DNA免疫沉淀(MeDIP)测序或与寡核苷酸阵列的杂交)得到的全基因组DNA甲基化使用如本文所公开的“二元分类分化(BCD)分析”得到的。

在其它实施例中,多基因DNA甲基化标志物是以下列表(或此列表的短子集,如表1下方列出的实例)中的用于使用血浆CF DNA或其它体液CF DNA对肝癌肝细胞癌(HCC)进行早期检测的CG ID的组合。

表1.

用于检测的子集:

cg02012576、cg03768777、cg24804544、cg05739190

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表2下方所示的实例所示)中的用于使用血浆CF DNA或其它体液DNA将癌症的起源指定为HCC并与其它10种常见实体瘤癌症进行区分的CG ID的组合。

表2.

用于特异性的子集:

cg14126493

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表3下方列出的实例)中的用于使用血浆CF DNA或其它体液CF DNA对肺癌进行早期检测的CGID的组合。

表3.

用于检测的子集:

cg04223424、cg23141355

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表4下方列出的实例所示)中的用于使用血浆CF DNA或其它体液DNA将癌症的起源指定为肺癌并与其它10种常见实体瘤癌症进行区分的CG ID的组合。

表4

用于特异性的子集:

cg05917732、cg25470077。

在其它实施例中,多基因DNA甲基化标志物是以下列表(或此列表的短子集,如表5下方列出的实例)中的用于使用血浆CF DNA或其它体液CF DNA对前列腺癌进行早期检测以及将癌症的起源指定为前列腺癌并与其它16种常见实体瘤癌症进行区分的CG ID的组合。

表5.

用于检测_特异性的子集:

cg14283569

[表5是上表中列出的4个表的子集]

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表6下方列出的实例)中的用于使用血浆CF DNA或其它体液CF DNA对乳腺癌进行早期检测的CGID的组合。

表6.

用于检测的子集:

cg13031251、cg09734791、cg09695735、cg03637878

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表7下方列出的实例所示)中的用于使用血浆CF DNA或其它体液DNA将癌症的起源指定为乳腺癌并与其它10种常见实体瘤癌症进行区分的CG ID的组合。

表7.

用于特异性的子集:

cg03113878、cg20180843

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表8下方列出的实例)中的用于使用血浆CF DNA或其它体液CF DNA对结肠直肠癌(CRC)进行早期检测以及将癌症的起源指定为结肠直肠癌并与其它16种常见实体瘤癌症进行区分的CGID的组合。

表8

用于检测-特异性的子集

cg09854653、cg01566242

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表9下方列出的实例)中的用于使用血浆CF DNA或其它体液CF DNA对胰腺癌进行早期检测的CGID的组合。

表9.

用于检测的子集:

cg25024074、cg15386964、cg16232979

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表10下方列出的实例所示)中的用于使用血浆CF DNA或其它体液DNA将癌症的起源指定为胰腺癌并与其它10种常见实体瘤癌症进行区分的CG ID的组合。

表10

用于特异性的子集:

cg01237565、cg08182975、cg20983577、cg25591377

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表11下方列出的实例)中的用于使用血浆CF DNA或其它体液CF DNA对脑癌(成胶质细胞瘤)进行早期检测以及将癌症的起源指定为脑癌(成胶质细胞瘤)并与其它10种常见实体瘤癌症进行区分的CG ID的组合。

表11

用于特异性-检测的子集

Cg19929355

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表12下方列出的实例)中的用于使用血浆CF DNA或其它体液CF DNA对胃(胃部)癌进行早期检测的CGID的组合。

表12.

用于检测的子集:

cg05611779、cg09734791、cg15760257

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表13下方示出的实例所示)中的用于使用血浆CF DNA或其它体液DNA将癌症的起源指定为胃癌并与其它10种常见实体瘤癌症进行区分的CG ID的组合。

表13.

用于特异性的子集:

cg05611779、cg19235339

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表14下方示出的实例)中的用于使用血浆CF DNA或其它体液CF DNA对卵巢癌进行早期检测的CGID的组合。

表14.

用于检测的子集:

cg24339193、cg22694153、cg11252337、cg21210985

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表15下方列出的实例所示)中的用于使用血浆CF DNA或其它体液DNA将癌症的起源指定为卵巢癌并与其它10种常见实体瘤癌症进行区分的CG ID的组合。

表15.

用于特异性的子集:

cg07068768、cg19846609

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表16下方示出的实例)中的用于使用血浆CF DNA或其它体液CF DNA对宫颈癌进行早期检测的CGID的组合。

表16.

用于检测的子集:

cg00757182、cg01601746

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表17下方列出的实例所示)中的用于使用血浆CF DNA或其它体液DNA将癌症的起源指定为宫颈癌并与其它10种常见实体瘤癌症进行区分的CG ID的组合。

表17.

用于特异性的子集:

cg07066594、cg09260640、cg12961842

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表18下方列出的实例)中的用于使用血浆CF DNA或其它体液CF DNA对头颈部鳞状细胞癌(HNSC)进行早期检测的CG ID的组合。

表18.

用于检测的子集:

cg07900968、cg20334243、cg27420520

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表19下方列出的实例所示)中的用于使用血浆CF DNA或其它体液DNA将癌症的起源指定为头颈部鳞状细胞癌(HNSC)并与其它10种常见实体瘤癌症进行区分的CG ID的组合。

表19.

用于特异性的子集:

cg18006328、cg19287220

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表20下方列出的实例)中的用于使用血浆CF DNA或其它体液CF DNA对食管癌进行早期检测的CGID的组合。

表20.

用于检测的子集:

cg03280624、cg03735888、cg09734791、cg27420520

在一个实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表21下方列出的实例所示)中的用于使用血浆CF DNA或其它体液DNA将癌症的起源指定为食管癌并与其它10种常见实体瘤癌症进行区分的CG ID的组合。

表21.

用于特异性的子集:

Cg09556952、cg12473285

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表22下方列出的实例)中的用于使用血浆CF DNA或其它体液CF DNA对膀胱癌进行早期检测的CGID的组合。

表22.

用于检测的子集:

cg04223424、cg10723962、cg25024074

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表23下方列出的实例所示)中的用于使用血浆CF DNA或其它体液DNA将癌症的起源指定为膀胱癌并与其它10种常见实体瘤癌症进行区分的CG ID的组合。

表23.

用于特异性的子集:

cg13544006

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表24下方列出的实例)中的用于使用血浆CF DNA或其它体液CF DNA对肾(肾脏)癌进行早期检测以及将癌症的起源指定为肾癌并与其它10种常见实体瘤癌症进行区分的CG ID的组合。

表24.

用于检测特异性的子集:

cg08884571、cg00011225、cg00011225

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表25下方列出的实例所示)中的用于使用血浆CF DNA或其它体液CF DNA对睾丸癌进行早期检测以及将癌症的起源指定为睾丸癌并与其它10种常见实体瘤癌症进行区分的CG ID的组合。

表25.

用于检测和特异性的子集:

cg14531093、cg25159927

在其它实施例中,多基因DNA甲基化标志物是以下列表或此列表的短子集(如表26下方列出的实例所示)中的用于使用血浆CF DNA或其它体液CF DNA对13种最常见实体瘤之一进行早期检测的CG ID的组合。

表26.

用于检测的子集:

cg10723962、cg15759056、cg24427504、cg25024074

在其它实施例中,多基因DNA甲基化标志物是通过BCD方法在如表27(或如表27下方所示的此组合的短子集)所示的全基因组DNA甲基化数据上描绘的用于使用白细胞、血浆CF DNA或其它体液CF DNA对如AML、CLL等血癌进行早期检测的CG ID的组合。

表27

用于检测-特异性的子集:

cg18658397、cg18780412、cg20439288、cg22828045、cg25375340

在其它实施例中,多基因DNA甲基化标志物是以下列表(或此列表的在表28下方列出的实例中所示的短子集)中所示的用于使用血浆CF DNA或其它体液CF DNA对黑色素瘤进行早期检测以及将癌症的起源指定为黑色素瘤并与其它16种常见实体瘤癌症进行区分的CG ID的组合。

表28

用于检测-特异性的子集:

cg15307891、cg18866529、cg27084903

在本发明主题的另一方面,提供了一种用于检测癌症的试剂盒和方法,所示试剂盒和方法包括用于检测多基因DNA甲基化标志物的DNA甲基化测量值的装置和试剂。

在一个实施例中,提供了一种用于检测肝细胞癌的试剂盒,所述试剂盒包括用于表1和2的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测肺癌的试剂盒,所述试剂盒包括用于表3和4的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测前列腺癌的试剂盒,所述试剂盒包括用于检测表5的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测乳腺癌的试剂盒,所述试剂盒包括用于检测表6和7的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测结肠直肠癌的试剂盒,所述试剂盒包括用于检测表8的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测胰腺癌的试剂盒,所述试剂盒包括用于检测表9和10的CG ID的DNA甲基化测量值的装置和试剂。

在又另一个实施例中,提供了一种用于检测脑癌的试剂盒,所述试剂盒包括用于检测表11的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测胃癌的试剂盒,所述试剂盒包括用于检测表12和13的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测卵巢癌的试剂盒,所述试剂盒包括用于检测表14和15的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测宫颈癌的试剂盒,所述试剂盒包括用于检测表16和17的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测头颈部鳞状细胞癌(HNSC)的试剂盒,所述试剂盒包括用于检测表18和19的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测食管癌的试剂盒,所述试剂盒包括用于检测表20和21的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测膀胱癌的试剂盒,所述试剂盒包括用于检测表22和23的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测肾癌的试剂盒,所述试剂盒包括用于检测表24的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测睾丸癌的试剂盒,所述试剂盒包括用于检测表25的CG ID的DNA甲基化测量值的装置和试剂。

在其它实施例中,提供了一种用于检测13种常见癌症(膀胱癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食管癌、HNSC、HCC(肝)、肺癌、卵巢癌、胰腺癌、前列腺癌、胃癌)之一的试剂盒,所述试剂盒包括用于检测表26的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测如AML和CLL等血癌的试剂盒,所述试剂盒包括用于检测通过BCD方法检测的对血癌的不同亚型具有特异性的表27的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,提供了一种用于检测黑色素瘤的试剂盒,所述试剂盒包括用于检测表28的CG ID的DNA甲基化测量值的装置和试剂。

在另一个实施例中,DNA焦磷酸测序甲基化测定用于通过使用上面列出的CG ID预测体液(如血浆CF DNA)中的HCC,例如通过使用以下所公开的引物和焦磷酸测序反应的标准条件:

cg02012576

正向:GGTAGTTAGGAAGTTTAGAGGTTGTAGTA

反向(生物素化):ACCACTACCCCAACCCAACCCTA

序列:GGTTTTAGGATGTTTG

cg03768777(VASH2)

正向:AGAATAATATTAGAGAATGGGATATGGAA

反向(生物素化):ACAACTCCAAAATCCTACCT

序列:GAATGGGATATGGAATGA

cg05739190(CCNJ)

正向:GTTTAGGAGTTGGGTTTTAGTTGAG

反向(生物素化):ACCCCACCCTAACTCCCTTACC

序列:TGGGTTTTAGTTGAGG

cg24804544(GRID2IP)

正向(生物素化):GGGTAGGGGAGGGTTTTGAAATA

反向:TAACCCCCCCTCCAACCTCATTC

序列:CACCCAACTTCTCAAT

通过测量以下CGID cg02012576(HPX)的DNA甲基化来确定癌症的起源组织的特异性

正向(生物素化):ATTTTTATGGGTATTAGTTTTAGGGAGAA

反向(生物素化):CCAAAACTATCCTATAACCTCTACAACTCA

序列:ACCATTACCACCCCT

在另一个实施例中,多基因多重扩增子亚硫酸氢盐测序DNA甲基化测定用于通过使用以上列出的CG ID预测体液(如血浆CF DNA)中的癌症。例如,使用以下所公开的引物和涉及亚硫酸氢盐转化的标准条件来预测前列腺癌,先用靶特异性引物(PCR 1),然后通过条形码引物(PCR 2)进行顺序扩增,以及在单个下一代MiSeq测序仪(Illumina)中进行多重测序,使用Illumina软件进行多路分解,使用用于甲基化分析的标准方法(如Methylkit)进行数据提取和甲基化定量,然后计算加权的DNA甲基化评分,并从少量体液(如血浆、唾液或尿液)中预测癌症。

进行第一次PCR检测前列腺癌的步骤如下:

对于CGID cg02879662

正向引物:

5'ACACTCTTTCCCTACACgACgCTCTTCCgATCTNNNNNGGTAGGAGTTTTGGG

AATTGG3'

反向引物:

5'gTgACTggAgTTCAgACgTgTgCTCTTCCgATCTCCACCCCTACAATCCCTAA3'对于CGIDcg16232979

正向引物:

5'ACACTCTTTCCCTACACgACgCTCTTCCgATCT

NNNNNYGGTTTYGGGTTTYGTATT3'

反向引物:

5'gTgACTggAgTTCAgACgTgTgCTCTTCCgATCTACRCAAAAATATAAATCRACRATC3'

为了测试癌症特别起源于前列腺,第一PCR执行如下:

对于CGID:cg14041701和cg14498227

正向引物:

5'ACACTCTTTCCCTACACgACgCTCTTCCgATCTNNGTTTTGYGTTTYGGA

TTTGGGTT3'

反向引物:

5'

gTgACTggAgTTCAgACgTgTgCTCTTCCgATCTCATAAACAACACCTTTAAATAAACACTAAA3'

为了对样品进行条形码编码,使用与以下引物反应的第二PCR:

正向引物:

5'AATgATACggCgACCACCgAgATCTACACTCTTTCCCTACACgAC3'

条形码引物(反向):

5'CAAgCAgAAgACggCATACgAgATAGTCATCGgTgACTggAgTTCAgACgTg3'(红色基准是索引;使用此索引的200个变体)

在其它实施例中,接受者工作特征(ROC)测定用于通过使用CG ID的加权的DNA甲基化测量值限定癌症与正常之间的阈值来检测癌症。高于/低于阈值的样品将被分类为癌症。例如,上面列出的用于检测HCC的CGID:

在另一个实施例中,分层聚类分析测定用于通过使用上面列出的CG ID的甲基化测量值预测癌症。

在本发明主题的另一方面,用于鉴别用于检测癌症和其它疾病的DNA甲基化标志物的方法包括以下步骤:利用先前公开的关于从临床样品获得的DNA甲基化测量值的“二元分类分化(BCD)”方法执行统计分析。

在另一个实施例中,所述方法包含对从样品获得的DNA甲基化测量值执行统计分析和“二元分类分化(BCD)”方法,其中通过执行从至少一个样品中提取的DNA的Illumina微珠芯片(Beadchip)450K或EPIC阵列获得DNA甲基化测量值。

在另一个实施例中,通过以下获得DNA甲基化测量值:对从样品中提取的DNA执行DNA焦磷酸测序,然后执行基于质谱法的(Epityper

在其它实施例中,统计分析包含接受者工作特征(ROC)测定。

在其它实施例中,统计分析包含分层聚类分析测定。

定义

如本文所使用的,术语“CG”是指含有胞嘧啶和鸟苷碱基的DNA中的二核苷酸序列。这些二核苷酸序列可以在人和其它动物的DNA中甲基化。CG ID揭示了其在如通过Illumina450K清单所限定的人类基因组中的位置(本文所列出的CG的注释可在以下处公开获得

如本文所使用的,术语诊断设备或设备是本领域技术人员已知的可以与一种或多种试剂一起使用以执行诊断测试(如根据要求保护的主题的实施例的用于得到DNA甲基化评分的DNA甲基化测量值的那些测试)的任何设备。

如本文所使用的,术语“β值”是指通过使用公式β值=甲基化C强度/(甲基化C强度+未甲基化C强度)介于0与1之间,其中0完全未甲基化并且1完全甲基化,使用在甲基化探针与未甲基化探针之间的强度的比率对Illumina 450K阵列进行归一化和定量得到的CG ID位置处的甲基化水平的估计。

如本文所使用的,术语“惩罚回归”是指旨在从较大的生物标志物列表中鉴别预测结果所需的最少数量的预测器的统计方法,例如在如下所述的R统计包“惩罚”中实施的:Goeman,J.J.,Cox比例风险模型中的L1惩罚估计(L1 penalized estimation in the Coxproportional hazards model)《生物统计学杂志(Biometrical Journal)》52(1),70-84。

如本文所用的,术语“聚类”是指一组物体的分组,其方式使得同一组(称为聚类)中的物体彼此之间(在某种意义上而言)比与其它组(聚类)中的那些物体更类似。

如本文所使用的,术语“分层聚类”是指基于聚类彼此之间的类似度(接近)或不类似度(远离)来构建“聚类”的分层的统计方法,例如如以下所描述的:Kaufman,L.;Rousseeuw,P.J.(1990).《在数据中查找组:聚类分析导论(Finding Groups in Data:AnIntroduction to Cluster Analysis)》(第1版)纽约:约翰威立公司(John Wiley)

如本文所使用的,术语“接受者工作特征(ROC)测定”是指产生展示了预测器性能的图形的统计方法。在预测器的各种阈值设置(即不同的甲基化百分比)下,相对于假阳性率绘制真实的预测阳性率,如例如以下中所描述的:Hanley,James A.;McNeil,Barbara J.(1982).“接受者工作特征(ROC)曲线下面积的含义和用途(The Meaning and Use of theArea under a Receiver Operating Characteristic(ROC)Curve)”《放射学(Radiology)》143(1):29-36。

如本文所使用过的,术语“多变量或多基因线性回归”是指估计多个“自变量”或“预测器”(如CG ID中的甲基化百分比)与“因变量”(如癌症)之间的关系的统计方法。当模型中包含若干个“自变量”(如CG ID)时,此方法在预测“结果”时确定每个CG ID的“权重”或系数(如癌症等因变量)。

附图说明

图1示出了跨数百个个体中的血液样品和正常组织的完全未甲基化位点的候选名单。图示A示出了Illumina 450K全基因组甲基化阵列中所有个体中未甲基化(<0.1)的跨17个组织的CG ID(GSE50192)与来自312个个体的血液样品的全基因组DNA甲基化阵列中未甲基化的CG ID(GSE61496)重叠,以产生33477个CG ID的列表。B展示了来自A的33477个CG ID的列表中最稳健的未甲基化CG ID的候选名单与来自19岁到101岁的656个个体(女性和男性)的血液样品的DNA甲基化阵列中的未甲基化CG ID(GSE40279)重叠。综合起来,这些分析产生了高可信度的28754个CG ID的列表,这些ID跨所有年龄段中的许多个体的组织和血液样品均未甲基化。使用本发明主题所公开的“二元分类分化(BCD)”方法,将这28754个位置用于发现在癌症中分类甲基化但在其它组织中未分类甲基化的位点。

图2是示出HCC的当前循环DNA标志物的组织特异性缺乏的图示。所展示的热图示出了在Xu等人(Xu等人,2017)中候选的作为HCC的生物标志物的10个CG ID以及其它正常组织中这些位点的甲基化水平。被提议作为HCC的特异性生物标志物的CG ID中的几个也在其它组织中被甲基化,并且在血液DNA中示出不同的甲基化水平。(蓝色0甲基化,深红色100%甲基化)

图2A是根据本发明主题的实施例的图2的一部分的分解图。

图2B是根据本发明主题的实施例的图2的一部分的分解图。

图2C是根据本发明主题的实施例的图2的一部分的分解图。

图3是示出了使用BCD方法发现的HCC DNA甲基化标志物对癌症DNA的特异性的图示。所展示的热图示出了通过本文所描述的BCD方法选择作为HCC DNA甲基化标志物的4个CG ID。癌症(HCC)与正常组织和血液之间的甲基化水平分类地不同,因此,这些位点在所有个体中在血液和其它组织中均未甲基化,而在HCC中可测量地甲基化。

图3A是根据本发明主题的实施例的图3的一部分的分解图。

图3B是根据本发明主题的实施例的图3的一部分的分解图。

图3C是根据本发明主题的实施例的图3的一部分的分解图。

图4是示出根据本发明主题的实施例的缺乏当前DNA甲基化标记物对结肠直肠癌的癌组织起源的特异性以及与“检测-特异性”方法进行比较的图示。图示A示出了如结肠直肠癌的“Epi-结肠”CF DNA甲基化标志物中包含的Sept9基因中的CG位点(由表观基因组学公司(Epigenomics Inc.)出售),所述CG位点可以用于利用来自癌症DNA甲基化数据的TCGA集合中的甲基化数据来检测许多其它癌症,并且因此缺乏对结肠直肠癌的特异性(HKG-结肠(HKG-epiCRC),蓝色)。当针对其它常见的实体瘤癌症进行测试时,使用BCD方法(HKG-结肠橙色)(表10)发现的用于检测结直肠癌的本发明主题中公开的标志物(表9)对结直肠癌具有高度特异性。图示B和C是来自患有不同癌症的不同个体的肿瘤DNA的使用HKG-结肠(HKG-epiCRC)(B)或Epi-结肠(C)DNA甲基化标志物的DNA甲基化值的散点图。值得注意的是,使用HKG-epiCRC标志物(B)与使用Epi-结肠标志物的散布异质性图谱(C)相比,结肠直肠癌与其它癌症的DNA甲基化之间存在的紧密而分类的区别。

图4A是根据本发明主题的实施例的图4的一部分的分解图。

图4B是根据本发明主题的实施例的图4的一部分的分解图。

图5是示出发现用于肝癌(HCC)的早期检测的多基因DNA甲基化标志物的图示。图示A示出了列出了其甲基化数据用于发现一组用于根据实施例使用BCD方法检测HCC的4个CG ID(表1)和用于确定特异性癌症起源的CG ID(表2)的患者的来源和数量的表。图5的左下图处的图示B(检测)示出了由1-145(79个正常和66个HCC)列出的被测人员中的每一个的这些CG ID(表1)的组合甲基化评分。多基因评分分类地区分HCC患者和正常肝组织。右下图处的图示C示出了使用8种不同肿瘤(表2)的数据检测特异性肿瘤起源(表2)的1个CGID的甲基化评分。标志物分类地区分其它起源的癌症和HCC。

图6是使用来自GSE76269的DNA甲基化数据(n=227)验证HCC的多基因DNA甲基化标志物(特异性)的图示。图示A是使用227个肝癌患者的DNA甲基化数据和10个正常人的DNA甲基化数据示出了HCC DNA甲基化标志物的曲线下面积的ROC图。图6的图示B示出了HCC检测的敏感性、特异性和准确性。图示C示出了验证数据集中检测HCC的预测率。

图7是在TCGA甲基化数据(n=4166)中多基因HKG-epiLiver-检测和特异性标志物对HCC与其它癌症的准确性和特异性的验证的图示。图7的图示A示出了患有不同癌症的患者的HKG-肝检测/特异性标志物DNA甲基化数据的检测率。注意对HCC几乎完美的特异性。B.在来自TCGA的4166个患者DNA甲基化数据中,HKG-肝-检测标志物对HCC的特异性和敏感性的ROC图。C.相对于它起源的癌症对HCC的敏感性和特异性。

图8是发现肺癌的多基因DNA甲基化标志物的图示。图8的图示A是列出了其甲基化数据用于发现一组用于使用BCD方法检测实施例所公开的肺癌的CGID(表3)以及用于确定特异性癌组织起源的CG ID(表4)的患者的来源和数量的表。图8的左下图处的图示B(检测)示出了由1-20(10个正常和10个肺癌)列出的被测人员中的每一个的这些CG ID(表3)的组合甲基化评分。多基因评分分类地区分肺癌患者和正常组织。图8的右下图处的图示C示出了使用来自患有8种不同肿瘤的人的数据(n=80)检测特异性肿瘤起源的CGID(表4)的甲基化评分。在这些实施例中,标志物分类地区分其它起源的癌症和肺癌。

图9是在TCGA甲基化数据(n=4166)中多基因HKG-epiLung-检测和特异性标志物对HCC与其它癌症的准确性和特异性的验证的图示。图9的图示A示出了使用患有不同癌症的患者的DNA甲基化数据的HKG-epiLung检测/特异性标志物的检测率。值得注意的是对肺癌的特异性。图9的图示B示出了在来自TCGA的4166个患者DNA甲基化数据上,HKG-肺-检测标志物对肺癌的特异性和敏感性的ROC图。图9的图示C示出了相对于其它起源的癌症对肺癌的敏感性和特异性。

图10是发现前列腺癌的多基因DNA甲基化标志物的图示。图10的图示A是列出了其甲基化数据用于发现一组用于使用BCD方法检测实施例所公开的前列腺癌的CGID(表5)和用于确定特异性癌组织起源的CGID(表6)的患者的来源和数量的表。图10的左下图处的图示B(检测)示出了由1-15(5个正常和10个前列腺癌)列出的被测人员中的每一个的这些CGID(表5)的组合甲基化评分。多基因评分分类地区分前列腺癌患者和正常人。图10的右下图处的图示C示出了使用来自患有8种不同肿瘤的人的数据(n=80)检测特异性肿瘤组织起源的CG(表6)的甲基化评分。在这些实施例中,标志物分类地区分其它起源的癌症和前列腺癌。

图11是在TCGA甲基化数据(n=4166)中多基因HKG-epiProstate-检测和特异性标志物对前列腺癌与其它癌症的准确性和特异性的验证的图示。图11的图示A示出了使用来自患有不同癌症的患者的DNA甲基化数据的HKG-前列腺检测/特异性标志物的检测率。值得注意的是对前列腺癌的特异性。图11的图示B是使用TCGA中来自4166个患者的DNA甲基化数据的HKG-前列腺-检测标志物对肺癌的特异性和敏感性的ROC图。图11的图示C示出了相对于它起源的癌症对前列腺癌的敏感性和特异性。

图12是发现乳腺癌的多基因DNA甲基化标志物的图示。图12的图示A是列出了其甲基化数据用于发现一组用于使用BCD方法检测实施例所公开的乳腺癌的CG(表7)和用于确定特异性癌症起源的CGID(表8)的患者的来源和数量的表。图12的由左下图处的图示B(检测)示出了1-27(17个正常和10个乳腺癌)列出的被测人员中的每一个的这些CGID(表7)的组合甲基化评分。多基因评分分类地区分乳腺癌患者和正常乳腺组织。图12的右下图处的图示C示出了使用来自患有8种不同肿瘤的人的数据(n=80)检测特异性肿瘤起源的CGID(表8)的甲基化评分。在这些实施例中,标志物分类地区分其它起源的癌症和乳腺癌。

图13是在验证群组GSE60185(n=285)中检测非侵入性和侵入性乳腺癌的HKG-epiBreast-检测多基因DNA甲基化标志物的图示。图13的图示A是使用239个乳腺癌患者DNA甲基化数据、17个没有乳腺癌的乳腺整形外科患者和29个相邻组织示出了乳腺癌多基因DNA甲基化标志物的曲线下面积的ROC图。对所有乳腺癌的敏感性、特异性和准确性在B中列出,而DCIS(原位导管癌)、侵入性和混合性乳腺癌样品的预测率在图13的图示C中示出。值得注意的是,乳腺癌标志物甚至检测到非常早期的乳腺癌(DCIS)。

图14是在TCGA甲基化数据(n=4166)中多基因HKG-epiBreast-检测和特异性标志物对乳腺癌与其它癌症的准确性和特异性的验证的图示。图14的图示A示出了来自患有不同癌症的患者的DNA甲基化数据中的HKG-epiBreast检测/特异性标志物的检测率。值得注意的是对乳腺癌的特异性。图14的图示B是用于使用TCGA中来自4166个患者的DNA甲基化数据检测乳腺癌的HKG-乳腺-检测标志物的特异性和敏感性的ROC图。图14的图示C示出了相对于其它起源的癌症对乳腺癌的敏感性和特异性。

图15是发现结肠直肠癌(CRC)的多基因DNA甲基化标志物的图示。图15的图示A是列出了其甲基化数据用于发现一组用于使用BCD方法检测实施例所公开的结肠直肠癌的CGID(表9)和用于确定特异性癌症起源的CGID(表10)的患者的来源和数量的表。图15的左下图处的图示B(检测)示出了由1-75(25个正常和50个结肠直肠癌)列出的被测人员中的每一个的这些CGID的组合甲基化评分。多基因评分分类地区分癌症患者和正常组织。图15的右下图处的图示C示出了使用来自患有8种不同肿瘤的人的DNA甲基化数据(n=80)检测特异性肿瘤起源的CGID的甲基化评分。在这些实施例中,标志物分类地区分其它起源的癌症和结肠直肠癌。

图16是使用TCGA DNA甲基化数据集(n=4166)的多基因HKG-epiCRC-检测和特异性标志物对CRC与其它癌症的准确性和特异性的验证的图示。图16的图示A是使用患有不同癌症的患者的DNA甲基化数据的HKG-epiCRC检测/特异性标志物的检测率。值得注意的是对结肠直肠癌的特异性。图16的图示B是使用TCGA中来自4166个患者的DNA甲基化数据的HKG-epiColon检测标志物对结肠直肠癌的特异性和敏感性的ROC图。图16的图示C示出了相对于其它起源的癌症对结肠直肠癌的敏感性和特异性。

图17展示了发现胰腺癌的多基因DNA甲基化标志物。图17的图示A是列出了其甲基化数据用于发现一组用于使用BCD方法检测本发明所公开的胰腺癌的CGID(表11)和用于确定特异性癌症起源的CGID(表12)的患者的来源和数量的表。图17的左下图处的图示B(检测)示出了由1-32(12个正常和20个胰腺癌)列出的被测人员中的每一个的这些CGID(表11)的组合甲基化评分。多基因评分分类地区分胰腺癌患者和正常组织。图17的右下图处的图示C示出了使用来自患有10种不同肿瘤的人的数据(n=100)检测特异性肿瘤起源的CGID(表12)的甲基化评分。在这些实施例中,标志物分类地区分其它起源的癌症和胰腺癌。

图18是在TCGA甲基化数据(n=4854)中多基因HKG-epiPancreas-检测和特异性标志物对胰腺癌与其它癌症的准确性和特异性的验证的图示。图18的图示A是使用来自患有不同癌症的患者的DNA甲基化数据的HKG-epiPancreas检测/特异性标志物的检测率。值得注意的是对胰腺癌的特异性。图18的图示B是使用TCGA中4854个患者的DNA甲基化数据的HKG-epiPancreas-检测标志物对胰腺癌的特异性和敏感性的ROC图。图示C是相对于其它起源的癌症对胰腺癌的敏感性和特异性。

图19是发现脑癌(成胶质细胞瘤)的多基因DNA甲基化标志物的图示。图19的图示A是列出了其甲基化数据用于发现一组用于使用BCD方法检测本发明所公开的脑癌的CGID(表13)和用于确定特异性癌症起源的CGID(表13)的患者的来源和数量的表。左下图处的图示B(检测/特异性)示出了由1-16(6个正常和10个脑癌)列出的被测人员中的每一个的这些CGID(表13)的组合甲基化评分。多基因评分分类地区分脑癌患者、患有110种其它癌症的患者、正常组织。

图20是在TCGA甲基化数据(n=4854)中多基因HKG-epiBrain-检测和特异性标志物对乳腺癌与其它癌症的准确性和特异性的验证的图示。图示A是使用来自患有不同癌症的患者的DNA甲基化数据的HKG-epiBrain检测/特异性标志物的检测率。注意对脑癌的特异性。图示B是使用TCGA中来自4854个患者的DNA甲基化数据的HKG-epiBrain检测标志物对脑癌的特异性和敏感性的ROC图。图示C示出了在TCGA数据集(n=695)中对脑癌的敏感性和特异性。

图21是发现用于检测胃(胃部)癌的多基因DNA甲基化标志物的图示。图示A是列出了其甲基化数据用于发现一组用于使用BCD方法检测本发明所公开的胃癌的CGID(表14)和用于确定特异性癌症起源的CGID(表15)的患者的来源和数量的表。图21的左下图的图示B(检测)示出了由1-28(14个正常和20个胃癌)列出的被测人员中的每一个的这些CGID(表14)的组合甲基化评分。多基因评分分类地区分胃癌患者和正常组织。图21的右下图的图示C(特异性)示出了患有10种不同肿瘤的人(n=100)的多基因甲基化评分。在这些实施例中,标志物分类地区分其它起源的癌症和胃癌。

图22是在TCGA甲基化数据(n=4817)中多基因HKG-胃-检测和特异性标志物对胃癌与其它癌症的准确性和特异性的验证的图示。图示A是使用来自患有不同癌症的患者的DNA甲基化数据的HKG-epiStomach检测/特异性标志物的检测率。值得注意的是对胃癌的特异性。图示B是使用TCGA中来自4420个患者的DNA甲基化数据的HKG-epiStomach-检测特异性1标志物对胃(胃癌)的特异性和敏感性的ROC图。图示C是使用TCGA中来自4854个患者的DNA甲基化数据的HKG-epiStomach-特异性1标志物对胃癌的特异性和敏感性的ROC图。值得注意的是,与结肠直肠癌和食管癌有明显的交叉反应性,这证明了其共同的起源。

图23是发现卵巢癌的多基因DNA甲基化标志物的图示。图示A是列出了其甲基化数据用于发现一组用于使用BCD方法检测本发明所公开的卵巢癌的CGID(表16)和用于确定特异性癌症起源的CGID(表17)的患者的来源和数量的表。图23左下图处的图示B(检测)示出了由1-15(5个正常和10个卵巢癌)列出的被测人员中的每一个的这些CGID的组合甲基化评分。多基因评分分类地区分卵巢癌患者和正常组织。图23的右下图处的图示C示出了使用来自患有11种不同肿瘤的人的数据(n=110)检测特异性肿瘤起源的CGID的甲基化评分。在这些实施例中,标志物分类地区分其它起源的癌症和卵巢癌。

图24是在TCGA甲基化数据(n=6522)中多基因HKG-epiOvarian-检测和特异性标志物对宫颈癌与其它癌症的准确性和特异性的验证的图示。图示A是使用来自患有不同癌症的患者的DNA甲基化数据的HKG-epiOvarian检测/特异性标志物的检测率。注意对卵巢癌的特异性。图示B是在TCGA中来自4723个患者的DNA甲基化数据上,HKG-epiOvarian-检测和特异性标志物对卵巢癌的特异性和敏感性的ROC图。图示C示出了对卵巢癌的敏感性和特异性。

图25是发现宫颈癌的多基因DNA甲基化标志物的图示。图示A是列出了其甲基化数据用于发现一组用于使用BCD方法检测本发明所公开的宫颈癌的CGID(表18)和用于确定特异性癌症起源的CG(表19)的患者的来源和数量的表。图25左下图处的图示B(检测)示出了由1-30(20个正常和10个卵巢癌)列出的被测人员中的每一个的这些CGID(表18)的组合甲基化评分。多基因评分分类地区分宫颈癌和正常组织。图25的右下图处的图示C示出了使用来自患有8种不同肿瘤的人的数据(n=80)检测特异性肿瘤起源的CG ID(表19)的甲基化评分。在这些实施例中,标志物分类地区分其它起源的癌症和宫颈癌,然而要注意结肠直肠癌的一些可测量的检测。

图26是在TCGA甲基化数据(n=6522)中多基因HKG-宫颈-检测和特异性标志物对宫颈癌与其它癌症的准确性和特异性的验证的图示。图示A示出了使用来自患有不同癌症的患者的DNA甲基化数据的HKG-宫颈检测/特异性标志物的检测率。值得注意的是对宫颈癌的特异性。图示B是使用TCGA中来自4420个患者的DNA甲基化数据的HKG-宫颈-检测特异性标志物对宫颈癌的特异性和敏感性的ROC图。图示C示出了对宫颈癌的敏感性和特异性。

图27是发现头颈部鳞状细胞癌(HNSC)的多基因DNA甲基化标志物的图示。图示A是列出了其甲基化数据用于发现一组用于使用BCD方法检测本发明所公开的HNSC的CG ID(表20)和用于确定特异性癌症起源的CG(表21)的患者的来源和数量的表。图27的左下图处的图示B示出了由1-140(10个癌症、10个正常和120个其它癌症)列出的被测人员中的每一个的这些CG ID(表20)的组合甲基化评分。图示C示出了多基因评分,所述多基因平分在实施例中分类地区分HNSC和正常组织样品,以及分类地区分其它起源的癌症和HNSC。

图28是在TCGA甲基化数据(n=4166)中多基因HKG-epiHNSC-检测/特异性标志物对HNSC与其它癌症的准确性和特异性的验证的图示。图示A是使用来自患有不同癌症的患者的DNA甲基化数据的HKG-epiHNSC检测/特异性标志物的检测率。值得注意的是对HNSC的特异性。图示B是在TCGA中来自4166个患者的DNA甲基化数据上,HKG-epiHNSC-检测标志物对HNSC的特异性和敏感性的ROC图。图示C示出了相对于其它起源的癌症对HNSC的敏感性和特异性。

图29是发现食管癌的多基因DNA甲基化标志物的图示。图示A是列出了其甲基化数据用于发现一组用于使用BCD方法检测实施例所公开的食管癌的CGID(表22)和用于确定特异性癌症起源的CGID(表23)的患者的来源和数量的表。图29的左下图的图示B示出了由1-15(6个正常,10个癌症)列出的被测人员中的每一个的这些CGID(表22)的组合甲基化评分。图示C示出了多基因评分,所述多基因评分在实施例中分类地区分食管癌和正常组织,以及分类地区分由1-220(20个癌症、190个其它癌症和10个健康血液)列出的其它起源的癌症和食管癌。

图30是在TCGA甲基化数据(n=7102)中多基因HKG-epiEsophageal-检测/特异性标志物对食管癌与其它癌症的准确性和特异性的验证的图示。图示A示出了使用来自患有不同癌症的患者的DNA甲基化数据的HKG-epiEsophageal检测/特异性标志物的检测率。值得注意的是对食管癌的特异性。图示B是在TCGA中的4166个患者DNA甲基化数据上,HKG-epiEsophageal-检测标志物对HNSC的特异性和敏感性的ROC图。图示C示出了相对于其它起源的癌症对食管癌的敏感性和特异性。

图31是发现膀胱癌的多基因DNA甲基化标志物的图示。图示A是列出了其甲基化数据用于发现一组用于使用BCD方法检测实施例所公开的膀胱癌的CGID(表24)和用于确定特异性癌症起源的CGID(表25)的患者的来源和数量的表。图31的左下图处的图示B(检测)示出了由1-15(5个正常和10个膀胱癌)列出的被测人员中的每一个的这些CGID(表24)的组合甲基化评分。图31的右下图处的图示C示出了使用来自患有13种不同肿瘤的人的数据(n=130)检测特异性肿瘤起源的CGID(表25)的甲基化评分。在这些实施例中,标志物区分其它起源的癌症和膀胱癌。还值得注意的是,使用这些标志物进行的对结肠直肠癌的一些可测量的检测。

图32是在TCGA(n=4723)中多基因HKG-epiBladder-检测和特异性标志物对膀胱癌与其它癌症的准确性和特异性的验证的图示。图示A示出了在患有不同癌症(A)和膀胱癌(B)的患者的DNA甲基化数据上,HKG-epiBladder特异性(A)和检测标志物(B)的检测率。图示C是使用TCGA中来自4420个患者的DNA甲基化数据的HKG-epiBladder特异性标志物对膀胱癌的特异性和敏感性的ROC图。图示D是HKG-epiBladder检测标志物对膀胱癌的特异性和敏感性的ROC图(n=440)。

图33是发现肾癌的多基因DNA甲基化标志物的图示。图示A是列出了其甲基化数据用于发现一组用于使用BCD(hypo)方法检测实施例所公开的肾癌的CGID和用于确定特异性癌症起源的CGID(表26)的患者的来源和数量的表。图33的左下图处的图示B(检测/特异性)示出了由1-226(180个其它癌症、10个健康血液、6个正常肾、30个肾癌)列出的被测人员中的每一个的这些CGID(表26)的组合甲基化评分。在这些实施例中,多基因评分分类地区分肾癌、其它癌症和正常血液。

图34是使用TCGA DNA甲基化数据(n=7102)的多基因HKG-epiKidney-检测和特异性标志物对肾癌与其它癌症和正常组织的准确性和特异性的验证的图示。图示A是使用来自不同癌症的DNA甲基化数据的HKG-epiKidney检测/特异性标志物的检测率。值得注意的是对肾癌的特异性。图示B是使用TCGA中来自6367个癌症的DNA甲基化数据的HKG-宫颈-检测特异性标志物对肾癌的特异性和敏感性的ROC图。图示C示出了对肾(肾脏)癌的敏感性和特异性。另外值得注意的是与脑癌、HCC和睾丸癌的交叉。

图35是发现睾丸癌的多基因DNA甲基化标志物的图示。图示A是列出了其甲基化数据用于发现一组用于使用BCD(hypo)方法检测实施例所公开的睾丸癌的CGID和用于确定特异性癌症起源的CGID(表27)的患者的来源和数量的表。图35的由左下图处的图示B(检测/特异性)示出了1-226(10个睾丸癌、180个其它癌症、10个正常血液)列出的被测人员中的每一个的这些CG ID(表27)的组合甲基化评分。在这些实施例中,多基因评分分类地区分睾丸癌与正常血液和其它癌症。

图36是TCGA甲基化数据(n=7102)中多基因HKG-epiTestis-检测和特异性标志物对睾丸癌与其它正常组织和癌症的准确性和特异性的验证的图示。图示A示出了使用来自患有不同癌症的患者的DNA甲基化数据的HKG-epiTesstis检测/特异性标志物的检测率。值得注意的是对睾丸癌的特异性。图示B是使用TCGA中来自6367个患者的DNA甲基化数据的HKG-epiTestis-检测特异性标志物对睾丸癌的特异性和敏感性的ROC图。图示C是对睾丸癌的敏感性和特异性。

图37是发现13种常见癌症的泛癌症多基因DNA甲基化标志物的图示。图示A是列出了其甲基化数据用于发现一组用于使用BCD方法(表28)检测实施例所公开的13种常见癌症(表28)(膀胱癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌CRC、食管癌、肝癌、肺癌、卵巢癌、胰腺癌、前列腺癌和胃癌)的CGID的患者的来源和数量的表。图示B示出了由1-310(180个癌症和10个正常)列出的被测人员中的每一个的这些CGID的组合甲基化评分。在这些实施例中,多基因评分区分癌症和正常组织。

图38是在TCGA甲基化数据(n=7102)中多基因HKG epiPancancer标志物的准确性和特异性的验证的图示。图示A示出了使用TGCA数据,使用患有13种不同癌症的患者中的epiPancancer多基因DNA甲基化标志物计算的甲基化评分。图示B是使用TCGA中来自4878个患者的DNA甲基化数据的HKG-epiPancancer检测和特异性标志物对所有癌症的特异性和敏感性的ROC图。图示C是描述了用于检测13种常见癌症的特异性和敏感性的epiPancancer多基因标志物的ROC图。图示D示出了用于检测癌症的泛癌标志物的总体敏感性和特异性。在这些实施例中,使用一种或多种颜色,例如橙色(加权的甲基化评分)和蓝色(每个样品检测到一种BCD标志物被评定为阳性癌症)。

图39是发现黑色素瘤的多基因DNA甲基化标志物的图示。图示A是列出了其甲基化数据用于发现一组用于使用BCD方法(表45)检测实施例所公开的黑色素瘤的CGID(表45)的患者的来源和数量的表。图示B是由1-220(其它癌症和正常血液)和10个患有黑色素瘤的患者列出的被测人员中的每一个的这些CGID的组合甲基化评分。在这些实施例中,多基因评分区分黑色素瘤、其它癌症和正常组织。

图40是TCGA甲基化数据(n=7102)中多基因HKG-epiMelanoma-检测和特异性标志物对黑色素瘤与其它正常组织和癌症的准确性和特异性的验证的图示。图示A示出了使用来自患有不同癌症的患者的DNA甲基化数据的HKG-epiMelanoma检测/特异性标志物的检测率。值得注意的是对黑色素瘤的特异性(其中重叠检测肝癌、脑癌和前列腺癌)。图示B是使用TCGA中来自6367个患者的DNA甲基化数据的HKG-黑色素瘤-检测特异性标志物对黑色素瘤的特异性和敏感性的ROC图。图示C示出了对黑色素瘤的敏感性和特异性。

图41是发现血癌(急性髓性白血病(AML))的多基因DNA甲基化标志物的图示。图示A是列出了其甲基化数据用于发现一组用于使用BCD方法(表46)检测实施例所公开的血癌AML的CGID(表46)的患者的来源和数量的表。图示B是由1-10(正常血液)和10个患有AML的患者列出的被测人员中的每一个的这些CGID的组合甲基化评分。在这些实施例中,多基因评分区分AML和正常血液。

图42是多基因HKG-epiAML-检测和特异性标志物对GSE86409(n=79)和TCGA(n-140)中的AML与GSE40279和GSE61496(n=968)中的正常血液的准确性和特异性的验证的图示。图示A示出了使用来自患有AML的患者和健康血液的DNA甲基化数据的HKG-epiAML检测/特异性标志物的检测率。值得注意的是对黑色素瘤的特异性(其中重叠检测肝癌、脑癌和前列腺癌)。图示B是使用来自GSE86409(n=79)、TCGA(n-140)GSE40279和GSE61496(n=968)的DNA甲基化数据的HKG-AML-检测特异性标志物对AML的特异性和敏感性的ROC图。图示C示出了对AML的敏感性和特异性。

图43是验证选择用于检测不同癌症的引物在源自正常人的血浆(每个样品都是来自正常患者的血浆混合物)中表现出BCD特性约0甲基化的图示。使用序列靶向引物进行靶向特异性CG的第一PCR1反应。在第二PCR之后,对扩增的片段进行纯化并进行下一代测序。在指示的CG ID位置中的每一个中量化DNA甲基化。

图44是验证选择用于检测不同癌症的指示的引物在源自正常人的血浆(每个样品都是来自正常患者的血浆混合物)中表现出BCD特性约0甲基化的图示。

图45是用于多重扩增和测序的引物设计的图示。第一PCR反应靶向特定的所关注区域,注意PCR1引物具有与第二PCR2引物的互补序列。第二组引物引入了每个患者的索引以及反向和正向测序引物。

图46是优化用于检测前列腺癌的PCR条件的图示。右图示出了使用不同引物浓度(如所示的用于前列腺癌的三种标志物HIF3A 232bp、TPM4 213bp和CTTN 199bp的DNA)的多重PCR1反应。

图47是用于确定DNA甲基化水平的生物信息学工作流的图示。将PCR2产物进行组合、定量和纯化,并在Miseq Illumina测序仪上进行下一代测序。对序列进行多路分解,为每个患者产生FASTQ文件,并使用方案中示出的工作流进行分析。计算每个患者的DNA甲基化评分。

具体实施方式

附图中的所有图示都是出于描述所选实施例的目的,并不旨在限制所要求保护的主题的范围。

实施例1.“跨数百个个体在正常组织和血液DNA中发现分类地未甲基化的CGID”

已知在如血浆、尿液和粪便等体液中发现了源自肿瘤的无细胞DNA。还确定CF肿瘤DNA的DNA甲基化图谱与肿瘤DNA类似(Dominguez-Vigil等人,2018)。大量数据已经确定,与正常组织相比,肿瘤DNA有区别地甲基化(Luczak和Jagodzinski,2006)。因此,许多小组试图通过逻辑回归来描绘DNA中的CGID位置(Illumina 450K清单中的CG ID),这些位置在癌组织与其正常起源组织(例如肝癌与相邻的肝组织)之间有区别地甲基化。然而,由于这些方法测量的是癌症与未转化组织之间的定量差异,而不是分类的定性差异,因此,肿瘤与正常组织之间的这些定量差异将被来自正常组织的CF DNA稀释并消除,从而导致假阴性和敏感性降低。另外,未包含在分析中的其它组织可以具有类似于肿瘤DNA的DNA甲基化图谱,并且由于大多数研究仅将肿瘤DNA与其未转化的对应物而不是其它组织进行了比较,因此这可能导致假阳性。已在CF DNA中检测到来自不同组织的不同且无法预测量的DNA(Breitbach等人,2014),并且因此所测量的DNA甲基化反映了来自不同来源的组织DNA和肿瘤DNA的未知且不可预测的混合物的复合。数以千计的肿瘤样品已使用Illumina 450K阵列进行了全基因组DNA甲基化分析,并且在公共域(TCGA)中发现。在检查许多正常组织以及癌组织的甲基化图谱时,发明人注意到,基因组中存在大量的CG,所述CG在所有正常组织中完全未甲基化,但在肿瘤DNA中被甲基化。这些位点的子集跨许多个体都未甲基化,所述个体的DNA甲基化已在公共域进行了描述。发明人还注意到,在许多癌症中,这些稳健的未甲基化位点在癌症中变为甲基化。因此,在肿瘤DNA与血液中可能存在的所有其它DNA之间产生了定性的“分类差异”。使用深度下一代测序,即使在完全未甲基化拷贝的背景下,也可以容易地鉴别很少的甲基化分子。

数据库;Illumina 450K DNA甲基化数据

使用跨人类基因组的约450,000个CG的甲基化的归一化β值的公开可获得的数据库,所述人类基因组来自存放在基因表达综合数据库(GEO)

来自白细胞的DNA是血浆中CF DNA的主要来源之一。发明人首先使用GSE50192中的Illumina 450K数据以及Excel中的逻辑COUNTIF和IF函数,产生了47981个CGID的列表,所述CGID在所有个体中在17种不同的人体细胞组织中均未甲基化:

NmCGID

umCGID

NmCGIDx=CGIDx甲基化的正常受试者的数量。

umCGIDx=所有受试者中未甲基化的CGIDx

βCGIDx=给定CGIDx的甲基化值

x=Illumina 450k阵列上的任何CGID

n

n

然后,发明人使用相同的标准从312个个体的血液DNA中产生了68260个未甲基化的CGID(UMCGID)的列表。然后,发明人重叠了47981个和68260个CG ID的列表,并获得了跨所有个体在血液和体细胞组织中未甲基化的33477个CG ID的列表(图1A)。为了增加未甲基化的CG ID的此列表的稳健性,发明人在来自年龄从19到101岁的656位男性和女性个体的全血DNA的Illumina 450K阵列中描绘了60,379个CG ID(未甲基化的CGID)的列表(GSE40279)。这些是血液中稳健的未甲基化位点,所述位点跨数百个个体是无关性别和年龄的。60,379个CG ID的此列表与在体细胞组织和血液中均未甲基化的33,477个CG ID的列表重叠,以产生最终的用于发现癌症的分类甲基化标志物的28,754个CG ID的列表。此列表包含跨组织和个体稳健地未甲基化的CG ID位置。

为了鉴别在癌症与正常组织之间分类地不同的DNA甲基化位置,发明人检查了这28754个CG ID中的任何CG ID在不同的癌症中是否被甲基化。在检查肿瘤DNA甲基化数据之后,发明人注意到这28754个CG ID的子集的甲基化在来自个体患者的肿瘤DNA中是常见的。然而,并非所有个体都具有相同的甲基化位置。因此,需要CG ID的组合来以高特异性检测癌症。因此,发明人发现了用于检测癌症的CG ID的多基因组合。

发明人使用来自TCGA或GEO的公共域的10到50个DNA甲基化图谱作为“发现集”以发现CGID的多基因组,所述CGID的甲基化状态在肿瘤与正常组织之间“分类地”不同,所述CGID可以以最高敏感性和特异性检测癌症。然后,将这些CGID作为“验证集”在数百个TCGA和GEO肿瘤DNA甲基化阵列数据上进行测试,以验证用于检测癌症的多基因DNA甲基化标志物的敏感性和特异性,如实施例2中所公开的。

实施例2:用于检测无细胞DNA中的癌症的“二元分类分化(BCD)”方法。

跨人类基因组的约450,000个CG(ID)的甲基化的归一化β值的以下公开可获得数据库用于得到癌症特异性DNA甲基化标志物的列表:

表29肝癌

表30肺癌

表31前列腺癌

表32乳腺癌

表33结肠直肠癌CRC

表34胰腺癌

表35脑癌

表36胃癌

表37卵巢癌

表38宫颈癌

表39 HNSC

表40食管癌

表41膀胱癌

表42肾癌

表43睾丸癌

表44泛癌症

表45黑色素瘤

表46 AML

BCD方法

以下是在实施例中使用二元分类分化方法(BCD)以发现用于早期预测不同癌症的多基因DNA甲基化标志物的步骤。

过滤了在正常组织中稳健未甲基化的28,754个CGID。

对于发现群组,使用Microsoft excel中的COUNTIF和IF函数在28,754个在正常组织中稳健未甲基化的CG ID、在特定癌症中被分类地甲基化并且在未受影响的组织和正常组织中未甲基化的CGID的列表内进行描绘。

NmcCGIDx=COUNTIF(βCGIDxCancer n

NmnCGIDx=COUNTIF(βCGIDxNormal n

DMCGIDx=IF((AND(NmcCGIDx>0,NmnCGIDx=0)),“TRUE”,“FALSE”)

DM CGIDx从最高编号到最低编号排列

最多选择了前20个TRUE DM CGIDx位置

NmcCGIDx=具有甲基化CGIDx的癌症患者的数量

Nmn=具有甲基化CGIDxβCGIDx的正常相邻或类似组织样品的数量=CGIDx的甲基化水平

n=从1到i的患者

DM=有区别的甲基化CGIDx

发明人注意到,在所有组织中高度甲基化的CG ID处,睾丸癌和肾癌表现出普遍缺乏甲基化。因此,使用了BCD方法的改进以发现睾丸癌和肾(肾脏)癌的分类地有区别的甲基化CG ID位置,所述改进称之为“BCDhypo”;在癌症中分类地未甲基化,在正常组织中甲基化。以下步骤用于发现睾丸癌和肾癌中有区别的低甲基化CGID位置。

对于发现群组,使用excel中的COUNTIF和IF函数描绘了在睾丸或肾脏中在正常组织中完全甲基化的低甲基化CGID。

NucCGIDx=COUNTIF(βCGIDxCancer n

NunCGIDx=COUNTIF(betaCGIDxNormal n

DHMCGIDx=IF((AND(NucCGIDx>0,NunCGIDx=0)),“TRUE”,“FALSE”)

DHM CGID位置从最高编号到最低编号排列

选择了前20个TRUE DHM位点,并对其进行了惩罚回归分析NucCGIDx=具有未甲基化CGID X的癌症患者的数量

NunCGIDx=具有未甲基化CGID X的正常组织样品的数量

n=从1到i的患者

DHM=有区别的低甲基化CGID

然后,发明人使用在R中惩罚的数据包对前20个DM(或DHM)CGIDx进行了惩罚回归,以描绘以最高敏感性和特异性预测癌症的CGIDx的最小组合。在多元线性回归方程中进一步测试了CGIDx的多基因组合,以确定多基因组合中的这些CGID的甲基化水平与癌症之间的回归系数。模型用于计算每个典型癌症患者的甲基化评分。

Ms=甲基化评分,α=截距,β

实施例3.发现肝癌(HCC)的多基因DNA甲基化标志物。

发明人将来自GSE61258(正常肝脏)和来自HCC DNA甲基化数据的TCGA HCC集合的66个随机选择的样品的归一化Illumina 450K DNA甲基化数据用作“训练”群组。首先,发明人在“训练群组”数据集28754个CGIDx中筛选候选名单,所述CGIDx在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD方法发现二元分类有区别的甲基化CGID的多基因组,所述CGID在训练群组中以高敏感性和特异性检测HCC(图5B,表1)(检测)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。然后,发明人从来自代表8种不同肿瘤类型的TCGA的80个随机选择的DNA甲基化样品中产生了“训练群组”。发明人使用此训练群组来发现HCC与其它肿瘤之间的有区别的甲基化CGID的多基因组(图5C,表2)(特异性)。如实施例2中所描述的,为CGID产生了加权的DNA甲基化评分。

实施例4.用于检测HCC的HCC多基因DNA甲基化标志物的效用。

然后,发明人证明了加权的HCC DNA甲基化评分在“验证群组”中检测到HCC,所述验证群组包含来自表1中CGID的针对227个HCC患者的GSE76269的归一化Illumina 450KDNA甲基化β值。使用此方法,HCC样品中的95%被检测为HCC(图6C)。图6A中呈现的ROC曲线揭示了用于检测癌症的此甲基化评分的特异性(1)和敏感性(0.96)。然后,发明人证明了用于使用具有来自HCC和8种其它类型的癌症的GSE75041和TCGA的甲基化数据的“验证群组”来检测HCC并区分HCC和其它癌症的组合特异性和检测DNA甲基化评分的效用。图7B中呈现的ROC曲线揭示了用于将HCC与其它正常组织和其它癌症进行区分的此甲基化评分的特异性(0.97)和敏感性(0.95)。这些DNA甲基化标志物和经过计算的甲基化评分可以用于使用来自如组织、粪便、唾液、血浆和尿液等人体的不同生物材料来对高危人群以及普通健康人群中的癌症进行筛查和早期检测。

实施例5.发现肺癌的多基因DNA甲基化标志物。

发明人将来自GSE61258(正常肺)的10个人和来自肺癌DNA甲基化数据的TCGA肺癌集合的10个随机选择的样品的归一化Illumina 450K DNA甲基化数据用作“训练”群组。首先,发明人在“训练群组”数据集28754个CGID中筛选候选名单,所述CGID在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD方法发现二元分类有区别的甲基化CGID的多基因组,所述CGID在训练群组中以高敏感性和特异性检测肺癌(样品包含腺癌和鳞状细胞癌两者)(图8B,表3)(检测)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。然后,发明人从来自代表8种不同肿瘤类型的TCGA的80个随机选择的DNA甲基化样品中产生了“训练群组”。发明人使用此训练群组来发现肺癌与其它肿瘤之间的有区别的甲基化CGID的多基因组(图8C,表4)(特异性)。如实施例2中所描述的,为CGID产生了加权的DNA甲基化评分。

实施例6.用于检测肺癌的肺多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例3中产生的加权的肺癌DNA甲基化评分和阈值(检测)在“验证群组”中检测肺癌,所述验证群组包含来自GSE66836、GSE63704、GSE76269和来自TCGA的919个肺癌患者的归一化Illumina 450K DNA甲基化β值。使用此方法,肺癌样品中的96%被检测为肺癌(图9A)。然后,发明人证明了用于使用具有来自肺癌和8种其它类型的癌症的GSE和TCGA的甲基化数据的“验证群组”来区分肺癌和其它癌症的组合特异性和检测DNA甲基化评分的效用(图9A)。图9B中呈现的ROC曲线揭示了用于从其它正常组织和其它癌症中检测肺癌的此甲基化评分的特异性(0.96)和敏感性(0.84)(图9C)。这些DNA甲基化标志物和经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对高危人群以及普通健康人群中的癌症进行早期检测。

实施例7.发现前列腺癌的多基因DNA甲基化标志物。

发明人将来自GSE52955(正常前列腺)的5个人和来自前列腺癌DNA甲基化数据的TCGA前列腺癌集合的10个随机选择的样品的归一化Illumina 450K DNA甲基化数据用作“训练”群组。首先,发明人在“训练群组”数据集28754个CGID中筛选候选名单,所述CGID在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD方法发现二元分类有区别的甲基化CGID的多基因组,所述CGID在训练群组中以高敏感性和特异性检测前列腺癌(图10b,表5)(检测)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。然后,发明人从来自代表8种不同肿瘤类型的TCGA的80个随机选择的DNA甲基化样品中产生了“训练群组”。发明人使用此训练群组来发现前列腺癌与其它肿瘤之间的有区别的甲基化CGID的多基因组(图10C,表6)(特异性)。如实施例2中所描述的,为CGID产生了加权的DNA甲基化评分。

实施例8.用于检测前列腺癌的前列腺癌多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例3中产生的加权的前列腺癌DNA甲基化评分和阈值(检测)在“验证群组”中检测前列腺癌,所述验证群组包含来自GSE73549、GSE2955和来自TCGA的430个前列腺癌患者的归一化Illumina 450K DNA甲基化β值。使用此方法,前列腺癌样品中的99%被检测为前列腺癌(图11A)。然后,发明人证明了用于使用具有来自前列腺癌和8种其它类型的癌症的GSE和TCGA的甲基化数据的“验证群组”来区分前列腺癌和其它癌症的组合特异性和检测DNA甲基化评分的效用(图11A)。图11B中呈现的ROC曲线揭示了用于从其它正常组织和其它癌症中检测前列腺癌的此甲基化评分的特异性(0.99)和敏感性(0.98)(图11C)。这些DNA甲基化标志物和经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对高危人群以及普通健康人群中的癌症进行早期检测。

实施例9.发现乳腺癌的多基因DNA甲基化标志物。

发明人将来自GSE60185(正常乳腺)的17个人和来自乳腺癌DNA甲基化数据的TCGA乳腺癌集合的10个随机选择的样品的归一化Illumina 450K DNA甲基化数据用作“训练”群组。首先,发明人在“训练群组”数据集28754个CGID中筛选候选名单,所述CGID在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD方法发现二元分类有区别的甲基化CGID的多基因组,所述CGID在训练群组中以高敏感性和特异性检测乳腺癌(图12B,表7)(检测)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。然后,发明人从来自代表8种不同肿瘤类型的TCGA的80个随机选择的DNA甲基化样品中产生了“训练群组”。发明人使用此训练群组来发现乳腺癌与其它肿瘤之间的有区别的甲基化CGID的多基因组(图12C,表8)(特异性)。如实施例2中所描述的,为CGID产生了加权的DNA甲基化评分。

实施例10.用于检测乳腺癌的乳腺癌多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例9中产生的加权的乳腺癌DNA甲基化评分和阈值(检测)使用来自GSE60185、GSE75067和来自TCGA的归一化Illumina 450K DNA甲基化β值在包含891个乳腺癌患者的“验证群组”中检测乳腺癌。使用此方法,乳腺癌样品中的91%被检测为乳腺癌(图13A),并且DCIS和侵入性癌症均被检测到。然后,发明人证明了用于使用具有来自乳腺癌和8种其它类型的癌症的GSE和TCGA的甲基化数据的“验证群组”来区分乳腺癌和其它癌症的组合特异性和检测DNA甲基化评分的效用(图14A)。图14B中呈现的ROC曲线揭示了用于将乳腺癌与其它正常组织和其它癌症进行区分的此甲基化评分的特异性(0.89)和敏感性(0.87)(图14C)。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对处于危险的妇女以及普通健康人群中的乳腺癌进行早期检测。

实施例11.发现结肠直肠癌(CRC)的多基因DNA甲基化标志物。

发明人将来自GSE(32146)(正常)的25个人和来自结肠直肠癌DNA甲基化数据的TCGA结肠直肠癌集合的50个随机选择的样品的归一化Illumina 450K DNA甲基化数据用作“训练”群组。首先,发明人在“训练群组”数据集28754个CGID中筛选候选名单,所述CGID在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD方法发现二元分类有区别的甲基化CGID的多基因组,所述CGID在训练群组中以高敏感性和特异性检测结肠直肠癌(图15B,表9)(检测)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。然后,发明人从来自代表8种不同肿瘤类型的TCGA的80个随机选择的DNA甲基化样品中产生了“训练群组”。发明人使用此训练群组来发现结肠直肠癌与其它肿瘤之间的有区别的甲基化CGID的多基因组(图15C,表10)(特异性)。如实施例2中所描述的,为CGID产生了加权的DNA甲基化评分。

实施例12.用于检测结肠直肠癌的结肠直肠癌多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例11中产生的加权的结肠直肠癌DNA甲基化评分和阈值(检测)在“验证群组”中检测结肠直肠癌,所述验证群组包含来自GSE69550和来自TCGA的459个结肠直肠癌患者的归一化Illumina 450K DNA甲基化β值。使用此方法,结肠直肠癌样品中的98%被检测为结肠直肠癌(图16A)。然后,发明人证明了用于使用具有来自结肠直肠癌和8种其它类型的癌症的GSE和TCGA的甲基化数据的“验证群组”来区分结肠直肠癌和其它癌症的组合特异性和检测DNA甲基化评分的效用(图16A)。图16B中呈现的ROC曲线揭示了用于从其它正常组织和其它癌症中检测结肠直肠癌的此甲基化评分的特异性(0.96)和敏感性(0.98)(图16C)。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对处于患有CRC风险的人群以及普通健康人群中的癌症进行早期检测。

实施例13.发现胰腺癌的多基因DNA甲基化标志物。

发明人将来自GSE53051(正常)的12个人和来自胰腺癌DNA甲基化数据的TCGA集合的20个随机选择的样品的归一化Illumina 450K DNA甲基化数据用作“训练”群组。首先,发明人在“训练群组”数据集28754个CGID中筛选候选名单,所述CGID在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD方法发现二元分类有区别的甲基化CGID的多基因组,所述CGID在训练群组中以高敏感性和特异性检测胰腺癌(图17B,表11)(检测)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。然后,发明人从来自代表10种不同肿瘤类型的TCGA的100个随机选择的DNA甲基化样品中产生了“训练群组”。发明人使用此训练群组来发现胰腺癌与其它肿瘤之间的有区别的甲基化CGID的多基因组(图17C,表12)(特异性)。如实施例2中所描述的,为CGID产生了加权的DNA甲基化评分。

实施例14.用于检测胰腺癌的胰腺癌多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例13中产生的加权的胰腺癌DNA甲基化评分和阈值(检测)在“验证群组”中检测胰腺癌,所述验证群组包含来自TCGA的891个胰腺癌患者的归一化Illumina 450K DNA甲基化β值。使用此方法,胰腺癌样品中的86%被检测为胰腺癌(图18A)。然后,发明人证明了用于使用具有来自胰腺癌和9种其它类型的癌症的GSE和TCGA的甲基化数据的“验证群组”来区分胰腺癌和其它癌症的组合特异性和检测DNA甲基化评分的效用(图18A)。图18B中呈现的ROC曲线揭示了用于检测胰腺癌并将其与其它正常组织和其它癌症进行区分的此甲基化评分的特异性(0.93)和敏感性(0.86)(图18C)。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对处于风险的人群以及普通健康人群中的癌症进行早期检测。

实施例15.发现脑癌的多基因DNA甲基化标志物。

发明人将来自GSE65820(正常)的10个人和来自脑癌DNA甲基化数据的TCGA集合的10个随机选择的样品的归一化Illumina 450K DNA甲基化数据用作“训练”群组。首先,发明人在“训练群组”数据集28754个CGID中筛选候选名单,所述CGID在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD方法发现一组二元分类有区别的甲基化CGID,所述CGID在训练群组中以高敏感性和特异性检测脑癌(图19B,表13)(检测)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。然后,发明人从来自代表11种不同肿瘤类型的TCGA的110个随机选择的DNA甲基化样品中产生了“训练群组”。发明人使用此训练群组,并且发现检测CGID还区分在脑癌和其它肿瘤(图19C,表13)(检测-特异性)。如实施例2中所描述的,为CGID产生了加权的DNA甲基化评分。

实施例16.用于检测脑癌的脑癌多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例15中产生的加权的脑癌DNA甲基化评分和阈值(检测)在“验证群组”中检测脑癌,所述验证群组包含来自TCGA的689个脑癌患者、来自GSE58298的40个患者和来自GSE36278的136个患者的归一化Illumina 450K DNA甲基化β值。使用此方法,脑癌样品中的91%-97%被检测为脑癌(图20A)。然后,发明人证明了用于使用具有来自脑癌和9种其它类型的癌症的GSE和TCGA的甲基化数据的“验证群组”来区分脑癌和其它癌症的相同CGID的效用(图20A)。图22B中呈现的ROC曲线揭示了用于从其它正常组织和其它癌症中检测脑癌的此甲基化评分的特异性(1)和敏感性(0.97)(图20C)。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对处于风险的人群以及普通健康人群中的癌症进行早期检测。

实施例17.发现胃癌的多基因DNA甲基化标志物。

发明人将来自GSE99553(正常)的18个人和来自胃癌DNA甲基化数据的TCGA集合的10个随机选择的样品的归一化Illumina 450K DNA甲基化数据用作“训练”群组。首先,发明人在“训练群组”数据集28754个CGID中筛选候选名单,所述CGID在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD方法发现二元分类有区别的甲基化CGID的多基因组,所述CGID在训练群组中以高敏感性和特异性检测胃癌(图21B,表14)(检测)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。然后,发明人从来自代表11种不同肿瘤类型的TCGA的100个随机选择的DNA甲基化样品中产生了“训练群组”。发明人使用此训练群组来发现胃癌与其它肿瘤之间的有区别的甲基化CGID的多基因组(图21C,表15)(特异性)。如实施例2中所描述的,为CGID产生了加权的DNA甲基化评分。

实施例18.用于检测胃癌的胃癌多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例17中产生的加权的胃癌DNA甲基化评分和阈值(检测)在“验证群组”中检测胃癌,所述验证群组包含来自TCGA的397个胃癌患者的归一化Illumina 450K DNA甲基化β值。使用此方法,胃癌样品中的88%被检测为胃癌(图23A)。然后,发明人证明了用于使用具有来自胃癌和10种其它类型的癌症的GSE和TCGA的甲基化数据的“验证群组”来区分胃癌和其它癌症的组合特异性和检测DNA甲基化评分的效用(图23A)。图22B中呈现的ROC曲线揭示了用于从其它正常组织和其它癌症中检测胃癌的此甲基化评分的特异性(0.9)和敏感性(0.9)(图22C)。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对处于风险的人群以及普通健康人群中的癌症进行筛查和早期检测。

实施例19.发现卵巢癌的多基因DNA甲基化标志物。

发明人将来自GSE65820(正常)的5个人和来自卵巢癌DNA甲基化数据的TCGA集合的10个随机选择的样品的归一化Illumina 450K DNA甲基化数据用作“训练”群组。首先,发明人在“训练群组”数据集28754个CGID中筛选候选名单,所述CGID在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD方法发现二元分类有区别的甲基化CGID的多基因组,所述CGID在训练群组中以高敏感性和特异性检测卵巢癌(图23B,表16)(检测)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。然后,发明人从来自代表10种不同肿瘤类型和血液的TCGA的100个随机选择的DNA甲基化样品中产生了“训练群组”。发明人使用此训练群组来发现卵巢癌与其它肿瘤之间的有区别的甲基化CGID的多基因组(图2C,表17)(特异性)。如实施例2中所描述的,为CGID产生了加权的DNA甲基化评分。

实施例20.用于检测卵巢癌的卵巢癌多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例19中产生的加权的卵巢癌DNA甲基化评分和阈值(检测)在“验证群组”中检测卵巢癌,所述验证群组包含来自TCGA的114个卵巢癌患者的归一化Illumina 450K DNA甲基化β值。使用此方法,卵巢癌样品中的86%被检测为卵巢癌(图24A)。然后,发明人证明了用于使用具有来自卵巢癌和9种其它类型的癌症的GSE和TCGA的甲基化数据的“验证群组”来区分卵巢癌和其它癌症的特异性DNA甲基化评分的效用(图24A)。图24B中呈现的ROC曲线揭示了用于将卵巢癌与其它正常组织和其它癌症进行区分的此甲基化评分的特异性(0.99)和敏感性(1)(图24C)。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对处于风险的人群以及普通健康人群中的癌症进行早期检测。

实施例21.发现宫颈癌的多基因DNA甲基化标志物。

发明人将来自GSE46306(正常)的20个人和来自宫颈癌DNA甲基化数据的TCGA集合的10个随机选择的样品的归一化Illumina 450K DNA甲基化数据用作“训练”群组。首先,发明人在“训练群组”数据集28754个CGID中筛选候选名单,所述CGID在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD方法发现二元分类有区别的甲基化CGID的多基因组,所述CGID在训练群组中以高敏感性和特异性检测宫颈癌(图25B,表18)(检测)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。然后,发明人从来自代表8种不同肿瘤类型和血液的TCGA的80个随机选择的DNA甲基化样品中产生了“训练群组”。发明人使用此训练群组来发现宫颈癌与其它肿瘤之间的有区别的甲基化CGID的多基因组(图25C,表19)(特异性)。如实施例2中所描述的,为CGID产生了加权的DNA甲基化评分。

实施例22.用于检测宫颈癌的宫颈癌多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例21中产生的加权的宫颈癌DNA甲基化评分和阈值(检测)在“验证群组”中检测宫颈癌,所述验证群组包含来自TCGA的313个宫颈癌患者的归一化Illumina 450K DNA甲基化β值。使用此方法,宫颈癌样品中的91%被检测为宫颈癌(图26A)。然后,发明人证明了用于使用具有来自宫颈癌和9种其它类型的癌症的GSE和TCGA的甲基化数据的“验证群组”来区分宫颈癌和其它癌症的特异性DNA甲基化评分的效用(图26A)。图26B中呈现的ROC曲线揭示了用于检测宫颈癌并将其与其它正常组织和其它癌症进行区分的此甲基化评分的特异性(0.9)和敏感性(0.9)(图26C)。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对处于风险的人群以及普通健康人群中的癌症进行早期检测。

实施例23.发现头颈部鳞状细胞癌(HNSC)的多基因DNA甲基化标志物。

发明人将来自GSE(52068)(正常)的10个人和来自HNSC DNA甲基化数据的TCGA癌症集合的10个随机选择的样品的归一化Illumina 450K DNA甲基化数据用作“训练”群组。首先,发明人在“训练群组”数据集28754个CGID中筛选候选名单,所述CGID在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD方法发现二元分类有区别的甲基化CGID的多基因组,所述CGID在训练群组中以高敏感性和特异性检测HNSC(图27B,表20)(检测)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。然后,发明人从来自代表12种不同肿瘤类型的TCGA的80个随机选择的DNA甲基化样品中产生了“训练群组”。发明人使用此训练群组来发现HNSC与其它肿瘤之间的有区别的甲基化CGID的多基因组(图27C,表21)(特异性)。

实施例24.用于检测HNSC的头颈部鳞状细胞癌(HNSC)多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例23中产生的加权的HNSC DNA甲基化评分和阈值(检测)在“验证群组”中检测HNSC,所述验证群组包含来自GSE52068的归一化Illumina 450KDNA甲基化β值。使用此方法,HNSC样品中的88%-96%被检测(图28A)。然后,发明人证明了用于使用具有来自HNSC和12种其它类型的癌症的GSE和TCGA的甲基化数据的“验证群组”来区分HNSC和其它癌症的DNA甲基化检测评分的效用(图28A)。图28B中呈现的ROC曲线揭示了用于将HNSC与其它正常组织和其它癌症进行区分的此甲基化评分的特异性(0.86)和敏感性(0.88)(图28C)。标志物还可以检测若干种其它癌症(以相对较高的敏感性,并且因此对这些癌症的特异性有限)。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对处于风险的人群以及普通健康人群中的癌症进行早期检测。

实施例25.发现食管癌的多基因DNA甲基化标志物。

发明人将来自GSE(52068)(正常)的10个人和来自食管癌DNA甲基化数据的TCGA癌症集合的10个随机选择的样品的归一化Illumina 450K DNA甲基化数据用作“训练”群组。首先,发明人在“训练群组”数据集28754个CGID中筛选候选名单,所述CGID在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD方法发现二元分类有区别的甲基化CGID的多基因组,所述CGID在训练群组中以高敏感性和特异性检测食管癌(图29B,表22)(检测)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。然后,发明人从来自代表12种不同肿瘤类型的TCGA的80个随机选择的DNA甲基化样品中产生了“训练群组”。发明人使用此训练群组来发现食管癌与其它肿瘤之间的有区别的甲基化CGID的多基因组(图29C,表23)(特异性)。

实施例26.用于检测食管癌的食管癌多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例25中产生的加权的食管癌DNA甲基化评分和阈值(检测)在“验证群组”中检测食管癌,所述验证群组包含来自GSE52068的归一化Illumina 450KDNA甲基化β值。使用此方法,食管癌样品中的88%-96%被检测(图30A)。然后,发明人证明了用于使用具有来自食管癌和12种其它类型的癌症的GSE和TCGA的甲基化数据的“验证群组”来区分食管癌和其它癌症的检测DNA甲基化评分的效用(图30A)。图30B中呈现的ROC曲线揭示了用于将食管癌与其它正常组织和其它癌症进行区分的此甲基化评分的特异性(0.86)和敏感性(0.88)(图30C)。标志物还可以检测若干种其它癌症(以相对较高的敏感性,并且因此对这些癌症的特异性有限)。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对处于风险的人群以及普通健康人群中的癌症进行早期检测。

实施例27.发现膀胱癌的多基因DNA甲基化标志物。

发明人将来自GSE52955(正常)的5个人和来自膀胱癌DNA甲基化数据的TCGA集合的10个随机选择的样品的归一化Illumina 450K DNA甲基化数据用作“训练”群组。首先,发明人在“训练群组”数据集28754个CGID中筛选候选名单,所述CGID在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD方法发现二元分类有区别的甲基化CGID的多基因组,所述CGID在训练群组中以高敏感性和特异性检测膀胱癌(图31B,表24)(检测)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。然后,发明人从来自代表13种不同肿瘤类型和正常血液的TCGA的80个随机选择的DNA甲基化样品中产生了“训练群组”。发明人使用此训练群组来发现膀胱癌与其它肿瘤之间的有区别的甲基化CGID的多基因组(图31C,表25)(特异性)。如实施例2中所描述的,为CGID产生了加权的DNA甲基化评分。

实施例28.用于检测膀胱癌的膀胱癌多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例27中产生的加权的膀胱癌DNA甲基化评分和阈值(检测)在“验证群组”中检测膀胱癌,所述验证群组包含来自TCGA的439个膀胱癌患者的归一化Illumina 450K DNA甲基化β值。使用此方法,膀胱癌样品中的96%被检测为膀胱癌(图32B)。然后,发明人证明了用于使用具有来自膀胱癌和13种其它类型的癌症的GSE和TCGA的甲基化数据的“验证群组”来区分膀胱癌和其它癌症的特异性DNA甲基化评分的效用(图32B)。图32C中呈现的ROC曲线揭示了用于从其它正常组织和其它癌症中检测膀胱癌的此甲基化评分的特异性(0.86)和敏感性(0.88)(图32C)。然而可以以相当高的比率对胃癌、胰腺癌、食管癌和结肠直肠癌进行交叉检测。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对处于风险的人群以及普通健康人群中的癌症进行早期检测。

实施例29.发现肾癌的多基因DNA甲基化标志物。

发明人将来自GSE52955(正常)的10个人的肾(肾脏)癌和TCGA数据集中来自13种癌症的每种癌症10个随机选择的样品以及正常组织和血液(GSE40279,GSE52955)的归一化Illumina 450K DNA甲基化数据作为“训练”群组。首先,发明人在“训练群组”数据集28754个CGID中筛选候选名单,所述CGID在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD hypo方法发现二元分类有区别的甲基化CGID的多基因组,所述CGID在训练群组中以高敏感性和特异性检测肾癌,并且相对于其它癌症对肾癌具有特异性,“检测-特异性”(图33B,表26)(检测-特异性)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。

实施例30.用于检测肾癌的肾癌多基因DNA甲基化标志物的效用。

发明人证明了在实施例27中产生的加权的肾癌DNA甲基化评分和阈值(“检测-特异性”)在“验证群组”中检测肾癌,所述验证群组包含来自TCGA的871个肾癌患者的归一化Illumina 450K DNA甲基化β值,并且将肾癌与其它癌症进行区分。使用此方法,肾癌样品中的90%被检测为肾癌(图34A)。然后,发明人证明了用于使用具有来自肾癌和13种其它类型的癌症的GSE和TCGA的甲基化数据的“验证群组”来区分肾癌和其它癌症的“检测-特异性”DNA甲基化评分的效用(图34A)。图34B中呈现的ROC曲线揭示了用于从其它正常组织和其它癌症中检测肾癌的此甲基化评分的特异性(0.87)和敏感性(0.91)(图34C)(与HCC、脑和睾丸的高度交叉)。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对处于风险的人群以及普通健康人群中的肾癌进行早期检测。

实施例31.发现睾丸癌的多基因DNA甲基化标志物。

发明人将来自GSE46306(正常)的10个人的睾丸癌和TCGA数据集中来自13种癌症的每种癌症10个随机选择的样品以及正常组织和血液(GSE40279,GSE61496)的归一化Illumina 450K DNA甲基化数据作为“训练”群组。首先,发明人在“训练群组”数据集28754个CGID中筛选候选名单,所述CGID在实施例1中被发现为跨正常组织和血液样品稳健地未甲基化的位点。然后,发明人使用实施例2中所描述的BCD hypo方法发现二元分类有区别的甲基化CGID的多基因组,所述CGID在训练群组中以高敏感性和特异性检测睾丸癌,并且相对于其它癌症对睾丸癌具有特异性,“检测-特异性”(图35B,表27)(检测-特异性)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。

实施例32.用于检测睾丸癌的睾丸癌多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例31中产生的加权的睾丸癌DNA甲基化评分和阈值(“检测-特异性”)在“验证群组”中检测睾丸癌,所述验证群组包含来自TCGA的156个睾丸癌患者的归一化Illumina 450K DNA甲基化β值,并且将睾丸癌与其它癌症进行区分。使用此方法,睾丸癌样品中的96%被检测为睾丸癌(图36A)。然后,发明人证明了用于使用具有来自睾丸癌和13种其它类型的癌症的GSE和TCGA的甲基化数据的“验证群组”来区分睾丸癌和其它癌症的“检测-特异性”DNA甲基化评分的效用(图36A)。图36B中呈现的ROC曲线揭示了用于从其它正常组织和其它癌症中检测睾丸癌的此甲基化评分的特异性(0.97)和敏感性(0.96)(图36C)。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对处于风险的人群以及普通健康人群中的癌症进行早期检测。

实施例33.发现13种常见实体瘤的多基因泛癌症DNA甲基化标志物。

发明人将TCGA数据集中来自13种癌症(膀胱癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食管癌、HNSC、肝癌、肺癌、卵巢癌、胰腺癌、前列腺癌、胃癌)的每种癌症10个随机选择的样品以及来自TCGA和GEO的正常组织和血液的归一化Illumina 450K DNA甲基化数据用作“训练”群组。然后,发明人对用于检测表x-y中列出的10种不同癌症的CGID和以高敏感性和特异性检测10种常见癌症中的任何一种的候选CGID的组合列表进行惩罚回归(图37B,表28)(检测)。如实施例2中所描述的,为CGID产生了针对癌症的加权的DNA甲基化评分和阈值。

实施例34.用于检测癌症的泛癌症多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例33中产生的加权的癌症DNA甲基化评分和阈值(“检测”)在“验证群组”中检测13种常见癌症(膀胱癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食管癌、HNSC、肝癌、肺癌、卵巢癌、胰腺癌、前列腺癌、胃癌),所述验证群组包含来自其它正常组织的TCGA的3644个癌症患者的归一化Illumina 450K DNA甲基化β值。使用此方法,癌症样品中的90%-95%被检测(图38A)。图38B中呈现的ROC曲线揭示了用于从其它正常组织中检测13种癌症的此甲基化评分的特异性(0.99)和敏感性(0.95)(图38C)。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对处于风险的人群以及普通健康人群中的癌症进行早期检测。

实施例35.发现用于检测黑色素瘤的多基因DNA甲基化标志物。

发明人将10个随机选择的黑色素瘤样品和220个来自其它癌症(膀胱癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食管癌、HNSC、肝癌、肺癌、卵巢癌、胰腺癌、前列腺癌、胃癌)的样品以及TCGA和GEO数据集中的正常血液的归一化Illumina 450K DNA甲基化数据用作“训练”群组。然后,发明人对用于检测黑色素瘤的CGID和以高敏感性和特异性检测黑色素瘤的候选CGID的组合列表进行惩罚回归(图39,表28)(检测-特异性)。如实施例2中所描述的,为CGID产生了针对黑色素瘤的加权的DNA甲基化评分和阈值。

实施例36.用于检测黑色素瘤的黑色素瘤多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例35中产生的加权的黑色素瘤DNA甲基化评分和阈值(“检测-特异性”)在“验证群组”中检测黑色素瘤,所述验证群组包含来自其它癌症和正常组织的TCGA的475个黑色素瘤患者的归一化Illumina 450K DNA甲基化β值。使用此方法,黑色素瘤样品中的98%被检测(图40A)。图40B中呈现的ROC曲线揭示了用于从其它正常组织和其它癌症中检测黑色素瘤的此甲基化评分的特异性(0.98)和敏感性(0.95)(图40C)。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用来自患者的组织、粪便、唾液、血浆和尿液的不同生物材料来对处于风险的人群以及普通健康人群中的黑色素瘤进行早期检测。

实施例37.发现用于检测急性髓性白血病(AMF)的多基因DNA甲基化标志物。

发明人将GEO数据集中的10个随机选择的AMF样品和10个正常血液样品的归一化Illumina 450K DNA甲基化数据用作“训练”群组。然后,发明人对用于检测AMF的CGID和以高敏感性和特异性检测黑色素瘤的候选CGID的组合列表进行惩罚回归(图41,表27)(检测-特异性)。如实施例2中所描述的,为CGID产生了针对黑色素瘤的加权的DNA甲基化评分和阈值。

实施例38.用于检测血液DNA中的急性髓性白血病(AMF)的AMF多基因DNA甲基化标志物的效用。

然后,发明人证明了在实施例37中产生的加权的黑色素瘤DNA甲基化评分和阈值(“检测-特异性”)在“验证群组”中检测AMF,所述验证群组包含来自GEO的79个AML患者和来自TGCA和正常血液的140个患者的归一化Illumina 450K DNA甲基化β值。使用此方法,AML样品中的100%被检测(图42A)。图42B中呈现的ROC曲线揭示了用于从血液中检测AML的此甲基化评分的特异性(1)和敏感性(1)(图42C)。这些DNA甲基化标志物和来自甲基化值的经过计算的甲基化评分可以用于使用血液DNA来对处于风险的人群以及普通健康人群中的AML进行早期检测。

实施例39.亚硫酸氢盐转化、多重扩增和下一代测序以及用于预测前列腺癌的甲基化评分的计算。

将血液收集在含有K3-EDTA的9ml试管中,并在1小时内处理。新鲜血液样品在4℃下以1000g进行离心,持续10分钟。在不干扰细胞层的情况下,小心地将上清液转移到Falcon试管中,并且再次离心10分钟以完全去除任何残留细胞,并在-80℃下冷冻。解冻血浆样品,并通过用于血浆DNA提取的若干种可用的方法和可商购的试剂盒(如用于血浆DNA的Qiagen试剂盒或EZ DNA直接提取方法)提取DNA。使用可商用的方法(如在AMPure XP磁珠上)对DNA进行纯化,并且使用例如EZ DNA亚硫酸氢盐处理试剂盒用亚硫酸氢钠处理经过纯化的DNA。通过两步PCR反应产生靶向序列库(图40)。第一PCR反应靶向来自表5和6的特定CGID,注意PCR1引物与第二PCR2引物具有互补序列(图40)。发明人使用来自HEK293细胞的人亚硫酸氢盐转化的基因组DNA来同时扩增DNA的含有CGID的三个序列,所述CGID在使用标准Taq聚合酶反应中的以下引物的多重PCR反应中检测来自HIF3A(232个碱基对区域)、TPM4(213个碱基对区域)和CTTN(199个碱基对区域)的前列腺癌:对于CGID cg02879662;正向引物:

5'ACACTCTTTCCCTACACgACgCTCTTCCgATCTNNNNNGGTAGGAGTTTTGGG

AATTGG3'和反向引物:

5'gTgACTggAgTTCAgACgTgTgCTCTTCCgATCTCCACCCCTACAATCCCTAA3'

对于CGID cg16232979;正向引物:

5'ACACTCTTTCCCTACACgACgCTCTTCCgATCT

NNNNNYGGTTTYGGGTTTYGTATT3'

和反向引物:

5'gTgACTggAgTTCAgACgTgTgCTCTTCCgATCTACRCAAAAATATAAATCRACRATC3'

对于CGID:cg14041701和cg14498227;正向引物:

5'ACACTCTTTCCCTACACgACgCTCTTCCgATCTNNGTTTTGYGTTTYGGA

TTTGGGTT3'

和反向引物:

5'gTgACTggAgTTCAgToACgTgTgCTCTTCCgATCTCATAAACAACACCTTTAAATAAACACTAAA3'。将经过扩增的片段在琼脂糖凝胶上分级。

为了对样品进行条形码编码,使用与以下引物反应的第二PCR:正向引物:

5'AATgATACggCgACCACCgAgATCTACACTCTTTCCCTACACgAC3'

条形码引物(反向):

5'CAAgCAgAAgACggCATACgAgATAGTCATCGgTgACTggAgTTCAgACgTg3'(粗体为索引;使用此索引的200个变体)。第二组引物引入了每个患者的索引以及反向和正向测序引物。使用如图41所指示的不同引物浓度,右图示出了用于前列腺癌的三种标志物HIF3A 232bp、TPM4 213bp和CTTN 199bp的多重PCR1反应。

实施例40:亚硫酸氢盐转化、多重扩增和下一代测序以及用于预测癌症的甲基化评分的计算的方法的效用。

发明人证明,实施例35可以用于同时使用来自数百个患者的血浆样品来对前列腺癌和其它癌症进行高通量预测。高度预测的CG ID的索引扩增和用于计算指示癌症的甲基化评分的简化方法可以用于对前列腺癌和任何其它癌症进行早期检测。

实施例41.证明所选的表现出真正的BCD特性的生物标志物在来自健康人的血浆中完全甲基化。

从40个健康个体制备的血浆中提取血浆DNA,并使用针对以下癌症的癌症特异性引物对所述血浆DNA进行靶向扩增:肝癌、前列腺癌、肺癌(图43)和胃癌、泛癌症和CRC(图44),然后如实施例39和40中所描述的,使用第二组扩增(PCR2)和下一代测序进行条形码编码。在来自健康人的血浆中所有CG都表现出非常低的甲基化水平(图43和44)。

实施例42.用于确定DNA甲基化水平的生物信息学工作流。

将PCR2产物进行组合、定量和纯化并在Miseq Illumina测序仪上进行下一代测序。使用Illumina软件对序列进行多路分解以进行索引测序,并为每个患者产生FASTQ文件。Perl文本编辑脚本

本发明主题的应用

一般而言,本发明主题应用于分子诊断和癌症的早期预测领域。本领域的任何技术人员都可以使用本发明主题来得到类似的非侵入性生物标记物,以对伴随细胞死亡和无细胞DNA脱落进入系统的其它癌症和其它疾病(如神经系统疾病、糖尿病、心脏病、如肝硬化以及心血管疾病对心脏组织的损害)进行早期预测。本发明主题提供了使用BCD和BCDhypo方法发现特定细胞类型和组织的精确甲基化标志物的途径。还公开了用于对多种癌症进行早期预测的方法和生物标志物,本领域技术人员可以使用这些方法和生物标志物来早期检测癌症并显著提高存活率和从癌症中治愈。本发明所公开的方法可以被本领域的任何技术人员用于健康人群的常规年度筛查,以鉴别开始患癌症的人并立即对其进行治疗并预防癌症死亡和发病的可怕的个人社会和经济后果,以及用于监测“高危”人群和监测接受治疗的患者对治疗的反应,以检测复发或转移。采用这里所描述的本发明来由健康服务提供方和健康检查机构进行常规健康护理管理将对减少癌症负担以及健康护理成本产生巨大影响。

本发明主题包含许多不同的从属权利要求的事实并不意味着人们不能将这些权利要求的组合用于预测癌症。本文所公开的用于测量、统计分析和预测癌症的实施例不应被认为是限制性的。各种其它修改对本领域技术人员而言是显而易见的,以测量癌症患者中的DNA甲基化,如Illumina EPIC阵列、捕获阵列测序、下一代测序、甲基化特异性PCR、epityper、基于限制酶的分析和公共域中发现的其它方法。类似地,除了此处列出的那些统计方法外,公共域还有许多统计方法使用本发明主题来预测患者样品中的癌症。

尽管已经相对于其包含一个或多个优选实施例的实施例解释了本发明主题,但是应当理解,在不脱离所要求保护的主题的精神和范围的情况下,可以做出许多其它可能的修改和变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号