首页> 中国专利> 早期乳腺癌的预后预测诊断用基因标记物及其用途

早期乳腺癌的预后预测诊断用基因标记物及其用途

摘要

本发明涉及早期乳腺癌预后预测诊断用基因及其用途,详细而言,涉及用于提供乳腺癌患者的预后预测诊断所需要的信息的TRBC1(T细胞受体β链恒定区1)、BTN3A2(嗜乳脂蛋白亚家族3成员A2)或HLA-DPA1(主要组织相容性复合体II类DPα1)的乳腺癌预后预测诊断基因标记物及其用途。本发明的基因标记物能够进行乳腺癌患者的预后预测诊断,因此,以抗癌治疗的必要性判断为代表,能够有效地用于对之后的乳腺癌治疗方向提供头绪的目的。

著录项

  • 公开/公告号CN105339797A

    专利类型发明专利

  • 公开/公告日2016-02-17

    原文格式PDF

  • 申请/专利权人 建喾立嗣股份公司;

    申请/专利号CN201480034674.1

  • 申请日2014-04-18

  • 分类号G01N33/574(20060101);C12Q1/68(20060101);G01N33/53(20060101);

  • 代理机构11127 北京三友知识产权代理有限公司;

  • 代理人庞东成;褚瑶杨

  • 地址 韩国首尔

  • 入库时间 2023-12-18 14:21:19

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-07-11

    授权

    授权

  • 2016-03-23

    实质审查的生效 IPC(主分类):G01N33/574 申请日:20140418

    实质审查的生效

  • 2016-02-17

    公开

    公开

说明书

技术领域

本申请要求2013年04月18日提交的韩国专利申请第10-2013-0043160号(申请 号)作为优先权,上述说明书全部内容为本申请的参考文献。

本发明涉及早期乳腺癌的预后预测诊断用基因及其用途,详细而言,涉及用于提 供乳腺癌患者的预后预测诊断所需要的信息的TRBC1(T细胞受体β链恒定区1;Tcell receptorbetaconstant1)、BTN3A2(嗜乳脂蛋白亚家族3成员A2;butyrophilin,subfamily 3,memberA2)或HLA-DPA1(主要组织相容性复合体II类DPα1;major histocompatibilitycomplex,classII,DPalpha1)的乳腺癌预后预测诊断基因标记物及 其用途。

背景技术

通过灵活地运用人类的基因信息,癌症研究正朝着在基因水平上阐明机制的方向 发展。特别是,已经达到了利用微阵列基于数万的基因表达模式、基因数的增加或减 少的相关信息从宏观的角度来阐明癌细胞特性的程度。这种基因水平的信息分析对于 理解有机且复杂的生命现象是极为划时代的方法,认为其今后会进一步得到利用。特 别是在癌症这样的复合疾病(complexdisease)的情况下,针对少数的特定基因进行分 析时容易得到狭隘的结果,重要的是捕捉关于癌症的产生和发展的大型行为模式,因 此一定需要基因信息分析。如此作为癌症研究基础的基因信息利用微阵列等基因芯片 来制作,网罗性地获得关于数万基因的信息的技术日益发展,尽管存在费用高的缺点, 但利用了微阵列的研究活动仍得到广泛开展,同时相关信息的量也暴发性地增长。从 2000年中期开始,收集这样的基因信息、将其数据库化并利用如此收集的信息进行2 次和3次分析成为生命现象研究的中心点。

在通常的表达(expression)基因芯片的情况下,植入有约2万至3万个基因的探针, 测定SNP这样的精密信息的微阵列有时具有100万个以上的探针。这样的微阵列的 实验方法比较简单且进行了标准化,能够在短时间内获得大量的信息,因此是极为有 效的,但所得结果的分析成为核心且困难的瓶颈。针对数万个基因的综合分析与现有 的少数基因的分析是无法比拟的,只有不仅具备统计学分析技术而且还具备关于基因 的博大知识,才能导出有用的信息。此外,执行大量信息的存储和分析的高性能计算 装置也是必要的,还需要相关计算技术。仅习惯于传统的生物学研究范围和实验方法 的研究者是难以执行的,因此,韩国国内的现状是,即使基因信息以惊人的速度增加, 也无法有效利用。考虑到韩国国内与北美和欧洲相比资金和研究技术力量较为薄弱的 情况,积极地利用已公开的基因信息是应该在生物信息学中率先实施的部分。特别是 在针对癌症的研究中最为活跃地导入了基因分析,已积累了相当量的相关信息。

乳腺癌可以自我诊断,在自我诊断的重要性被广泛报道的同时,早期发现的情况 较多。对于这样的早期乳腺癌患者,难以确定是否进行手术后抗癌治疗。虽然通过病 理学观察能够进行大致的预后预测,但难以对观察结果进行标准化和定量化,预后预 测的可靠性低,因此,实际在临床上大多会向早期乳腺癌患者推荐抗癌治疗。抗癌治 疗基于其特性会给患者带来极大痛苦,并且对经济支出有要求,但是据推测,在早期 乳腺癌的情况下,不需要抗癌治疗的患者为半数以上。因此认为,如果能够通过对早 期乳腺癌的特性进行分析来预测患者的预后从而减少不必要的抗癌治疗,则会大幅提 高患者的生活质量。正在进行如下研究的开发:利用微阵列在乳腺癌中一次性获得关 于数万个基因的表达量的信息,在分子水平上对乳腺癌进行分类,从而阐明与癌症的 发生和发展相关的机制。预测早期乳腺癌患者的预后在临床上是重要的,从2000年 早期已经开始进行使用微阵列发掘用于预测预后的基因的研究。尽管使用微阵列的研 究的费用高,但研究者们还是制作并公开了相当数量的关于乳腺癌组织的表达谱。 2002年,对78名患者的早期乳腺癌组织和随访了约10年的患者的生存信息进行了 分析,发掘出70个预后预测基因,以此为开端,其后发表了约10种预后预测基因, 其中的几个基因得到常用并在临床上应用(Chang,H.Y.,etal.,Geneexpressionsignature offibroblastserumresponsepredictshumancancerprogression:similaritiesbetween tumorsandwounds.PLoSBiol2(2):p.E7(2004);vandeVijver,M.J.,etal.,A gene-expressionsignatureasapredictorofsurvivalinbreastcancer.NEnglJMed 347(25):1999-2009(2002);van'tVeer,L.J.,etal.,Geneexpressionprofilingpredictsclinical outcomeofbreastcancer.Nature415(6871):530-536(2002);Wang,Y.,et al.,Gene-expressionprofilestopredictdistantmetastasisoflymph-node-negativeprimary breastcancer.Lancet365(9460):671-679(2005);Buyse,M.,etal.,Validationandclinical utilityofa70-geneprognosticsignatureforwomenwithnode-negativebreastcancer.J NatlCancerInst,98(17):1183-92(2006);Paik,S.,Developmentandclinicalutilityofa 21-generecurrencescoreprognosticassayinpatientswithearlybreastcancertreatedwith tamoxifen.Oncologist12(6):631-635(2007);Paik,S.,etal.,Amultigeneassaytopredict recurrenceoftamoxifen-treated,node-negativebreastcancer.NEnglJMed 351(27):2817-2826(2004);Sotiriou,C.,etal.,Geneexpressionprofilinginbreastcancer: understandingthemolecularbasisofhistologicgradetoimproveprognosis.JNatlCancer Inst98(4):262-72(2006);Pawitan,Y.,etal.,Geneexpressionprofilingsparesearlybreast cancerpatientsfromadjuvanttherapy:derivedandvalidatedintwopopulation-based cohorts.BreastCancerRes7(6):R953-964(2005);Miller,L.D.,etal.,Anexpression signatureforp53statusinhumanbreastcancerpredictsmutationstatus,transcriptional effects,andpatientsurvival.ProcNatlAcadSciUSA,102(38):13550-13555(2005); Bild,A.H.,etal.,Oncogenicpathwaysignaturesinhumancancersasaguidetotargeted therapies.Nature439(7074):353-357(2006);Teschendorff,A.E.,etal.,Aconsensus prognosticgeneexpressionclassifierforERpositivebreastcancer.GenomeBiol 7(10):R101(2006);Desmedt,C.,etal.,Strongtimedependenceofthe76-geneprognostic signaturefornode-negativebreastcancerpatientsintheTRANSBIGmulticenter independentvalidationseries.ClinCancerRes13(11):3207-3214(2007))。代表性的为 mammaprint(Agendia)和OncotypeDX(genomichealth),目前在临床上应用,作为关于 预后的参考资料之一仍被较多地使用(vandeVijver,M.J.,etal.,Agene-expression signatureaspredictorofsurvivalinbreastcancer.NEnglJMed347(25): 1999-2009(2002);Paik,S.,etal.,Amultigeneassaytopredictrecurrenceof tamoxifen-treated,node-ngativebreastcancer.NEnglJMed351(27):2817-2826(2004))。

本说明书中参考了大量的论文和专利文献,并注明了其引用。被引用的论文和专 利文献的公开内容全部作为参考引入本说明书,对本发明所属技术领域的水平和本发 明的内容进行更明确的说明。

发明内容

发明所要解决的课题

为了开发出能够利用包含患者的癌细胞的组织的FFPE试样对早期乳腺癌患者进 行预后预测和是否进行抗癌治疗的诊断等的基因诊断系统,本发明人努力进行了深入 研究,结果,通过对从早期乳腺癌组织获得的微阵列数据和临床信息进行收集、分析, 发掘出了与预后预测相关的基因。在发掘出的基因中,选择出能够应用于FFPE试样 的基因及其组合,确认了有用性,从而完成了本发明。

因此,本发明的目的在于提供一种对乳腺癌患者进行预后预测诊断的基因标记物 及其用途。

本发明的目的在于提供一种对乳腺癌患者进行预后预测诊断的新方法。

本发明的目的在于提供一种乳腺癌患者的预后预测诊断用的试剂盒。

本发明的目的在于提供一种计算乳腺癌预后预测值的方法,其中,为了提供乳腺 癌患者的预后预测诊断所需要的信息,包括由患者的试样分离mRNA、测定基因表 达水平、将其标准化和计算预测值的步骤。

用于解决课题的手段

为了实现上述目的,本发明提供一种对乳腺癌患者进行预后预测诊断的基因标记 物及其用途。

为了实现本发明的目的,本发明提供一种对乳腺癌患者进行预后预测诊断的新方 法。

为了实现本发明的目的,本发明提供一种乳腺癌患者的预后预测诊断用的试剂 盒。

为了实现本发明的目的,本发明提供一种计算乳腺癌预后预测值的方法,其中, 为了提供乳腺癌患者的预后预测诊断所需要的信息,包括由患者的试样分离mRNA、 测定基因表达水平、将其标准化和计算预测值的步骤。

为了实现本发明的目的,本发明提供一种引物对,其是针对选自由TRBC1(T细 胞受体β链恒定区1)、BTN3A2(嗜乳脂蛋白亚家族3成员A2)和HLA-DPA1(主要组 织相容性复合体II类DPα1)组成的组中的任意一个基因的引物对,上述引物对能够 通过PCR扩增对对象基因进行扩增。

为了实现本发明的目的,本发明提供引物对在乳腺癌的预后预测用制剂的制造中 的应用,该引物对是针对选自由TRBC1、BTN3A2和HLA-DPA1组成的组中的任意 一个基因的引物对,上述引物对能够通过PCR扩增对对象基因进行扩增。

只要没有其他定义,本说明书中使用的全部技术术语和科学术语具有本领域技术 人员通常理解的相同的含义。下述参考文献提供了具有本发明说明书中使用的多个术 语的一般定义的技术之一:Singletonetal.,DICTIONARYOFMICROBIOLOGYAND MOLECULARBIOLOGY(2ded.1994);THECAMBRIDGEDICTIONARYOF SCIENCEANDTECHNOLOGY(Walkered.,1988);和Haie&Marham,THEHARPER COLLINSDICTIONARYOFBIOLOGY.

以下对本发明的内容进行更详细的说明。

本发明提供对乳腺癌患者进行预后预测诊断的基因标记物及其用途。具体而言, 为了乳腺癌、特别是早期乳腺癌的预后预测诊断,本发明提供TRBC1(T细胞受体β 链恒定区1)、BTN3A2(嗜乳脂蛋白亚家族3成员A2)或HLA-DPA1(主要组织相容性 复合体II类DPα1)的基因标记物。因此,本发明提供一种乳腺癌预后预测方法,其 包括下述步骤:(a)由试样分离mRNA的步骤;(b)对选自由TRBC1(T细胞受体β链 恒定区1)、BTN3A2(嗜乳脂蛋白亚家族3成员A2)和HLA-DPA1(主要组织相容性复 合体II类DPα1)组成的组中的一种以上的基因的mRNA表达水平进行测定的步骤; (c)将上述基因的mRNA表达水平标准化的步骤;和(d)将上述基因的过表达判定为乳 腺癌预后良好的步骤。

本发明中,作为基因标记物发挥作用的有TRBC1(T细胞受体β链恒定区1)、 BTN3A2(嗜乳脂蛋白亚家族3成员A2)或HLA-DPA1(主要组织相容性复合体II类DP α1)。通过各自独立地选择这些基因、或者将两个基因组合或将三个基因组合而用于 早期乳腺癌的预后预测诊断。各基因为本领域公知的各基因的序列、或各基因的同义 词(synonym)的序列,优选为来源于人的各基因的序列,更优选TRBC1为Genbank 登记号BCO30533.1所记载的序列、BTN3A2为Genbank登记号NM007047.3所记载 的序列、HLA-DPA1为Genbank登记号NM001242524.1、NM-033554.3所记载的序 列。各基因的同义词及其序列可以通过Genbank或Swissprot进行检索。

本发明中,乳腺癌为浸润乳腺癌、或者为I期、II期或III期乳腺癌。此外,本 发明的乳腺癌为雌激素受体阳性(Estrogenreceptorpositive,ER+)。

本发明中“预后(prognosis)”的含义是,对疾病进行诊断所判断出的对未来的症 状或病程的推测。对于癌症患者而言,预后的含义通常是指在癌症发病或外科手术后 一定期间内是否会发生转移或者指生存期间。以特别是早期乳腺癌患者是否进行化疗 为代表,预后的预测(或预后的诊断)对之后的乳腺癌的治疗方向提供了头绪,因此是 临床上极其重要的课题。预后预测也包括患者对疾病治疗剂的反应、对治疗经过的预 测。

本发明中,试样为乳腺癌患者的乳腺癌组织。上述乳腺癌组织中有时也包含一部 分正常细胞,优选为包含患者的癌细胞的乳腺癌组织的福尔马林固定石蜡包埋 (formalin-fixedparaffin-embedded,FFPE)试样。

本发明的乳腺癌预后预测诊断标记物的检测通过针对对象基因的PCR扩增来进 行。本发明的对象基因的检测优选为对象基因的表达量的检测,更优选为对象基因的 表达量的定量检测。为了检测表达量,有时需要从试样组织内分离mRNA和由mRNA 合成cDNA的过程。为了分离mRNA,可以利用本领域公知的分离试样中的RNA的 方法,优选为适于FFPE试样的mRNA分离方法。cDNA合成过程可以以mRNA为 模板,利用本领域公知的cDNA合成方法。本发明的乳腺癌预后预测诊断标记物的检 测为FFPE试样中的mRNA表达的定量检测,因此是利用针对FFPE试样的mRNA 分离方法和RT-qPCR(逆转录定量聚合酶链式反应,reversetranscriptionquantitative polymerasechainreaction)方法进行的检测。

本发明中的检测为mRNA表达水平的测定。表达水平的测定可以利用本领域公 知的方法进行,可以通过使用了由报告荧光色素和/或猝灭(quencher)荧光色素标记的 探针的光学定量分析系统来测定。上述测定利用产业上销售的设备、例如ABIPRISM 7700TM、SequenceDetectionSystemTM、罗氏分子生化公司的Lightcycler及其附属的 软件等系统来进行。这样的测定数据以测定值或阈值循环(Ct或Cp)的形式表示。测 定出的荧光值首次被记录为在统计学上有显著差异的值时的点为阈值循环,其与检测 对象以PCR反应的模板的形式存在时的早期值呈反比例,因此,阈值循环值小的情 况下,说明在定量上存在更多的检测对象。

另一方面,本发明提供一种乳腺癌预后预测诊断用组合物,其含有引物对作为有 效成分,该引物对是针对选自由TRBC1、BTN3A2和HLA-DPA1组成的组中的任意 一个基因的引物对(primerpair),引物对能够通过PCR扩增对对象基因进行扩增。

本说明书中使用的术语“引物”表示寡核苷酸,在诱导与核酸链(模板)互补的引 物延伸产物的合成的条件下,即,在存在核苷酸和DNA聚合酶之类的聚合剂、并且 适宜的温度和pH的条件下,作为合成的起始点起作用。优选引物为单链的脱氧核糖 核苷酸。本发明中利用的引物包括天然(naturallyoccurring)dNMP(dAMP、dGMP、 dCMP和dTMP)、变形核苷酸或非天然核苷酸。此外,引物可以包含核糖核苷酸。

本发明的引物是退火到靶核酸上、利用模板依赖性核酸聚合酶形成与靶核酸互补 的序列的延伸引物,其延伸至固定化探针被退火的位置,占据探针被退火的部位。

本发明中利用的延伸引物包含与靶核酸的第1位置互补的杂交核苷酸序列。术语 “互补”的含义是指,在规定的退火或杂交条件下引物或探针与靶核酸序列选择性地 进行杂交的程度的充分的互补,具有将实质上互补(substantiallycomplementary)和完 全互补(substantiallycomplementary)全部包括在内的含义,优选其含义为完全互补。 本说明书中与引物序列关联使用的术语“实质上互补的序列”不仅包括完全一致的序 列,也包括在能够退火到特定序列上而发挥引物作用的范围内与作为比较对象的序列 有部分不一致的序列。

引物必须足够长到能够在聚合物的存在下引发延伸产物的合成的程度。引物的适 宜长度取决于多种要素,例如温度、应用领域和引物来源,典型的长度为15-30个核 苷酸。较短的引物分子为了与模板形成充分稳定的杂交复合物,通常要求更低的温度。 术语“退火”或“引发”是指寡脱氧核苷酸或核酸并置在模板核酸上,上述并置是指 聚合酶使核苷酸聚合而形成与模板核酸或其一部分互补的核酸分子。

引物的序列不需要具有与模板的一部分序列完全互补的序列,只要在能够与模板 杂交而发挥引物固有的作用的范围内具有充分的互补性即可。因此,本发明中的引物 不需要具有与作为模板的上述核苷酸序列完美地互补的序列,只要在能够与该基因序 列杂交而作为引物起作用的范围内具有充分的互补性即可。这样的引物的设计可以参 照上述的核苷酸序列由本领域技术人员容易地实施,例如可以利用引物设计用程序 (例如:PRIMER3程序)。

本发明提供一种含有本发明的引物对的乳腺癌的预后预测诊断试剂盒。本发明的 试剂盒中,除了TRBC1、BTN3A2和/或HLA-DPA1的可利用PCR进行扩增的引物 对之外,还可以追加含有用于PCR反应、试样的RNA分离和cDNA的合成的本领域 公知的工具和/或试剂。本发明的试剂盒可以根据需要追加含有用于各成分的混合的 管、微孔板和记载有使用方法的指示资料等。

本发明提供一种为了提供乳腺癌患者的预后预测诊断所需要的信息而由患者的 试样计算出乳腺癌预后预测值的方法,其包括下述步骤:

(a)由试样分离mRNA的步骤;

(b)对选自由TRBC1、BTN3A2和HLA-DPA1组成的组中的一种以上的基因的 mRNA表达水平进行测定的步骤;

(c)将上述基因的mRNA表达水平标准化的步骤;和

(d)将标准化后的数值代入预先制定的计算式中而计算出数值的步骤;

(e)根据上述数值的水平计算出乳腺癌预后良好或差的步骤。

根据对象患者或试样的不同,整体的基因表达量或表达水平可能存在差异,因此 本发明中的检测对象的表达水平需要进行标准化。标准化利用能够显示出基本表达量 或表达水平的差异的基因的表达量或表达水平的差异来进行,优选对CTBP1(C末端 结合蛋白1,C-terminal-bindingprotein1)、TBP(TATA结合蛋白,TATA-binding protein)、HMBS(羟甲基胆素合酶,hydroxymethylbilanesynthase)、CUL1(cullin1,滞 蛋白1)和UBQLN1(泛醌蛋白1,Ubiquilin-1)中的一种或五种基因的表达量(或者,在 选择多个基因的情况下,为这些基因的表达量的平均值)进行测定,计算出相对于它 们的表达量的比。

另一方面,本发明提供一种乳腺癌预后预测诊断方法,其包括利用引物对由乳腺 癌患者的试样对下述选择的基因的mRNA表达水平进行测定的步骤,上述引物对是 针对选自由TRBC1、BTN3A2和HLA-DPA1组成的组中的任意一个基因的引物对, 上述引物对能够通过PCR扩增对对象基因进行扩增。

本发明提供一种引物对,其是针对选自由TRBC1、BTN3A2和HLA-DPA1组成 的组中的任意一个基因的引物对,上述引物对能够通过PCR扩增对对象基因进行扩 增。

本发明提供引物对在乳腺癌预后预测用制剂的制造中的应用,该引物是针对选自 由TRBC1、BTN3A2和HLA-DPA1组成的组中的任意一个基因的引物对,上述引物 对能够通过PCR扩增对对象基因进行扩增。

作为参考,上述提及的核苷酸和蛋白质操作可以参照下述文献。(Maniatiset al.,MolecularCloning:ALaboratoryManual,ColdSpringHarborLaboratory,ColdSpring Harbor,N.Y.(1982);Sambrooketal.,MolecularCloning:ALaboratoryManual,2d Ed.,ColdSpringHarborLaboratoryPress(1989);Deutscher,M.,GuidetoProtein PurificationMethodsEnzymology,vol.182.AcademicPress.Inc.,SanDiego,CA(1990); Ausubeletal.,CurrentProtocolsofMolecularBiology,JohnWileyandSons(1997);Rupp andLocker,LabInvest.56:A67(1987);DeAndresetal.,BioTechniques18:42044(1995); Heldetal.,GenomeResearch6:986-994(1996);T.E.Godfreyetal.J.Molec.Diagnostics 2:84-91(2000);K.Spechtetal.,Am.J.Pathol.158:419-29(2001)).

发明的效果

本发明提供早期乳腺癌的预后预测诊断用的基因标记物。本发明的基因标记物能 够进行乳腺癌患者的预后和预测的诊断,因此,以抗癌治疗的必要性判断为代表,能 够有效地用于对之后的乳腺癌治疗方向提供头绪的目的。

附图说明

图1a是表示基于乳腺癌组织的微阵列数据的策管(curation)和预处理 (pre-processing)的标准化过程的示意图。图1b是表示由发现数据集发掘预后预测基因 的过程的图。

图2是将预后预测模型(冷冻试样)在发现数据集中进行验证的结果。9a中,将利 用预后预测模型得到的全体患者的预后预测指数4等分,分类为4个预后组后,确认 各预后组的观察生存概率是否良好地分离。对观察生存概率与预测生存概率也进行了 比较。9b中对全部患者的观察生存概率与利用预后预测模型预测出的生存概率进行 了比较。9c是针对影响力最高的p.均值将全部患者分为四个组、考察各组的观察生 存概率与利用预后预测模型预测出的生存概率是否一致的图。9d是针对5年生存率 考察观察生存概率与预测生存概率的一致程度的图。

图3是在验证集1中对预后预测模型进行验证的结果。与在发现数据集中进行验 证的方法相同。10a是针对判定的验证结果,10b是针对观察时间的校正的验证结果。 10c是针对5年生存率的校正的验证结果。

图4是在验证集2中对预后预测模型进行验证的结果。与在发现数据集中进行验 证的方法相同。11a是针对判定的验证结果,11b是针对观察时间的校正的验证结果。 11c是针对5年生存率的校正的验证结果。

图5是在验证集3中对预后预测模型进行验证的结果。与在发现数据集中进行验 证的方法相同。

图6是针对所选择的p-基因的FFPE试样(西门子、纵轴)/冷冻试样(冷冻、横轴) 间的关联性测定结果,基因的名称和关联性的值(cor)分别如记载所示。

图7是针对所选择的i-基因的FFPE试样(西门子、纵轴)/冷冻试样(冷冻、横轴) 间的关联性测定结果,基因的名称和关联性的值(cor)分别如记载所示。

具体实施方式

以下通过实施例详细说明本发明。

但是,下述实施例仅为本发明的示例,本发明的内容不限于下述实施例。

关于本说明书的实施例,是将韩国专利公开公报第10-2012-0079295号和PCT公 开公报WO2012093821A2所公开的内容全部作为参考引入本说明书,对本发明所属 技术领域的水平和本发明的内容进行更明确的说明。

<实验方法>

早期乳腺癌组织的表达谱的收集

利用早期乳腺癌患者的冷冻癌组织得到的表达谱和临床信息从公开数据库 GEO(http://www.ncbi.nlm.nih.gov/geo)进行收集。共计9个独立的表达谱集是各自由 100个以上的样品构成的较大的数据集,均是为了进行与早期乳腺癌患者的预后相关 的研究而制作的。(2,4,9,10,13,25,32,33)。其中8个数据集是利用昂飞U133A 微阵列平台制作的,只有余下的一个是利用安捷伦Hu25K制作的。多数情况下,同 时收集了患者的重要临床信息(年龄、性别、癌的大小、转移状态和分化程度)和生存 信息。8个利用昂飞U133A制作的数据集中,6个数据集的生存信息针对的是无远处 转移生存期(distantmetastasisfreesurvival),余下的2个为总生存期(overallsurvival)。 安捷伦数据具有针对远处转移的生存信息。由于远处转移在决定预后方面是最具决定 性的事项、远处转移由癌的固有特性决定、并且收集到的数据中具有针对远处转移的 信息的患者最多,因此,决定基于是否存在远处转移来进行生存分析。对收集到的全 部患者的信息进行比较,剔除重复的186名患者的表达谱,对共计1861名独立患者 进行了研究。对于利用同一平台(昂飞U133A)制作的7个数据集,收集对应的全部患 者的表达谱的原文件(.CEL),进行标准化。关于标准化方法,进行rma(背景校正:rma, 标准化:分位数标准化,汇总:中位数平滑)方法,在执行标准化时,利用了Manhong Dai等人开发的自定义CDF(http://brainarray.mani.med.umich.edu/Brainarray/) ENTREZG版本13(34)。标准化后,各探针的表达量减去发现数据集内的各探针的平 均值,由此将1-色(color)表达量转换为与2-色表达量相同的形态。将共计8个标准化 后的数据集中的5个数据集汇总为一个数据集来作为发现数据集使用,将2个数据集 另行汇总为验证数据集1,将余下的一个作为验证数据集2使用。安捷伦数据集作为 验证数据集3使用。

患者的预后和ER状态的定义设定

为了发掘与患者的预后相关的基因,将收集到的患者分类为预后良好的组和预后 差的组。一般来说,利用临床上5年生存或者转移信息来进行分类。即,将5年内发 生转移或死亡的情况称为预后差,将5年以上未转移或生存的情况称为预后良好。利 用发现数据集的患者信息,对发生了转移的患者的生存时间分布进行了考察。发生了 转移的患者中的73%以上在5年以内发生了转移,在10年以后观察到转移的情况不 足7%。基于此,将发现数据集的患者中5年以内发生了转移的217名患者分类为“预 后差的组”,将10年以上未发生转移的281名患者分类为“预后良好的组”。分类 的结果,预后差的组的生存时间中位数为2.4年,预后良好的组的生存时间中位数为 12.9年。通过明确分类为预后差的组和预后良好的组,能够将由不准确的生存信息所 致的错误降至最低限度。是否表达雌激素受体是对乳腺癌患者进行亚型分类时最普遍 使用的基准。通常在临床上,根据病理学者做出的ERIHC(免疫组织化学, immunohistochemistry)判断结果,分为ER+或ER-。在收集到的发现数据集中,约200 名患者不具备ERIHC信息,考虑到构成发现数据集的5个数据集独立地确定了ER IHC,利用各患者的表达谱中的ESR1基因的mRNA表达量确定了ER状态。对于具 备ERIHC信息的患者,利用ERIHC信息和ESR1mRNA表达量进行了ROC(收敛域, regionofconvergence)分析。对ERIHC结果和ESR1mRNA表达量进行比较,将准确 度(0.88)最高的表达量的点作为截止值,在显示出截止值以上的表达量的情况下分类 为ER+,在显示出截止值以下的表达量的情况下分类为ER-。在发现数据集中,864 名配置为ER+,240名配置为ER-。

预后预测基因的选择

在发现数据集中,将预后良好的组和预后差的组分类为ER+、ER-的情况。预后 良好的患者共计275名,预后差的患者为218名。通过SAM(微阵列显著性分析, SignificantAnalysisofMicroarray)分析,考察了在预后组之间表达量产生差异的基因。 利用SAM分析结果的q-值,选择出预后良好的组中过表达的基因、预后差的组中过 表达的基因。将选择出的基因汇总在一起,结果制作出共计302个不重复的基因集, 利用主要成分分析(PrincipalComponentAnalysis,PCA)方法,进行了用于考察这些基 因的表达模式的聚类分析。选择两个主要成分,对各主要成分考察了相关的生物学功 能,按各聚类进行了GO功能分析。

GO分析结果显示,主要成分1集中于增殖,主要成分2集中于免疫反应。以属 于与增殖和免疫反应相关的两个主要成分的基因为对象,分别选择出预后组间表达量 最大的基因。各基因集中,将显示出增殖的表达模式的基因命名为p-基因、将显示出 免疫反应的表达模式的基因命名为i-基因。

利用了参数的生存分析的预后预测模型构成

利用参数型生存模型中的加速失效时间模型(acceleratedfailuretimemodel, AFT),进行以p-基因和i-基因的表达量为协变量的回归分析。对于4个p-基因,按 各患者求出平均值,转换为p.均值来应用,对于5个i-基因,也按各患者求出平均值, 转换为i.均值来应用。加速失效时间模型为

Ti=T0exp(β1x12x2+…+βqxqi(1)

此处,Ti为第i个个体的生存时间、T0为基线生存时间、xj为协变量的矢量 (j=1.2、··q)、β为对应的协变量的系数,ε为误差。在该模型中,协变量有使基线生 存时间提高的影响,因此,在频繁利用该模型的产业领域中将其称为加速失效时间模 型。将使生存时间提高的作用效果Φ=β1x12x2+…+βqxq称为加速因子。

如果对式(1)取自然对数,则成为

logTi=logT01x12x2+…+βqxq*(2)

AFT模型采用与一般线性回归模型同样的形态。但是,由于因变量logT不显示 正态分布,并且生存分析试样中容易存在在线性回归模型中不被接受的中途切断例, 因此无法将式(2)如线性回归模型那样进行处理。与由一般线性回归模型假设正态分 布的方法不同,式(2)的ε*的分布可能根据数据集而不同,因此实际的统计处理繁琐。 为了克服这一点,将logT0和ε*变形,以如下方式表现。

logTi=logT01x12x2+…+βqxq+σW(3)

在此,W遵从logT的分布,其分散由标准化分布的值所固定。σ是作为尺度参 数的常数,其值取决于所处理的数据集。

利用AFT模型,对于各种候选预后预测模型,对照韦布尔(weibull)分布、对数逻 辑斯谛克(loglogistic)分布、对数正态(lognormal)分布来看,选择最适合的模型。与 AFT模型对应的风险度分布利用了通过制作发现数据集的生存信息的定群寿命表而 得到的风险函数。得到了定群寿命表的风险函数显示单峰(unimodal)形态,因此预测 韦布尔、对数逻辑斯谛克、对数正态分布是适合的。最终模型的选择是考虑赤池信息 量准则(Akaikesinformationcriterion,AIC)和R方(Rsquare,R2)来选择的。

预后预测模型的验证

针对所选择的模型的验证是针对“校正(calibration)”和“判定(discrimination)” 来进行的。“校正”是对利用所制作的预后预测模型预测出的生存概率与实际观察到 的生存概率的一致程度进行考察;“判定”是对将根据预后预测模型得到的患者组分 类为预后组时的分离性进行考察。在此所述的实际观察到的生存概率是指利用 Kaplan-Meier法求得的值。基于AFT的预后预测模型可以针对全部的时间带求出各 患者的生存概率。对由模型预测出的生存概率和基于Kaplan-Meier法得到的生存概率 进行比较。为了如Kaplan-Meier(KM)那样得到基于全部时间的预测生存概率,以0.1 为单位从0年至25年求出全部患者的生存概率曲线,计算求出各时间的平均生存概 率。在针对全部生存时间的生存概率的比较的同时,还比较了5年生存概率。使用所 提供的数据集利用预后预测模型对患者们的5年生存概率进行预测,将所得到的生存 概率以利用风险回归分析的Hare计算出的5年生存概率作为预测值来进行比较。

“判定”是将所提供的数据集的全部患者的预后预测指数分为4个区间,对属于 各区间的患者们的生存概率利用KM曲线图进行比较。预后预测指数为生存模型的因 变量。四个经预测的预后组的KM曲线图越能够清晰地分开,越是判定功能良好的模 型。

针对发现数据集和三个独立的验证数据集,全部进行了“校正”和“判定”的考 察。

统计分析中使用的重要R程序包如下所示:

affy:利用rma运算对.CEL文件进行预处理(pre-processing)。

samr:在预后组之间存在表达量差异的基因发掘。

GOstats:与所选择的基因集相关的功能的考察

KMsurv:利用发现数据集的生存试样制作寿命表

rma:利用AFT模型对预后预测模型的计数进行测定、对模型进行校正

能够适用于FFPE样品的基因集的选择

由FFPE(福尔马林固定石蜡包埋,formalin-fixedparaffinembedded)组织、试样提 取出的RNA在组织或试样的处理过程中会由于引起组织间交联的固定等抑制RNA 稳定性的多种过程而无法作为适于表达分析的RNA。本发明中,为了基于实际乳腺 癌治疗过程而开发出适于FFPE样品的乳腺癌预后预测方法,在通过上述主要成分分 析和针对主要成分分析的功能分析(GO功能分析或GO分析)得到的显示增殖的表达 模式的p-基因(增殖相关基因集)、显示免疫反应的表达模式的i-基因(免疫反应相关基 因集)中,分别按照贡献度最高的基因顺序,通过设置IQR(四分位距,interquartilerange) 高、并且平均表达量高的优先顺序来选择出基因集。

本发明中,对于p-基因、i-基因分别选择出多个模式相同的基因的原因在于,微 阵列数据对于测定准确的表达量是有限度的,与显示该模式的一个基因的表达量相 比,模式内的多个基因的平均表达量更能够代表实际表达模式。

FFPE试样与冷冻试样之间的基因间关联性测定和基因选择

确保27种由同一患者采集的FFPE试样和冷冻试样,分别利用FFPE或冷冻试样 的RNA提取方法对其提取RNA。以提取出的RNA为模板,针对选择出的32种基因 测定表达量。

由于基因的表达量可能存在个体间差异,因而需要进行标准化,因此,利用被选 为标准化用基因的5种基因、即CTBP1(C末端结合蛋白1)、TBP(TATA结合蛋白1)、 HMBS(羟甲基胆素合酶)、CUL1(滞蛋白)和UBQLN1(泛醌蛋白1)的表达量进行标准 化,对FFPE试样与冷冻试样之间的基因表达的关联性进行测定。

基于关联性测定结果和各基因在试样中的表达量结果,将关联性值高、样品间基 因表达分布多样的基因最终选为早期乳腺癌预后预测可靠性高的基因。

<实验结果>

用于预后预测模型的预后基因的选择

将由早期乳腺癌组织的表达谱构成的5个数据集全部汇总,构成1104个样品的 发现数据集。全部患者均未接受化疗,一大半完全没有腋下淋巴结转移(N0或N-)、 或者为乳腺癌早期(I期或II期)。以其中具备关于远处转移的生存信息的1072名为对 象进行了统计学分析。为了寻找与预后相关的基因,将预后良好的组(10年以上无转 移的情况)和预后差的组(5年以内有转移的情况)的表达谱分开进行了比较。在预后良 好的组中选择出显示高表达量的182个基因,在预后差的组中选择出显示高表达量的 120个基因(结果未图示。FDR<0.001)。

对选择出的302个基因的表达量进行了主要成分分析。对主要成分1和主要成分 2进行了GO分析。主要成分1极其明显地与增殖相关,主要成分2与免疫反应显示 出强相关。基于此,选择属于出主要成分1的基因,选择出属于主要成分2的基因, 由此将2种表达模式反映到预后预测模型中。

所选择的9个基因不仅与预后相关,而且也作为预后组间的表达差异最大的基因 被选出。将在显示增殖的主要成分1中选出的基因命名为p-基因,将在显示免疫反应 的主要成分2中选出的基因命名为i-基因。

ER+乳腺癌与ER-乳腺癌的比较

已知雌激素受体表达的有无与乳腺癌的发生和发展密切相关。与预后相关而被选 出的基因所显示的两种功能、即增殖和免疫反应在癌症的机制方面具有非常令人感兴 趣的功能。利用所选出的16个基因,对ER-乳腺癌和ER+乳腺癌进行了比较。为了 显示各功能的强度,利用平均表达量将p-基因和i-基因分为3个层次(p1、p2、p3或 i1、i2、i3)。p1是p-基因的表达量最低的组,假设其增殖最慢。p3是p-基因的表达 量最高的组,假设其能够最活跃地引起增殖。p2表示中间表达量,假设其为中间程 度的增殖。i1是i-基因表达最少的组,假设具有弱免疫反应。i3为i-基因表达最多的 组,视为具有极强的免疫反应。i2被视为显示中间程度的表达量和活动。

根据p-基因和i-基因的表达量对发现数据集内的1072名进行分类,考察各ER 状态下关于各功能的强度的构成。与ER+乳腺癌相比,ER-乳腺癌中极其活跃地增殖 的p3型的比例极高。约62%的ER-乳腺癌显示出极高的p-基因表达量(p3),与之相 反,仅18%的ER+乳腺癌显示出高p-基因表达量,这与ER-乳腺癌具有远高于ER+ 乳腺癌的侵袭性倾向的见解是一致的。约35%的ER+乳腺癌显示出低p-基因(p1),ER- 的情况下p1的比例仅为9%。活跃的免疫反应功能是ER-乳腺癌的特征,38%以上的 ER-乳腺癌中i-基因(i3)的表达量极高。与之相反,ER+乳腺癌中21%左右显示高i-基 因表达量。在ER+和ER-中,均观察到增殖越活跃、免疫反应也越活跃的现象,但 ER-乳腺癌看起来免疫反应更为积极。

此外显示出乳腺癌的分化程度也与增殖有密接关系。越是分化不充分的乳腺癌 (G3),越显示出快速增殖,分化充分的乳腺癌(G1)显示出弱增殖。显示出患者的预后 也与增殖具有相关关系。观察到5年内发生转移的预后差的患者大多数更多地聚集在 增殖快的组中。

综合而言,与ER+乳腺癌相比,ER-乳腺癌的增殖和免疫反应均极为活跃,推测 ER的表达量会影响乳腺癌的发生和发展的机制。

预后预测模型的建立

利用被选择为发现数据集的生存信息的p-基因和i-基因,制作出针对早期乳腺癌 患者的转移的AFT预后预测模型。利用发现数据集的生存信息,制作以1年为单位 的定群寿命表,计算出大致的风险度。

由定群寿命表得出的死亡概率显示单峰状,因此预测韦布尔、对数逻辑斯谛克、 对数正态分布是适合的。预后预测模型所含有的协变量为p.均值和i.均值。p.均值是 p-基因的平均值,i.均值是i-基因的平均值。

针对三个模型应用韦布尔、对数逻辑斯谛克、对数正态分布,结果对数正态分布 最为适合。利用AIC(赤池信息量准则)选择出适应对数正态分布的最终模型。

log(T)=-0.689×p.均值+0.274×i.均值+3.219

根据上述推定的模型,p.均值即增殖与生存时间(T)具有负相关关系(-0.689,p值 =2.47×e-17),增殖越活跃,生存时间越短。相反,i.均值与生存时间具有正相关关系 (0.247,p值=3.69×e-11),表示随着免疫反应的活跃化,生存时间延长。对上述推定的 变量进行解释得出的结论是,增殖对乳腺癌的预后起到决定性的作用,随着增殖的活 跃化,预后变差,另一方面,免疫反应作为对抗快速增殖的防御机制起作用。

预后预测模型的验证

利用发现数据集的1072名早期乳腺癌患者的表达谱制作的预后预测模型的验证 是针对“校正”和“判定”来进行的。“校正”是对通过模型预测出的生存概率与实 际观察到的生存概率的一致程度进行考察,此时,实际观察到的生存概率是指利用 Kaplan-Meier法得到的生存概率。“判定”是如何利用模型将患者良好地分类到预后 组中。针对两种性能的验证在开发出模型的发现数据集和三个独立的验证数据集中进 行。

针对开发出预后预测模型的发现数据集,将预后预测指数(prognosticindex,PI)4 等分,分类为四个预后组。针对根据预后预测指数分类的四个预后组,利用作为观察 生存概率的KM曲线图进行比较。结果可以确认四个预后组得到了良好的分类,观察 到各预后组的预测生存概率与观察生存概率一致。

利用曲线图对KM生存概率和通过预后预测模型预测的生存概率进行比较。由于 预后预测模型是针对全部患者求出全部的各时间生存概率,因此,为了如KM生存曲 线那样得到针对全部生存时间的概率曲线,利用各患者的各时间(0年-25年、间隔为 0.1)的平均生存概率,绘制出生存概率曲线图。虽然预测的生存概率略高于基于KM 得到的生存概率,但整体上是近似的。除了针对生存时间的生存概率的比较以外,还 对5年生存概率进行了比较。基于模型得到的5年生存概率也与实际观察到的5年生 存概率类似,特别是预测出的5年生存概率越高,预测概率与观察概率越一致。

为了进行更加客观的验证,利用三个独立的验证数据集对预后预测模型进行了验 证。第一个验证数据集是将利用昂飞U133A平台制作的两个数据集合并后的数据集。 第二个验证数据集是利用昂飞U133A平台制作的数据,均为服用了5年他莫昔芬的 ER+患者。第三个验证数据集是为了进行70个预后预测基因(现在作为mammaprint 得到常用化)的发掘和验证而使用的数据集,是利用安捷伦Hu25K平台制作的。验证 数据集1和2的情况下,与发现数据集同样地利用昂飞U133A平台来制作,并且与 发现数据集一同地对表达量进行了标准化。验证数据集1和2对校正和判定的性能进 行了评价,验证数据集3在表达量标准化方面存在问题,仅对判定的性能进行了评价。

能够适用于FFPE样品的基因集的选择

1104个发现数据集中,针对在预后良好的组中显示高表达量的182个基因和在 预后差的组中显示高表达量的120个基因,分别按照贡献度最高的基因顺序沿IQR(四 分位距)高、并且平均表达量高的基因的优先顺序选择出32种基因。

FFPE试样与冷冻试样之间的基因间关联性测定和基因选择

为了测定FFPE试样/冷冻试样间的关联性,需要由患者或癌组织得到确保FFPE 试样和冷冻试样这两者的样品。针对如此确保的27对FFPE试样和冷冻试样,测定 了选择出的32种基因各自的表达量和FFPE试样/冷冻试样间的关联性。其结果,从 p-基因中选出12种、从i-基因中选出15种关联性值高且样品间基因表达分布多样的 基因作为早期乳腺癌预后预测可靠性高的基因。

上述选择出的基因中,选出9种p-基因和6种i-基因作为包含在预后诊断用试剂 盒中的基因。

针对各基因测定关联性的结果如图6和图7所示。图中的实线表示横轴与纵轴为 等价值(斜率为1,即,将横轴与纵轴相等的值连起来用线表示)。

另一方面,上述各基因中,TRBC1、BTN3A2、HLA-DPA1在预后良好的组和预 后差的组中的表达水平存在显著性差异。通过这样的分析可知,TRBC1、BTN3A2、 HLA-DPA1在预后良好的组中表达显著地增加,因此可以确认,表达增加(过表达) 表示乳腺癌预后良好。

[工业实用性]

如上所述,本发明提供早期乳腺癌的预后预测诊断用的基因标记物。本发明的基 因标记物能够进行乳腺癌患者的预后的预测、诊断,因此,以抗癌治疗的必要性判断 为代表,能够有效地用于对之后的乳腺癌治疗方向提供头绪的目的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号