首页> 中国专利> 黑素细胞病变中的分子恶性肿瘤

黑素细胞病变中的分子恶性肿瘤

摘要

本申请公开了用于确定含黑素细胞的样品(如痣或其他色素病变)是良性的或是原发性黑素瘤的方法。这些方法可包括在来自受试者的样品中检测(在分子水平上,例如mRNA、miRNA或蛋白质)至少两种公开基因的表达。本申请还提供了可用于所述方法的阵列和试剂盒。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-04-06

    授权

    授权

  • 2015-07-08

    实质审查的生效 IPC(主分类):C12Q1/68 申请日:20130624

    实质审查的生效

  • 2015-05-06

    公开

    公开

说明书

相关申请的交叉引用

本申请要求于2012年6月22日提交的美国临时申请61/663,428的 优先权,所述临时申请以引用的方式全文纳入本文。

技术领域

本公开内容涉及用于将黑素细胞病变表征为良性或恶性的生物标 记物。具体地,本公开内容涉及在痣和原发性黑素瘤样本中显著差异表 达的生物标记物(包括mRNA和/或miRNA)的鉴定,基于此类生物 标记物的表达的临床预测算法,以及使用它们的方法和组合物。

联合研究协议的各方

HTG Molecular Diagnosis和John Wayne癌症研究所是管理本文公 开的发明的联合研究协议的各方。

背景技术

皮肤癌是在美国的所有癌症中最常见的。黑素瘤——起源于黑素细 胞的癌症——占了皮肤癌的较小百分比。但是,黑素瘤造成最多的皮肤 癌死亡,使其成为最危险的皮肤癌类型之一。在2012年,将有超过75, 000皮肤癌病例为黑素瘤。

黑素细胞还存在于除皮肤以外的器官中,包括眼睛(例如,葡萄膜、 睫状体、结膜、眼睑、虹膜或眼眶之中或之上)、内耳、脑膜、骨骼、 和心脏。眼黑素瘤是成人中最常见的眼肿瘤并且是体内第二种最常见的 原发性恶性黑素瘤类型。在美国,眼黑素瘤的发病率为约5例/1万人。

为了诊断黑素瘤,将疑似的组织进行活检并由病理学家在显微镜下 检查,优选(但通常不)被专门训练在组织活检中鉴定黑素瘤的病理学 家。如果该病理学家报告发现了黑色素瘤,则很多因素(包括以毫米计 的肿瘤的深度、存在或不存在溃疡、有丝分裂速率和/或肿瘤是否已经 扩散)被用于确定人体的预后和治疗的过程。当所述肿瘤尚未扩散,通 常进行更广泛的局部切除术以确保除去整个病变部位以及该黑素瘤周 围的正常组织的清晰边缘。如果指示需要更极端的治疗,患者还可接受 淋巴结切除术、免疫治疗、化学治疗或放射治疗。

当黑色素瘤在其极早期阶段被发现时,其几乎通常都是可治愈的。 不幸的是,该疾病的误诊是常见的(Piepkorn et al.,J.Am.Acad. Dermatol.,30:707,1994;Farmer et al.,Hum.Pathol.,27:528,1996; Corona et al.,J.Clin.Oncol.14:1218,1996;Barnhill et al.,Hum.Pathol., 30:513,1990;Brochez et al.,J.Pathol.196:459,2002)。诊断误差具有很多 根本原因(例如,参见Ruiter et al.,Sem.Cutaneous Med.Surg.,22:33, 2003),包括难以区分良性黑素细胞痣和早期黑素瘤以及非典型痣和发 育不良痣。

黑素瘤诊断中的错误对患者、其家庭以及社会大众具有严重不利的 影响。被错误诊断患有黑素瘤的患者可能经历不适当的和潜在危险性的 治疗,可能生活在复发的持续恐惧中,并且可能不能获得生命或健康保 险。另一方面,被错误诊断患有痣而不是黑素瘤的患者无法得到对其恶 性肿瘤的适当治疗,并且生命可能过早地缩短。最后,该问题的社会影 响(society toll)被以下事实证明,即,黑素瘤的误诊仅次于乳腺癌误 诊——其是美国癌症医疗事故索赔的最常见原因(McDonald et al., Internet J.Fam.Practice,7(2),2009;Troxel,Am.J.Surg.Pathol.,27:1278, 200)。

考虑到单独的组织病理学的限制性,具有用于适当诊断黑素瘤的其 他工具在医疗科学上是非常重要的。具体地,需要工具来确定哪些活检 组织(例如发育不良痣或不确定痣)实际上可能被误诊为黑素瘤、和/ 或哪些活检组织(例如,痣)可以证明黑素瘤的分子特征或黑素瘤的进 展。

发明内容

本申请公开了用于表征含黑素细胞的样品,例如确定样品是否是良 性痣或恶性黑素瘤的方法。在一些实例中,这些方法包括通过在来自受 试者的含黑素细胞的样品中确定以下的表达水平(如核酸或蛋白质水 平):(i)至少两种选自MAGEA2、PRAME、PDIA4、NR4A1、PDLIM7、 B4GALT1、SAT1、RUNX1、SOCS3和表13中的那些的生物标记物以 及(ii)至少一种标准化生物标记物,从而产生所述至少两种生物标记 物和所述至少一种标准化生物标记物中的每一种的原始表达值。将所述 至少两种生物标记物中的每一种的原始表达值标准化为所述至少一种 标准化生物标记物的原始表达值,以产生所述至少两种生物标记物中的 每一种的标准化表达值。将所述标准化的表达值用于回归或机械学习算 法以产生输出值。将所得输出值与截断值(cut-off value)比较,所述 截断值可衍生自事先已知为良性或恶性的多个含黑素细胞的样品中所 述至少两种生物标记物的标准化表达值。然后将来自所述受试者的含黑 素细胞的样品表征为,例如良性的(如果所述输出值与所述多个已知良 性样品的截断值在同一侧)或者恶性的(如果所述输出值与所述多个已 知恶性样品的截断值在同一侧)。

本申请还提供了用于在含黑素细胞的样品中确定恶性肿瘤的方法。 这样的方法可包括确定选自以下的至少两种生物标记物的表达水平(如 核酸表达水平):来自患者的含黑素细胞的样品中的B4GALT1、BAX、 MAGEA2、NR4A1、PDIA4、PRAME、RUNX1、SOCS3、SAT1、PDLIM7、 BIRC5、MET、MAGEC2、POLR2J3、ZFYVE16和BEST1。该方法 还可包括:计算来自使用所述至少两种生物标记的表达水平作为内参的 算法的输出结果,并通过将所述输出结果与来自已知恶性含黑素细胞的 样品的参照标准进行比较来从所述算法输出结果中确定所述样品是否 是恶性的。该方法还可包括将所述至少两种选择的生物标记物的表达水 平标准化为所述至少一种标准化生物标记物的表达水平,如表3中的那 些中的至少一种。

本申请还公开了用于诊断生物样品(如含黑素细胞的样品)为良性 痣和原发黑素瘤的阵列和试剂盒。例如,阵列可包括至少三个可寻址位 置,每个位置具有固定的带有相同特异性的捕获探针,并且每个位置具 有带有不同于其他各位置的捕获探针的特异性的捕获探针,其中在所述 至少三个位置中的两个上的捕获探针能够直接或间接地与生物标记物 特异性杂交,所述生物标记物包括MAGEA2、PRAME、PDIA4、NR4A1、 PDLIM7、B4GALT1、SAT1、RUNX1、SOCS3和表13中的那些中的 两种或多种,并且在所述至少三个位置中之一的捕获探针能够直接或间 接地与表3中列出的标准化生物标记物特异性杂交,并且其中每一种捕 获探针的特异性可由所述阵列的可寻址位置来识别。提供了试剂盒,其 包括本文提供的一个或多个阵列,以及以下中的一个或多个:含有裂解 缓冲液的容器;含有特异性针对单链核酸的核酸酶的容器;含有多个核 酸编程接头的容器;含有多个NPP的容器;含有多个双功能检测接头 的容器;含有特异性结合双功能检测接头的检测探针的容器;以及含有 检测试剂的容器。

根据以下参照附图进行的若干实施方案的详细描述,本公开内容的 上述和其他特征会变得更加清楚。

附图说明

图1是示出了本文所公开的诊断测试的实施方案如何(如从“活检” 点向下的箭头发出的流程图元件(黑色阴影中)所指示的)符合当前用 于黑素瘤诊断的美国国家癌症网络临床建议。

图2A和2B示出了在各自曲线上面所指示的代表性标准化基因(即, MFI2、RAP2B、BMP1和NCOR2)的箱线图(顶部)、平均曲线(中 间)和SAS diffograms(底部)。总体上,这些结果表明,每一个标准 化基因在痣和原发性黑素瘤样品之间都没有统计学上的显著差异,并且 每一个这样的基因产生具有低标准偏差的一致结果。

图3示出了SAS输出结果,其证明了所述代表性的B4GALT1和 NR4A1(4-标准化物)模型的统计学显著性。总体上,所述输出结果证 明所述模型收敛于一个解,并且因此证明所述模型的结果是可靠的。全 局零假设的模型拟合和检验显示了总体模型具有统计学显著性或所观 察到的结果不太可能只归于偶然性的概率,Wald卡方=15.856,2df, p=0.0004。Hosmer和Lemeshow检验测试了所述零假设——不缺乏与 所述模型的拟合;或者所述模型精确地重现了数据。使用Hosmer和 Lemeshow检验未发现显著性,进一步支持了所述模型的值。应注意, 显著性的Hosmer和Lemeshowp值(例如,小于0.05)会表明缺乏一 些与模型的拟合,或者所提出的模型,(在一定程度上)不能充分地拟 合实验数据。

图4示出了所述代表性的B4GALT1和NR4A1(4-标准化物)模型 的ROC曲线。所述ROC曲线显示所述模型具有非常高的灵敏度和特 异性。灵敏度表示真实阳性率(即,如果一个人患有疾病,该测试是阳 性的频率;或者,灵敏度=(真阳性/(真阳性+假阴性))。特异性表 示真实阴性率(即,如果一个人不患有所述疾病,该测试是阴性的频率; 或者,特异性=(真阴性/(真阴性+假阳性))。所述曲线下面积 (AUC=0.9892)说明该模型以非常高的精度区分所述两个群体(即, 痣和原发性黑素瘤)的能力。

图5示出了在不同的阈值下的所述代表性的B4GALT1和NR4A1 (4-标准化物)模型在SAS交叉验证后的分类结果。所述概率水平是将 测试样品称为原发性黑素瘤的概率。通过提高将样品称为原发性黑素瘤 的阈值(截断值),所述模型获得了非常高的特异性和良好的灵敏度。 这些结果进一步证明使用该模型在很宽的阈值范围内获得了非常高的 特异性和良好的敏感度。

图6示出了图5分类表的一个延续。这些延续的结果显示降低所述 临界阙值导致更高的灵敏度和少许降低的特异性,同时仍然保持非常高 的总体分类精度。

图7示出了即使在多个不同的估计程序下,所述代表性的 B4GALT1和NR4A1(4-标准化物)模型具有高度显著性。基于回归的 模型中,通常假设具有等方差。异方差(特别是当样品大小不等时)可 导致标准估计实践给出不正确的结果。尽管方差齐性的Brown-Forsythe 检验显示在所述总体方差之间没有显著性差异(未示出),运行了经验 共变量“夹心(sandwich)”估计器检验——其在可能存在异方差或一 些其他对通常假设的违反时被使用。所述“夹心”估计器检验(左框) 确认了在所述标准Fisher评分方法中获得的原始结果不是由于对模型 假设的违反。类似地,Firth偏差减少惩罚似然模型(右框)提供了额 外的信息——所述结果对估计程序不敏感。

图8示出了如Wald卡方所指示的,所述B4GALT1和NR4A1(2- 标准化物)模型拟合也是非常显著的。所述ROC曲线证实该模型也具 有非常高的灵敏度和特异性。所述B4GALT1和NR4A1(2-标准化物) 和B4GALT1和NR4A1(4--标准化物)模型的曲线下面积的细微的变 化(即,Δ=0.0125)显示了所述两个模型正确区分痣和原发性黑素瘤 样品的能力非常相似。

图9示出了所述B4GALT1和NR4A1(2-标准化物)模型的概率分 类表。这些结果证明该模型保持非常高的灵敏度和特异性。和B4GALT1 和NR4A1(4--标准化物)模型相比,所述2--标准化物模型的整体特异 性在该模型范围内具有某种程度的降低,但是,在灵敏度和特异性之间 总是存在一种折衷。0.34和以下的阙值的总体灵敏度显示了该模型提供 来了适度更高的灵敏度同时保持了良好的特异性。考虑到错误诊断样品 的临床影响更严重,用一些特异性换取灵敏度是可接受的结果。所述 B4GALT1和NR4A1(2-标准化物)模型的大约50%的阙值具有88.9% 的总体正确分类率。

图10A示出了三个散点图,各自示出了x-轴上列出的每个基因(如 通过mRNA表达测量的)的一元统计检验的结果(AUC(顶部)、倍 数变化(fch;中间)、和FDR调整的p值(底部))。每个散点图中 的虚线示出了所选的统计显著性的截断值。如果所述结果在所述AUC 截断值(也在框中)之上、在所述倍数变化截断值(也在框中)之下、 在所述FDR调整的p值截断值(也在框中)之下,则所述结果被认为 时显著性的。代表每个基因的符号显示了在哪一个阵列平板(AP)上 测量了所述表达数据。

图10B示出了每个指示的miRNA(x-轴)的和图10A类似的结果, 不同之处在于倍数变化的截断值是正1(和负1),并且如果所述倍数 变化结果在该线之上,则被认为是显著的。每个miRNA的表达值是(+) 或没有被标准化(*)。

图11示出了构建在来自阵列平板No.3的表达数据上的示例性的 两个(左下)到40个(右上)基因痣/黑素瘤分类器的分类精度(基于 AUC)。在每种情况下,所述AUC等于或超过0.9,指示了和所述分 类器中的基因数目无关的良好精度并指示了递增的分类器精度直到约 18个基因的分类器,然后所述AUC在约0.95下相对稳定。

图12是四个线图的复合图,如图所示,分别示出了基于从阵列平 板Nos.3-6收集的表达数据的两个到40个基因(x轴)曲线下面积(AUC)、 T-检验、随机森林或LIMMA分类模型的错误分类率(y-轴)。

序列

列于本文中的核酸序列是使用在37C.F.R.1.822中定义的核苷酸碱 基的标准字母缩写和氨基酸的三字母编码显示。只显示每条核酸序列的 一条链,但是应理解任何提及所示链时均包括其互补链。

所述序列表以创建于2013年6月24日的命名为“序列.txt”(~371kb) 的文件形式的ASCII文本文件提交,以引用的方式纳入本文。

在所提供的序列中:

SEQ ID NO.1-36、123、和124是有代表性的核酸酶保护探针(NPP) 序列。

SEQ ID NO.47-119是所公开的在痣和原发黑素瘤中差异性表达的 基因的GenBank mRNA RefSeq。

SEQ ID NO.37-46、120和121是所公开的标准化物的GenBank  mRNA RefSeq。

SEQ ID NO.122是公开的阴性对照植物基因(ANT)的GenBank  mRNA RefSeq。

SEQ ID NO.125-144是公开的mRNA靶的代表性NPP序列。

SEQ ID NO.125-144是公开的miRNA靶的代表性NPP序列。

具体实施方式

除非另有说明,技术术语以常规用法使用。分子生物学中的常用术 语的定义了可记载于Benjamin Lewin,Genes IX

published by Jones and Bartlet,2008(ISBN 0763752223);Kendrew et al.(eds.),The Encyclopedia  of Molecular Biology,published by Blackwell Science Ltd.,1994(ISBN 0632021829);and Robert  A.Meyers(ed.),Molecular Biology and Biotechnology:a Comprehensive Desk Reference, published by VCH Publishers,Inc.,1995(ISBN 9780471185710)。

除非上下文中另有明确说明,单数术语“一”、“一个”和“所述”包括 复数指代对象。类似地,除非上下文中另有明确说明,用词“或”旨在 包括“和”。术语“包含”意指“包括”。如果出现冲突,以本说明书(包 括对术语的解释)为准。

用于本公开内容的实施或测试的适合的方法和材料在下文描述。这 类方法和材料仅是示例性的,不意欲进行限制。可使用与本文所述的那 些相似或等价的其他方法和材料。例如,在所公开的发明所属领域中公 知的常规方法记载于多个一般性和更具体的文献中,包括,例如, Sambrook et al.,Molecular Cloning:A Laboratory Manual,2d ed.,Cold  Spring Harbor Laboratory Press,1989;Sambrook et  al.,Molecular Cloning:A Laboratory Manual,3d ed.,Cold Spring Harbor Press,2001;Ausubel et al.,Current Protocols in Molecular Biology,Greene Publishing Associates,1992(and Supplements to 2000);Ausubel et al.,Short Protocols in Molecular Biology:A Compendium of  Methods from Current Protocols in Molecular Biology,4th ed.,Wiley&Sons,1999;Harlow and Lane,Antibodies:A Laboratory Manual,Cold Spring Harbor Laboratory Press,1990;和Harlow and Lane,Using Antibodies:A Laboratory Manual,Cold Spring Harbor Laboratory Press,1999 。 

另外,所述材料、方法和实施例仅是示例性的,不意欲进行限制。

本文提到的2012年6月22号可获得的序列的所有GenBank号以 引用的方式纳入。

为了便于阅读本公开内容的各个实施方案,提供了以下对具体术语 的解释:

抗体:一种多肽配体,其包含特异性识别和结合抗原或其片段的表 位,例如表3、4、11、或13中所示的生物标记物的表位的至少一条轻 链或重链免疫球蛋白可变区。所述术语抗体包括本领域公知的完整的免 疫球蛋白以及它们的变体和部分,如Fab'片段、F(ab')2片段、单链Fv 蛋白(“scFv”)、和二硫化物稳定的Fv蛋白(“dsFv”)。该术语还包括 基因工程形式如嵌合抗体、异源缀合抗体(如,双特异性抗体)。所述 术语包括多克隆抗体和单克隆抗体。多克隆和单克隆抗体、分子工程化 抗体和抗体片段的制备是本领域普通技术人员公知的(参见,例如, Green et al.,“Production of Polyclonal Antisera,”in:Immunochemical  Protocols pages 1-5,Manson,ed.,Humana Press 1992;和Harlow et al.,in: Antibodies:a Laboratory Manual,page 726,Cold Spring Harbor Pub., 1988)。

(寡核苷酸的)结合或稳定结合:如果足够量的寡核苷酸形成碱基 对或与其靶核酸杂交,则该寡核苷酸结合到或稳定结合到靶核苷酸(如 表3、4、11或13中所示的生物标记物)上,例如,核苷酸(如探针或 引物)与表3、4、11或13中所示的基因的核苷酸序列的结合。可通过 本领域技术人员已知的任何方法检测靶和寡核苷酸之间的结合,包括功 能结合测定(例如降低的表达和/或活性)和物理结合测定。

接触:以直接物理性结合形式(包括以固体和/或液体形式)的放 置,例如,使样品(例如,悬浮在缓冲液中的样品)与核酸探针(如特 异性针对表3、4、11或13中所示的生物标记物之一的探针)接触。接 触可发生在体外,例如在诊断性测定中,或在其他实例中,非原位。

足以检测的条件:使得所需活性(例如使得抗体结合抗原(如表3、 4、11或13中所示的生物标记物))和相互作用被检测到的任何环境。 在其他实例中,其是对核酸(如表3、4、11或13中所示的生物标记物) 的检测,例如通过检测生物标记物与核酸探针的杂交。

简并变体:编码目的蛋白(如表3、4或11中所示的生物标记物) 的多核苷酸,所述目的蛋白包括由遗传密码导致的简并序列。有20种 天然氨基酸,它们中的大多数由一种以上的密码子指定。因此,只要由 所述核苷酸序列编码的多肽的氨基酸序列不变,则包括所有的简并核苷 酸序列。

检测:以确定一种抗原(如信号核酸或特定核酸、核酸探针或蛋白 质,例如表3、4、11或13中的那些之一)是否存在或不存在。在一些 实例中,这还可包括定量,例如对所述基因或蛋白质、或样品的部分(如 组织内的特定细胞)的量进行定量。

诊断的:鉴定病理病症——例如,但不限于癌症,如黑素瘤——的 存在或性质。诊断方法在它们的灵敏度和特异性上有所不同。诊断测定 的“敏感度”是检测为阳性的患病个体的百分比(真阳性的百分比)。 诊断测定的“特异性”是1减去假阳性比例,其中所述假阳性比例被定 义为检测为阳性而未患有疾病的那些的比例。虽然特定的诊断方法可能 无法提供确定的病症诊断,但是如果该方法提供有助于诊断的信息(例 如,阳性指示)就足够了。

杂交:寡核苷酸及其类似物通过互补碱基间的氢键合杂交,包括 Watson-Crick、Hoogsteen或反向Hoogsteen氢键合。通常,核酸由嘧 啶(胞嘧啶(C)、尿嘧啶(U)和胸腺嘧啶(T))或嘌呤(腺嘌呤(A) 和鸟嘌呤(G))的含氮碱基组成。这些含氮碱基在嘧啶和嘌呤间形成 氢键,并且嘧啶与嘌呤的键合被称为“碱基配对”。更具体地,A或与 T或U氢键合,并且G会与C键合。“互补的”是指在两种独特的核酸 序列或同一核酸序列的两个独特区域间发生的碱基配对。例如,寡核苷 酸可与由表3、4、11、或13中的基因之一编码的mRNA、DNA或dsDNA 互补。

“可特异性杂交的”和“特异性互补的”是指示这样的足够的互补性 程度,以使得在寡核苷酸(或其类似物)和DNA或RNA靶间发生稳 定且特异性的结合的术语。所述寡核苷酸或寡核苷酸类似物不需要与其 待可特异性杂交的靶序列100%互补。当寡核苷酸或类似物与靶DNA 或RNA分子(例如,表3、4、11或13中的DNA或RNA)间有足够 的互补性程度以避免所述寡核苷酸或类似物在需要特异性结合的条件 下与非靶序列的非特异性结合时,所述寡核苷酸或类似物是可特异性杂 交的。此类结合被称为特异性杂交。

导致特定严格程度的杂交条件会随着所选择的杂交方法的性质和 所述杂交核酸序列的组成和程度而有所变化。通常,杂交温度和杂交缓 冲液的离子强度(特别是Na+浓度)会确定杂交的严格性,尽管清洗次 数也影响严格性。可通过将非天然碱基整合到序列中(如整合锁核酸或 肽核酸)对所述核苷酸序列的杂交进行修饰。

分离的:“分离的”生物组分(例如核酸分子、蛋白质或细胞器)已 经基本上从所述组分天然存在于其中的有机体的细胞中的其他生物组 分(例如其他染色体和染色体外的DNA和RNA、蛋白质或核酸)中分 离或纯化。已经被“分离的”生物组分包括通过常规纯化方法纯化的核酸 和蛋白质。该术语还包括通过宿主细胞中的重组表达制备的核酸和蛋白 质,以及化学方法合成的核酸,如探针和引物,例如用于检测和/或扩 增表3、4、11或13中所示的核酸的探针和引物。

标签:可检测的化合物或组合物,其可被直接或间接地与另一分子 如抗体(例如特异性地结合表3、4、11或13中所示的标记物(例如, 蛋白质)的抗体)或核酸探针(例如,特异性地结合到或间接结合到表 3、4、11或13中的核酸上的核酸探针)或蛋白质缀合,以便于检测该 分子。标签的具体的非限制性实例,以及标记核酸和蛋白质的方法记载 于本公开内容的全文中。

黑素瘤:一种黑素细胞的恶性肿瘤。黑素细胞产生暗色素、黑色素 的细胞,其负责皮肤的颜色。它们主要出现在皮肤中,但也存在于身体 的其他部位,包括肠和眼睛。因此,原发性黑素瘤可发生在非皮肤的身 体区域中(例如,葡萄膜黑素瘤)。原发性黑素瘤是起源位点处的肿瘤 形成;即使所述原发性肿瘤已经转移,所述起源位点保持原发性并且远 端位点是转移部位。

痣(多个痣):皮肤或身体的其他部分(如肠或眼睛)上界限清楚 的色斑。痣通常可被称为胎记或痣(mole)。痣包含黑素细胞,其促成 痣的着色外观。通常,认为痣是良性的。但是,发育不良痣(有时也称 为非典型痣)是一类具有异常特征的痣。发育不良痣可能比非发育不良 痣大,并且其颜色、表面和边缘可不同于非发育不良痣。在皮肤表面, 发育不良痣可显示为具有以下的混合物:多种颜色(例如,从粉色到暗 棕色)、光滑的或略鳞状的或有卵石花纹的表面、以及可逐渐融入于周 围皮肤的不规则的边缘。发育不良痣比“普通”痣更可能发展为黑素瘤, 并且大约一半的黑素瘤由发育不良痣引起。但是,大多数发育不良痣永 远不会变成恶性的;因此,能够确定哪些痣(无论发育不良或非发育不 良)实际上可能被错误地认为是或被生物转化(例如,在分子水平上) 成原发性黑素瘤是重要的。

核酸酶:切割磷酸二酯键的酶。核酸内切酶是切割核苷酸链的内部 磷酸二酯键的酶(相比于切割核苷酸链末端的磷酸二酯键的核酸外切 酶)。一些核酸酶同时具有核酸内切酶活性和核酸外切酶活性。在本公 开内容的全文中描述了示例性的核酸酶。

引物:短的核酸分子,如DNA寡核苷酸,例如至少15个核苷酸的 序列,可通过核酸杂交将其与互补的靶核酸分子(如表3、4、11或13 中的生物标记物之一)退火,以形成所述引物和所述靶核酸链间的杂交 物,例如在极高严格杂交条件下。

可通过聚合酶将引物沿着所述靶核酸分子延伸。因此,可将衣物用 于扩增靶核酸分子(如表3、4、11或13中所示的核酸分子的一部分), 其中所述引物的序列特异性针对所述靶核酸分子,例如,以使得该引物 将在极高严格杂交条件下与所述靶核酸分子杂交。

引物的特异性一般随着其长度而增加。因此,例如,包括30个连 续核苷酸的引物将比仅15个核苷酸的相应引物以更高的特异性与靶序 列退火。因此,为了获得更高的特异性,可选择包括所述靶序列的至少 15、20、25、30、35、40、45、50或更多个连续核苷酸的探针和引物。

在具体的实例中,引物的长度为至少10个核苷酸,如互补于靶核 酸分子的至少15个连续核苷酸。可用于实施本公开内容的方法(例如, 扩增表3、4、11或13中所示的核酸分子的区域)的具体长度的引物包 括具有互补于待扩增的靶核酸分子的至少10个、至少11个、至少12 个、至少13个、至少14个、至少15个、至少16个、至少17个、至 少18个、至少19个、至少20个、至少21个、至少22个、至少23个、 至少24个、至少25个、至少30个、至少35个、至少40个、至少45 个、至少50个或更多个连续核苷酸的引物,如10-60个核苷酸、10-50 个核苷酸或10-30个核苷酸的引物。

可将引物对用于扩增核酸序列,例如,通过PCR、实时PCR、或 本领域已知的以及如本公开内容他处所述的其他核酸扩增方法。“上游” 或“正向”引物是核酸序列上参照点的引物5’。“下游”或“反向”引 物是核酸序列上参照点的引物3’。

探针:探针包含能够杂交到靶核酸(如表3、4、11或13中所示的 生物标记物的核酸序列)上的分离的核酸,并且可将可检测的标签或报 告分子连接到核酸分子上。例如,可将标签连接在探针的5’-或3’-末端、 或在其间的任何地方。在特定的实例中,将所述标签连接到探针的5’- 末端的碱基上、3’-末端的碱基上、其5’-末端碱基或修饰碱基(如所述 探针内部的T)的磷酸基团上。在本公开内容的他处论述了示例性的标 签、用于标记的方法和选择适于各种目的的标签的指导。

探针的长度通常为至少15个核苷酸,如互补于所述靶核酸分子(如 表3、4、11或13中的那些)的至少10个、至少15个、至少16个、 至少17个、至少18个、至少19个、至少20个、至少21个、至少22 个、至少23个、至少24个、至少25个、至少30个、至少35个、至 少40个、至少45个、至少50个、至少55个、至少60个、至少70个、 至少80个、至少90个、至少100个、至少120个、至少140个、至少 160个、至少180个、至少200个、至少250个、至少300个、至少350 个、至少400个、至少450个、至少500个或更多个连续核苷酸,如 20-500个核苷酸、100-250个核苷酸、20-50个核苷酸、或20-30个核苷 酸。

序列同一性/相似性:两种或多种核酸序列、或两种或多种氨基酸 序列之间的同一性/相似性被表示为所述序列之间的同一性或相似性。 序列同一性可以同一性百分数来度量;所述百分数越高,所述序列越相 同。当使用常规方法进行比对时,核酸或氨基酸序列的同系物或同源物 具有相对高的序列同一性/相似性程度。

比对用于比较的序列的方法在本领域中是公知的。例如,Altschul et  al.,J.Mol.Biol.215:403-10,1990提出了对序列比对方法和同源性计算 的详细论述。NCBI基础局部比对搜索工具(BLAST)(Altschul et al.,J. Mol.Biol.215:403-10,1990)可从若干来源——包括国家生物信息中心 (NCBI,国家医学图书馆,38A楼,8N805室,Bethesda,MD20894) 以及在互联网上获得。

表4、11或13中所示的那些分子的序列的同系物和变体包括在本 公开内容中——其一般由具有在与所述目的氨基酸或核酸序列进行全 长比对时计算的至少约75%,例如至少约80%、至少85%、至少90%、 至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、 至少97%、至少98%或至少99%的序列同一性来表征,并且可保持所 述天然蛋白质或核酸的活性。本领域技术人员会理解,提供这些序列同 一性范围仅供参考;可获得不属于所提供范围的很有意义的同系物是完 全有可能的。

两个核酸分子是紧密相关的,其功能指示是所述两个分子在严谨条 件下彼此杂交。

用于表征含黑素细胞的样品的方法和组合物

对于大多数癌症(包括黑素瘤),早期检测对存活具有最大影响并 可有助于更好的治愈率。在一些情况下,仅仅基于常规的方法(例如, 组织病理学)很难区分良性和恶性病变。因此,需要使得能够将良性痣 与黑素瘤(例如原发性黑素瘤)区分开的方法。演变的测试方法可有助 于在分子水平上鉴定恶性肿瘤,例如,在这种恶性肿瘤可在微观或有机 体水平上被可靠地识别之前。如本文所述用于区分良性痣与恶性黑素瘤 (例如原发性黑素瘤)的,分子测试包括鉴定癌症表型为临床上相关的 基因表达模式。这种区别可避免对仅具有良性痣的那些的不必要治疗, 并且有助于确保患有原发性黑素瘤的那些在初始活检后接收合适的治 疗。

准备收集基因表达数据

基因表达是通过其将在基因组(基因)中编码的信息转化到(例如, 通过转录和翻译过程)相应的基因产物(例如,RNA(如mRNA和 miRNA)和蛋白质)中的过程,所述基因产物相互关联地作用得到一 组特征(也称为,表型)。为了本公开内容的目的,可通过现在或将来 已知的任何技术来测量基因表达。通常,通过检测在收集自目的受试者 的样品中表达的基因产物(例如,mRNA、miRNA和/或蛋白质)来测 量基因表达。

受试者和样品

用于本文公开的方法的合适样品包括任何含黑素细胞的常规生物 样品,需要其基因表达信息(例如,mRNA、miRNA或蛋白质表达; 如在表3、4、11和/或13中的那些)。

样品包括从受试者中获得的那些,如从受试者中获得的临床样品 (包括来自健康的或表面上健康的人类受试者或受待诊断或研究的病 症或疾病(如黑素瘤)影响的人类患者的样品)。受试者是活的多细胞 脊椎动物生物体——一种包括例如哺乳动物的类别。“哺乳动物”包括 人和非人哺乳动物,如狗、小鼠或其他兽类受试者。在一个实例中,所 述样品来自无在先黑素瘤的病史的样品,或来自之前曾患有或被诊断患 有黑素瘤的患者。在一些实例中,受试者是患者,如呈现用于皮肤癌(例 如,黑素瘤)筛选的患者,或被诊断患有黑素瘤或处于发展为黑素瘤的 风险(或更高风险)之中的患者;例如,如下所述的。在一些实例中, 所述受试者来自无在先黑素瘤的病史的受试者,或来自之前被诊断患有 黑素瘤的受试者。

据报道,在人类中黑素瘤发病率最高的在澳大利亚(然后是新西兰、 挪威、瑞典、瑞士、丹麦、美国、奥地利、冰岛、荷兰)。人类受试者 发展成黑素瘤的危险因素包括(a)黑素瘤的家族史或个人史;(b)多 个痣(例如,多于50或100个痣)、(c)多个发育不良痣(例如,至少 三个)、(d)高度暴露于阳光下(例如,10岁之前)、(e)苍白的白种 人皮肤、(f)红发或金发、(g)至少一次水泡性晒伤的历史、(h)较高 的社会经济类别、(i)日光浴浴床的使用历史(尤其是,30岁之前)、 (j)职业为航空公司机组人员以及(k)杀虫剂暴露(MacKie et al.,Annals  of Oncology,20(Supp.6),vi1–7,2009)。

在一些实例中,现有方法不能可靠地确定所述含黑素细胞的样品是 否是恶性或良性的。因此,所公开的方法可包括使用和/或确定不能通 过另一种方法(例如,通过组织病理学)将所述待分析的样品可靠地诊 断为恶性或良性。这种任选的步骤可在确定所述样品中基因表达水平的 水平(例如,表4、11和/或13中的至少两种不同的生物标记物(如表 6、8或14中的基因组合),和/或至少一种标准化生物标记物的基因表 达)之前进行。

示例性样品包括,但不限于,细胞、细胞裂解物、细胞离心制剂、 细胞学涂片、组织活检物(例如皮肤活检物,如包括痣或眼组织活检物 的那些)、细针抽吸物和/或组织切片(例如,低温恒温器组织切片和/ 或石蜡包埋的组织切片)。组织是多个功能相关的细胞。在具体的实例 中,组织可以在悬浮液中或是完整的。在一个实例中,所述含黑素细胞 的样品(如组织样品)包括痣、发育不良痣、非典型痣、或疑似的黑素 瘤。在具体的实例中,直接使用样品(例如,新鲜的或冷冻的)、或可 在使用之前处理样品,例如,通过固定(例如,使用福尔马林)和/或 包埋在蜡中(如福尔马林固定的石蜡包埋(FFPE)的组织样品)。因此, 在一些实例中,将所述待分析的含黑素细胞的样品固定。其他方法实施 方案包括将所述样品(例如皮肤活检物)固定在固定剂(例如,福尔马 林)中、对该样品进行包埋(例如,使用石蜡)、将所述样品进行切割 或切片,或其组合。

可利用用于采集用于本公开内容的样品的标准技术(参见,例如, Schluger et al.,J.Exp.Med.176:1327-33(1992);Bigby et al.,Am.Rev. Respir.Dis.133:515-18(1986);Kovacs et al.,NEJM 318:589-93(1988);和 Ognibene et al.,Am.Rev.Respir.Dis.129:929-32(1984))。在一些实例中, 样品是通过切除活检、切口活检、钻取活检、碟形手术活检或细针抽吸 活检获得的皮肤样品或眼组织。切除活检切除,或切掉带有正常周围皮 肤或眼组织的边缘的整个生长物。通常,如果所述活检是阳性的,则需 要对正常周围皮肤进行额外的广泛局部切除。所述边缘的宽度将取决于 癌症的厚度。切口活检,或中心活检,除去仅所述生长物的样品。钻取 活检除去皮肤或眼组织的小的、圆柱状样品。它可包括所述下面的组织 的表皮、真皮和部分。碟形手术活检可通过以“铲状”方式在所述损伤 下进行切割来除去整个病变损伤,并为医师提供完整的样品以更好地分 析所述肿瘤体系。使用非常细的针和注射器进行细针抽吸活检。其除去 非常小的组织样品。这类活检可在可疑的痣或皮肤或眼睛生长物 (growth)上进行。另外,可在其他更深的组织(如淋巴结或内部器官) 上进行,以便查看是否黑素瘤已经扩散。应理解,可使用从受试者中获 得组织的任何方法,并且所使用的方法的选择将取决于各种因素,如组 织的类型、受试者的年龄、或医师可利用的方法。

在一些实施方案中,含黑素细胞的样品是细胞和/或组织裂解液。 细胞裂解液包含细胞中含有的多种蛋白质和核酸,并且包括例如,表3、 4、11或13中所示的生物标记物。用于获得细胞裂解物的方法是本领域 公知的,并且可见于例如Ausubel et al.(In Current Protocols in  Molecular Biology,John Wiley&Sons,New York,1998)。在一些实例中, 将样品中的细胞在水溶液中(例如,使用裂解缓冲液)裂解或透化。所 述水溶液或裂解缓冲液可包括洗涤剂(例如,十二烷基硫酸钠)和一种 或多种离液剂(如甲酰胺、盐酸胍、异硫氰酸胍或尿素)。所述溶液可 包含缓冲液(例如,SSC)。在一些实例中,所述裂解缓冲液包含约8% 到60%甲酰胺(v/v)、约0.01%到约0.5%SSC和约0.5-6X SSC(例如, 约3X SSC)。所述缓冲液可任选地包括约0.001-约2.0mg/ml的tRNA 或核糖核酸酶。所述裂解缓冲液还可包括pH指示剂,如酚红。将细胞 在水溶液中孵育足够长的时间(如约1分钟到约60分钟,例如约5分 钟到约20分钟,或约10分钟)并在足够的温度(如约22℃–约115℃, 例如约37℃–约105℃,或约90℃–约100℃)下孵育以将所述细胞裂 解或透化。在一些实例中,在约95℃下进行裂解,例如如果待检测的 核酸是RNA。在其他实例中,优选在约105℃下进行裂解,例如如果 待检测的核酸是DNA。在一些实例中,裂解条件可以是这样的,以使 得基因组DNA不能接触到探针而RNA(例如,mRNA)可以,或以使 得所述RNA被破坏,仅有DNA能够用于探针杂交。在一些实例中, 可直接使用所得粗细胞裂解物,无需进一步纯化。

参照标准

参照标准也可称为“对照”。对照可以是指示存在于组织或细胞或 其群体(例如正常非癌皮肤组织或细胞)中的表达(如表4、11或13 中所示的生物标记物的表达)的基线水平或数量的已知值或值的范围。 对照也可以是细胞对照或组织对照。

对照样品包括任何合适的样品(例如,细胞、组织或器官对照样品) 以与之比较表4、11或13中所示的黑素瘤生物标记物(如表3中所示 的标准化标记物)的表达。在一些实施方案中,所述对照样品是非肿瘤 组织,如多个非肿瘤组织样品。在一个实例中,非肿瘤组织是已知为良 性的组织,如良性痣。在一些实例中,非肿瘤组织包括看起来正常的皮 肤样品,即,其不存在痣、良性病变,或黑素瘤。在一些实例中,所述 非肿瘤组织来自相同受试者,如邻近或甚至远离恶黑素瘤的非肿瘤组织。 在其他实例中,所述非肿瘤组织来自一个对照受试者或若干健康对照受 试者。例如,非肿瘤组织可来自多个健康对照受试者(例如,不具有任 何癌症(包括黑素瘤)的那些,如来自多个这类受试者的含良性痣的样 品)。

在一些实施方案中,所述对照样品是已知的肿瘤组织,如多个已知 的黑素瘤样品,如黑素瘤(例如,原发性黑素瘤)样品的训练集。其他 实施方案包括已知为良性痣的组织对照,如痣样品的训练集。在一些实 施方案中,样品(例如,痣和黑素瘤)的训练集用于开发或“训练”区 分这种样品类型的算法(例如,机器学习算法)。

测试样品和对照之间的差异可以是增加或者相反地降低,例如表4、 11或13中所示的生物标记物的表达的增加或降低。所述差异可以是定 性差异或定量差异,例如统计学显著差异。在一些实例中,差异是相对 于对照的在数量上如下的增加或降低:至少约1%、如至少约10%、至 少约20%、至少约30%、至少约40%、至少约50%、至少约60%、至 少约70%、至少约80%、至少约90%、至少约100%、至少约150%、 至少约200%、至少约250%、至少约300%、至少约350%、至少约400%、 至少约500%或大于500%。在一些实施方案中,所述对照是参照值或 值的范围,如已知为原发性黑素瘤或良性痣的表4、11或13中所示的 生物标记物的预期表达水平。在其他实施方案中,从对照样品中获得的 参照值可以是群体集中趋势(“CT”)(如平均值(例如,算数平均值或 几何平均值)、中值、众数或均值),或值的参照范围如群体CT附近的 正和/或负0.5、1.0、1.5或2.0标准偏差。例如,一个或多个参照值可 以从来自一组健康的对照受试者(例如,来自多个已知良性痣)或来自 一组患有黑素瘤的癌症患者(例如,来自多个已知恶性痣)的平均表达 值中获得。

样品分析选择

在具体的实例中,待分析的样品,如含黑素细胞的样品(例如,皮 肤活检物)被固定或已被固定。固定技术可因部位、国家、研究人员等 而不同(Dissecting the Molecular Anatomy of Tissue,ed.by  Emmert-Buck,Gillespie and Chuaqui,New York:Springer-Verlag,244 pages(2010)),并且可影响待检测的基因产物的完整度和/或可用性。因 此,在一些包括固定样品的公开方法(例如,带有用于分离基因表达产 物的步骤的方法实施方案,如PCR或核酸测序)中,RNA回收(例如, 使用可逆交联剂、基于乙醇的固定剂和/或RNA提取或纯化(整个或部 分))可能是有利的。值得注意的是,在其他的典型方法(例如,包括 qNPA)中,RNA回收是任选的或者明显不需要RNA回收。类似地, 在一些方法实施方案中,可使用组织成形来从固定组织中回收蛋白质基 因产物,并因此有助于检测这类蛋白质产物。

生物样品中的肿瘤或疑似的肿瘤(例如,黑素瘤)的百分比可以改 变:因此,在一些公开的实施方案中,所述样品中的样品面积(或样品 体积)或总细胞的至少5%、至少10%、至少25%、至少50%、至少 75%、至少80%或至少90%是肿瘤或疑似的肿瘤(如黑素瘤)。在其他 实例中,可富集样品的肿瘤(或疑似的肿瘤)细胞,例如,通过从样品 中宏观解剖(macrodissect)异常或看似异常的(例如,发育不良的) 区域或细胞。任选地,病理学家或其他适当训练的专家可检查所述样品 (例如,H&E-染色的组织切片)以确定是否有足够的异物(例如,疑 似的肿瘤)存在于所述样品中以用于测试和/或标记待宏观解剖的区域。 在具体的实例中,待检测的样品的宏观解剖避免了尽可能多的坏死或出 血区域。可用于一些公开的方法的样品将具有小于25%、15%、10%、 5%、2%或1%的样品体积或面积或总细胞坏死。

样品负载影响可用于检测的基因产物(例如,表3、4、11或13中 的一种或多种生物标记物)的数量和/或浓度。在具体的实施方案中, 至少1ng、10ng、100ng、1μg、10μg、100μg、500μg、1mg总RNA(例 如,mRNA或miRNA),至少1ng、10ng、100ng、1μg、10μg、100μg、 500μg、1mg总DNA,或至少0.01ng、0.1ng、1ng、10ng、100ng、1μg、 10μg、100μg、500μg,或1mg总蛋白质分离自和/或存在于样品(如样 品裂解物)中。一些实施方案使用至少为3、5、8或10μm(例如,约 3到约10μm)厚和/或面积为至少0.15、0.2、0.5、1、1.5、2、5或10cm2的组织样品(例如,FFPE切片皮肤活检物)。在一些方法实施方案中, 悬浮在缓冲液中的样品浓度为至少0.006cm2/ul(例如,0.15cm2FFPE 组织/25μl缓冲液(例如,裂解缓冲液))。

基因和基因集

本文公开的新物质为基因(也称为生物标记物)和基因集——其表 达(例如,如通过mRNA、miRNA或蛋白质白表达来测量的)可用于 公开的方法,用于区分良性(例如,痣)和恶性(例如,原发性黑素瘤) 含黑素细胞的样品的阵列和试剂盒。还公开了用作痣和黑素瘤(例如, 原发性黑素瘤)样品的规范器(例如,样品间对照)的基因和基因集。

在一些实例中,可将来自表4、11和/或13的任何或所有中的至少 两种不同的生物标记物(包括,但不限于,表6、8或14中的基因组合) 的表达上的改变(如上调或下调),例如标准化为至少一种标准化标记 物(如表3中的那些中的一种或多种),用作痣或黑素瘤的特定标记物 或用作良性痣和原发性黑素瘤之间的转换标记物。这类标记物可用于如 本公开内容中更详细描述的多种方法和组合物,并且例如,包括用于通 过测量或检测来自表4、11和/或13的任何或所有中的两种或多种不同 的生物标记物(包括,但不限于,表6、8或14中的基因组合)的表达 水平来将受试者如人类受试者诊断为具有良性痣或具有黑素瘤的方法。 在一个实例中,所述人类受试者处于发展成黑素瘤的风险中。

本公开内容已鉴定出在含黑素细胞的目的样品(群体)(例如,痣 和黑素瘤样品)中显著差异表达(SDE)的基因,并且对所鉴定出的 SDE基因的示例性组合进行了分析以鉴定出具有预测值以使得将含黑 素细胞的样品表征为良性痣或原发性黑素瘤的那些SDE基因的组合(参 见,例如,实施例2、3或4)。尽管本文描述了鉴定的SDE基因的具体 组合,本领域普通技术人员会理解,本公开内容现在能够鉴定有力表征 样品为痣或黑素瘤的表4、11和/或13中所示的SD基因的其他组合。 例如,表4、11和/或13的任何或所有中的生物标记物的任何非重复性 组合——其中所有预测值Xn变量(所选择的生物标记物的表达值)的 方差膨胀因子(VIF)小于10——被预期具有用于区分良性痣样品和来 自原发性黑素瘤的那些的有用预测值,并因此涵盖于本公开内容中。另 外,可使用本文公开的任何方法(例如,AUC)或本领域公知的任何方 法测试表4、11和/或13中的基因的任何组合的痣-黑素瘤分类器 (classifier)的合格分类性能(例如,少于1%、2%、3%、4%、5%、 6%、7%、8%或10%的样品的错误分类,或大于或等于75%、80%、 85%、90%、92%、93%、94%、95%、96%、97%、98%或99%的分 类精度)。

在本公开内容全文中所述的具体方法实施方案包括,在来自受试者 的样品(例如,皮肤样品)中确定选自以下(a)-(r)的任何一个或多个的 至少两种不同的(即,没有重复的)生物标记物以及(在一些情况下) 至少一种标准化生物标记物(如表3中所列的)的表达水平(如核酸或 蛋白质水平)。类似地,在本公开内容全文中所述的具体组合物实施方 案可包括特异性结合试剂(例如,探针、引物、适体、抗体等),所述 特异性结合试剂可用于特异性地测量选自以下(a)-(r)的任何一个或多个 的至少两种不同的(即,没有重复的)生物标记物以及(在一些情况下) 至少一种标准化生物标记物(如表3中所列的)的表达水平(如核酸或 蛋白质水平)。在一些实例中,如果适用的话,在样品中确定(a)-(r)的任 何一个中所列的生物标记物中的至少3种、至少4种、至少5种、至少 6种、至少7种、至少8种、至少9种、至少10种、至少11种、至少 12种、至少13种、至少14种、至少15种、至少16种、至少17种、 至少18种、至少19种、至少20种、至少21种、至少22种、至少23 种、至少24种、至少25种、至少26种、至少27种、至少28种、至 少29种、至少30种、至少31种或所有的(如所列的生物标记物中的 2至20种、2至10种、4至10种、4至15种或2至5种)表达水平(如 核酸水平或蛋白质水平)或可使用公开的组合物(例如,阵列或试剂盒) 对其进行特异性检测。在其他实例中,选自以下(a)-(r)的任何一个或多 个的至少两种不同的(即,没有重复的)生物标记物的表达水平(如核 酸或蛋白质水平)是多个所述生物标记物选自其中的特定组(表4、11 和/或13)中所列的基因的至少50%、至少75%、至少80%、至少90%、 至少95%或至少98%。

(a)表4中所述的基因(即,NR4A1,B4GALT1,SAT1,TP53,TADA3,BRAF,TFRC, RUNX1,SOCS3,PDLIM7,SP100,PIP4K2A,SOX4,PDIA4,MCM6,CTNNB1,RPL37A, GNAS,TGFB1,PPIA,PTEN,MAGED2,1PRAME,GALNTL1,MAGEA2,TEX13A, CREBBP,TPSAB1,CDK2,STAT2,SQSTM1,和B2M);和/或

(b)表11中所述的基因(即,B4GALT1,BAX,MAGEA2,NR4A1,PDIA4,PRAME, RUNX1,SOCS3,SAT1,PDLIM7,BIRC5,HIF1A,MET,MAGEC2,ERCC1,POLR2J3, LDHA,PICALM,ZFYVE16,和BEST1),和/或

(c)表13中所述的基因(即,表达以下产物的基因:hsa.miR122, hsa.miR.1291,hsa.miR.191,hsa.miR.19b,hsa.miR.200a,hsa.miR.200c,hsa.miR.203, hsa.miR.205,hsa.miR.21,hsa.miR.23b,hsa.miR.29c,hsa.miR.342.3p,hsa.miR.375, hsa.miR.665,hsa.miR.1304,hsa.miR.142.5p,hsa.miR.1254,hsa.let.7a,hsa.miR.140.5p,和 hsa.miR.183);和/或

(d)NR4A1,B4GALT1,SOX4,SQSTM1,B2M,TFRC,TP53,GALNTL1,CREBBP,SOCS3 和CTNNB1;和/或

(e)NR4A1,B4GALT1,SOX4,SQSTM1,B2M,TFRC,TP53,CREBBP,SOCS3,RPL37A, SAT1,BRAF,和TPSAB1;和/或

(f)NR4A1,B4GALT1,SOX4,SQSTM1,B2M,TFRC,TP53,CREBBP,和SOCS3;和/或

(g)NR4A1,B4GALT1,SOX4,SQSTM1,B2M,TFRC,TP53,SOCS3,和BRAF;和/或

(h)NR4A1,B4GALT1,SOX4,SQSTM1,B2M,TFRC,TP53,CREBBP,SOCS3,和BFAF; 和/或

(i)MAGEA2,PRAME,PDIA4,NR4A1,PDLIM7,B4GALT1,SAT1,RUNX1,和SOCS3; 和/或

(j)表6中所述的任意基因集;和/或

(k)表8中所述的任意基因集;和/或

(l)表14中所述的任意基因集;和/或

(m)在下面方括号([...])中成对的任意特定组合:

[NR4A1,B4GALT1],[NR4A1,SOX4],[NR4A1,SQSTM1],[NR4A1,B2M],

[NR4A1,TFRC],[NR4A1,TP53],[NR4A1,CREBBP],[NR4A1,SOCS3],[NR4A1,BRAF],

[B4GALT1,SOX4],[B4GALT1,SQSTM1],[B4GALT1,B2M],[B4GALT1,TFRC],

[B4GALT1,TP53],[B4GALT1,CREBBP],[B4GALT1,SOCS3],[B4GALT1,BRAF],

[SOX4,SQSTM1],[SOX4,B2M],[SOX4,TFRC],[SOX4,TP53],[SOX4,CREBBP],

[SOX4,SOCS3],[SOX4,BRAF],[SQSTM1,B2M],[SQSTM1,TFRC],[SQSTM1,TP53],

[SQSTM1,CREBBP],[SQSTM1,SOCS3],[SQSTM1,BRAF],[B2M,TFRC],[B2M,TP53],

[B2M,CREBBP],[B2M,SOCS3],[B2M,BRAF],[TFRC,TP53],[TFRC,CREBBP],

[TFRC,SOCS3],[TFRC,BRAF],[TP53,CREBBP],[TP53,SOCS3],[TP53,BRAF],

[CREBBP,SOCS3],[CREBBP,BRAF],和[SOCS3,BRAF];和/或

(n)由(m)中的任意对对所述的三种(或四种)与以下列表中一种(或两种)其他 非重复性基因的组合:NR4A1,B4GALT1,SOX4, SQSTM1,B2M,TFRC,TP53,CREBBP,SOCS3,和BRAF;和/或

(o)在下面方括号([...])中成对的任意特定组合:

[MAGEA2,PRAME],[MAGEA2,PDIA4],[MAGEA2,NR4A1],[MAGEA2,PDLIM7],

[MAGEA2,B4GALT1],[MAGEA2,SAT1],[MAGEA2,RUNX1],[MAGEA2,SOCS3],

[PRAME,PDIA4],[PRAME,NR4A1],[PRAME,PDLIM7],[PRAME,B4GALT1],

[PRAME,SAT1],[PRAME,RUNX1],[PRAME,SOCS3],[PDIA4,NR4A1],

[PDIA4,PDLIM7],[PDIA4,B4GALT1],[PDIA4,SAT1],[PDIA4,RUNX1],

[PDIA4,SOCS3],[NR4A1,PDLIM7],[NR4A1,B4GALT1],[NR4A1,SAT1],

[NR4A1,RUNX1],[NR4A1,SOCS3],[PDLIM7,B4GALT1],[PDLIM7,SAT1],

[PDLIM7,RUNX1],[PDLIM7,SOCS3],[B4GALT1,SAT1],[B4GALT1,RUNX1],

[B4GALT1,SOCS3],[SAT1,RUNX1],[SAT1,SOCS3],或[RUNX1,SOCS3];和/或

(p)由(o)中任意对所述的三种(或四种)与以下列表中一种(或两种)其他 非重复性基因的组合:MAGEA2,PRAME,PDIA4,NR4A1, PDLIM7,B4GALT1,SAT1,RUNX1,和SOCS3;和/或

(q)在下面方括号([...])中成对的任意特定组合(“hsa”在每种情况下已被去除, 但是旨在作为标识符的一部分):

[miR.122,miR.1291],[miR.122,miR.191],[miR.122,miR.19b],[miR.122,miR.200a],

[miR.122,miR.200c],[miR.122,miR.203],[miR.122,miR.205],[miR.122,miR.21],

[miR.122,miR.23b],[miR.122,miR.29c],[miR.122,miR.342.3p],[miR.122,miR.375],

[miR.122,miR.665],[miR.122,miR.1304],[miR.122,miR.142.5p],[miR.122,miR.1254],

[miR.122,let.7a],[miR.122,miR.140.5p],[miR.122,miR.183],[miR.1291,miR.191],

[miR.1291,miR.19b],[miR.1291,miR.200a],[miR.1291,miR.200c],[miR.1291,

miR.203],[miR.1291,miR.205],[miR.1291,miR.21],[miR.1291,miR.23b],[miR.1291,

miR.29c],[miR.1291,miR.342.3p],[miR.1291,miR.375],[miR.1291,miR.665],

[miR.1291,miR.1304],[miR.1291,miR.142.5p],[miR.1291,miR.1254],[miR.1291,

let.7a],[miR.1291,miR.140.5p],[miR.1291,miR.183],[miR.191,miR.19b],[miR.191,

miR.200a],[miR.191,miR.200c],[miR.191,miR.203],[miR.191,miR.205],[miR.191,

miR.21],[miR.191,miR.23b],[miR.191,miR.29c],[miR.191,miR.342.3p],[miR.191,

miR.375],[miR.191,miR.665],[miR.191,miR.1304],[miR.191,miR.142.5p],[miR.191,

miR.1254],[miR.191,let.7a],[miR.191,miR.140.5p],[miR.191,miR.183],[miR.19b,

miR.200a],[miR.19b,miR.200c],[miR.19b,miR.203],[miR.19b,miR.205],[miR.19b,

miR.21],[miR.19b,miR.23b],[miR.19b,miR.29c],[miR.19b,miR.342.3p],[miR.19b,

miR.375],[miR.19b,miR.665],[miR.19b,miR.1304],[miR.19b,miR.142.5p],[miR.19b,

miR.1254],[miR.19b,let.7a],[miR.19b,miR.140.5p],[miR.19b,miR.183],[miR.200a,

miR.200c],[miR.200a,miR.203],[miR.200a,miR.205],[miR.200a,miR.21],[miR.200a,

miR.23b],[miR.200a,miR.29c],[miR.200a,miR.342.3p],[miR.200a,miR.375],

[miR.200a,miR.665],[miR.200a,miR.1304],[miR.200a,miR.142.5p],[miR.200a,

miR.1254],[miR.200a,let.7a],[miR.200a,miR.140.5p],[miR.200a,miR.183],[miR.200c,

miR.203],[miR.200c,miR.205],[miR.200c,miR.21],[miR.200c,miR.23b],[miR.200c,

miR.29c],[miR.200c,miR.342.3p],[miR.200c,miR.375],[miR.200c,miR.665],

[miR.200c miR.1304],[miR.200c,miR.142.5p],[miR.200c,miR.1254],[miR.200c,let.7a],

[miR.200c miR.140.5p],[miR.200c,miR.183],[miR.203,miR.205],[miR.203,miR.21],

[miR.203,miR.23b],[miR.203,miR.29c],[miR.203,miR.342.3p],[miR.203,miR.375],

[miR.203,miR.665],[miR.203,miR.1304],[miR.203,miR.142.5p],[miR.203,miR.1254],

[miR.203,let.7a],[miR.203,miR.140.5p],[miR.203,miR.183],[miR.205,miR.21],

[miR.205 miR.23b],[miR.205,miR.29c],[miR.205,miR.342.3p],[miR.205,miR.375],

[miR.205,miR.665],[miR.205,miR.1304],[miR.205,miR.142.5p],[miR.205,miR.1254],

[miR.205 let.7a],[miR.205,miR.140.5p],[miR.205,miR.183],[miR.21,miR.23b],

[miR.21,miR.29c],[miR.21,miR.342.3p],[miR.21,miR.375],[miR.21,miR.665],

[miR.21,miR.1304],[miR.21,miR.142.5p],[miR.21,miR.1254],[miR.21,let.7a],[miR.21,

miR.140.5p],[miR.21,miR.183],[miR.23b,miR.29c],[miR.23b,miR.342.3p],[miR.23b,

miR.375],[miR.23b,miR.665],[miR.23b,miR.1304],[miR.23b,miR.142.5p],[miR.23b,

miR.1254],[miR.23b,let.7a],[miR.23b,miR.140.5p],[miR.23b,miR.183],[miR.29c,

miR.342.3p],[miR.29c,miR.375],[miR.29c,miR.665],[miR.29c,miR.1304],[miR.29c,

miR.142.5p],[miR.29c,miR.1254],[miR.29c,let.7a],[miR.29c,miR.140.5p],[miR.29c,

miR.183],[miR.342.3p,miR.375],[miR.342.3p,miR.665],[miR.342.3p,miR.1304],

[miR.342.3p,miR.142.5p],[miR.342.3p,miR.1254],[miR.342.3p,let.7a],[miR.342.3p,

miR.140.5p],[miR.342.3p,miR.183],[miR.375,miR.665],[miR.375,miR.1304],

[miR.375,miR.142.5p],[miR.375,miR.1254],[miR.375,let.7a],[miR.375,miR.140.5p],

[miR.375,miR.183],[miR.665,miR.1304],[miR.665,miR.142.5p],[miR.665,miR.1254],

[miR.665,let.7a],[miR.665,miR.140.5p],[miR.665,miR.183],[miR.1304,miR.142.5p],

[miR.1304,miR.1254],[miR.1304,let.7a],[miR.1304,miR.140.5p],[miR.1304,miR.183],

[miR.142.5p,miR.1254],[miR.142.5p,let.7a],[miR.142.5p,miR.140.5p],[miR.142.5p,

miR.183],[miR.1254,let.7a],[miR.1254,miR.140.5p],[miR.1254,miR.183],[let.7a,

miR.140.5p],[let.7a,miR.183],或[miR.140.5p,miR.183];和/或

(r)由(q)中的任意对所述的三种(或四种)与以下列表中一种(或两种)其他 非重复性基因的组合:hsa.miR.122,hsa.miR.1291, hsa.miR.191,hsa.miR.19b,hsa.miR.200a,hsa.miR.200c,hsa.miR.203,hsa.miR.205, hsa.miR.21,hsa.miR.23b,hsa.miR.29c,hsa.miR.342.3p,hsa.miR.375,hsa.miR.665, hsa.miR.1304,hsa.miR.142.5p,hsa.miR.1254,hsa.let.7a,hsa.miR.140.5p,或hsa.miR.183.

具体的方法实施方案包括将所述疾病特异性的生物标记物(例如, 参见以上(a)-(r))的表达标准化为至少一种标准化生物标记物。如在本 公开内容他处更详细论述的,标准化是包括在一些方法实施方案中的用 于控制基因表达值中的某些类型的混淆变量的步骤。将所有疾病特异性 变量的值调整为特定标准化生物标记物的表达(例如,通过除法或减法) 是一种标准化这类疾病特异性变量的非限制性方式。作为一般规则,特 定标准化生物标记物在目的样品类型间(如痣和原发性黑素瘤样品类型 间)的表达上没有统计学显著差异。痣和黑素瘤样品的示例性标准化生 物标记物列于表3中。一些公开的方法考虑了将疾病特异性生物标记物 (参见,例如,表4、11和/或13)的表达标准化为表3中所列的或如 选自如下的标准化生物标记物中的至少2种、至少3种、至少4种、至 少5种、至少6种、至少7种、至少8种或所有的表达水平:(i)MFI2、 RAP2B、BMP1、NCOR2、RPS6KB2和SDHA(ii)BMP-1、MFI2、 NCOR2和RAP2b;或(iii)RPS6KB2和SDHA。尽管这里对示例性的 标准化生物标记物进行了限定,下面对可用于所公开方法的标准化的其 他方法进行了论述。

检测基因表达

公开的方法还包括检测本文发现的基因(参见表4、11和/或13) 的表达,所述基因区分良性的(例如,痣)和恶性的(例如,原发性黑 素瘤)含黑素细胞的样品,或适于标准化这些样品类型中的表达水平(见 表3)。多种技术可被(或可能变成可被)用于在目的样品中测量基因 表达。但是,本公开内容不限于获得、测量或检测基因表达的具体方法。 很多这种技术包括检测在这类样品中表达的基因产物(例如,核酸(如 mRNA或miRNA)和/或蛋白质)。不依赖于测量其产生的基因产物而 直接检测基因或染色体DNA的活性(例如,转录速率)也可能是(或 变成)可能的,并且这样的技术还可用于本文公开的方法。

可使用基于溶液(即,异位)的测定(如PCR或在核酸酶保护测 定或核酸测序)在所公开的方法中确定基因表达水平。在其他实例中, 使用原位测定(例如,使用免疫组织化学或原位杂交)确定或检测表达 水平。

检测核酸基因产物

核酸基因产物,顾名思义,是为核酸的基因表达产物。其表达可被 检测的示例性核酸包括包括DNA或RNA,如cDNA、蛋白质-编码RNA (例如,mRNA)或非编码RNA(例如,miRNA或lncRNA)。在一 个具体的实例中,所述方法包括检测mRNA表达、miRNA表达或二者 都检测。RNA或DNA的互补链间的碱基配对(即,核酸杂交)形成用 于检测核酸基因产物的一大类代表技术的全部或部分基础。其他代表性 的检测技术包括核酸测序,其可包括或不包括杂交步骤和/或生物信息 学步骤(例如,为了将核酸序列信息与其相应的基因关联)。检测核酸 的这些和其他方法是本领域已知的,尽管本文描述了代表性技术,本公 开内容并非意欲被限制于具体的核酸检测方法。

在本公开方法的一些实施方案中,在含黑素细胞的样品中确定基因 表达的水平包括检测表4、11和/或13中所示的两种或多种核酸(以及 在一些实例中还有表3中所示的一种或多种核酸),例如通过在所述样 品中确定这类核酸的相对量或实际量。示例性的核酸包括DNA或RNA, 如cDNA、miRNA或mRNA。

可使用,例如,体外核酸扩增和/或核酸杂交来检测或测量核酸分 子的表达水平。这类检测方法的结果可被定量,例如通过确定所述杂交 的量或扩增的量。因此,在一些实例中,在本文提供的方法中确定生物 标记物(如单独地或以任何组合方式的表3、4、11和/或13中的那些, 包括表6、8或14中的组合)的表达水平可包括,在允许多种核酸探针 或成对的引物杂交到其互补的表4、11和/或13中的至少两种生物标记 物上的条件下,使所述样品与所述多种核酸探针(如核酸酶保护探针, NPP)或成对的扩增引物接触,其中每一种探针或成对的引物特异性针 对和互补于所述表4、11和/或13中的至少两种非重复的生物标记物之 一。在一个实例中,所述方法还可包括,在将所述样品与所述多种核酸 探针(如NPP)接触后,使该样品与消化单链核酸分子的核酸酶接触。

任选的核酸分离

在一些实例中,将核酸从所述含黑素细胞的样品中分离或提取,然 后将所述样品中的这些核酸与互补的额核酸探针或引物接触,和/或以 其他方式检测这些样品中的核酸。可根据多种方法中的任意一种从所述 样品中分离核酸(如RNA(例如,miRNA或mRNA)或DNA)。分 离和纯化所述核酸的代表性方法详细记载于Laboratory Techniques in  Biochemistry and Molecular Biology:Hybridization With Nucleic Acid  Probes,Part I.Theory and Nucleic Acid Preparation,P.Tijssen,ed. Elsevier,N.Y.(1993)中的第3章。类似地,RNA(例如,mRNA或miRNA) 提取的代表性方法是本领域公知的,并公开在分子生物学的标准教科书 中,例如,包括Ausubel et al.,Current Protocols of Molecular Biology, John Wiley and Sons(1997)。

具体方法可包括使用例如酸性胍盐-酚-氯仿提取法从样品中分离总 核酸,和/或通过寡dT柱层析或通过(dT)n磁珠分离polyA+mRNA (Sambrook et al,Molecular Cloning:A Laboratory Manual(2nd ed.), Vols.1-3,Cold Spring Harbor Laboratory,(1989),或Current Protocols in  Molecular Biology,F.Ausubel et al.,ed.Greene Publishing and  Wiley-Interscience,N.Y.(1987))。在其他实例中,可使用来自商业制造 商(如(Valencia,CA))的纯化试剂盒、缓冲液组和蛋白 酶,根据制造商的说明书进行核酸分离。例如,可使用的微型柱从细胞(如从受试者中获得的那些)中分离总RNA。其他市 售可得的核酸分离试剂盒包括完整DNA和RNA纯化 试剂盒(Wis.),以及石蜡块RNA分离试剂 盒(Ambion,Inc.)。可使用RNAStat-60(Tel-Test)从组织样品中分 离总RNA。可分离由肿瘤或其他生物样品制备的RNA,例如,通过氯 化铯密度梯度离心。用于从石蜡包埋的组织中提取RNA的方法公开于, 例如,Rupp和Locker,Biotechniques 6:56-60(1988),和De Andres et al., Biotechniques 18:42-44(1995)。

在从样品中分离或提取核酸(例如,RNA(如mRNA或miRNA) 或DNA)之后,可进行多种任选其他步骤中的任意一种来制备这类核 酸用于检测,包括测量所分离的核酸的浓度、修复(或回收)降解或损 伤的RNA、RNA逆转录和/或扩增RNA或DNA。

在其他实例中,将样品(例如,FFPE含黑素细胞的组织样品)悬 浮在缓冲液(例如,裂解缓冲液)中,并且不从所述悬浮样品中分离或 提取存在于该悬浮样品中的核酸(如RNA、DNA)并使其在这样的悬 浮液中与一种或多种互补的核酸探针(例如,核酸酶保护探针)接触; 因此,不需要从所述样品中分离或提取核酸(例如,RNA)。当存在于 所述悬浮样品中的核酸(如RNA或DNA)被交联或固定到细胞结构上 并且不能容易地分离或提取时,该实施方案是特别有利的。相对较短(例 如,小于100个碱基对,例如75-25个碱基对或50-25碱基对)的探针—— 不需要对其延伸即可用于检测——可用于一些非提取方法实施方案中。 普通技术人员会理解,当用于这类延伸的核酸模板(例如,RNA)被降 解或原本不可使用时,需要探针延伸(例如PCR或引物延伸)的方法 是不可靠的。用于在样品中检测核酸(例如,RNA)而不需要预先提取 这类核酸的特定方法(例如,qNPA)详细描述于本文他处。

核酸杂交

在一些实例中,在本文提供的方法中确定公开的生物标记物(如表 4、11和/或13中的那些)或标准化生物标记物(例如,表3)的表达 水平可包括,在允许多种核酸探针或成对的引物杂交到其互补的表4、 11和/或13中的生物标记物上的条件下,使所述样品与所述多种核酸探 针(如核酸酶保护探针,NPP,或相邻可接探针)或成对的扩增引物接 触,其中所述多种核酸探针或成对的扩增引物中的每一种探针(或可连 接探针的组)或成对的引物特异性针对和互补于所述表4、11和/或13 中的至少两种生物标记物之一或表3中的标准化生物标记物。在一个实 例中,所述方法还可包括,在将所述样品与所述多种核酸探针(如NPP) 接触后,使所述样品与消化单链核酸分子的核酸酶接触。在其他实例中, 使表4、11和/或13中的所述至少两种生物标记物或表3中的标准化生 物标记物中的每一种与“探针组”接触,所述“探针组”由多种(例如, 2、3、4、5或6种)特异性针对每一种所述生物标记物的探针组成, 这种设计可用于,例如,增强来自所述基因产物的信号或检测同一基因 产物的多种变体。

在一些实例中,通过核酸杂交检测变量(例如,表4、11和/或13) 或标准化(例如,表3)核酸。核酸杂交包括,在所述探针和其互补靶 可通过互补碱基配对形成稳定的杂合双链的条件下提供变性探针和靶 核酸(例如,表4、11和/或13中的那些)。在一些实例中,随后将没 有形成杂合双链的核酸除去(例如,洗掉,通过核酸酶消化或物理移除) 而留下所述待检测的杂交的核酸,一般通过检测(直接或间接)连接的 可检测标签。在具体的实例中,没有形成杂合双链的核酸(如没有和其 各自的靶杂交的任何过量探针),以及不与所述探针互补的靶序列的区 域可通过加入核酸酶消化掉,从而仅留下所述互补探针的靶序列的杂合 双链。

通常认为通过升高温度和/或降低含核酸的缓冲液的盐浓度来使核 酸变性。在低严格条件下(例如,低温度和/或高盐),会形成杂合双 链(例如,DNA:DNA、RNA:RNA或RNA:DNA),即使所述退 火序列不是完全互补。因此,在较低的严格条件下,杂交的特异性降低。 相反,在较高的严格条件(例如,更高的温度或较低的盐浓度),成功 的杂交要求较少的错配。本领域技术人员会理解,可设计杂交条件以提 供不同程度的严格性。可提高杂交的强度而不降低杂交的严格性,并且 因此可将杂交的特异性保持在高严格性的缓冲液中,通过包括所述探针 中的非天然碱基,例如通过包括锁核酸或肽核酸。

一般而言,在杂交特异性(严格性)和信号强度之间存在一个折衷 关系。因此,在一个实施方案中,在最高严格条件下进行洗涤,该最高 严格条件产生一致的结果,并且提供高于约10%背景强度的信号强度。 因此,可在连续的较高严格性溶液中洗涤所述杂交复合物(例如,如阵 列表面上所捕获的)并且可在每次洗涤之间读取数据。这样产生的对数 据组的分析将揭示在其之上杂交模式没有明显的改变并且为所述具体 的目的寡核苷酸探针提供足够信号的洗涤严格性。

由这些方法检测到的核酸表达上的改变和/或核酸的存在,例如可 包括这种核酸、其表达或翻译成蛋白质的水平(量)或功能活性上,或 它们的定位或稳定性上的增加或降低。例如相对于标准化生物标记物 (参见,例如,表3),增加或降低可能是具体的核酸(如对应于表4、 11和/或13的任何一个中所示的生物标记物的核酸)的表达和/或存在 上的变化(增加或降低)的例如至少1倍、至少2倍或至少5倍,如约 1倍、2倍、3倍、4倍、5倍。在多重方法实施方案中,还可对非标准 化物基因(例如,变量基因;例如,表4、11和/或13)的相对表达进 行比较;特别是,当每一个这种基因已经被类似地标准化(例如,标准 化为一种或多种共检测的标准物基因的表达;例如参见表3)时。因此, 一种变量基因的标准化表达可以比另一种变量基因的标准化表达高或 低至少1倍、至少2倍、或至少5倍,如约1倍、1.5倍、2倍、3倍、 4倍、5倍。

在一些实施方案中,使用多重方法学和/或高通量方法学测量基因 表达。在多重方法中,在单个样品中得到多个测量值(例如,基因表达 测量值)。已开发出允许在单个样品中检测大量基因的技术(例如,常 规的微阵列、多重PCR、基因表达的系列分析(SAGE;例如,美国专 利NO.5,866,330)、多重连接依赖性探针扩增(MLPA)、高通量测序、 基于标记珠的技术(例如,美国专利NO.5,736,330和6,449,562)、数 字分子条形编码技术(例如,美国专利NO.7,473,767))。在高通量方 法中,同时测量多个样品中的基因表达。高通量方法还可以是多重的(即, 同时在多个样品的每一个中检测多个基因)。

在一些实施方案中,在单个含黑素细胞的样品中或在多个含黑素细 胞的样品(如来自不同受试者的样品)中同时确定一种或多种生物标记 物(如表4、11和/或13中的那些中的两种或多种(例如,表6、8或 14中的任意基因组合),和/或表3中的至少一种)的表达水平。在一 个实例中,可在同一样品中或在多个样品中同时检测表4、11和/或13 中所列的生物标记物中的至少2种、至少3种、至少4种、至少5种、 至少6种、至少7种、至少8种、至少9种、至少10种、至少11种、 至少12种、至少13种、至少14种、至少15种、至少16种、至少17 种、至少18种、至少19种、或(如果适用的话)至少20种、至少21 种、至少22种、至少23种、至少24种、至少25种、至少26种、至 少27种、至少28种、至少29种、至少30种、至少31、或所有(如 表4、11和/或13中的生物标记物中的2种、3种、4种、5种、6种、 7种、8种、9种、10种、11种、12种、13种、14种、15种、16种、 17种、18种、19种、20种、或(如果适用的话)21种、22种、23种、 24种、25种、26种、27种、28种、29种、30种、31种或所有), 或,例如,表6、8或14中的任意基因组合,并且在一些实例中,同时, 例如同时使用表4、11和/或13中的至少两种生物标记物检测表3中所 列的标准化生物标记物(或使用本文公开的方法鉴定的其他标准化生物 标记物)中的至少2种、至少3种、至少4种、至少5种或所有6种。 所述多个样品可来自多个不同的受试者和/或可是来自同一受试者的多 个样品,如至少2个不同的样品(例如,来自至少2个不同的受试者和 /或来自同一受试者的肿瘤或身体的不同区域)。在一些实例中,同时 分析至少2个、至少5个、至少10个、至少20个、至少50个、至少 100个、至少500个、至少1000个、至少2000个、至少5000个或甚 至至少10,000个含黑素细胞的样品(如同时分析10-100个、10-1000 个、100-1000个、100-5000个或1000-10,000个含黑素细胞的样品)。

本公开内容还包括利用用于高通量筛选的集成系统的方法。该系统 一般包括将液体从来源转移到目的地的机器人手臂,控制所述机器人手 臂的控制器、检测器、记录检测的数据存储单元、以及分析组件如微量 滴定板,例如包括一种或多种编程接头或包括一种或多种可直接杂交到 靶(如表4、11和/或13中的两种或多种生物标记物,和一种或多种表 3中的标准化标记物)上的寡聚核苷酸。

阵列是一套有用的(非限制性的)用于基因表达的多重检测的工具。 阵列是元件(例如,分析物的捕获试剂(例如,靶特异性寡核苷酸探针、 适体或抗体))的系统排列,其中可将一组值(例如,基因表达值)与 分类检索表(identification key)关联在一起。可使用独立识别表面(例 如,流动通道或小珠)或通过其组合在单一表面上对所排列的元件进行 系统鉴定(例如,通过空间映射或差异标记)。

可用于检测所公开的生物标记物的方法和测定系统的其他实例为 公开在如下的国际专利公布号中的高通量测定技术:WO 2003/002750 和WO 2008/121927、WO 1999/032663、WO 2000/079008、 WO/2000/037684和WO 2000/037683和美国专利Nos.6,232,066、 6,458,533、6,238,869和7,659,063,只要它们描述了高通量测定技术即 以引用的方式纳入本文。

在一些阵列实施方案中,将核酸探针(如寡核苷酸)——其被设计 以(直接或间接地)捕获表3、4、11和/或13中所示的基因的一种或 多种产物——电镀在或排列在微芯片基底上。例如,所述阵列可包括互 补于表3、4、11和/或13中所示的基因中的至少两种(如这些基因中 的至少3种、至少5种、至少10种、至少20种或所有,或表6、8或 14中的或如另外在本文公开的任意基因组合)和,任选地,至少一种 表3中所示的基因。在其他实例中,所述阵列可包括互补于核酸酶保护 探针的一部分的寡聚核苷酸,所述核酸酶保护探针互补于表3、4、11 和/或13中所示的基因中的至少两种(如这些基因中的至少3种、至少 5种、至少10种、至少20种或所有,或表6、8或14中的或如另外在 本文公开的任意基因组合)和,任选地,至少一种表3中所示的基因的 产物。

然后将所排列的序列与从所述测试样品(例如,从受试者中获得的 含黑素细胞的样品,其作为良性痣或恶性黑素瘤(例如原发性黑素瘤) 的特征是所需的)中分离的核酸(如cDNA、miRNA或mRNA)杂交。 在一个实例中,对从所述测试样品中分离的核酸进行标记,以使得可确 定它们在所述阵列上与所述特定的互补寡核苷酸杂交。或者,不对所述 测试样品核酸进行标记,并使用夹心测定——例如使用额外的互补于所 标记的靶的寡核苷酸来检测所述阵列上的寡核苷酸和所述靶核酸之间 的杂交。

在一个实施方案中,通过检测一种或多种与所述样品核酸连接的或 与直接或间接杂交到所述靶核酸上的核酸探针连接的标签来检测所述 杂交核酸。可通过多种方法中的任意一种整合所述标签。在一个实施方 案中,在所述样品核酸制备中的扩增步骤过程中同时整合所述标签。因 此,例如,带有标记引物或标记核苷酸的聚合酶链式反应(PCR)会提 供经标记的扩增产物。在一个实施方案中,使用经标记的核苷酸(如荧 光标记的UTP和/或CTP)的转录扩增将标签整合到所转录的核酸中。

适用于本公开内容全文中的实施方案的可检测标签包括可通过光 谱、光化学、生物化学、免疫化学、电学、光学或化学方法检测的任何 组合物。有用的标签包括用于染色的带有标记的链霉亲和素缀合物的生 物素、磁珠(例如,DYNABEADSTM)、荧光染料(例如荧光素、德克 萨斯红、罗丹明、绿色荧光蛋白等)、化学发光标记物、放射性标记物 (例如,3H、125I、35S、14C或32P)、酶(例如,通常用于ELISA的 辣根过氧化物酶、碱性磷酸酶和其他酶),和比色标签如胶体金或有色 玻璃或塑料(如,聚苯乙烯、聚丙烯、乳胶等)珠。教导这类标签的用 途的专利包括美国专利NO.3,817,837;美国专利No.3,850,752;美国专 利No.3,939,350;美国专利No.3,996,345;美国专利No.4,277,437;美 国专利No.4,275,149;和美国专利No.4,366,241。在一些实施方案中, 通过不同长度的间隔臂连接标签以降低潜在的空间位阻。

检测这些标签的方法也是公知的。因此,例如,可使用感光胶片或 闪烁计数器检测放射性标记物,可使用光电探测器检测荧光标记物以检 测发射光。一般通过将底物提供给酶并检测由酶作用于底物而产生的反 应产物来检测酶标签,并且通过简单地使有色标签显影来检测有色标签。

可在杂交前或杂交后将标签添加到所述靶(样品)核酸中。所谓的 “直接标签”是在杂交前直接被连接到或整合到所述靶(样品)核酸中 的可检测标签。相比之下,所谓的“间接标签”在杂交后被连接到杂合 环双链上。通常,所述间接标签被连接到在杂交前已经被连接到所述靶 核酸上的结合部分。因此,例如,可在杂交前将所述靶核酸生物素化。 杂交后,抗生物素蛋白-缀合的荧光团将结合带有杂合双链的生物素, 提供了容易被检测到的标签(参见Laboratory Techniques in Biochemistry  and Molecular Biology,Vol.24:Hybridization With Nucleic Acid Probes,P. Tijssen,ed.Elsevier,N.Y.,1993)。

原位杂交(ISH),如显色原位杂交(CISH)或银染原位杂交(SISH), 是用于检测和比较目的基因(如表3、4、11和/或13中的那些)的表 达的示例性方法。ISH是使用互补核酸以将一种或多种特定核酸序列定 位在组织的一部分或组织切片(原位)中、或者(如果所述组织足够小) 整个组织(整装ISH)中的一类杂交。RNAISH可用于测定组织中的表 达模式,如表4、11和/或13中的生物标记物的表达。可处理样品细胞 或组织来提高其渗透性以允许探针——如特异性针对表4、11和/或13 中的一种或多种生物标记物的探针——进入细胞。将所述探针加入到所 处理的细胞中,使其在相关温度下杂交,并洗去过量的探针。用可检测 的标签(如放射性、荧光或抗原标签)标记互补探针,以使得可确定所 述探针在组织中的定位和数量,例如使用放射自显影、荧光显微镜或免 疫测定。

原位PCR是PCR扩增靶核酸序列,随后原位检测目标和扩增子。 在原位PCR之前,一般将细胞或组织样品固定,进行透化以保存形态 并允许PCR试剂接触到待检测的细胞内序列上。任选地,引入细胞内 的逆转录步骤以从RNA模版中产生cDNA,这使得能够检测低拷贝的 RNA序列。接着,进行靶序列的PCR扩增;然后,通过ISH或免疫组 织化学观察细胞内PCR产物。

定量核酸酶保护试验(qNPA)

在本公开方法的具体实施方案中,使用定量核酸酶保护试验和阵列 (如下面所述的阵列)在样品中检测和核酸。所述定量核酸酶保护试验 (qNPA)记载于国际专利公开WO 99/032663;WO 00/037683;WO  00/037684;WO 00/079008;WO 03/002750和WO 08/121927;和美国专 利Nos.6,238,869;6,458,533和7,659,063,各自以引用的方式全文纳入 本文。还参见,Martel et al,Assay and Drug Development Technologies. 2002,1(1-1):61-71;Martel et al,Progress in Biomedical Optics and  Imaging,2002,3:35-43;Martel et al,Gene Cloning and Expression  Technologies,Q.Lu和M.Weiner,Eds.,Eaton Publishing,Natick(2002); Seligmann,B.PharmacoGenomics,2003,3:36-43;Martel et al,“Array  Formats”in“Microarray Technologies and Applications,”U.R.Muller  and D.Nicolau,Eds,Springer-Verlag,Heidelberg;Sawada et al, Toxicology in Vitro,20:1506-1513;Bakir et al.,Biorg.&Med.Chem Lett,17: 3473-3479;Kris,et al,Plant Physiol.144:1256-1266;Roberts et  al.,Laboratory Investigation,87:979-997;Rimsza et al.,Blood,2008Oct 15, 112(8):3425-3433;Pechhold et al.,Nature Biotechnology,27,1038-1042。 所有这些以引用的方式整体纳入本文。

使用qNPA方法,使核酸酶保护探针(NPP)能够与所述靶序列杂 交,随后用消化单链核酸分子的核酸酶孵育所述样品。因此,如果检测 到所述探针(例如,其没有被核酸酶消化),那么所述探针的靶(例如 表3、4、11和/或13中所示的靶核酸)存在于所述样品中,并且可检 测(例如,定量)到这种存在。可设计单个靶的NPP并将其作为混合 物加入到试验中用于在阵列上鉴定;因此,可在同一试验和/或阵列内 测量多个基因靶。

在一些实例中,直接使用所述含黑素细胞的样品中的细胞、或首先 将其裂解或渗透在水性溶液中(例如,使用裂解缓冲液)。所述水性溶 液或裂解缓冲液可包括洗涤剂(例如十二烷基硫酸钠)和/或一种或多 种离液剂(如甲酰胺、盐酸胍、异硫氰酸胍或尿素)。所述溶液可包含 缓冲液(例如,SSC)。在一些实例中,所述裂解缓冲液包含约15%到 25%甲酰胺(v/v)、约0.01%到约0.1%SSC和约0.5-6X SSC。所述缓 冲液可任选地包括tRNA(例如,约0.001-约2.0mg/ml)或核糖核酸酶。 所述裂解缓冲液还可包括pH指示剂,如酚红。在一个具体的实例中, 所述裂解缓冲液包括20%甲酰胺(v/v)、3X SSC(79.5%)、0.05%DSD、 1μg/ml tRNA和1mg/ml酚红。将细胞在水溶液中孵育足够长的时间 (如约1分钟到约60分钟,例如约5分钟到约20分钟,或约10分钟) 并在足够的温度(如约22℃–约115℃,例如约37℃–约105℃,或约 90℃–约100℃)下孵育以裂解或透化所述细胞。在一些实例中,在约 95℃下进行裂解,如果待检测的核酸是RNA。在其他实例中,优选在 约105℃下进行裂解,如果待检测的核酸是DNA。

在一些实例中,可在缓冲液如,例如6X SSPE-T(0.9M NaCl、60 mM NaH2PO4、6mM EDTA和0.05%Triton X-100)中或裂解缓冲液 (以上所述的)中,将互补于所述靶的核酸保护探针(NPP)(如SEQ  ID NOS:1-36和123-164中所示的那些)加入到浓度范围为约10pM至 约10nM(如约30pM至约5nM、约100pM至约1nM)的样品中。 在一个实例中,将所述探针加入到终浓度为约30pM的样品中。在另 一个实例中,将所述探针加入到终浓度为约167pM的样品中。在其他 实例中,将所述探针加入到终浓度为约1nM的样品中。在这些实例中, 如果NPP被杂交到互补序列(如靶序列)上(与其形成双链),则所 述NPP不能被核酸酶消化,如S1。

本领域技术人员可鉴定足够用于NPP特异性和其存在于所述测试 样品中的靶杂交的条件。例如,本领域技术人员可通过实验确定特征(如 长度、碱基组成和互补性程度),所述特征将使得核酸(例如,NPP) 在选择严格性的条件下和另一核酸(例如,表3、4、11和/或13中的 靶核酸)杂交,同时最小化和其他底物或分子的非特异性杂交。通常, NPP的核酸序列将和相应的靶序列具有足够的互补性以使得其能够在 选择严格性杂交条件下杂交,例如,在约37℃下或更高温度(如约37℃、 42℃、50℃、55℃、60℃、65℃、65℃、70℃、75℃或更高温度)下 杂交。在杂交反应参数中可变的是盐浓度、缓冲液、pH、温度、培养 时间、甲酰胺等变性剂的量和类型。

使所述样品中的核酸变性(例如,在约95℃到约105℃下变性约 5-15分钟)并使其在温度范围为约4℃到约70℃(例如,约37℃到约 65℃、约45℃到约60℃、或约50℃到约60℃)下和NPP杂交约10 分钟到约24小时(例如,至少约1小时到约20小时,或约6小时或约 16小时)。在一些实例中,将所述探针与所述样品在如下温度下孵育: 至少约40℃、至少约45℃、至少约50℃、至少约55℃、至少约60℃、 至少约65℃或至少约70℃。在另一个实例中,将所述NPP与所述样 品在约50℃下孵育。这些杂交温度是示例性的,并且本领域技术人员 可根据因素如所述NPP的长度和核苷酸组成来选择合适的杂交温度。

在一些实施方案中,所述方法不包括核酸扩增(例如,在将所述样 品与所述探针接触之前不进行核酸扩增,和/或在将所述样品与所述探 针接触之后不进行核酸扩增)。在一些实例中,除了细胞裂解,不需要 对所述样品进行预处理。在一些实例中,细胞裂解以及使所述样品与所 述NPP接触依次进行,在一些非限制性实例中,无需任何中间步骤。 在其他实例中,细胞裂解以及使所述样品与所述NPP接触同时发生。

在所述样品中所述一种或多种NPP与核酸杂交后,对所述样品进 行核酸酶保护步骤。已经和全长核酸杂交的NPP不能被所述核酸酶水 解并且随后可被检测。

用一种或多种核酸酶处理会破坏除了已经和存在于所述样品中的 核酸分子杂交的探针之外的核酸分子。例如,如果所述样品包括细胞提 取物或裂解液,不需要的核酸(除了目的基因之外的基因组DNA、cDNA、 tRNA、rRNA和mRNA)在这一步骤中可被基本破坏。本领域技术人 员可,例如基于是否要检测DNA或RNA,选择适当的核酸酶。可使用 多种核酸酶中的任意一种,包括,胰RNA酶、绿豆核酸酶、S1核酸酶、 RNA酶A、核糖核酸酶T1,外切核酸酶III、外切核酸酶VII、RNA 酶CLB、RNA酶PhyM,RNA酶U2等等,这取决于所述杂交复合物 和存在于样品中的不需要的核酸的性质。在具体的实例中,所述核酸酶 特异性针对单链核酸,例如,S1核酸酶。在本文所公开的一些方法实 施方案中使用特异性针对单链核酸的核酸酶的好处在于从随后的反应 步骤中去除这样的单链(粘性)分子,在所述随后的反应步骤中这些单 链分子可导致不必要的背景或交叉反应性。S1核酸酶可商购于,例如, Promega,Madison,WI(目录号M5761);LifeTechnologies/Invitrogen, Carlsbad,CA(目录号18001-016);Fermentas,GlenBurnie,MD(目 录号EN0321)等。本领域公知这些酶的反应条件并可凭经验对其进行 优化。

在一些实例中,将稀释在适当缓冲液(如缓冲液包括乙酸钠、氯化 钠、硫酸锌和去污剂,例如,0.25M乙酸钠、pH4.5、1.4M NaCl、0.0225 M ZnSO4、0.05%KATHON)中的S1核酸酶加入到所述杂交探针混合 物中,并在约50℃下孵育约30-120分钟(例如,约60-90分钟)以消 化未杂交的核酸和未结合的NPP。

可任选对所述样品进行处理以除去未杂交的原料和/或以使残留的 酶变性或除去(例如,通过苯酚萃取、沉淀、柱层析等)。在一些实例 中,任选对所述样品进行处理以从所述探针中分离所述靶核酸(例如, 使用碱水解和加热)。在杂交后,可将所杂交的靶降解,例如,通过核 酸酶或通过化学处理,使NPP与已和靶杂交的NPP的量成正比。或者, 可对所述样品进行处理,从而使得对所述靶的(单链)杂交部分、或由 所述杂交靶和所述探针形成的双链进行进一步分析。

然后检测所述NPP(或剩余靶或靶:NPP复合物)的存在。可使 用任何适合的方法来检测所述探针(或剩余靶或靶:NPP复合物)。在 一些实例中,所述NPP包括可检测的标签,并且检测所述NPP的存在 包括检测该可检测标签。在一些实例中,用相同的可检测标签对所述 NPP进行标记。在其他实例中,用不同的可检测标签对所述NPP进行 标记(如每个靶有不同的标签)。在其他实例中,间接检测所述NPP, 例如通过使用经标记的核酸进行杂交。在一些实例中,使用微阵列(例 如,包括可检测地经标记的(例如,用生物素或辣根过氧化物酶标记的) 与所述NPP互补的核酸的微阵列)检测所述NPP。在其他实例中,使 用包括捕获探针和编程接头的微阵列检测所述NPP,其中所述编程接头 的一部分与所述NPP的一部分互补,随后与检测接头孵育,所述检测 接头的一部分与所述NPP的单独部分互补。可对所述检测接头进行可 监测地标记,或所述检测接头的单独部分与其他包括可检测标签(如生 物素或辣根过氧化物酶)的核酸互补。在一些实例中,可在微阵列上检 测所述NPP,例如,如以引用的方式全文纳入本文的国际专利出版物 WO 99/032663;WO 00/037683;WO 00/037684;WO 00/079008;WO  03/002750;和WO 08/121927;和美国专利Nos.6,238,869;6,458,533;和 7,659,063中所述。

简而言之,在一个非限制性实例中,在杂交和核酸酶处理后,对所 述溶液进行中和并将其转移到编程ARRAYPLATE(HTG分子诊断, Tucson,AZ;对ARRAYPLATE的每个元件进行编程以捕获特定的探 针,例如利用连接在该板上的锚以及与所述锚相关联的编程接头)中, 在孵育的过程中(例如,在50℃下过夜)捕获所述NPP。可在X-MAP 小珠(Luminex,Austin,TX)上捕获所述探针——称为QBEAD测定 的测定,或对该探针进行进一步处理(包括所需的PCR扩增或连接反 应,以及例如随后通过测序进行测量)。除去培养基并加入探针特异性 的检测接头的混合物,在ARRAYPLATE和QBEAD测定的情况下, 该混合物在孵育的过程中(例如,在约50℃下孵育1小时)与它们各 自的(捕捉)探针杂交。在特异性针对ARRAYPLATE和QBEAD测 定中,洗涤所述阵列或小珠,然后加入三联体生物素接头(与每个检测 接头上的共同序列杂交的寡核苷酸,带有三个整合到其中的生物素)并 孵育(例如,在37℃下孵育1小时),然后进行洗涤以除去未结合的抗 生物素蛋白-HRP或链霉亲和素多聚-HRP。加入底物,并对所述平板进 行成像以测量该板内每个元件的强度。在加入QBEAD抗生物素蛋白 -PE的情况下,洗涤所述小珠,然后通过流式细胞术使用Luminex200、 FLEXMAP3D、或其他合适的仪器进行测量。本领域技术人员可设计合 适的捕获探针、编程接头、检测接头和其他用于基于本文公开方法中使 用的NPP的定量核酸酶保护测定的试剂。

在一些实例中,直接将对NPP进行生物素化,而不是使用检测接 头。

核酸扩增

在一些方法实例中,扩增核酸分子(如核酸基因产物(例如,mRNA、 miRNA或lncRNA)或核酸酶保护探针),然后对它们进行检测或将它 们作为检测的方法。在一些实例中,在扩增的过程中,确定核酸表达水 平,例如通过使用实时RT-PCR。

在一个实例中,可在杂交(例如,和阵列上存在的互补寡核苷酸杂 交)前扩增核酸样品。如果需要定量结果,则使用保持或控制所扩增核 酸的相对频率的方法。“定量”扩增的方法是公知的。例如,定量PCR 包括使用相同的引物同时共扩增已知量的对照序列。这提供了可用于校 准所述PCR反应的内部标准。然后,阵列可包括特异性针对所述内部 标准的探针用于定量所扩增的核酸。

在一些实例中,选择用于扩增的引物以扩增目的基因产物(如表3、 4、11、和/或13的任何一个中所示的基因的RNA)的独特部分。在其 他实施方案中,选择用于扩增的引物以扩增特异性针对目的基因产物 (如表3、4、11、和/或13的任何一个中所示的基因的RNA)的NPP。 可用于扩增变量基因产物(例如,表3、4、11、和/或13的任何一个中 所示的),以及标准化基因产物(例如,参见表3)的引物是可商购的, 或可根据公知的方法来设计和合成。

在一个实例中,可在含黑素细胞的组织样品(例如,皮肤活检物) 中将RT-PCR用于检测RNA(例如,mRNA、miRNA或lncRNA)水 平。通常,在通过RT-PCR进行的基因表达分析中的第一步是将RNA 模板逆转录成cDNA,然后在PCR反应中进行指数扩增。两种常用的 逆转录酶是禽类成髓细胞瘤病毒逆转录酶(AMV-RT)和莫洛尼鼠类白 血病病毒逆转录酶(MMLV-RT)。一般根据环境和表达分析的目的, 使用特定的引物、随机六聚体或寡聚-dT引物来准备所述逆转录步骤。

尽管PCR可使用多种热稳定的DNA依赖性DNA聚合酶,其一般 采用TaqDNA聚合酶。一般利用Taq或Tth聚合酶的5’- 核酸酶活性来水解与其靶扩增子结合的杂交探针,但是可使用具有等价 的5’-核酸酶活性的任何酶。使用两个寡核苷酸引物来产生PCR反应的 典型扩增子。设计第三个寡核苷酸或探针,以检测位于所述两个PCR 引物间的核苷酸序列。该探针是不能被TaqDNA聚合酶延伸的,并且 标记有报告荧光染料和淬灭荧光染料。任何来自所述报告染料的激光发 射由淬灭染料淬灭当这两种染料在所述探针上的位置非常接近时。在所 述扩增反应的过程中,所述TaqDNA聚合酶以模板依赖性方式切割所 述探针。所产生的探针片段在溶液中解离,并且来自所释放的报告染料 的信号不受所述第二荧光团的淬灭作用的影响。释放报告染料的一个分 子用于每个新合成的分子,并且对未淬灭的报告染料的检测为所得数据 的定量解释提供基础。

RT-PCR的一种变化形式是实时定量RT-PCR,其通过双标记的荧 光探针(例如,探针)测量PCR产物的积累。实时PCR与 定量竞争性PCR兼容——其中每种靶序列的内部竞争物被用于进行标 准化,并且同时与定量比较性PCR兼容——该定量比较性PCR使用包 含在所述样品中的标准化基因或用于RT-PCR的标准化基因(参见 Heidet al.,GenomeResearch6:986-994,1996)。定量PCR还记载于美 国专利No.5,538,848。相关的探针和定量扩增方法记载于美国专利No. 5,716,784,和美国专利No.5,723,591。在微量滴定板中进行定量PCR的 仪器可获自,例如,PE Applied Biosystems(Foster City,CA)。

另一种定量核酸扩增方法记载于美国专利No.5,219,727。在该方法 中,通过同时扩增靶序列和内部标准核酸部分确定样品中的所述靶序列 的数量(例如,表4、11和/或13的任一个中所列的基因的表达产物)。 确定每一部分的扩增核酸的数量并与标准曲线进行比较以确定扩增前 存在于所述样品中的靶核酸部分的数量。

RNA测序

RNA测序提供了获得多重以及(在一些实施方案中)高通量的基 因表达信息的另一种方式。多个特定的RNA测序方法在本领域中是已 知的和/或处于开发中(关于综述,参见Chu和Corey, Nuc.AcidTherapeutics,22:271(2012))。全转录组测序和靶RNA测 序技术是可获得的并且可用于所公开的方法。基于测序的基因表达分析 的代表性方法包括基因表达系列分析(SAGE)、通过大规模平行签名测 序(MPSS)进行的基因表达分析,全转录组鸟枪测序(也称为,WTSS 或RNA-Seq)、或核酸酶保护测序(也称为,qNPS或NPSeq;参见PCT 出版物No.WO01/2012/151111)。

用于检测基因表达的蛋白质

在所公开方法的一些实施方案中,在含黑素细胞的样品(例如,皮 肤活检物)中确定基因表达的水平包括在所述样品中检测一种或多种蛋 白质(例如通过确定这种蛋白质的相对或实际含量)。检测蛋白的常规 方法是本领域已知的,并且所述公开内容不限于具体的蛋白质检测方法。

可检测蛋白质基因产物(例如,在表4和/或11的任何一个中的那 些)或标准化蛋白质(例如,表3中的那些)并且可通过由蛋白质特异 性结合试剂(如抗体或适体)识别的新型表位确定样品中的蛋白表达水 平,所述蛋白质特异性结合试剂特异性针对在如下免疫测定中使用的靶 蛋白(如在表3、4和/或11的任何一个中的那些):如ELISA测定、免 疫印迹分析、流式细胞术测定、免疫组织化学测定、酶免疫测定、放射 免疫测定、蛋白质印迹测定、免疫荧光测定、化学发光测定和其他肽检 测策略(Wong et al.,Cancer Res.,46:6029-6033,1986;Luwor et al.,Cancer  Res.,61:5355-5361,2001;Mishima et al.,Cancer Res.,61:5349-5354,2001; Ijaz et al.,J.Med.Virol.,63:210-216,2001)。通常,这些方法利用单克隆 抗体或多克隆抗体。

因此,在一些实例中,使用靶蛋白特异性结合剂(如可被可检测标 记的所述靶蛋白片段的抗体或适体)检测所述生物样品存在的靶蛋白表 达(如表3、4和/或11的任何一个中的那些)的水平以及因此所表达 的蛋白质的量。在一些实施方案中,所述特异性结合剂是抗体,如多克 隆抗体或单克隆抗体,其能够特异性地结合到所述靶蛋白(如在表3、 4和/或11的任何一个中的那些)上。因此,在某些实施方案中,在生 物样品中确定蛋白质的水平或量包括使来自受试者的样品与蛋白质特 异结合剂(如特异性地结合表3、4和/或11的任何一个中所示的蛋白 质的抗体)接触,检测该结合剂是否被所述样品结合,从而测量存在于 所述样品中的蛋白质的量。在一个实施方案中,所述特异性结合剂是所 述抗体特异性结合到所述靶蛋白(如在表3、4和/或11的任何一个中 的那些)的单克隆抗体或多克隆抗体。本领域技术人员会理解,靶蛋白 (如在表3、4和/或11的任何一个中的那些)的抗体是可商购的。

可使用多种特异性结合剂(如一种、两种、三种或更多种特异性结 合剂)检测靶蛋白(如在表3、4和/或11的任何一个中的那些)的存 在。因此,本方法可利用一种以上的抗体。在一些实施方案中,所述抗 体之一被连接在固体支持物(如多孔板(如,微量滴定板)、小珠、膜 等等)上。实际上,可方便地将微滴板用作固相。然而,也可以在液相 中进行抗体反应。

在一些实例中,所述方法可包括使所述样品与特异性结合第一抗体 的第二抗体接触,所述第一抗体特异性地结合到所述靶蛋白(如在表3、 4和/或11的任何一个中的那些)上。在一些实例中,可对所述第二抗 体进行可检测地标记,例如使用荧光团(如FITC、PE、荧光蛋白等), 酶(如HRP)、放射性标记物或纳米颗粒(如金颗粒或半导体纳米晶体, 例如量子点)。在该方法中,和抗体结合的酶会与适当的底 物(如显色底物)反应,以这样的方式以产生可例如通过分光光度测量 装置、荧光测定装置或视觉装置检测的化学部分。可用于可检测地标记 所述抗体的酶包括,但不限于,苹果酸脱氢酶、葡萄球菌核酸酶、δ-5- 类固醇异构酶、酵母乙醇脱氢酶、α-甘油磷酸盐脱氢酶、磷酸丙糖异构 酶、辣根过氧化物酶、碱性磷酸酶、天冬酰胺酶、葡萄糖氧化酶、β-半 乳糖苷酶、核糖核酸酶、脲酶、过氧化氢酶、葡萄糖-6-磷酸脱氢酶、葡 糖淀粉酶和乙酰胆碱酯酶。可通过使用该酶的显色底物的比色方法完成 所述检测。

还可通过视觉比较与类似的制备标准相比的底物的酶反应程度来 完成检测。示例性的荧光标记化合物包括异硫氰酸荧光素、罗丹明、藻 红蛋白、藻蓝蛋白、别藻蓝蛋白、邻苯二醛、Cy3、Cy5、Cy7、异硫氰 酸四甲基罗丹明、藻红蛋白、别藻蓝蛋白、德克萨斯红和荧光胺。还可 使用荧光发射金属如152Eu、或镧系的其他金属对所述抗体进行可检测 地标记。可与所述抗体缀合的其他金属化合物包括,但不限于,铁蛋白、 胶体金如胶体超顺磁珠。可使用这样的金属螯合基团如二亚乙基三胺五 乙酸(DTPA)或乙二胺四乙酸(EDTA)将这些金属连接到所述抗体 上。还可通过将其偶联到化学发光化合物上来对所述抗体进行可检测地 标记。化学发光标记化合物的实例是鲁米诺、异鲁米诺、芳族 (Theromatic)吖啶酯、咪唑、吖啶盐和草酸酯。同样地,可将生物发 光化合物用于标记所述抗体。在一个实例中,用生物发光化合物(如萤 光素、萤光素酶或水母发光蛋白)标记所述抗体。可与抗体缀合的半抗 原包括,但不限于,生物素、洋地黄毒苷、恶唑酮(oxazalone)和硝 基苯酚。可缀合或整合到所述抗体上的放射性化合物包括但不限于锝 99m(99Tc)、125I和包括任何放射性同位素(包括但不限于14C、3H和 35S)的氨基酸。

通常,蛋白质(如在表3、4和/或11的任何一个中的那些)的免 疫测定一般包括在抗体的存在下孵育生物样品,以及通过本领域公知的 多种技术中的任意一种检测所结合的抗体。在一个实例中,可将所述生 物样品(如含黑素细胞的样品)接触到并且固定到固相支持物或载体上, 所述固相支持物或载体为例如硝酸纤维素、或多孔板或其他固体支持物, 其能够固定细胞、细胞颗粒或可溶蛋白。然后可用合适的缓冲液洗涤所 述支持物,接着用所述特异性结合到所述靶蛋白(如在表3、4和/或11 的任何一个中的那些)上的抗体处理。随后可将所述固相支持物用所述 缓冲液进行第二次洗涤以除去未结合的抗体。如果所述抗体被直接标记, 然后可通过常规方法检测固体支持物上的结合的标签的量。如果所述抗 体未被标记,可使用经标记的第二抗体,其检测特异性结合所述靶蛋白 (如在表3、4和/或11的任何一个中的那些)的抗体。

或者,将抗体固定在固体支持物上,然后在使得所述抗体能够和分 离自生物样品(如来自皮肤或眼睛的组织活检物)的蛋白质与彼此特异 性结合的条件下,使所述抗体与所述蛋白质接触。然后可检测所产生的 抗体:蛋白质复合物,例如通过加入另一种特异性针对所述蛋白质的抗 体(由此形成了抗体:蛋白:抗体夹心)。如果所加入的第二种抗体是 经标记的,可检测所述复合物,或者,可使用特异性针对所加入的第二 抗体的经标记的第二antigay。

固相支持物或载体包括能够结合样品、抗原或抗体的材料。示例性 的支持物包括玻璃、聚苯乙烯、聚丙烯、聚乙烯、葡聚糖、尼龙、淀粉 酶、天然和修饰的纤维素、聚丙烯酰胺、辉长岩和磁铁矿。所述载体的 性质可以是某种程度上可溶的或不溶的。所述支持物材料实际上可具有 任何可能的结构构型,只要所偶联的分子能够结合到其靶(如抗体或蛋 白质)上。因此,所述支持物构型可以是球形的(如小珠)、圆柱形的 (如测试试管的内表面、或棒的外表面)。或者,所述表面可以是平滑 的,如薄片或测试条。

在一个实施方案中,利用酶联免疫吸附试验(ELISA)检测所述靶 蛋白(例如,参见Voller,“The Enzyme Linked Immunosorbent Assay (ELISA),”Diagnostic Horizons 2:1-7,1978)。可使用ELISA在样品中检测 蛋白质的存在,例如通过使用特异性结合到靶蛋白(如在表3、4和/或 11的任何一个中的那些)上的抗体。在一些实例中,可将所述抗体连接 到酶上,例如,直接缀合或通过第二抗体,并且加入所述酶可将其转化 为可检测信号的底物。

还可使用多种其他免疫测定法中的任意一种完成检测;例如,通过 放射性标记所述抗体或抗体片段。在另一个实例中,可使用敏感和特异 性的串联免疫放射测定法(参见,Shen and Tai,J.Biol.Chem.,261:25, 11585-11591,1986)。可通过这样的方法如使用γ计数仪或闪烁计数仪或 通过放射自显影法检测所述放射性同位素。

在一个实例中,利用光谱测定法检测或定量靶蛋白(如在表3、4 和/或11的任何一个中的那些)的表达水平。示例性的光谱测定法包括 质谱、核磁共振谱、及其组合。在一个实例中,将质谱用于在含黑素细 胞的样品(如皮肤活检物)中检测靶蛋白(如在表3、4和/或11的任 何一个中的那些)的存在(参见例如,Stemmann et al.,Cell 107(6):715-26, 2001)。

还可通过质谱测定和免疫亲和测定检测靶蛋白(如在表3、4和/或 11的任何一个中的那些),使用基质辅助的激光解吸/电离飞行时间 (MALDI-TOF)质映射和液相色谱-四极飞行时间电雾化电离串联质谱 (LC/Q-TOF-ESI-MS/MS)通过二维聚丙烯酰胺凝胶电泳(2D-PAGE) 分离的蛋白质的序列标签(Kiernan et al.,Anal.Biochem.,301:49-56, 2002)。

可将定量质谱法如SELDI用于在含黑素细胞的样品(如皮肤活检 物)中分析蛋白质表达。在一个实例中,将表面-增强的激光解吸电离 飞行时间(SELDI-TOF)质谱用于检测蛋白质表达,例如通过使用 ProteinChip(CiphergenBiosystems,PaloAlto,CA)。这类方法是本领 域公知的(例如,参见美国专利Nos.5,719,060;6,897,072;和6,881,586)。 简而言之,一种形式的SELDI使用带有化学物质的色谱表面,所述化 学物质选择性地捕获目的分析物(如在表3、4和/或11的任何一个中 的那些)。

任选的测定对照测量

任选地,用于检测基因表达产物(例如,核酸(如mRNA、miRNA、 lncRNA)或蛋白质)的测定会具有用于评估测定性能的阳性和阴性过 程对照元件。

阳性对照可以是任何已知的,优选和所述靶(例如,RNA靶,然 后是RNA(或cDNA)阳性对照)具有类似性质的元件,其可包括在 测定(或样品)中,和所述靶平行地被检测并且不干扰(例如,交叉反 应)这类靶的检测。在一个实例中,所述阳性对照是作为单独的样品平 行运行的,或以已知量“掺(spiked)”在每个样品中的体外转录物(IVT)。 IVT特异性结合剂(例如,寡核苷酸探针如核酸酶保护探针))和(如 果使用的话)IVT特异性检测剂也被包含在每个测定中,以确保这种体 外转录物的阳性结果。在另一个实例中,IVF转录物可从甲烷杆菌属 (Methanobacterium sp.)AL-21染色体(NC_015216)的非交叉反应 区域来进行设计。

阴性过程对照元件可包括分析物特异性结合剂(例如,寡核苷酸或 抗体),所述分析物特异性结合剂被设计或选择来检测不期望在所述可 应用的测试样品中表达的基因产物。例如,在多重测定中包括能够在人 类转录物组或蛋白质组中识别任何基因表达产物的分析物特异性结合 剂(分别特异性针对植物或昆虫或线虫的RNA或蛋白质的寡核苷酸或 抗体,其中人类基因表达产物是所需靶)。该阴性对照元件在可应用测 定中不应产生信号。这类阴性过程对照元件的任何高于背景的信号都指 示测定失败。在一个实例中,所述阴性对照是ANT。

由于生物学和/或由于和样本稳定性、完整性或输入水平以及所述 测定过程和系统相关的可变性,基因表达可随着样品类型或受试者的不 同而不同。为了最小化非生物相关来源的可变性(特别是在多重测定中), 在具体的实施方案中,测量了在目的样品间没有显著变化或通过生物信 息学方法被发现没有显著变化的基因表达产物(例如,“看家产物 (housekeeper)”或标准化物)。在一些这样的实施方案中,候选标准 化基因产物的表达水平会显示足够的(例如高于背景的)强度值和/或 非饱和的强度值。标准化物基因表达产物的进一步论述见于本公开内容 他处。

在一些情况下,异常信号可能来自原本不能(例如,通过分析标准 化物)被控制的不期望过程相关的问题;因此,在一些实施方案中,包 括独立于样品的过程对照元件以用于在任何样本上指示成功或失败的 测定,而不考虑所述样本稳定性、完整性或输入水平。在其中检测核酸 基因表达产物的方法实施方案在每次测定中可包括已知浓度的RNA样 品(例如,体外转录物RNA或IVT)。这种对照元件(例如,IVT)会 在每次测定中被测量并且将作为测定过程质量对照。

MAQC(微阵列质量控制)计划提出“通用人类参照RNA”可能 是有用的微阵列基因表达测定的外部对照标准。因此,一些包括RNA 基因表达产物的公开方法实施方案可能,但不是必须,包括含有通用人 类参照RNA的平行处理的样品。如果这种通用RNA样品包括被靶向 用于通过适用的测定进行检测的所有或一些RNA,则可期望这类被包 含的RNA的阳性信号,所述被包含的RNA可充当一种(或另一种) 测定过程质量对照。

基因表达数据

已认为基因表达数据“包含解决与疾病的预防和治疗、生物进化机 制或药物发现相关的基本问题的关键因素”(Lu和Han,Information  Systems,28:243-268(2003))。在一些实例中,从这样的数据中提取信息 就像从检测到的一种或多种基因产物的存在、不存在或定性量(例如, 高、中、低)中进行定性测定一样简单。在其他实例中,原始基因表达 数据可被预处理(例如,背景减除、对数转换、和/或校正)、标准化、 和/或应用在分类算法中。这些方法更详细地描述于下文。

数据预处理

背景减除

在一些方法实施方案中,对原始基因表达数据进行了背景扣除。可 使用这种校正,例如,当已经使用多重方法(如微阵列)对数据进行了 收集时。这种转换的目的是修正局部效应,例如,当微阵列表面的一部 分可能看起来比表面的另一部分“更明亮”而无任何生物学原因时。背 景扣除的方法是本领域公知的,并且包括,例如,(i)局部背景减除(例 如,考虑在光点屏蔽之外但在中心位于光点中心的边界框之内的所有像 素)(ii)形态学开背景估计(依赖于非线性形态滤波器,例如开口、腐 蚀、膨胀和等级滤波器)(参见,Soille,Morphological Image Analysis: Principles and Applications,Berlin:Springer-Verlag(1999),以创建背景图 像用于从所述原始图像中减除),(iii)固定背景(减除所有光点的固定 背景),Normexp背景校正(使正态分布和指数分布的卷积与前景强度 契合,使用背景强度作为共变量,并且由所观察到的前景给出的预期信 号变成所述校正强度)。

数据转化

许多生物变量(例如,基因表达数据)不满足参数统计测试的假设, 例如,这样的变量不是正态分布,所得方差不均一,或两者都有(Durbin  et al.,Bioinformatics,18:S105(2002))。在一些情况下,转换数据会使得其 能够更好地吻合所述统计假设。在一些方法实施方案中,有用的数据转 换包括(i)对数转换,其由获取每一个观察值的对数(如,以10为底 的对数、以2为底的对数、以e为底的对数(也称为自然对数)组成; 所述对数选择没有区别,因为这些对数的不同之处在于常数因子;或者 方差稳定性转换,例如,如由Durbin所记载的(同上)。在具体的实例 中,对在这些方法中检测到的每一种生物标记物(例如,至少两种表4、 11和/或13的生物标记物或至少一种标准化生物标记物)的原始表达值 进行了对数(例如,以2为底的对数或以10为底的对数)转换。在其 他实施方案中,所述标准化步骤可包括用所述至少两种表4、11和/或 13的生物标记物中每一种的经对数(例如,以2为底的对数或以10为 底的对数)转换的原始表达值除以所述至少一种标准化生物标记物的经 对数(例如,以2为底的对数或以10为底的对数)转换的原始表达值。

数据滤波器

在一些实施方案中可对基因表达数据进行过滤以除去可被认为是 不可靠的数据。应理解,有很多本领域已知的方法用于评估基因表达数 据的可靠性,以下非限制性实例仅仅是代表性的。

在一些情况下,如果基因不表达或表达为不可检测的水平(不高于 背景),可从公开的方法中排除基因表达数据。相反,在一些情况下, 如果阴性对照(例如,ANT)基因的表达高于标准截断值(例如,高于 100、200、250或300个相对光单位,比背景高1%、2%、3%、4%、 5%、6%、7%、8%、9%或10%以上),可从分析中排除基因表达数据。

对于包括探针组或基因的实施方案,有许多可能有用的特定数据滤 波器,包括:

(i)可通过比照一系列参照数据集对探针组可靠性进行排序来选 择由不可靠探针组产生的数据以从分析中排除。例如,RefSeq和 Ensembl(EMBL)被视为非常高质量的参照数据集。来自和RefSeq 或Ensembl序列相匹配的的探针组的数据由于它们的预期高可靠性,在 一些情况下可被特异性地包括在微阵列分析实验中。类似地,可从进一 步的分析中排除,或可根据具体情况考虑包括来自和较不可靠的参照数 据集匹配的探针组的数据;或者

(ii)可从进一步的分析中排除不显示或显示低方差的探针组。可 通过Chi-Square检验从分析中排除低方差的探针组。如果探针组的转 换方差在带有(N-1)个自由度的Chi-Squared分布的99%置信区间的 左边,则认为其具有低方差。

(iii)如果给定的基因或转录物簇的探针组包含少于最小数量的探 针,则可从进一步的分析中(例如,在其他数据预处理步骤之后)将其 排除。例如,在一些实施方案中,如果给定的基因或转录物簇的探针组 含有不超过1、2、3、4、或5个探针,则可从进一步的分析中将其排 除。

任选地,可使用统计离群值程序,其确定若干个重复之一和其他重 复相比是否是统计上的离群值,例如通过判断达到远离平均值的“x” 个标准差(SD)(例如,至少2个SD或至少3个SD),或高于规定量 的重复值的CV%(例如,对数转换空间中的至少8%)。在基于阵列的 检测中,离群值可能是由于阵列点之一存在问题而产生的,或者是由于 成像伪影。一般在逐个基因的基础上进行离群值去除,并且如果在一次 重复中的大多数基因是离群值,则可应用预先确定的消除整个重复的规 制。例如,导致关键试剂的不正常添加的移液误差(a pipetting error) 可造成所述整个重复都是离群值。

在一些实例中,其中在样品重复(例如,三次重复)中测量基因表 达,可通过成对相关性和通过成对样品线性回归来测量再现性,并且将 相关性r>=0.95用作重复(例如,三次重复)再现性的接受值。在更具 体的实例中,带有成对相关性r=>0.90的重复可进一步被简单的回归模 型检测。可通过简单回归模型对带有成对相关性r=>0.90的重复进行进 一步检查;在这种情况下,如果所述线性回归的截距在统计学上显著不 同于零,则进一步考虑去除该重复。任何带有高于25%(例如,四分 之一)或更高,33%(例如,三分之一)或更高,50%(例如,二分之 一)或更高的不合格重复的样品可被认为是“不合格样品”并从进一步 的分析中除去。

标准化

标准化的目的是除去由实验误差(例如,由于移液、平板位置、图 像伪影、不同量的总RNA等)导致的变量,以使得可观察并定量由生 物效应造成的变量。该过程有助于确保不同样品类型之间观察到的差异 是真正由于样品生物学差异而不是由于一些技术伪影造成的。实验过程 中存在几个点,在其中可引入误差并且可通过标准化消除。本领域已确 定了用于标准化基因表达数据的方法(例如,Methods in Microarray  Normalization,ed.by Phillip Stafford,Baton Rouge,FL:CRC Press an  imprint of Taylor&Francis Group,2008)。

标准化一般包括将实验值(如一种或多种表4、11和/或13的生物 标记物的表达值)与一种或多种标准化值或因子比较(例如,通过除以 (或减去,一般在对数转换后)。标准化值可以是单个标准化生物标记 物的原始(或对数转换的)表达值,或可以是计算值,例如由多种标准 化物的表达值计算的,或使用本领域已知的方法和运算计算的。在一些 实例中,标准化使用多个标准化生物标记物的表达平均值以产生所测试 的每个表4、11和/或13的生物标记物的标准化表达值。在一些实例中, 标准化使用每个表4、11和/或13的生物标记物的原始表达值,以及表 3中的至少一种标准化标记物的原始表达质,以产生每个表4、11和/ 或13的生物标记物的标准化表达值。

在一些实例中,可确定或测量一种或多种“标准化生物标记物”(如 表3中的那些中的一种或多种)的表达。例如,可在测试样品中检测 BMP-1,MFI2,NCOR2,RAP2b,RPS6KB2、SDHA、RPL19、RPLP0、 和ALDOA中的1种、2种、3种、4种、5种、6种、7种、8种或所 有。

或者,可使用本文提供的方法鉴定可用于公开方法的一种或多种标 准化生物标记物。例如,标准化生物标记物是任何一种组成型表达的基 因(蛋白质),另一种表达的基因(或蛋白质)可与其表达进行比较(例 如,通过用一种的表达值除以(或减去,一般在对数转换后)另一个的 表达值)。在其他实例中,标准化生物标记物可以是任何基因表达产物 (例如mRNA,miRNA或蛋白质),其表达在代表性的多种样品(如痣 和黑素瘤样品)间没有显著差异。因此,在一些方法中,标准化生物标 记物可以是未在表4、11和/或13中列出的任何基因表达产物,其表达 在含黑素细胞的样品(例如,痣和黑素瘤样品的代表性群体)间没有显 著差异。在其他实例中,所述至少一种标准化生物标记物可包括多种标 准化生物标记物,其表达中没有一个在痣和原发性黑素瘤样品间有统计 学显著差异。

另一种鉴定可用于公开方法的标准化生物标记物的方式是确定当 比较原始数据时,推定的标准化物的表达是否与彼此一致(例如,如果 一种标准化生物标记物升高时,另一个标准化生物标记物应同样如此)。 可用的标准化物会在多种目的样品中互相跟踪。还可确定推定的标准化 生物标记物和标准化物之间的比例并鉴定它们之间的比例是否在多种 目的样品(例如,含黑素细胞的样品)间保持恒定。

例如,如本公开内容中所述,已经鉴定出标准化生物标记物,一些 方法实施方案包括将表4、11和/或13中的所述至少两种不同的生物标 记物中的每一种的原始(或对数转换的)表达值标准化为至少一种标准 化生物标记物的原始(或对数转换的)表达值。

或者,可确定标准化值并且将这类值用于标准化所述实验值(例如, 来自表4、11和/或13的至少两种不同生物标记物的基因表达值)。例 如,多种生物标记物的群体CT(例如,平均值(如,算数平均值或几 何平均值)、中值、众数或均值)在一些公开的方法中可用作标准化值, 所述生物标记物的表达范围和分布代表了目的样品(例如,含黑素细胞 的样品如痣和/或黑素瘤样品)的转录组中基因群体的表达范围和分布。 在其他实例中,将所述多种生物标记物中的离群值(例如,来自所述群 体CT的+/-一个或两个标准差)的表达值从生物标记物的群体CT的原 始计算值中去除,确定所述多种生物标记物的无离群值的群体CT并将 其作为实验变量的标准化值(例如,表4、11和/或13中的至少两种基 因的基因表达值)。

在其他具体的实例中,可使用稳健的多阵列平均(RMA)方法来 标准化所述原始数据。通过计算多个微阵列上每个匹配单元的背景校正 后的强度起始所述RMA方法。将所述背景校正值限制为如Irizarry et al. (Biostatistics,4:249(2003))所述的正值。背景校正后,于是获得了每 个经背景校正的匹配单元强度的以2为底的对数。然后使用分位数标准 化方法对每个微阵列上的经背景校正、对数转换的匹配强度进行标准化, 其中对于每一个输入阵列和每一个探针表达值,所述阵列百分位数探针 值被所有的阵列百分位数的平均值替换,该方法由Bolstad et al. (Bioinformatics,19(2):185(2003))更完整地描述。在分位数标准化之后, 然后将所得标准化的数据拟合到线性模型中以获得每个微阵列上的每 个探针的表达测量值。

在一些实例中,第一标准化可在一次处理内的或在技术重复内的重 复品间进行。这是对所有所测试的生物标记物(如表4、11和/或13中 的那些中的两种或多种)的标准化,其被加权为该组重复品的总信号的 恒定水平。在该步骤中,对一组重复品中的每个测定(如孔或小珠或泳 道)的总信号强度进行调整,使得所有都是相等的。计算了所有重复品 的平均总信号,然后计算了每个样品的标准化因子,所述标准化因子将 来自该重复品的总信号形式调整为所有重复品的总的平均信号。然后将 这种标准化因子用于标准化该重复品中的每一种生物标记物的信号。

特征选择(FS)

一般使用成千上万种特征(基因/蛋白质)的分类算法的性能不是 最优的。因此,将特征选择方法用于鉴定最能预测表型的特征。将所选 基因/蛋白质呈现给分类器或预测模型。以下益处由降低所述特征空间 的维数而产生:(i)提高改进分类精确性,(ii)提供对生成该数据的基 本概念的更好的理解,以及(iii)克服数据过度拟合的风险,当特征的 数量数目很大而训练模式的数量相对较小时,出现所述数据过度拟合。 将特征选择用于确定所公开的基因集,因此相应的分类器具有上述固有 优势。

特征选择技术包括过滤技术(其通过查看数据的固有特性评估特征 的相关性)、包装器方法(其将所述模型假设嵌入在特征子集搜索内) 和嵌入技术(其中将用于最佳组特征的搜素导入到分类器算法中)。可 用于公开方法的过滤器FS技术包括:(i)参数方法,如使用两种样品 t-检验或均数t-检验(例如,LIMMA)、ANOVA分析、贝叶斯框架、 和伽马分布模型,(ii)无模型的方法,如使用Wilcoxon秩和检验、类 别间或类别内的平方和检验、产物排序方法、随机排列方法、或错误分 类总数(TNoM)——其包括在两个数据集间设定表达上的倍数变化差 异的阈值点,然后在每个基因中检测最小化错误分类数目的阈值点,和 (iii)多元方法如二元方法,基于相关性的特征选择方法(CFS)、最 小冗余度最大相关性方法(MRMR)、马尔可夫毡过滤法、树状模型方 法,以及不相关的缩小重心法。可用于公开方法的包装器方法包括顺序 搜索方法、遗传算法、和分布估计算法。可用于本公开内容的方法的嵌 入方法包括随机森林(RF)算法、支持向量机算法的权重向量、和逻 辑回归算法的权重。Saeys et al.描述了以上提供的滤波器技术的相对优 点用于在基因表达分析中进行特征选择。在一些实施方案中,通过使用 LIMMA软件包提供了特征选择(Smyth,LIMMA:Linear Models for  Microarray Data,In:Bioinformatics and Computational Biology  Solutions,ed.by Gentleman et al.,New York:Springer,pages 397-420 (2005))。

分类器算法

在一些方法中,将基因表达信息(例如,关于表3、4、11和/或13 中所述的生物标记物)应用到算法中以对表达图谱进行分类(例如,含 黑素细胞的样品(如皮肤活检物)是否是良性痣或原发性黑素瘤或都不 是(如,未确定的)。本文公开的方法可包括基于基因表达的分类器用 于将含黑素细胞的样品表征为痣或黑素瘤。描述了具体的分类器实施方 案,并且基于所提供的基因集和分类方法,现在启用其他的实施方案。

分类器是可被用于基于在测试样品(例如,含黑素细胞的样品)中 的基因(如表4、11和/或13中的基因)的表达将所述样品分成类(或 组)(例如,痣或黑素瘤)的预测模型(例如,算法或规则组)。不像聚 类分析——其中聚类的数目是事先未知的,对一组或多组样品的分类器 进行训练,所述一组或多组样品的所需类值(例如,痣或黑素瘤)是已 知的。一旦被训练,使用所述分类器将类值指定为未来观察结果。

可用于公开的方法的示例性算法包括,但不限于,降低变量数目的 方法,如主成分分析算法、偏最小二乘方法和独立分量分析算法。示例 性的算法还包括,但不限于,直接处理大量变量的方法,如统计学方法 和基于机器学习技术的方法。统计学方法包括惩罚逻辑回归、微阵列的 预测分析(PAM)、基于缩小重心的方法、支持向量机分析,以及规则 化线性判别分析。机器学习技术包括包装(bagging)程序、推进(boosting) 程序、随机森林算法、及其组合。Boulesteix et al.(Cancer Inform.,6:77 (2008))提供了以上提供的用于分析多重基因表达数据的分类技术的综 述。

机器学习是在其中计算机使用自适应技术来识别模式和预期行为, 从而分类整理出大量的数据并分析和鉴别模式。机器学习算法(例如, 逻辑回归(LR)、随机森林(RF)、支持向量机(SVM)、K-最近邻(KNN)) 可用于在应用中开发软件,所述软件对人们来说太复杂而不能手动设计 算法。

在一些实施方案中,使用训练的算法对测试样品进行分类。本公开 内容的训练算法包括已经使用参照组的已知痣和黑素瘤样品所开发的 算法。适用于样品分类的算法包括,但不限于,k最近邻算法、概念向 量算法、朴素贝叶斯算法、神经网络算法、隐马尔可夫模型算法、遗传 算法、和交互信息特征选择算法或其任意组合。在一些情况下,本公开 内容的训练算法可整合除了基因表达数据以外的数据,例如但不限于由 本公开内容的细胞学家或病理学家所进行的评分或诊断,由公开的预分 类器算法或基因集所提供的信息、或关于测试样品从其中获取的受试者 的病史的信息。

在一些具体的实施方案中,支持向量机(SVM)算法、随机森林算 法或其组合提供了将样品(例如,含黑素细胞的样品)分类成痣或黑素 瘤(例如原发性黑素瘤)以及,任选地,不确定类。在一些实施方案中, 基于统计学显著性选择区分样品(例如,痣和黑素瘤)的识别标记物。 在一些情况下,在应用BenjaminiHochberg校正假发现率(FDR)之后 进行所述统计显著性选择(参见,J.Royal Statistical Society,Series B (Methodological)57:289(1995))。

在一些情况下,可用meta-分析方法(如由Fishel et al.(Bioinformatics, 23:1599(2007))所描述的那个)补充公开的分类器算法。在一些情况下, 可用meta-分析方法如可重复性分析补充所述分类器算法。在一些情况 下,所述可重复性分析选择在至少一种预测表达产物标记物组中出现的 标记物。

示例性决策树模型

决策树算法是类似于流程图的树结构,其中每个内部节点表示对一 种属性的测试,并且分支表示该测试的结果。叶节点表示类别标签或类 别分布。为了生成决策树,将所有的训练实例用在根部,应用在所述树 的根部的逻辑测试,然后基于所述逻辑测试的值将训练数据划分为子分 组。当在一个分支中的所有数据元素为相同类别时,递归应用(例如选 择属性并分割)并终止该过程。为了将未知样品分类,比照决策树测试 了其属性值。

作为机器学习的一个实例,随机森林是用于分类(和回归)的整体 学习方法,其通过在训练时间构建大量决策树并输出所述类别来操作, 所述类别是由单个树所输出的类别的方式。在一个具体的随机森林算法 中(Breiman,Machine Learning,45:5-32(2001)),如下构建每一种树:

1.将训练案例编号为“N”,将所述训练器中的变量编号为“M”.

2.“m”被用于在所述树的节点处确定所述决策的输入变量的编号; m应该小于M。

3.通过使用替换从所有N个可用的训练案例中选择n次(即,采 用引导样品)来选择此树的训练集。使用其余的案例通过预测它们的类 别来估计该树的误差。

4.对于所述树的每一节点,随机选择该节点处的决策基于其的m 个变量。

5.使每棵树充分生长并且不对其进行修剪(如可能在构建正常树 分类器中进行)

为进行预测,将新的样品下推到所述树上。将所述训练样品的标签 设计在其结束于其中的终端节点上。在整体所有的树中迭代该过程,并 将所有树的方式投票报道为所述随机森林类别预测。

示例性的逻辑回归模型

用于使用表4、11和/或13中的基因开发统计预测模型的代表性方 法是具有二元分布和逻辑连接函数(logit link function)的逻辑回归。 可使用Fischer评分进行对这类模型的估计。但是,用精确逻辑回归估 计的模型、校正的经验夹心估计器或其他偏差、稳定的方差或以其它校 正估计技术也将在许多情况下提供类似的模型,这些模型尽管产生略微 不同的参数估计,但将产生结果的定性一致模式。类似地,其他连接函 数(包括但不限于累积逻辑、互补重对数、概率单位或累积概率单位) 可被预期产生给出相同的结果定性模式的预测模型。

预测模型(算法)的一种代表性形式为:

Logit(Yi)=β0+β1X1+β2X2+β3X3...βnXn

其中β0是截距项,βn是系数估计,Xn是给定基因的所述对数表 达值(例如,任何对数,如以2为底的对数或以10为底的对数)。一般, 所有β的值会比-1,000大,且比1,000小。通常,所述β0截距项会比-200 大但比200小,存在其大于-100且小于100的情况。所述其他βn,其 中n>0,可大于-100并小于100。

在具体的方法实施方案中,所述逻辑(Y1)输出结果被称为所述 至少两种表4、11和/或13的生物标记物的固定表达值(CEV)。所述 CEV通过如下确定:(a)用所述至少两种表4、11和/或13的生物标记 物中的每一种的预定恒量加权所述至少两种表4、11和/或13的生物标 记物的表达水平,和(b)合并所述至少两种表4、11和/或13的生物标 记物的加权表达水平以产生所述CEV。这类方法还可包括将所述CEV 与区分已知黑素瘤(例如,原发性黑素瘤)样品和已知良性痣样品的参 照值进行比较。在一个实例中,所述方法还包括如果所述CEV落在和 所述已知黑素瘤样品的参照值的同一侧,则将所述样品表征为恶性的 (例如,原发性黑素瘤)。在另一个实例中,如果所述CEV落在和所述 已知良性痣样品的参照值的同一侧,则将所述样品表征为良性的(例如, 痣)。

本文考虑的任何预测模型的性能可用本领域已知的多种检验加以 验证,包括,但不限于,Wald卡方检验(总模型拟合),以及Hosmer 和Lemeshow缺乏拟合检验(无显著性可检测的拟合缺乏用于该模型)。 在所述模型中每一个基因的预测指标应该具有统计学显著性(例如, p<0.05)。

可使用很多交叉验证方法以确保所述结果的再现性。示例性的方法 为作为所述SAS Proc逻辑分类表过程的一部分来实施的一步最大似然 估计近似法。在一些实例中,在开源包装Weka中的10倍交叉验证和 66-33%分割验证可用于确认结果。在其他实例中,n-倍(包括留一法 (LOD)、交叉验证)和分割样品训练/测试提供了对结果的有用确认。

在一些方法实施方案中,算法(也称为,拟合模型)提供预测事件 概率,所述概率例如是含黑素细胞的样品(例如,皮肤活检物)是黑素 瘤(例如,原发性黑素瘤)、是恶性的、是痣、或是良性的概率。在一 些情况下,本领域普通技术人员已知的SAS计算方法可用于计算所预 测概率的降低偏差估计(参见, support.sas.com/documentation/cdl/en/statug/63347/HTML/default/vie  wer.htm#statug_logistic_sect044.htm(到2013年3月15日为止))。在 其他实例中,一系列阈值,z,其中设置z在0和1之间,如一般由如 普通技术人员基于模型的所需临床用途或应用需求确定的。如果具体实 例所计算的预测概率超过或等于所预设的阙值,z,将所述样品指定到 所述痣组;否则,将其制定到所述黑素瘤组或反之亦然。在其他实例中, 可设置两个阙值,其中,将落在所述两个阙值之间的样品值指定为“不 确定的”或“原本未指定的”或类似的标签。

基于所述算法输出结果,确定测试样品(例如,皮肚样品)是否是 恶性的或良性的,例如,通过将所述输出结果与参照标准(例如,从已 知的恶性和良性的含黑素细胞的样品中确定的截断值)进行比较。在一 些实例中,由所述算法计算所述输出结果和/或通过将所述输出结果与 参照标准进行比较来从所述算法输出结果中确定所述样品是或不是恶 性的步骤由适当编程的计算机来执行。在一些实例中,所述方法还可包 括向用户提供报告,所述报告包含所述算法输出结果或所述确定信息, 即样品是或不是恶性的或“与黑素瘤一致”或“与痣一致”或“不确定 的”等。在一些实例中,所述报告包括所分析的来自表4、11和/或13 的至少两种生物标记物的CEV。

将所得的输出值与截断值进行比较。所述截断值可通过机器学习或 对之前已知为良性或恶性的多种含黑素细胞样品中的所述至少两种来 自表4、11和/或13的生物标记物的标准化表达值进行逻辑回归分析来 确定所述截断值。可由各个用户根据具体情况,例如,通过选择所使用 的痣/黑色素瘤分类器的具体灵敏度和特异性值和/或AUC值来确定截 断值。其他用于确定截断值的方法提供于WO99/02/103320和美国专利 Nos.7,171,311;7,514,209;7,863,001和8,019,552(全部以引用的方式纳 入本文,在某种程度上描述了用于在诊断测试中确定有用的截断值的方 法)。

在一些实例中,将测试样品(例如,皮肤活检物)表征为良性的, 如果所述算法输出值在所述多种已知良性样品的截断值的同一侧;或将 其表征为恶性的,如果所述算法输出值在所述多种已知恶性样品的截断 值的同一侧。在一个实例中,将所述样品表征为良性的,如果所述输出 值在所述截断值以下;或将其表征为恶性的,如果所述输出值在所述截 断值以上。在另一个实例中,将所述样品表征为良性的,如果所述输出 值在所述截断值以上;或将其表征为恶性的,如果所述输出值在所述截 断值以下。

分子分析和分类器输出结果

在使用包括二元分类器的公开方法对生物样品(如含黑素细胞的样 品)进行分类时一般有4种可能的结果。如果所述从预测中得到的结果 为p并且实际值也为p,则将其称为真阳性(TP);但是,如果所述实 际值为n,则将其称为假阳性(FP)。相反地,当所述预测结果和所述 实际值都为n时则产生真阴性,当所述预测结果为n而所述实际值为p 时则为假阴性。考虑一种旨在确定样品是否是黑素瘤(例如,原发性黑 素瘤)的实施方案。当样品检测为阳性,但实际上不是黑素瘤(例如, 原发性黑素瘤)时,在该情况下则产生假阳性。另一方面,当所述样品 检测为阴性(即,不是黑素瘤),而其实际上是黑素瘤(例如,原发性 黑素瘤)时,则产生假阴性。在一些实施方案中,可通过以相关比例重 采样在可用样品中实现的误差来产生假设实际的亚型患病率的ROC曲 线。

黑素瘤(例如,原发性黑素瘤)的所述阳性预测值(PPV)、或精 确率、验后概率,是带有准确为黑素瘤(例如,原发性黑素瘤)的阳性 检验结果的样品的比例。PPV反应阳性检验反应被检验的基本假设(例 如,样品是黑素瘤(例如,原发性黑素瘤))的概率。

在一个实例中:

假阳性率(α)=FP/(FP+TN)-特异性

假阴性率(β)=FN/(TP+FN)-特异性

Power=灵敏度=1-β

阳性似然-比率=灵敏度/1-特异性

阴性似然-比率=1-灵敏度/特异性

其中TN为真阴性,FN为假阴性,并且TP和FP如上所述。

阴性预测值(NPV)是被准确诊断或亚分类的带有阴性检验结果(例 如,痣或不确定的)的受试者或样品的比例。给定检验的高NPV意指 当所述检验产生了阴性结果,很可能是对其正确的评估。

在一些实施方案中,所公开方法的基因表达分析结果提供了统计置 信水平,在该水平上给定诊断(例如,痣或黑素瘤或不确定)是正确的。 在一些实施方案中,这种统计置信水平为85%、90%、91%、92%、93%、 94%、95%、96%、97%、98%、99%或99.5%以上。

在本公开内容的一个方面,然后对已通过另一方法(例如,组织病 理学和/或免疫细胞化学)处理并被诊断的样品进行公开的分子分析作 为第二诊断筛选。该第二诊断筛选使得,至少:1)假阳性和假阴性显 著降低,2)确定负责所产生的病理学的潜在基因、代谢或信号途径,3) 能够将统计概率指定为诊断精度,4)能够分辨不明确的结果,以及5) 能够正确表征之前不明确的样品。

在一些实施方案中,将所述生物样品分类为痣或黑素瘤(例如,原 发性黑素瘤),精度高于75%、80%、85%、86%、87%、88%、89%、 90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或99.5%。 在前句中所用的术语精度包括特异性、灵敏度、阳性预测值、阴性预测 值、和/或假发现率。

在其他情况下,可将接收者操作特征(ROC)分析用于确定确定最 佳的测定参数以获得特定水平的准确性、特异性、阳性预测值、阴性预 测值、和/或假发现率。ROC曲线是一种图表,其说明了二元分类器系 统的性能,因为其判别阈值是变化的。其通过绘制在各种阙值设置下的 所述阳性中真阳性的部分(TPR=真阳性比率)和所述阴性中假阳性的 部分(FPR=假阳性比率)而得以创建。

方法实施方案

可以多种方式实施本文所述的方法,如包括分类器的那些。以下描 述了几种代表性的非限制性实施方案。

在一些方法实施方案中,将基因表达数据输入(例如,手动或自动 地)到计算机或其他设备、机器或装置用于应用本文所述的多种算法, 当收集和处理大量的基因表达数据点时,这是特别有利的。其他实施方 案包括使用通信基础设施,例如因特网。各种形式的硬件、软件、固件、 处理器或它们的组合可用于实施特定的分类器和方法实施方案。可将软 件作为有形地包含在程序存储设备上的应用程序或在用户的计算环境 中和在检查员的计算环境中实施的软件的不同部分(例如,作为小型程 序)来实施,其中所述检查员可位于相关联的远程站点(例如,在服务 供应商的设施处)。

例如,在通过用户输入数据期间或之后,可在用户侧计算环境中进 行部分所述数据处理。例如,可对所述用户侧计算环境进行编程以提供 确定检验编码来指示似然“得分”,其中将所述得分以检验编码的形式 作为对所述检查员的计算环境的处理或部分处理的响应进行传送,用于 随后执行一种或多种算法以在所述检查员的计算环境中提供结果和/或 生成报告。所述得分可以是数字得分(代表数值)或代表数值或数值范 围的非数字得分(例如,代表结果的90-95%似然的“A”)。

所述用于执行本文所述的算法的应用程序可被下载到机器上并由 机器执行,所述机器包含任何合适的体系结构。通常,所述机器包括计 算机平台,所述计算机平台具有如一个或多个中央处理单元(CPU)、 随机存取存储器(RAM)、以及输入/输出(I/O)接口。所述计算机平 台还包括操作系统和微指令代码。本文描述的各种处理和功能可以是可 通过所述操作系统来执行的所述微指令代码的一部分或者是所述应用 程序的一部分(或其组合)。另外,可将各种其他外围设备(如额外的 数据存储设备和打印设备)连接到计算机平台上。

作为计算机系统,该系统一般包括处理器单元。所述处理器单元用 于接收信息,其可包括测试数据(例如,响应基因的水平,对照基因产 物的水平;响应基因的标准化水平);并且还可包括其他数据如患者数 据。可将该接收的信息至少暂时地储存在数据库中,并且对数据进行分 析以生成如上所述的报告。

可将所述输入和输出数据的部分或全部以电子方式发送;可以电子 方式或通过电话(例如,通过传真,使用设备如传真回复)传送某些输 出数据(例如,报告)。示例性的输出接收设备可包括显示元件、打印 机、传真装置等。电子形式的传输和/或显示可包括电子邮件、交互式 电视等。在一个实施方案中,将所述输入数据的全部或部分和/或所述 输出数据的全部或部分(例如,通常至少最终报告)保持在web服务 器上用于使用一般浏览器进行访问,优选机密访问。可对该数据进行访 问或根据需要将其发送到健康专业人员。所述输入和输出数据,包括最 终报告的全部或部分,可被用来填充可存在于卫生保健设施处的保密数 据库中的患者医疗记录。在一些实例中,所述方法包括生成报告。在一 些实例中,所述报告包含指示样品分类的图标,如用于黑素瘤的“+” 或“M”,或用于痣的“-”或“…”或“N”。

本文所述方法中使用的系统一般包括至少一个计算机处理器(例如, 在其中所述方法以整体在单个位点上进行)或至少两个联网的计算机处 理器(例如,其中数据是由用户(本文也称为“客户”)来进行输入并 传送到远程位点至第二计算机处理器以用于分析),其中所述第一和第 二计算机处理器通过网络连接,例如,经由内联网或互联网)。所述系 统还可包括:用于输入的用户组件;和用于检查数据、生成报告和人工 干预的检查者组件。所述系统的其他组件可包括服务器组件;和用于存 储数据的数据库(例如,如报告元件(例如,解释性报告元件)的数据 库,或可包括由用户输入的数据和数据输出结果的关系数据库(RDB))。 所述计算机处理器可以是一般存在于个人台式计算机(例如,IBM、Dell、 Macintosh)、便携式计算机、大型计算机、微型计算机、或其他计算设 备中的处理器。

所述联网的客户端/服务器体系结构可按照需要而被选择,并且可 以是,例如,经典的两层或三层客户端服务器模型。关系数据库管理系 统(RDMS),作为一个应用程序服务器组件的一部分或作为单独的组 件(RDB机器),提供了到所述数据库的接口。

在一个实例中,将所述体系结构提供为以数据库为中心的客户端/ 服务器体系结构,其中所述客户端应用程序一般需要来自所述应用服务 器的服务,该应用服务器对所述数据库(或所述数据库服务器)作出请 求来按照所需用多种报告元件填充所述报告,特别是解释性报告元件、 尤其是解释文本和警告。所述服务器(例如,作为一个应用程序服务器 组件的一部分或单独的组件RDB/关系数据库机器)响应所述客户端请 求。

所述输入客户端组件可以是完整的、独立的个人计算机,提供了全 范围的电源和特征来运行应用程序。所述客户端组件通常在任何所需的 操作系统下操作,并且包括通信元件(例如,调制解调器或其它硬件, 用于连接到网络)、一个或多个输入设备(例如,用于传输信息和命令 的键盘、鼠标、小键盘、或其他设备),存储元件(例如,硬盘驱动器 或其他计算机可读、计算机可写存储介质)、和显示元件(例如,用于 将信息传送给用户的监视器、电视、LCD、LED、或其他显示设备)。 用户通过输入设备将输入命令输入到计算机处理器。通常,用户界面是 所写入的用于web浏览器应用程序的图形用户界面(GUI)。

所述服务器组件可以是个人计算机、小型计算机或大型计算机并提 供了数据管理、客户间的信息共享、网络管理以及安全性。所使用的应 用程序和任何数据库可在相同或不同的服务器上。

可考虑其他用于所述客户端和服务器的计算配置(arrangement), 包括在单个机器如主机、一组机器、或其他适合的装置上进行处理。通 常,所述客户端和服务器机器一起运行来实现本公开内容的处理过程。

当使用时,通常将所述数据库连接到数据库服务器组件上,并且可 以是任何会容纳数据的设备。例如,所述数据库可以是任何用于计算机 的磁存储设备或者光学存储设备(例如,CD-ROM、内部硬盘驱动器、 磁带驱动器)。所述数据库可位于所述服务器组件远程(通过网络、调 制解调器等访问)或位于所述服务器组件本地。

当用于本系统和方法中时,所述数据库可以是根据数据项之间的关 系对其进行组织和访问的关系数据库。该关系数据库通常包括多个表 (实体)。该表格的行代表记录项(关于独立项的信息集合),列代表字 段(记录项的具体属性)。在其最简单的概念中,所述关系数据库是通 过至少一个共同字段彼此“联系”的一组数据条目。

可将配备有计算机和打印机的其他工作站用在服务点上以输入数 据,并在一些实施方案中,(如果需要的话)生成适当的报告。所述计 算机具有启动该应用程序的快捷方式(例如在桌面上),以便于根据需 要起始数据输入、传输、分析、报告接收等。

计算机可读存储介质

本发明还涵盖计算机可读存储介质(例如,CD-ROM、存储键、闪 速存储卡、软盘等),其上存储有程序,当在计算环境中执行时,实施 算法以执行如本文所述的全部或部分响应似然评估的结果。当所述计算 机可读介质包含用于执行本文所述方法的完整程序时,该程序包括用于 收集、分析和生成输出结果的程序指令,并且通常包括计算机可读代码 装置,该计算机可读代码装置用于如本文所描述与用户互动、处理和分 析信息结合的数据,以及生成用于该用户的独特印刷或电子介质。

当所述存储介质提供实施本文所述方法的一部分的程序(例如,所 述方法的用户端方面(例如,数据输入、报告接收能力等)时,所述程 序提供将由所述用户输入的数据(例如,通过因特网、内联网等)传输 到远程站点处的计算环境中。可在远程位点处进行所述数据处理或完成 所述数据处理以生成报告。在检查所述报告后,完成任何所需的人工干 预,以提供完整的报告,然后可将所得完整的报告作为电子文档或打印 的文档(例如,传真或邮寄纸质报告)传送回所述用户。可用指令(例 如,用于程序安装、使用等)包装含有本文所述的程序的所述存储介质, 所述指令记录在可在其中获得这类指令的适当基底上或网址上。还可结 合用于进行响应似然评估的一种或多种试剂(例如,引物、探针、阵列 或其他这样的试剂盒组分)提供所述计算机可读存储介质。

输出结果

在一些实施方案中,一旦确定了特定样品(患者)的得分,可将该 得分的指示显示和/或传送给临床医生或其他护理人员。例如,可将该 测试的结果以提供关于所述测试结果信息的可感知的输出结果形式提 供给用户(例如临床医生或其他医护人员、实验室人员、或患者)。在 一些实例中,所述输出结果是纸张输出结果(例如,书写或打印的输出 结果)、屏幕上的显示结果、图形输出结果(例如,图表(graph)、图 表(chart)、或其他图表(diagram))、或音频输出结果。因此,所述 输出结果可包括生成的报告。

例如,所述输出结果可以是文本(任选地,带有相应的)得分。例 如,所述文本输出结果可与“痣等一致”、或与“黑素瘤等一致”(例如, 原发性黑素瘤),或是“不确定的”(例如,既不与痣、也不与黑素瘤一 致)等。可使用这类文本输出,例如,以提供对良性样本(例如,痣) 或恶性样品(例如,原发性黑素瘤)的诊断,或者可将其简单地用于协 助临床医生区分痣和黑素瘤(例如,原发性黑素瘤)。

在其他实例中,所述输出结果是一个数值(例如,定量输出结果), 如在所述样品中基因或蛋白质表达(如在表3、4、11和/或13的任何 一个中的那些)的量,或和对照相比的,在所述样品中基因或蛋白表达 (如在表3、4、11和/或13的任何一个中的那些)的相对量。在其他 实例中,所述输出结果是图形表示结果,例如,在标准曲线上指示来自 患者的样品中基因或蛋白质表达(如在表3、4、11和/或13的任何一 个中的那些)的值(如量或相对量)的图表。在一个具体的实例中,所 述输出结果(如图形输出结果)显示或提供将所检测的样品表征为痣或 黑素瘤(例如,原发性黑素瘤)的截断值或水平。在其他实例中,所述 输出结果是图标,如“N”或“-”(如果所述样品被分类为痣)、“M” 或“+”(如果所述样品被分类为黑素瘤)、或“I”或“?”(如果所述 样品被分类为不确定型(例如,不符合痣或黑素瘤))。在一些实例中, 将所述输出结果传送给用户,例如通过经由物理、听觉、或电子装置(例 如,通过邮件、电话、传真发送、电子邮件、或到电子医疗记录的传送) 提供输出结果。

在其他实例中,所述输出结果可提供关于在所述样品中基因或蛋白 质表达(如在表3、4、11和/或13的任何一个中的那些)的相对量的 定性信息,如鉴定如下的存在:相对于对照的基因或蛋白质表达(如在 表3、4、11和/或13的任何一个中的那些)的增加、相对于对照的基 因或蛋白质表达(如在表3、4、11和/或13的任何一个中的那些)的 降低、相对于对照的基因或蛋白质表达(如在表3、4、11和/或13的 任何一个中的那些)的不变。

在一些实例中,所述输出结果伴随着用于解释所述数据的指南,例 如,指示存在或不存在原发性黑素瘤的数字限制或其他限制。这些指导 不必指定痣或黑素瘤(例如原发性黑素瘤)是否存在或不存在,虽然它 可以包括这样的诊断。所述输出结果中的该标记可例如包括正常或异常 范围或截断值,然后所述输出结果的接收者可用其对结果进行解释,例 如,以实现诊断或治疗计划。在其他实例中,所述输出结果可提供推荐 的治疗方案。在一些实例中,所述测试可包括确定其他临床信息(如在 所述样品中确定一种或多种额外的黑素瘤生物标记物的量)。

临床使用步骤

公开的方法可导致含黑素细胞的样品(例如,皮肤活检物)被表征 为良性的(例如痣)或恶性的(例如,黑素瘤,如原发性黑素瘤)或不 确定的或疑似的(例如,暗示有癌症、疾病、或病症),或无法诊断的 (例如,提供关于存在或不存在癌症、疾病、或病症的不充分信息)。 这些(和其他可能的)结果中的每一种可用于的受过训练的临床专业人 员。一些方法实施方案包括如在下面更详细地描述的临床相关步骤。

诊断指标

诊断通知受试者(例如,患者)其患有或可能患有什么疾病或病症。 如本公开内容全文中更具体描述的,可将表征含黑素细胞的样品的任何 公开方法的任何结果作为诊断提供给,例如,受试者或健康专家。因此, 一些方法实施方案考虑到将诊断结果(如,良性的(例如痣)或恶性的 (例如,黑素瘤,如原发性黑素瘤)或不确定的或疑似的(例如,暗示 有癌症、疾病、或病症),或无法诊断的(例如,提供关于存在或不存 在癌症、疾病、或病症的不充分信息))提供给受试者或健康专家。

预后指标

预后是其样品接收特定测试结果(例如,痣与黑素瘤)的受试者的 可能健康状况结果。较差的预后意指用于所述受试者的长期展望不是很 好,例如,1-、2-、3-或5-年存活率为50%或更小(例如,40%、30%、 25%、20%、15%、10%、5%、2%或1%或更少)。另一方面,良好的 预后意指所述受试者的长期展望大至良好,例如1-、2-、3-或5-年存活 率大于30%,40%,50%,60%,70%,75%,80%或90%。

其含黑素细胞的样品被表征为恶性(例如,黑素瘤)的受试者可能 比其含黑素细胞的样品被表征为良性(例如,痣)的受试者具有更差的 预后(关于该疾病或病症)。因此,具体的方法实施方案包括为从其中 采取被表征为恶性(例如,黑素瘤,如原发性黑素瘤等)的测试样品的 受试者预后相对较差的结果(参见上文)。相反地,其他示例性方法包 括为从其中采取被表征为良性(例如,痣等)的测试样品的受试者预后 相对较好的结果(参见上文)。

治疗(预测)指标

所公开的方法还可包括选择受试者用于治疗黑素瘤(例如,原发性 黑素瘤),如果所述样品被诊断为黑素瘤(例如,原发性黑素瘤)。或者, 所公开的方法还可包括选择受试者而不进行治疗,如果所述样品被诊断 为良性痣。

在一些实施方案中,所公开的诊断方法根据所述患者的诊断包括下 列中的一种或多种:a)如果所述受试者的确定诊断是阳性的原发性黑 素瘤,为受试者设定(prescribe)治疗方案(如用一种或多种化疗剂进 行的治疗、为去除更多组织的额外手术、或它们的组合);b)如果所述 受试者的确定诊断是阴性的原发性黑素瘤或阳性的良性痣,则不为受试 者设定治疗方案;c)如果所述受试者的确定诊断是阳性的原发性黑素 瘤,则将治疗(如用一种或多种化疗剂进行的治疗、为去除更多组织的 额外手术、或它们的组合)给予所述受试者;和d)如果所述受试者的 确定诊断是原发性黑素瘤或是良性痣阳性的,则不将治疗方案给予所述 受试者。在可选的实施方案中,所述方法可包括推荐(a)-(d)中的 一种或多种。因此,本发明所公开的方法还可包括治疗受试者的原发性 黑素瘤,如果来自所述受试者的样品被表征为原发性黑素瘤。

在一些实例中,使用公开的方法将化学疗法用于治疗诊断为黑素瘤 的患者。在癌症治疗中,化学疗法是指给予一种或多种试剂(化学治疗 剂)以杀死或减缓快速繁殖细胞(如肿瘤细胞或癌细胞)的再现。在一 个具体的实例中,化学疗法是指给予一种或多种试剂,以在所述受试者 中显著降低肿瘤细胞的数目,例如降低至少约50%。“化学治疗剂”包 括在治疗癌症中具有治疗有效性的任何化学试剂。化学治疗剂的实例可 存在于例如Fischer et al.(eds),The Cancer Chemotherapy Handbook,6th  ed.,Philadelphia:Mosby 2003,and/or Skeel and Khleif(eds),Handbook of  Cancer Chemotherapy,8th ed.,Philadelphia:Lippincott,Williams&Wilkins (2011))。

一般用于治疗黑素瘤的化学疗法包括白介素2(IL2)、达卡巴嗪、 干扰素、伊匹单抗(ipilimumab)、卡铂与紫杉醇、粒细胞巨噬细胞集 落刺激因子(GMCSF)、和/或维罗非尼。在受试者中使用化疗剂可降 低癌症(如黑素瘤)的迹象或症状,或可降低、停止或逆转癌症的进程、 转移和/或生长,如抑制转移。

阵列

可将本文公开的阵列用于检测表达(如表4、11和/或13中的两种 或多种所述样品类型特异性的生物标记物的表达),例如,用于将含黑 素细胞的样品表征为如上所述的良性痣或原发性黑素瘤。在一些实例中, 可将所公开的阵列用于检测一种或多种标准化生物标记物的表达(例如, 表3中的那些)。在其他实施方案中,还可将所公开的阵列用于检测本 公开内容全文(如在表6、8或14中)所述的几组基因的表达。在具体 的实例中,所述阵列表面包含平板、小珠(或多个小珠)或流动池(例 如,具有多个通道)。

在一些实施方案中,阵列可包括固体表面,其包括具体离散区域或 可寻址位置,每一区域具有至少一种能够直接杂交到表4、11和/或13 中的生物标记物,以及在一些实例中杂交到表3中所示的标准化基因的 固定寡核苷酸。在一些实例中,所述阵列包括固定化的捕获探针,所述 固定化的捕获探针能够直接或间接地与表4中列出的所有32种生物标 记物和表3中的所有标准化生物标记物、或表11中列出的所有生物标 记物和表3中的所有标准化生物标记物特异性杂交。所述寡核苷酸探针 可由阵列上的位置来识别。在另一个实例中,阵列可包括特异性离散区 域,每个区域具有所述至少一种或两种固定化的捕获探针。所述固定化 的捕获探针能够直接或间接地与表4、11和/或13中的至少两种不同生 物标记物,和在一些实例中与表3中所示的标准化基因特异性杂交。所 述捕获探针可由阵列上的位置来识别。所述阵列上的探针可以可寻址的 方式被连接在表面。例如,每一个可寻址位置可以是可独立识别的小珠 或在流动池中的通道。

例如,所述阵列可包括至少三个可寻址位置,每个位置具有带有相 同特异性的固定化捕获探针,并且每个位置具有含有与每个其他位置处 的捕获探针不同的特异性的捕获探针。在所述至少三个位置中的两个中 的所述捕获探针能够直接或间接地特异性杂交表4、11和/或13中列出 的生物标记物,并且在所述至少三个位置中的一个中的所述捕获探针能 够直接或间接地特异性杂交表3中所列的标准化生物标记物。另外,每 种捕获探针的特异性可由该阵列上的可寻址位置识别。在一些实例中, 所述阵列还包括至少两个离散区域(多孔表面上的这类孔,或流动池中 的通道),每个区域具有至少三个可寻址位置。在一些实例中,这种阵 列包括固定化的捕获探针,其能够直接或间接地与表4、6、8、11、13、 或14中列出的所有生物标记物和表3中的至少两种标准化物(例如, RPS6KB2和SDHA)特异性杂交。在一些实例中,所述捕获探针间接 地通过核酸编程接头与表4,11和/或13中所列的至少两种生物标记物 以及表3中的所述至少一种标准化生物标记物杂交,其中所述编程接头 为异双功能接头,该接头具有和所述捕获探针互补的第一部分以及和核 酸酶保护探针(NPP)互补的第二部分,其中所述NPP互补于表4、11 和/或13中列出的所述至少两种生物标记物中的一种或表3中的所述一 种标准化生物标记物。因此,在一些实例中,所述阵列还包括所述核酸 编程接头。

在一些实例中,所述阵列包括寡核苷酸,所述寡核苷酸包括或基本 上由如下的寡核苷酸组成:互补于表4、11和/或13中的至少2种、至 少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少 9种、至少10种、至少11种、至少12种、至少13种、至少14种、至 少15种、至少16种、至少17种、至少18种、至少19种、至少20种、 或(如果适用的话)至少21种、至少22种、至少23种、至少24种、 至少25种、至少26种、至少27种、至少28种、至少29种、至少30 种、至少31种或所有的生物标记物(如表4、11和/或13中的2种、3 种、4种、5种、6种、7种、8种、9种、10种、11种、12种、13种、 14种、15种、16种、17种、18种、19种、或(如果适用的话)20种、 21种、22种、23种、24种、25种、26种、27种、28种、29种、30 种、31种或所有的生物标记物)。在一些实例中,所述阵列还包括互补 于标准化生物标记物的寡核苷酸,所述标准化生物标记物为如表3中的 至少1种、至少2种、至少3种、至少4种、至少5种、至少6种、至 少7种、至少8种或所有的生物标记物(如表3中的1种、2种、3种、 4种、5种、6种、7种、8种或9种标准化生物标记物,或RPS6KB2 和SDHA)。在一些实例中,所述阵列还包括一种或多种对照寡核苷酸 (例如1种、2种、3种、4种、5种、6种、7种、8种、9种、10种 或更多种对照寡核苷酸),例如,一种或多种阳性和/或阴性对照。在一 些实例中,所述对照寡核苷酸互补于如下中的一种或多种:DEAD盒 多肽5(DDX5)、甘油醛-3-磷酸脱氢酶(GAPDH)、原纤蛋白1(FBN1)、 或拟南芥AP2-样乙烯应答转录因子(ANT)。

在一些实施方案中,所述阵列可包括具有空间上分开的区域(如多 孔表面上的孔,或在流动池中的通道),每个区域包括稳定(例如,共 价地)附着到所述表面上的锚和核酸编程接头,其中所述编程接头是异 双功能接头,该接头具有和所述捕获探针互补的第一部分以及和核酸酶 保护探针(NPP)互补的第二部分,其中所述NPP互补于靶核酸(如 表4、11和/或13中的那些)。在一些实施方案中,所述阵列包括或基 本上由双功能接头组成,其中所述第一部分与锚互补,并且所述第二部 分互补于NPP,其中所述NPP互补于表4、11和/或13中的至少2种、 至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至 少9种、至少10种、至少11种、至少12种、至少13种、至少14种、 至少15种、至少16种、至少17种、至少18种、至少19种、或(如 果适用的话)至少20种、至少21种、至少22种、至少23种、至少 24种、至少25种、至少26种、至少27种、至少28种、至少29种、 至少30种、至少31种或所有的生物标记物(如表4、11和/或13中的 2种、3种、4种、5种、6种、7种、8种、9种、10种、11种、12种、 13种、14种、15种、16种、17种、18种、19种、或(如果适用的话) 20种、21种、22种、23种、24种、25种、26种、27种、28种、29 种、30种、31种或所有的生物标记物)中的一种。在一些实例中,所 述阵列还包括双功能接头,其中所述第一部分与锚互补,所述第二部分 互补于NPP,所述NPP互补于标准化生物标记物,如表3中的至少1 种、至少2种、至少3种、至少4种、至少5种、至少6种、至少7种、 至少8种或所有的生物标记物(如表3中的1种、2种、3种、4种、5 种、6种、7种、8种或9种标准化生物标记物)。这种阵列使附着在其 上的锚杂交到不与所述NPP互补的双功能接头的至少一部分上。在另 一个实例中,所述阵列还包括双功能接头,其中所述双功能接头的第二 部分互补于和对照基因(例如DDX5、GAPDH、FBN1、或ANT)互 补的NPP。这种阵列还可包括(1)和所述编程接头的第一部分杂交的 锚探针,(2)和所述编程接头(其在一些实例中被生物素化)的第二部 分杂交的NPP,(3)具有和所述NPP杂交的第一部分以及和检测探针 杂交的第二部分的双功能检测接头,(4)检测探针;(5)标签(如抗生 物素蛋白HRP),或其组合。

在一些实例中,将最高达47种不同的捕获(即,锚定)寡核苷酸 的集合点样到在空间不同位置处的表面上,并与衍生化的表面稳定结合 (例如,共价附着)。对于任何具体的测定,可将给定组的捕获探针用 于编程每个孔的表面以使其特异性地针对多达47种不同的靶或目的测 定类型,并且可将不同测试样品施加到各板96孔中的每一个孔中。可 多次使用同一组的捕获探针以重新编程在所述孔的表面用于其他靶或 目的测定。

阵列基底

所述阵列的固体支持物可由有机聚合物形成。固体支持物的合适材 料包括但不限于:聚丙烯、聚乙烯、聚丁烯、聚异丁烯、聚丁二烯、聚 异戊二烯、聚乙烯吡咯烷酮、聚四氟乙烯、聚偏(2)氟乙烯、聚氟乙 烯-丙烯、聚乙烯醋酸醇、聚甲基戊烯,聚三氟氯乙烯,聚砜、羟基化 的双向拉伸聚丙烯、胺化的双向拉伸聚丙烯、硫醇化双轴取向的聚丙烯、 乙烯-丙烯酸、乙烯甲基丙烯酸、以及它们的共聚物的混合物(参见美 国专利No.5,985,567)。用于本文公开的阵列的适当底物的其他实例包 括玻璃(例如功能化玻璃)、硅(Si)、锗(Ge)、砷化镓(GaAs)、磷 化镓(GaP)、二氧化硅(SiO2)、氮化硅(SiN4)、改性硅硝化纤维素、 聚苯乙烯、聚碳酸酯、尼龙、纤维,或它们的混合物。阵列基底可以是 硬的并且是相对刚性的(例如玻璃或一种支撑膜)或柔性的(例如聚合 物膜)。

通常,可用于形成所述固体支持表面的所述材料的适当特征包括: 易于表面激活,以使得一旦激活,所述支持物的表面能够稳定(例如共 价的、静电地、可逆地、不可逆地(或永久地))连接上生物分子如寡 核苷酸;易“原位”合成生物分子;具有化学惰性,以使得在未被寡核 苷酸或蛋白质(如抗体)占据的支持物表面不适于非特异性结合,或者 当非特异性结合发生时,可容易地从该表面上取下这种材料,而不除去 寡核苷酸或蛋白质(如抗体)。

在另一个实例中,可将表面活化有机聚合物用作固体支持体表面。 表面活化有机聚合物的一个实例是通过射频等离子体放电而胺化的聚 丙烯材料。也可以使用其它反应基团,如羧基化、羟基化、硫醇化、或 活性酯基团。

阵列形式

在阵列内,每一个阵列样品都是可寻址的,因为其位置可在所述阵 列的维度(例如,至少两个维度)内可靠且稳定地确定。在阵列上的特 征应用位置可呈现不同的形状。例如,所述阵列可以是规则的(如以统 一行和列排列的、或以多个可单独识别的小珠的形式提出的)或不规则 的。因此,在有序阵列中,可在将每个样品应用到所述阵列上时,将其 位置指定给所述样品,并且可提供键以便将每一个位置与所述适当靶、 特征位置相关联。经常,有序阵列排列成对称的网格模式,但是样品可 排列成其他模式(如以径向分布的线条、螺旋线、或有序簇)。可寻址 阵列通常是计算机可读的,因为可将计算机进行编程以将所述阵列上的 具体地址与所述样品在该位置处的信息(如杂交或结合数据,包括例如 信号强度)相关联。在计算机可读形式的一些实例中,将所述阵列中的 各个特征进行不规则地排列,例如,以笛卡儿栅格模式,其可通过计算 机与地址信息相关联。

一个实例包括寡核苷酸条带的线性阵列,其在本领域中通常被称为 量尺(dipstick)。另一种合适的形式包括离散单元(如64x 64阵列中 的4096个正方形)的二维模式。在一个实例中,所述阵列包括最多达 47个(例如,5、5和16之间,5至47之间、16、16和47之间)可寻 址位置/反应室;因此,在96-孔的阵列中,可能有96x 5、96x 16、96x 47个可寻址位置,所述可寻址位置位于相同或不同的(例如,使用可 编程阵列技术)各个反应室(例如,孔)内;但是,在本领域中可以理 解,可对通用编程阵列进行灵活地编程以捕获任何数量的分析物,所述 分析物的数量最高达到可被物理印刷到所述目的阵列表面上的可寻址 位置的数量。其他实施方案包括包含结合在一起成为一组表面的物理上 独立的表面的阵列,当所述物理上独立的表面结合时,形成可寻址阵列; 例如,一组可独立识别的(例如,可寻址的)小珠,每一个被编程或印 刷以捕获特定分析物。如本领域技术人员所理解的,其它阵列形式,包 括但不限于狭缝(矩形),并且环状阵列同样适用(参见美国专利No. 5,981,185)。在一些实例中,所述阵列是多孔板(如96孔板)。在一个 实例中,所述阵列在聚合物介质上形成,其是线、膜或薄膜。有机聚合 物介质的实例是聚丙烯片材,其厚度为约1密耳(0.001英寸)至约20 密耳,尽管膜的厚度不是关键的并且可在相当宽的范围内变化。所述阵 列可包括双轴取向聚丙烯(BOPP)薄膜,其除了耐用性,还表现出低 背景荧光。

本公开内容的阵列形式可包括在多种不同类型的形式中。“形式” 包括所述固体支持物可固定于其上的任何形式,如微量滴定板(例如多 孔板)、试管、无机薄片、量尺、小珠等。例如,当所述固体支持物是 聚丙烯线时,一种或多种聚丙烯线可固定于塑料量尺型装置;聚丙烯膜 可固定于载玻片。该特定形式,就其本身来说并不重要。所必需的是, 固体载体可固定于其上而不影响所述固体支持物或吸附在其上的任何 生物聚合物的功能特性,并且所述形式(如所述量尺或载玻片)对所述 装置被引入至其中的任何材料(如临床样品和杂交溶液)是稳定的

本公开内容的阵列可由多种方法制备而得。在一个实例中,分别合 成寡核苷酸序列,然后将其连接到固体支持物上(参见美国专利No. 6,013,789)。在另一个实例中,直接将序列合成到所述支持物以提供所 需的测定(参见美国专利No.5,554,501)。用于将寡核苷酸偶联到固体 支持物,以及用于直接将所述寡核苷酸合成到所述支持物上的适当方法 是本领域技术人员已知的;适当方法的总结可见于Matson et al.,Anal. Biochem.217:306-10,1994。在一个实例中,使用用于在固体支持物上制 备寡核苷酸的常规化学技术(如PCT申请WO 85/01051和WO 89/10977, 或美国专利No.5,554,501)将所述寡核苷酸合成到所述支持物上。

可使用自动化装置产生合适的阵列以通过以预定的模式敷设四种 碱基的前体在所述阵列的单元中合成寡核苷酸。简而言之,使用多通道 自动化化学递送系统在整个基底的平行行(在数目上对应于递送系统中 通道的数目)中创建寡核苷酸探针群体。在第一方向上完成寡核苷酸合 成后,然后将该基底旋转90°以使得在现在垂直于第一组的第二组行 内进行合成。该方法产生多通道阵列,其交叉产生多个离散单元。

可通过寡核苷酸的3'-末端或通过寡核苷酸的5'-末端将所述寡核苷 酸结合到所述支持物上。在一个实例中,通过所述3'-末端将所述寡核 苷酸结合到所述支持物上。但是本领域技术人员可确定使用所述寡核苷 酸的3'-末端或5'-末端是否适合用于结合到到所述支持物上。通常,寡 核苷酸探针在所述3'-末端和所述5'-末端的区域中的内部互补性确定了 与所述支持物的结合。

试剂盒

本文还公开了用于检测表达(表4、11和/或13中的两种或多种生 物标记物的表达),例如用于将样品表征为如上所述的良性痣或原发性 黑素瘤。在一些实施方案中,所公开的试剂盒还可用于检测一种或多种 标准化生物标记物的表达(例如表3中的那些)。在具体的实例中,所 述试剂盒包括本文提供的一种或多种所述阵列。

在一些实例中,所述试剂盒包括用于检测核酸或蛋白质表达的探针 和/或引物,如表4、11和/或13中的两种或多种生物标记物,以及在一 些实例中,表3中的一种或多种标准化生物标记物。在一些实例中,所 述试剂盒包括特异性结合到表4、11和/或13中列出的生物标记物上的 抗体。例如,所述试剂盒可包括构建用于检测本文公开的生物标记物的 阵列所必需的一种或多种核酸探针。

在一些实例中,所述试剂盒包括核酸编程接头。所述编程接头具有 异双功能,其具有和所述阵列上的所述捕获探针互补的第一部分以及和 核酸酶保护探针(NPP)互补的第二部分,其中所述NPP互补于表4、 11和/或13中列出的所述至少两种生物标记物中的一种或表3中的所述 一种标准化生物标记物。在一个实例中,所述编程接头与所述捕获探针 预杂交,以使得它们不被共价连接,从而使得所述表面包括可寻址的固 定化捕获探针和所述核酸编程接头。在这种实例中,所述试剂盒不具有 带有编程接头的单独容器。

在一些实例中,所述试剂盒包括NPP。所述NPP与所述编程接头 的第二部分互补。示例性的NPP在SEQ ID NOS:1-36和123-164中示 出。

在一些实例中,所述试剂盒包括双功能检测接头。这样的接头可以 被检测探针标记,并且能够特异性地杂交到所述NPP上或所述靶(如 表4、11和/或13中的那些)上。

在一些实例中,所述试剂盒包括本文公开的阵列,和如下中的一种 或多种:含缓冲液(如裂解缓冲液)的容器;含特异性针对单链核酸的 核酸酶的容器;含核酸编程接头的容器;含NPP的容器;含多种双功 能检测接头的容器;含检测探针(如被三重生物素化的探针)的容器; 以及含检测剂(如抗生物素蛋白HRP)的容器。

在一个实例中,所述试剂盒包括图表或表格,其显示了在正常皮肤 细胞(例如,良性痣)或原发性黑素瘤中预期的表4、11和/或13中的 生物标记物的预期值或值的范围,或临床上有用的截断值。在一些实例 中,试剂盒还包括对照样品,如表4、11和/或13中的那些生物标记物 的特定量的核酸或蛋白质。

所述试剂盒还可包括其他组分如指导性材料和额外的试剂,例如, 检测试剂,如基于酶的检测系统(例如,包括辣根过氧化物酶或碱性磷 酸酶的检测试剂和合适的底物)、第二抗体(例如,特异性结合第一抗 体的抗体,所述第一抗体特异性地结合表3、4、11和/或13中的靶(例 如蛋白质))或者用于标记抗体的装置。所述试剂盒还可包括额外的组 件以帮助所述试剂盒被设计用于的具体应用(例如微量滴定板)。在一 个实例中,所述试剂盒还包括对照核酸。这些试剂盒和适当的内容物是 本领域中普通技术人员公知的。说明书材料可以是以电子形式(例如计 算机磁盘或光盘)写成的或可视的(例如视频文件)。

提供了以下实施例以举例说明某些具体特征和/或实施方案。这些 实施例不应被解释为将本发明限制于所描述的具体特征或实施方案。

实施例

实施例1

使用临床表征的皮肤样品的发现集进行的基因选择

痣和黑素瘤细胞,与所有细胞类似,也表达大量的基因,但是这些 基因大多数都与这些组间的差异无关。因此,为了提取有用的基因信息 和减小范围,本实施例描述了对超过2600个mRNA靶的表达进行的初 步筛选,以鉴定在福尔马林固定且石蜡包埋(“FFPE”)的来自人受试 者活组织检查的皮肤样品中显著差异表达的mRNA。还描述了所述实 施例通篇中使用的方法的详情。

39个FFPE组织切片的发现集是由约翰·韦恩癌症研究所组织库提 供,每个切片厚度大约5um,并封固在载玻片上。这组包括14个正常 皮肤样品、10个痣样品、5个原发性黑素瘤样品以及10个黑素瘤转移 灶样品。

样品制备和裂解

简言之,测量每个FFPE组织切片以测定其大概面积(以cm2计)。 然后使用保险刀片将组织切片刮到带标签的微量离心管中,并避免载玻 片上的任何过多石蜡。将样品悬浮于25ul(每0.3cm2的所用组织切片) 预热的(50℃)含有甲酰胺和SDS的SSC缓冲液中。然后将五百(500) μl的含有表面活性剂(例如Brij-97)的矿物油(“非水性层”)覆盖到 组织悬液上,并将该裂解反应物在95℃下孵育10-15分钟。在短暂冷却 反应混合物后,加入蛋白酶K至终浓度为1mg/ml,在50℃下继续孵 育30-60分钟。立即将一部分裂解反应物用于进行核酸酶保护测定(见 下文),或者将裂解反应物(或其剩余部分)在-80℃下冷冻并保存。 在后续使用之前,在50℃下融化冷冻的裂解反应物10-15分钟。

核酸酶保护测定(“NPA”)

将二十五(25)μl的每种裂解反应混合物置于96孔板的孔中,并 用70μl非水性层覆盖。向每个孔中加入5μl的核酸酶保护探针(NPP) 混合物。NPP混合物中存在一(1)nM(过量)的与所述多种待检测的 mRNA靶中的每一种互补的NPP。用于ArrayPlate检测的NPP是(i) 长度为50个碱基对,其中每一半的NPP的Tm在40℃-75℃范围内(并 且全长的Tm在60℃-85℃的范围内)并且(ii)在计算机上测试(使用 NCBI BLAST)并且具有对各个mRNA靶的特异性的体外转录物(并 且基本上不与NPA反应物中的其它NPP、其它靶或其他分析物交叉反 应)。用于ArraySlide检测的NPP的区别仅在于其含有偏向NPP的3’ 端的内部生物素化的碱基(T)。还进一步描述了与在其他实施例中具体 鉴定的基因相关的NPP。

将96孔NPA板在95℃下加热10-15分钟以使核酸变性,然后将其 在60℃下孵育6-16小时以使NPP与其各自的mRNA靶杂交。

杂交步骤后,将20μl过量的溶于乙酸钠缓冲液中的S1核酸酶(2.5 U/μl)加入到每孔的水相中。S1反应在50℃下进行90-120分钟以消化 未结合的mRNA和未结合的NPP。在一些反应组中,加入溶于分子生 物学级的水中的BSA至终浓度为40mg/ml。

在S1消化步骤期间,通过将10μl的含有0.1M EDTA和1.6N  NaOH的溶液加入到与96孔NPA板的反应物对应的每孔中来制备96 孔“终止”板。将96孔NPA板中每个反应物的全部体积(约120μl) 转移到第二个96孔终止板的对应孔中。将终止板在95℃下孵育15-20 分钟,然后在室温下冷却5-10分钟,随后加入10μl 1.6N HCl以中和此 前加入到每个反应中的NaOH。

本实施例中的核酸酶保护测定反应使用以下来直接(例如未纯化或 未进行靶mRNA分析物的反转录)研究:(i)定制设计的用于在每孔 中检测34种人类公认的黑素瘤相关的mRNA(或对照)的表达的第一、 基于96孔板的阵列(ArrayPlate No.1),(ii)定制设计的用于检测33 种人类公认的黑素瘤相关的mRNA(或对照)的表达的第二ArrayPlate (即No.2),(iii)能够在每孔中检测1829种人类公认癌症相关的mRNA (或对照)的第一、基于载玻片的21孔(ArraySlide No.1)定制“癌 症转录组”阵列,和(iv)能够检测公认代表人类转录组的2600种mRNA 中每一种的“全转录组”定制阵列。例如在文献检索和公知常识的基础 上确定待通过上述阵列中每一种进行研究的靶。

ArrayPlate捕捉和检测

用40ul在含有SDS的SSC缓冲液(“SSC-S”)中的5nM 50个碱 基对编程接头(“PL”)对ArrayPlate No.1和No.2进行编程。PL是人 造的25个碱基对的双功能合成寡核苷酸构建体(衔接体),其一部分与 固定到阵列表面的通用锚定序列互补,另一部分与寻址到特定阵列位置 的特定NPP互补。编程步骤后,将终止板的每个反应中的全部水相 (60-65μl)加入到编程的ArrayPlate的对应孔中,并在50℃下孵育 16-24小时来捕捉未消化的NPP(其在核酸酶步骤期间与靶结合,因此 是样品中存在的靶的可定量的替代物)。此后,将溶于含有1%脱脂乳 的SSC-S中的5nM双功能检测接头(“DL”)加入到每个反应中,然 后在60℃下孵育1小时。DL是人造的25个碱基对的双功能合成寡核 苷酸构建体,其一部分与其各自的NPP互补,另一部分与生物素标记 的检测探针(“DP”)的一个或多个(例如两个或三个)拷贝互补,所 述DP能够特异性结合设计到所有DL中的检测区域。为了完成检测“夹 心”,将40μl的3nM DP加入所述反应中,然后在50℃下孵育45-60 分钟。接着,加入40μl在含有1%脱脂乳的SSC-S中的亲和素过氧化 物酶(1:600),然后在37℃下孵育30-45分钟。最后,加入化学发光底 物混合物,其能够在过氧化物酶存在的情况下产生光,所产生的光可以 使用HTG OMIXTM成像仪捕捉。基因表达与ArrayPlate的每个可寻址 位置上发出的光强度直接相关。

ArraySlide捕捉和检测

然后将每个核酸酶保护测定反应的全部水相(60-65μl)与 ArraySlide No.1和No.2在50℃下杂交16-24小时,用于捕捉NPP。捕 捉生物素化的NPP以后,将各个ArraySlide用含有1%Tween的1xSSC (“洗涤缓冲液”)充分洗涤。加入五十(50)μl在检测酶缓冲液(1xSSC-S, 0.05%Tween和脱脂乳)中的亲和素-过氧化物酶(1:600),在37℃下保 持45分钟。洗涤ArraySlide,然后加入在扩增稀释剂中的TSA-Plus Cy3 试剂(Perkin Elmer)用于检测。经过3分钟室温孵育后,通过用洗涤 缓冲液洗涤ArraySlide,终止TSA-Plus Cy3反应。最后,将ArraySlide 离心干燥,使用GenePix 4200AL芯片扫描仪(microarray slide scanner, Molecular Devices,Sunnyvale,CA)在5μm分辨率下扫描。使用 NimbleScan 2.5软件(Roche NimbleGen,Madison,WI)从TIFF图像 中提取探针强度,用于进行下文所述分析。

数据分析

使用BRB阵列工具(可免费获得用于研究用途,在2012年6月4 日时的linus.nci.nih.gov/~brb/download_full_v4_2_1_stable.html)处理 该实施例中每个阵列的原始数据。简言之,对数据进行最小强度取阈、 分位数标准化处理,然后将某些数据过滤器用于从进一步分析中去除非 差异数据点。将数据进行log2转化,并基于p-值和log倍数变化值对其 进行分析以找到这些组阵列中统计学上显著的差异基因。

基于以下选择出七十八(78)个基因用于进一步研究:(a)在痣样 品中相对于原发性黑素瘤样品中显著(p≤0.05)差异表达,和,在一 些情况下,(b)在测量这类表达的每个样品群中超出3000原始信号强 度的mRNA表达。还沿用了最初包括的作为公认对照的额外四(4)个 基因(SDHA,RPS6KB2,RPL37A和TFRC)用于进一步研究。

实施例2

在第二组临床表征的皮肤样品中显著差异表达的基因——标准化 为4个

本实施例描述了一个32个基因的组的鉴定,所述32个基因的表达 在被JWCI皮肤库表征为痣或原发性黑素瘤的人皮肤活组织检查之间 有显著差异。

构建两个定制的ArrayPlate(称为ArrayPlate No.3和4)用于测 量在实施例1中鉴定的或从实施例1沿用的82个mRNA靶以及通过途 径分析(pathway analysis)鉴定的或用作阴性对照的6个额外的靶。 ArrayPlate No.3和4的基因列表示于下文的表1中:

表1.ArrayPlate基因列表

表1.ArrayPlate基因列表

测量了100个FFPE组织切片中的mRNA表达,其由39个痣样品 (来自未患黑素瘤的患者)和61个原发性黑素瘤样品组成。

基本上按照实施例1中针对ArrayPlate No.1和2描述的方法进行 样品制备和裂解、核酸酶保护测定和阵列捕捉和检测。

表2示出了用于以下的NNP序列:(i)本实施例中发现的在痣和 黑素瘤样品之间显著差异表达的靶,和(ii)其表达用于标准化的靶。 可用于所公开的发明的其他NPP序列在其他地方描述,或者可由本领 域中普通技术人员使用本公开内容中提供的指导以及所公开的靶的公 众可获得序列来确定(例如,示于表11和表13中的SEQ ID No)。

表2.示例性核酸酶保护探针序列

表2.示例性核酸酶保护探针序列

表2.示例性核酸酶保护探针序列

数据分析

除非另有说明,实施例2和3中的所有分析均在SAS version 9.3 中进行。

A.转化和定量对照

使用HTG OMIXTM成像装置处理数据并提取16bit的图像。为了 使数据的标度更加线性化,将原始强度值转化为以2为底数的对数值, 这是基因组研究中的标准操作。每个基因具有三个独立的观察值,将所 有三个观察值平均为几何平均值(虽然算数平均值同样表现良好)以生 成每个基因的综合平均的以2为底数的对数表达值。在每个阵列上使用 植物基因ANT(AP2样乙烯-应答转录因子;GenBank mRNA RefSeq  No.NM_119937;SEQ ID NO.122)作为阴性对照。可检测到背景以上 的ANT的样品用于筛选和去除测定失败。进行描述性统计分析以筛选 数据文件中的错误。

B.用于标准化的基因的选择

任何在所有样品类型或受试者中的表达都保持不变的基因(即通用 “持家”基因)的科学教条正在失去支持(例如,Avison,Measuring Gene  Expression,Psychology Press,2007,p.128)。因此,已经开发了用于选 择适用于标准化(特别是微阵列数据的标准化)的基因的其它替代方法。 一些合适的方法在本文中描述,而其他的方法是本领域中普通技术人员 已知的。

“标准化”基因的表达用于将数据标准化为不可控制的过程变量例 如样品荷载中的细胞内容物。筛选用于本实施例的候选标准化基因的第 一步是运行Satterthwaite T检验,以确定这类候选标准化基因的表达在 目的群的样品之间(即痣与原发性黑素瘤样品之间)不存在统计学上显 著的差异。最初该分析使用三个原始表达值的平均值进行,然后用标准 化的表达值进行确认。将超过0.05的p-值设置为用于确定缺乏显著性 的下限。

然后检查候选标准化基因的表达水平,以确保充分且非饱和的强度 值。将充分且非饱和的强度值限定为背景以上且饱和以下的1.5表达单 位。

候选标准化基因的选择还基于最小标准差。将2.0表达单位的上限 设置为截断值。将标准差大于该截断值的候选标准化基因从考虑范围内 去除。目标是在剩余的候选标准化基因中选择在目的样品群(即痣与原 发性黑素瘤样品)之间具有最低标准误差的候选标准化基因。

值得注意的是,还可将变异系数(CV)用于替代该应用分析和其 他应用分析中的标准差。CV是一种统计学方法,其用于描述数据的离 散程度或与测量单位无关的变量。由于CV是通过用标准差(或在某些 SAS过程中为均方根误差)除以平均值计算的,并且整个阵列中基因表 达的测量单位都是非常相似的,因此,使用CV或标准差(不常见,如 果有的话)产生定性上不同的结果模式,该结果会得出关于持家基因有 效性的不同结论。

表3中示出了在这些实施例中选择作为人痣与原发性黑素瘤皮肤 活组织检查样品的代表物的示例性标准化基因(也称为“标准化物”)。 图2A和2B中示出了代表性的标准化物BMP-1、MF12、NCOR2和 RAP2b的箱形图、均数图和SAS diffogram。在SAS diffogram中,例 如,虚线的对角线(从左下方至右上方;蓝色)代表p=0.5;x轴和y 轴绘出了标准化的平均log2强度值;每个轴上的线指示了针对所示每 个组的平均标准化平均log2强度值。实线的对角线(从左上方至右下 方,红色)与虚线p=0.5参考线交叉,说明在痣和原发性样品之间不存 在统计学上显著的差异,p>0.05。

表3.鉴定的痣和原发性黑素瘤样品的代表性标准化基因

C.基因的单变量筛选

为了用上述标准化物标准化数据,将每个基因的所有重复的平均 log2表达值除以BMP-1、MF12、NCOR2和RAP2b标准化物的几何 平均值(这对于本领域中的一些来说也称为“标准化为一些”,而在本 文中也可称为“标准化为四个”)。如上文所述,算数平均值也可满足上 述目的。将所得的数值乘以常数10。

标准化之后,对每一种其它的(非标准化物)基因进行筛选,以确 定该基因的表达在痣与原发性黑素瘤样品之间是否具有统计学上的显 著差异。统计学上的显著差异表明所述基因具有某种在所述两组之间差 异化的能力。为了针对α膨胀(alpha inflation)和多重检验进行保护, 使用Bonferroni校正来选择α的名义值(用于显著性的p-值截断值)。 使用Satterthwaite T-检验以单变量方式对每个基因进行筛选。

Satterthwaite校正的T-检验用于在组之间存在不等变量的情况下确保 准确地评估。

表4示出了所发现的mRNA表达在痣和原发性黑素瘤样品之间存 在统计学上的显著差异的基因的列表。

表4.在痣与原发性黑素瘤样品之间存在差异的基因

表4.在痣与原发性黑素瘤样品之间存在差异的基因

表4.在痣与原发性黑素瘤样品之间存在差异的基因

共变量矩阵(Covariance matrix)

生成了标准化数据与疾病变量(其为二元编码的虚拟变量,其中“0” 代表痣,而“1”代表原发性黑素瘤)的共变量矩阵。表5示出了每个 所示基因的表达与疾病变量如何共变:

表5.疾病共变量

如表5所示,除了RPL37A和SQSTM1(负值,其平均值在痣中 比在原发性黑素瘤中更高),表4中的每个基因在原发性黑素瘤中的平 均表达值都比在痣中更高(正值)。换言之,除了所述的以外,表4中 的基因倾向于与在痣中的表达相比在原发性黑素瘤中上调。

单独或组合使用这些基因,会产生能够表征(例如诊断)受试样品 为良性痣或者原发性黑素瘤的预测模型(例如回归模型或者,在更具体 的实例中,线性回归模型)。用于所公开的方法、阵列或试剂盒的示例 性且非限制性的基因组合为MAGEA2、PRAME、PDIA4、NR4A1、 PDLIM7、B4GALT1、SAT1、RUNX1和/或SOCS3中的至少2、3、4、 5、6、7、8个或全部9个。

除了总体显著性之外,当在32个基因的组中选择模型组合时,很 多测量方法可用于辅助确定哪些基因能够很好地配对或组合在一起以 形成预测模型。一个具体的方法是使模型中预测因子(即Xn变量;见 下文)之间的多重共线性最小,这是通过模型中每个Xn变量基因的方 差膨胀因子(VIF)测量。表4、11和/或13(其中所有的预测因子Xn 变量都具有小于10的方差膨胀因子(VIF))中的基因(例如mRNA或 miRNA)的任意组合都可能具有用于区分来自良性痣的样品与来自原 发性黑素瘤的样品的有用预测价值,因此,其都可被本公开内容涵盖。

D.逻辑回归模型

用于开发使用表4中基因的统计预测模型的基础是具有二元分布 逻辑连接函数的逻辑回归。使用Fischer评分对模型进行评估。但是, 使用精确的逻辑回归、经验夹心估计器或者其他偏离校正、方差稳定或 其他校正性评估技术进行评估的模型,在许多情况下,也会提供类似的 模型——该模型在产生轻微差异的参数评估的同时会产生定性上一致 的结果模式。类似地,其他连接函数,包括但不限于累积评定(logit)、 互补log-log、正态(probit)、累积正态(probit),可被预期产生给出 相同的定性结果模式的预测模型。

该实施例中模型的基本形式(算法)为:

Logit(Yi)=β0+β1X1+β2X2+β3X3...βnXn

其中βo是截距,βn是系数估计,Xn是给定基因的以2为底数的 对数表达值。通常,所有β的值都大于-1000且小于1000。经常,β0 截距大于-200且小于200,在某些情况下其大于-100且小于100。类似 地,其它的βn(其中n>0)也大于-100且小于100。

为了验证模型的性能,进行了很多检验。使用了Wald卡方检验, 该检验需要展示整体模型拟合(overall model fit)的统计学显著性结果。 Hosmer和Lemeshow拟合不佳检验需要指示所述模型的非统计学上可 检测的拟合不佳模型中每个基因的预测因子必须为显著的,p<0.05。

许多交叉验证方法用于确保结果的再现型。主要方法是作为 SASProc逻辑分类表(SAS Proc Logistic classification table)步骤的一 部分的一步最大似然估计近似法。还使用了开源包Weka中的十(10) 倍交叉验证和66-33%分离验证(split validation),用于额外的结果确 认。尽管逻辑回归是该实施例的数学基础,但是其他统计学、数学和数 据挖掘步骤(例如正态回归(probit regression)、支持向量机(support  vector machine)或聚类算法)可产生给出相同的定性结果模式的模型。

将逻辑回归建模应用于本发明实施例中的数据,下文表6示出了在 痣和原发性黑素瘤样品之间精确地区分的基因的非限制性组合,以及相 应的预测算法的值。

表6.具有算法值的示例性预测组合(标准化为四个)

表6.具有算法值的示例性预测组合(标准化为四个)

图3-7示出了如该实施例所述的使用N4RA1和B4GALT1的组合 的具体结果,用于准确地确定样品是否被恰当地表征(例如诊断)为痣 或者原发性黑素瘤。

表6中公开的算法用于将测试的FFPE皮肤活组织检查样品表征为 原发性黑素瘤或是痣。该算法(也称为拟合模型)提供了预测的事件概 率,该事件概率在本实施例中是样品为原发性黑素瘤的概率。本领域中 普通技术人员已知的SAS计算方法用于计算预测概率的减小偏差估计 值(参见,support.sas.com/documentation/cdl/en/statug/63347/HTML/ default/viewer.htm#statug_logistic_sect044.htm(2012年6月22日))。

一系列阈值z,其中z被设为0-1之间。如果具体样品的计算的预 测概率超过或等于预设的阈值z,那么将该样品指定到原发性黑素瘤组; 否则,将其指定到痣组。然后针对已知的临床数据对各个组的分配进行 交叉验证来确定其中的真阳性、真阴性、假阳性和假阴性。这些结果在 例如分类表(例如图5和图6中示出的分类表)中示出。

本领域普通技术人员可基于模型的所需临床应用来确定阈值。图5 和6证明了这点,其使用代表性的NR4A1和B4GALT1(标准化为4 个)的模型。可以设置更高的阈值用于得到原发性黑素瘤结果;例如, 参见图5中突出显示的区域(概率水平0.700-0.780)。在这种情况下, 假阳性率相对较低,或者换言之,存在比灵敏度更高的特异性。相反, 可以降低用于将样品划为原发性黑素瘤的阈值,例如参见图6中突出显 示的区域(概率水平为0.240-0.620)。在该阈值水平下,该模型提供更 少的假阴性或更高的灵敏度,但是稍微低一些的特异性。

值得注意的是,表6和8中提供的模型方程中的“输出”是logit。 Logit是样品为原发性黑素瘤的优势比(odds ratio)的对数。作为替代 物,本领域普通技术人员可使用logit作为用于将样品划为原发性黑素 瘤或痣的阈值。使用其它方法也可以获得等效的结果。例如,选择预测 概率为0.5,将会给出与使用logit为0的相同的结果。这是可以理解的, 因为优势比为1可以解释为样品为原发性黑素瘤或痣具有相等概率。1 的对数等于0,因此logit为0等同于优势比为1。考虑到优势比为1或 者logit为0,就是样品为原发性黑素瘤或痣的概率是50/50,那么预测 概率为0.5是等效的结果;因此使用来自拟合模型的预测概率或logit 输出会得到相同的结果。

实施例3

使用两种替代性标准化物的分析证明用于预测痣或原发性黑素瘤 的模型的稳健性

通过使用另外的标准化基因组来标准化该数据而进一步表明实施 例2中所述的预测性(例如诊断性)基因组合的稳健性。在本实施例中 所示的其他事物中,这类分析对[N4RA1,B4GALT1]预测性模型不具有 富有意义的影响,[N4RA1,B4GALT1]预测性模型的结果被认为是实施 例2中所述的所有预测性模型的代表。

将RPL37A、RPS6KB2、SDHA和TFRC作为公认的“持家”基 因包括在实施例1和2中所述的阵列上。如上文所述,“持家”基因(例 如其表达在所有样品类型中不变的基因)的概念是正在失去支持,因此 事实上应该(或者过去已经)被测试。

将这些候选“持家”基因中每一个的综合平均的以2为底数的对数 表达值标准化为该值,用于其他候选“持家”基因的每一个。计算每个 标准化的“持家基因”的变异系数(CV)和标准差(SD),并示于表7 中。

表7:每个标准化的“持家基因”的变异系数(CV)和标准差

候选“持家基因” CV SD RPL37A 0.101384 0.894 RPS6KB2 0.023556 0.365 SDHA 0.022369 0.339 TFRC 0.070521 0.719

如果候选“持家基因”的CV比其他候选的最低CV高出两倍以上, 那么将其作为合理的标准化物而丢弃。因此,只选择了RPS6KB2和 SDHA作为本实施例的标准化物。

上文表3中描述了关于这个的两个标准化基因(用于人痣和原发黑 素瘤皮肤活组织检查样品)的代表性组的一般信息。

将表4中的每个基因的综合平均的以2为底数的对数表达值标准化 为RPS6KB2和SDHA的综合平均的以2为底数的对数表达值,并且对 表6中所示的预测性基因组合中的每一个重复进行实施例2中描述的逻 辑回归分析。

下文表8中示出了每种预测性算法的相应的截距和系数,其中基因 (Xn)被标准化为两个(即RPS6KB2和SDHA)。

表8.具有算法值的示例性预测性组合(标准化为2个)

表8.具有算法值的示例性预测性组合屋(标准化为2个)

如实施例2中所述确定和测试表8中公开的算法。

图8和9示出了(i)总体B4GALT1和NR4A1(2-标准化物)模 型拟合保持高度显著性;(ii)曲线下面积(AUC)为97.67(表明,例 如,B4GALT1和NR4A1(2-标准化物)预测性模型将随机选择的阳性 实例排行为高于随机选择的阴性实例的概率为97.67%);(iii)SAS交 叉验证后,90%+的矫正分类高于约50%的可能阈值;(iv)SAS交叉验 证后,在可能的阈值的范围内降低的特异性;(v)与用于该相同分子标 记物的实施例2模型相比,SAS交叉验证后最大灵敏度中等增加。

总之,该实施例证明,用于在分子水平上表征样品为痣或原发性黑 素瘤的B4GALT1和NR4A1模型在很多标准化方法中是可重复的。使 用类似的计算方法预期实施例2和3(或本文的其他位置)中描述的其 它预测性标记物可得到类似的结果。因此,清楚地证实了这些代表性的 和其他公开的模型表征测试样品为痣或原发性黑素瘤的稳健性和实用 性。

实施例4

使用机器学习方法进行黑素瘤和痣的分类

在该实施例中,使用四个ArrayPlate(包括3号和4号ArrayPlate) 的组确定从人受试者活检取出的FFPE皮肤样品的第三组中的mRNA 和miRNA表达(参见实施例2和3)。使用该数据成功地鉴定了在黑素 瘤和痣样品中显著差异性表达的mRNA和miRNA的组,并使用该数据 训练机器学习(例如Random Forest(Breiman,Machine Learning,45 (1):5–32(2001))黑素瘤-痣分类机。

一个115个FFPE组织切片的组——每个大约5μm厚并且封固在 载玻片上——由约翰·韦恩癌症研究所(JWCI)组织库提供。这组包括 56个痣样品和59个原发性黑素瘤样品。

在四个ArrayPlate的组上分析样品中181种(包括对照)mRNA 或miRNA的表达。用于ArrayPlate No.3-5(仅mRNA)的测定和检 测方法基本如实施例1中所述。用于ArrayPlate No.6(miRNA和mRNA 共同检测)的测定和检测方法基本如PCT公开No.WO2013/049231中 所述。用于ArrayPlate No.6标准化物和阴性对照(ANT)mRNA的 NPP是与这些实施例中其他位置描述的各个对照NPP的最靠近3’末端 的25个核苷酸对应的25聚体。这组ArrayPlate包括ArrayPlates No.3 和4(见表1),特异性针对mRNA靶的“ArrayPlate No.5”,和特异性针 对miRNA靶(加上mRNA对照)的“ArrayPlate No.6”。ArrayPlates No. 5和6的靶列表示于表9中。在ArrayPlate No.3-6上具有一些常见的 mRNA靶;因此,收集了101种不同mRNA(包括对照)和42种不同 miRNA的数据。

表9.ArrayPlate靶列表

表9.ArrayPlate靶列表

*Kozomara and Griffiths-Jones,Nuc.Acids Res.,39(Database Issue): D152(2011)

标准化基因是在ArrayPlate Nos.3、4和6上的SDHA和RPS6KB2, 以及ArrayPlate No.5上的SDHA、RPL19、RPLP0和ALDOA(还参 见表3)。如这些实施例中的其它位置所描述,这些标准化物在所有样 品类型之间都未表现出任何显著性差异。

由于样品可获得性具有限制,并非所有的样品都在每个阵列上运行, 并且所有原始数据都进行了严格的质量控制(即,预处理),如下:将 原始数据减去背景值,然后将其转化成log 2。测量到相对于阴性对照 基因(ANT)的大于200RLU的任何样品都认为是失败的,并且来自 那些特定孔的所有数据都不被进一步考虑。确定每个基因的重复表达值 的变异系数(CV)。如果样品重复值的CV超过8%,就将最远离平均 值的重复值作为离群值去除。通过成对相关性(pairwise correlation) 和通过成对简单线性回归来测量重复再现性。如果相关性的r>=0.90, 并且线性回归的截距与0的差异不具有统计学显著性,就接受该重复; 否则,认为其失败。将任何具有多于2个失败重复的样品定义为失败样 品。从分析中去除不能满足质量标准的数据。表10中提供了总结。

表10.分析的样品和基因的总结

单变量分析

对经处理的数据进行一些单变量分析(例如对数-倍数变化(log-fold  change)、二样品t-检验(错误发现率(FDR)调整的p-值)和AUC 逻辑回归分析),以评估特定基因在每个数据组中的不同样品类型之间 是否显著性差异表达。

图10A中示出了三个mRNA阵列(即ArrayPlate 3-5)的单变量 分析结果。示出了进行的三个检验中每一个的值((i)在接收器工作特 性(ROC)曲线下的面积(AUC),(ii)对数-倍数变化(fch)和(iii) 二样品t-检验(FDR调整的p-值;FDR.p值))。x-轴上示出了用于收 集表达数据的基因,并且y-轴上示出了各个单变量统计的值。对于AUC 分析,需要较高的值。在这种情况下,将0.75(虚线)指定为统计学显 著性的截断值。AUC在此线之上的基因是用于区分痣与黑素瘤的候选 基因。对于对数-倍数变化分析,将负1和正1(其中每个都等同于痣和 黑素瘤之间表达的2倍差异)指定为统计学显著性的截断值。对数-倍 数变化大于正1和小于负1的基因是用于区分痣和黑素瘤的候选基因。 对于FDR调整的p-值,需要较低的值,并且将0.05(虚线上)指定为 统计学显著性的截断值。表达低于此线的基因是区分痣和黑素瘤的候选 基因。

表10B示出了miRNA单变量分析的结果。如上文,对在x-轴上列 出的miRNA中每一个测定了ROC曲线下的AUC、对数-倍数变化和二 样品t-检验(FDR调整的p-值)。各个单变量统计在y-轴上。带有“HK” 标记的数据表示标准化为ArrayPlate No.6上的“持家基因”的miRNA 表达数据,而“NO.HK”表示未标准化的miRNA表达数据。标准化的 和未标准化的数据通常提供相似的结果。AUC、倍数变化和二样品t- 检验(FDR调整的p-值)的统计学截断值与上文mRNA分析的相同的。 AUC大于0.75、倍数变化大于正1并且FDR调整的p-值低于截断值线 的miRNA是用于区分痣和黑素瘤的候选者。

单变量分析的阳性结果(即,鉴定到mRNA和miRNA在黑素瘤和 痣之间具有显著性差异表达)支持了使用更加消耗资源的多变量分析进 行处理以及进一步开发黑素瘤-痣分类器的决定。

多变量分析

然后进行多变量分析以(从统计学的角度)确定所述检测的靶中哪 个亚组能够最有效地区分黑素瘤和痣样品类型。使用多个特征选择方法 (RF、LIMMA、t-检验、AUC)评估特定基因是否在每个数据组中的 样品类型之间具有显著性差异表达。使用机器学习算法(例如,逻辑回 归(LR)、随机森林(RF)、支持向量机(SVM)、K-最近邻(KNN) 开发最初分类器。在留一交叉验证法中评估特征选择和分类性能。错误 率是基因数目和接收器工作特性(ROC)曲线的函数,将错误率用于评 估分类器的性能。

对于在ArrayPlate No.3中检测的基因,图11示出了基于该阵列上 最高的2个(top2)(GN=2)至最高的40个(top40)(GN=40)基因 的分类器的AUC性能。对于这种类型的分析,随着AUC的增加,所 测试的分类器的灵敏度(即,y-轴上所示的真阳性率)更高,假阳性率 (即,x-轴上所示的“1-特异性”)更低。此图证明,所有大于12个基 因的ArrayPlate No.3分类器的AUC超过0.93(1.00为“理想的”)。 本领域普通技术人员应理解,这个结果并不意味着基于本文公开的信息 不能选择使用少于12个基因的分类器;但是这类分类器可能不具有那 么高的灵敏度和特异性。在一些设置中,高灵敏度或高特异性可能不是 最优先的,并相应地选择分类器。例如,可认为黑素瘤-痣分类器错误 地将黑素瘤识别为痣比错误地将痣识别为黑素瘤的结果更严重;在这种 情况下,可选择将假阴性降到最低同时稍微更宽松地对待假阳性的分类 器(当零假设=黑素瘤或否)。

对于ArrayPlate No.3-6中每一个的基因,图12示出了通过不同 统计方法(即AUC、t-检验、随机森林、LIMMA)确定的分类器的错 误率,该错误率是分类器中基因数目的函数。该图表明,当黑素瘤-痣 分类器具有约10个或更多个基因时,这类分类器的错分类错误减到最 少。如上文,该结果并不意味着基于本文公开的信息不能选择具有低于 约10个基因的分类器;但是这类分类器可能更倾向于产生错误。

对于ArrayPlate No.3-5的每一个,选择在随机森林算法的留一交 叉验证(LOOCV)中具有最高的发生频率并且具有通过AUC测定的 最好性能的基因,并将这些基因综合到表11所示的基因列表中。使用 类似的方法选择了表13中所示的miRNA,并且示例性的基因组合示于 表14中。

基于上述分析,选择使用表11、13和14中所示的mRNA和miRNA (如果适用的话)(至少2、3、4、5、6、7、8个或者如果使用的话,9、 10、11、12、13、14、15或者更多个的组合)以精确地分类测试样品为 痣或者黑素瘤。在具体的实例中,这类分类器利用机器学习(例如随机 森林或支持向量机)算法。表11和13中还示出了用于检测本实施例中 各个表达产物的代表性核酸酶保护性探针。在一些实例中,将这些基因 的表达水平标准化为一个或多个持家基因,例如SDHA、RPS6KB2、 RPL37A和/或TFRC(例如,SDHA和RPS6KB2)。

表11.用于痣-黑素瘤分类的基因(mRNA)

表11.用于痣-黑素瘤分类的基因(mRNA)

一些上文所列出的基因的其它详情可见于表4;其余基因的类似详 情在下文表12中提供:

表12.表4的补充

表12.表4的补充

表13.用于痣-黑素瘤分类的miRNA

表13.用于痣-黑素瘤分类的miRNA

表14.示例性基因组合

*在表4和表11中的每一个中存在的组合

总之,该实施例证实了特定的mRNA和miRNA可用于(用于例如 使用机器学习(例如随机森林或支持向量器)模型中)表征样品为痣或 黑素瘤(例如原发性黑素瘤)的用途。

考虑到本公开内容的原理可以应用的许多可能的实施方案,应认 识到举例说明的实施方案仅是本公开内容的实例,而不应理解为对本发 明范围的限制。而是,本公开内容的范围由以下权利要求限定。因此, 本发明人要求所有落在这些权利要求的范围和精神之内的本发明。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号