首页> 中国专利> 使用具有患者特异性的相关性评价的变体-疾病关联性的诊断基因分析

使用具有患者特异性的相关性评价的变体-疾病关联性的诊断基因分析

摘要

通过临床研究与表型特征相关联的在诊断对象基因数据中观察到的研究基因变体的相关性依照下文进行评价。与所述研究基因变体在功能上相关的一组多态被识别。针对该组多态计算在所述诊断对象基因数据中观察到的变体的前景分布。针对该组多态计算在所述临床研究的对象的基因数据中观察到的变体的背景分布。计算比较所述前景分布和所述背景分布的比较度量。基于所述比较度量来量化所述研究变体与所述诊断对象的相关性,所述前景分布和背景分布的较高的相似性对应于较高的相关性。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-01-26

    授权

    授权

  • 2015-12-23

    实质审查的生效 IPC(主分类):G06F19/18 申请日:20131115

    实质审查的生效

  • 2015-08-12

    公开

    公开

说明书

技术领域

下文涉及基因分析领域、医学领域,并涉及相同领域的应用,诸如包 括肿瘤学领域、兽医学领域等的医学领域。

背景技术

全基因组关联性(GWA)研究检查不同个体的基因组中的变体,以识 别在不同个体中发现的变体与其表型(诸如疾病易感性)之间的关系。不 同变体则与不同性状(诸如疾病)相关联。这种临床研究识别随后能够在 患者中被检测到的变体,并因此能够作为对关联的疾病(或其他表型特性) 的指示。

在人类中,GWA研究已经引起对带有疾病的特定基因的关联性的发 现,诸如作为老年性黄斑变性和糖尿病所公知的眼病。通常在这些研究中, 成百上千的个体被测试了在他们基因组中的成百上千的变体。变体通常是 单核苷酸多态,或SNP。超过1200个人类GWA研究已经检查了超过200 种疾病和性状,并发现将近4000种的SNP关联性。

下文设想了克服上述局限性的改进的装置和方法及其他方面。

发明内容

根据一个方面,一种非暂态存储介质存储由电子数据处理设备可执行 的指令,以执行一种方法,所述方法包括:识别诊断对象基因数据中的研 究基因变体,所述诊断对象基因数据通过临床研究与表型特征相关联;识 别与所述研究基因变体在功能上相关的一组多态;针对该组多态计算在诊 断对象基因数据中观察到的变体的前景分布;针对该组多态计算在临床研 究的对象的基因数据中观察到的变体的背景分布;计算比较所述前景分布 与所述背景分布的比较度量;以及基于所述比较度量对所述研究变体与所 述诊断对象的相关性进行量化。

根据另一方面,一种装置,包括:如前一段落中所提出的非暂态存储 介质;以及电子数据处理设备,其被配置为执行存储在所述非暂态存储介 质上的指令。

根据另一方面,一种方法,包括:识别与在诊断对象基因数据中观察 到的研究基因变体在功能上相关的一组多态,所述诊断对象基因数据通过 临床研究与表型特征相关联;针对该组多态计算在诊断对象基因数据中观 察到的变体的前景分布;针对该组多态计算在临床研究的对象的基因数据 中观察到的变体的背景分布;以及计算比较前景分布与背景分布的比较度 量。识别一组多态、计算前景分布、计算背景分布以及计算比较度量由电 子数据处理设备适当地执行。

一个优点在于针对总体上公知的基因变体提供患者特异性的相关性评 价,以与疾病或其他表型特征相关联。

另一优点在于使用基因标记的更精确的临床测试。

对于本领域普通技术人员,在阅读下文的详细描述的情况下,许多额 外的优点和益处将变得显而易见。

附图说明

本发明可以采取各种部件和部件布置,以及各种处理操作和处理操作 布置的形式。附图仅用于说明优选实施例的目的,不应被解释为限制本发 明。

图1示意性地示出了用于分析患者基因数据集以检测患者中的疾病或 其他表型特征的系统。

图2-图6示意性地示出了图1的系统的选定的部件的细节图。

具体实施方式

基因评价通常包括采集患者基因数据,并将其与具有如由临床研究所 指示的疾病关联性(或其他表型关联性)的基因变体进行比较。通过示例 性范例的方式,所采集的患者基因数据可以包括全基因组序列(WGS)(通 常被视为包括至少90%的核DNA含量,更典型地,包括95%或更多核DNA 含量,并且任选地还包括RNA或其他基因测序数据)、包括小于WGS的基 因测序数据、使用微阵列采集的基因数据,例如具有成百上千的单核苷酸 多态(SNP)测量值(可能包括基因表达(即蛋白质组)形式的基因数据、 信息)等。对于诸如通过高通量基因测序或微阵列处理产生的大量患者基 因数据集,数以千计的基因变体可以在患者基因数据中被观察到。通常, 几十到几百个这些变体已经被预先确定为是在某些GWA研究中相关联的 疾病。

然而,本文中认识到在特定个体中观察到的与基因变体相关联的风险 仅在临床研究结果的基础上不容易对该个体进行量化。对此的一个原因是, 通过GWA研究识别的变体与疾病(或其他表型特征)的关联性是在临床研 究所执行的研究种群的情况下被识别。例如,如果主要在中欧血统的种群 中进行GWA研究,则SNP关联性可能仅与中欧血统的患者相关。其他种 群,诸如非洲或亚洲血统的人可能具有疾病关联SNP所属的同一路径中的 其他基因中的补偿性变体,从而降低疾病关联性的显著性。相似地,GWA 研究可能限于单一性别或者在一定年龄段内等的对象。这些在研究种群上 的限制是否实际上影响了对特定患者的变体-疾病关联性的相关性是不容易 确定的。例如,即使给定的临床研究已经在中欧血统的种群进行了,但所 得到的变体关联性可以是对其他种族的人毫不相关-或它们可以是与这种种 群毫不相关,或者对于其他种族的人较少相关。

通常,研究文献包括研究在其中进行的种群库的人口学信息。在此基 础上,患者的医生能够确定临床研究结果是否适用于该患者,并因此决定 是否为该患者定制该测试。然而,通常没有用于医生做出这个决定的原则 基础。看似微小的人口学差异可以实际上使测试不适用于患者,而看似显 著的人口学差异实际上可以对患者的适用性具有很少或没有影响。此外, 实际影响检测适用性的患者和研究种群之间的差异可以是未被记录在研究 文献中。

因此,当患者出现与研究种群库偏离,给医生留下困难的选择:在获 得虚假结果的风险下向该患者应用研究结果;或者在未获得证明性医疗信 息的风险下向患者应用研究结果。

本文提出了对于这些困难的解决方案。在这些方法中,期望如果患者 具有与研究变体在功能上相关的相似变体分布,所述研究变体的相关性如 在临床研究中所使用的种群中评价的,则该研究变体-疾病关联性很可能在 患者中是显著的,并且因而提供用于患者的相关临床信息。

对本文所使用的术语某些说明如下。

术语“诊断对象”本文中用于指患者、兽医学上的对象、法医学上的 对象(例如,正在进行尸检的尸体)、考古学上的对象(例如,木乃伊或人 类遗骸)等,从他们中获取诊断对象基因数据,并将其与临床研究的结果 进行比较,以达到识别诊断对象中的疾病或其他表型特征的目的。识别通 过观察诊断对象中的基因变体来完成,所述临床研究将所述诊断对象与疾 病或其他表型特征相关联,然后评价该关联性对使用本文所公开的方法的 诊断对象的实际相关性。在示意性实施例中,诊断对象是患者和被称为患 者的对象;然而,示意性实施例很容易应用于其他类型的诊断对象(例如, 兽医学上的对象、法医学上的对象等)。临床研究的对象通常是与诊断对象 相同的“类型”。因而,应用于患者、人类尸体等的临床研究采用人类种群; 而应用于犬类兽医学对象的临床研究采用犬类对象种群。在考古学上的诊 断对象的情况下,所应用的临床研究的种群库可以包括现代生物种群,或 者可以包括(其他)考古学遗迹的种群。

如本文中所使用的,术语“多态”被用于指示具有两个或更多不同的 可能的“变体”的序列(其“位置”)。例如,单核苷酸多态(SNP)由染色 体x位置y指示,而变体可以被指定为在染色体x位置y处的核苷酸“A” (腺嘌呤)。多态是在种群中观察到的具有两个或多个变体的基因子序列。 通常,WGA研究识别单核苷酸多态(SNP),其中,基因子序列是在基因 组中的单核苷酸的位置,所述基因组具有在种群中出现的两个或更多个不 同的可能的核苷酸(变体)。例如,给定的SNP通常可以具有核苷酸“A” (腺嘌呤),但在某些个体中可以具有核苷酸“G”(鸟嘌呤),或较不常见 地具有核苷酸“C”(胞嘧啶)。这种示意性的SNP具有在种群中出现的三 种变体(“A”、“G”和“C”)。(注意,术语“核苷酸”和“碱基”在本文 中可互换使用)。

尽管SNP是在临床研究中最经常被表征的多态,多态能够具有其他配 置。多态的其他(非穷尽的)的范例包括:插入(基因子序列可以具有被 插入的额外的核苷酸)、缺失(基因子序列可以具有被省略的核苷酸)、拷 贝数多态(基因子序列可以被复制一次或多次)、结构性多态(基因子序列 具有两个或更多个可能的二级结构配置)、甲基化多态(基因子序列可以包 括甲基化的核苷酸)、等等。如本文中所使用的多态还包括序列多态,即一 个以上序列能够出现的位置。例如,二核苷酸形式的变体能够存在于一个 位置上,或基因能够出现在基因组中的一个或多个拷贝中。如本文中所使 用的,“基因多态”或简单的“多态”指的是子序列(实际上,指基因组中 的“位置”),而“基因变体”或简单的“变体”指的是多态的特定值(例 如,用于SNP的具体核苷酸,或在序列多态情况下的具体序列)。因此,例 如,SNP可以由其在染色体C中的位置x来指定,并且可以具有前述范例 中的可能的变体“A”、“C”或“G”。变体因此完全由其位置和在该位置上 的值来指定(例如,变体可以被指定为具有在染色体C中的位置x处的核 苷酸“A”)。

参考图1,系统被描述为用于诊断(即,识别)在诊断对象4(即,在 这些示意性范例中的患者)中的疾病或其他表型特征。患者4在样本提取 实验室6经历样本提取过程,以提取口服拭子、活体检查样本或其他组织 样本10(在图1中用小瓶示意性表示,但可适当地通过载玻片或其他合适 的组织样本容器或支撑物来承载),所述组织样本10由基因数据采集装置 12处理,以生成诊断对象的基因数据集14(即,在示意性范例中的患者基 因数据集)。

在某些实施例中,基因数据采集装置12是基因测序系统,所述基因测 序系统包括:生成测序读数的测序器;以及,合适的数据处理硬件(例如, 适当编程的计算机),以预处理并比对读数(任选地利用对参考序列的绘图) 来生成全基因组序列(WGS)或较少部分的基因组。生成患者基因数据集 14的数据处理还可以包括注释操作,例如对已知的变体加标签。测序装置 可以是下一代测序(NGS)装置或更传统的测序装置,诸如Sanger测序设 施。在某些实施例中,测序装置可以是诸如来自美国加利福尼亚州圣地亚 哥的Illumina公司、美国马萨诸塞州剑桥的Knome公司、美国康涅狄格州 吉尔福德的Ion Torrent公司或其他NGS系统供应商可用的商用测序装置; 然而,也设想非商用的或定制的测序器。

额外地或备选地,基因数据采集装置12可以包括微阵列处理硬件,组 织样本10通过所述微阵列处理硬件处理,以生成微阵列数据。在传统配置 中,微阵列包括大量细胞(例如,在某些实施例中600,000个细胞,虽然也 设想更多或更少的细胞),每个细胞包括粘附剂、化学物质等,以测量特定 基因标记,诸如特定蛋白质的表达水平。在这方面,应当注意,本文中所 使用“基因数据”意在除了基因测序数据之外,还广泛地涵盖蛋白质组数 据(例如,基因表达水平)、甲基化数据等等。对于患者基因数据集14还 设想包括来自不同来源的基因数据的组合,例如,通过测序装置生成的测 序数据和来自微阵列分析的蛋白质表达水平。还应当理解,基因数据采集 装置12的操作可能需要某些手动操作,例如由适当培训的人员进行的样本 制备和装载操作。

为了执行诊断学上的分析,将患者基因数据集14与临床研究20的结 果进行比较。这些结果包括已由临床研究20与疾病或其他表型特征相关联 的研究基因变体22。临床研究20的结果还包括“原始数据”,即针对研究 对象所采集的基因数据集24。通常,临床研究20是已经在同行评审的医学 期刊上发表的已发表研究,并且基因数据集24是在由期刊或由医学协会或 其他与该期刊相关的实体所维护的可公开访问的数据存储库中可用的。备 选地,临床研究20可以是未发表的研究,例如由医疗服务公司进行的专有 研究,以生成用于在商业基因检测服务中使用的变体-疾病关联性数据。在 这种情况下,对象基因数据集24适当地存储在医疗服务公司的私有服务器 或其他数据处理设施上。

诊断分析适当地由执行在图1中示意性示出的操作32、34、36的计 算机30或其他电子数据处理设备来执行。在操作32中,搜索患者基因数 据集14,以确定是否有被临床研究20识别为具有疾病(或者,更一般地, 表型特征)关联性的任何研究基因变体22在患者基因数据集14中被观察 到。如果这种注释可用,体识别操作32适当地参考变体注释或患者基因数 据集14的其他注释。附加地或备选地,能够采用子序列模式匹配来识别测 序数据中的基因变体。对于微阵列数据,每个阵列细胞通常对于用于特定 基因标记的检测是公知的,因此与研究变体22的相关性是直接的。变体观 察的定量能够采取各种形式。在SNP的情况下,变体观察可以是二元的– 或者是SNP在患者基因数据集14中的位置具有变体核苷酸,或者是其不具 有。在通过微阵列测量的基因表达的情况下,阈值能够被用来生成二元观 察(例如,基因表达水平高于阈值,或者不高于阈值)。备选地,观察能够 是非二元的数量,例如当实际蛋白质表达水平足够高时被认为是已观察到 的变体。

观察操作32的输出通常被采取为基因测试的输出,即,研究变体的观 察被采取为患者具有相关联的疾病(或表型特性)的证据。然而,这使由 临床研究20所确定的变体-疾病关联性的假设对于特定患者4是有效的,但 是,如果患者是与研究种群不同的人口学组或以其他方式“显著”不同于 研究种群,可能就不是这种情况。在该情况下,变体-疾病关联性可以是对 于患者4无效的,或者可以是比基于临床研究20的结果所假设的程度更小 的程度上有效。

因此,在图1的诊断系统中,执行其他操作34、36来评价变体-疾病关 联性与正在经历诊断的的特定患者4的相关性。所使用的方法是(1)识别 在用于一组多态的患者基因数据集14中观察到的变体的“前景”分布(操 作34),所述一组多态在功能上与观察到的研究变体相关,以及(2)比较 该前景分布与在用于相同组的多态的对象基因数据集24中观察到的变体的 “背景”分布(操作36)。在这种分析中,匹配的接近度通过采用患者中的 该组在功能上相关多态中的每个多态(前景),并计算在“背景”种群中其 出现的概率来确定。在这种情况下,背景种群是多态的临床相关性在其中 被建立的种群。鉴于背景组中的多态的等位基因频率,人们能够评价在背 景组中的每个患者多态的概率,并共同建立在背景组中找到带有患者多态 的个体的结合概率。这种概率使用标准方法被转换为接近度得分(例如, 通过线性或类似单调函数的使用)。以假设考虑了多态独立性的朴素贝叶斯 方法(naive Bayesian approach),或者通过捕获单体型关系的贝叶斯网络模 型,研究中用于全组多态的结合概率被计算出来。在操作36中,采取前景 和背景分布之间的接近匹配,以指示患者4是与临床研究20的对象库的接 近匹配,由此,由研究20确定的研究变体的疾病关联性被认为是与患者4 相关的。另一方面,采取前景和背景之间的实际上的不匹配,以显著方式 指示患者4不同于临床研究20的对象库(因为该不同涉及与研究变体在功 能上相关的多态),由此,由研究20确定的研究变体的疾病关联性不被认 为是与患者4相关。更一般地,操作36通常采用比较前景和背景分布的定 量相似度(或者距离)测量(一般由术语“比较度量”涵盖),该比较度量 提供相关性量化,其不一定是二元的(尽管能够通过对比较度量定阈值做 出二元的“相关-或不相关”的决定)。在操作38中,观察到的研究变体能 够随后被列出,连同每个观察到的基因变体对患者4的相关性。

操作34要求输入与观察到的研究变体在功能上相关的该组多态。操作 36要求输入(来自操作34的)前景分布和背景分布。在执行用于患者4的 诊断操作32、34、36、38之前,该组在功能上相关的多态和背景分布二者 都能够任选地针对每个研究变体被确定。针对每个研究变体的该组在功能 上相关的多态和背景分布的这种“离线”确定能够提高计算效率,因为该 信息是独立于患者4的。因此,在图1的诊断系统中,独立计算机40或其 他电子数据处理设备执行操作42,其中,确定与研究变体在在功能上相关 的一组多态44,并执行操作46,其中,确定针对多态的所述集合44在对 象基因数据集中观察到的变体的背景分布48。针对每个研究变体,计算变 体的该组在功能上相关的多态44和背景分布48,因为总体上每个研究变体 可以具有不同的在功能上相关的多态的组。总体上,多态的所述集合44可 以包括任何类型的多态,例如SNP、序列多态(例如,基因拷贝、含有多 核苷酸变体的位置等等)。然而,为了计算效率,在某些实施例中设想限制 多态的所述集合44为SNP。

如刚才所讨论的,离线执行操作42、46(即,在患者诊断操作32、34、 36开始之前针对每个研究变体预先确定该组在功能上相关的多态44和背景 分布48)当被预期大量的患者时是在计算上有效率的,如在商业医疗服务 提供商的示意性情况中一样。然而,还设想,在患者诊断时执行操作42、 46。同样,虽然独立计算机30、40被示出执行患者-诊断操作32、34、36, 以及非患者特定的预计算操作42、46,还设想采用用于该两组操作的相同 计算机。(换句话说,在某些实施例中,两个所述示出的计算机30、40可 以是执行所有操作32、34、36、42、46的单台计算机。)

参考图2-4,能够使用各种方法来执行识别该组在功能上相关的多态44 的操作42。

参考图2,在一种方法中,操作42识别与研究基因变体相关联的基因 路径,以及与已识别的基因路径相关联的识别多态。为此,对于具有临床 关联性50的每个研究变体,含有该研究变体的基因在操作52中被识别。 例如,能够通过参考已注释的参考基因数据库54执行基因识别。在某些实 施例中,基因测序操作包括利用基因识别注释患者基因数据集14,在这种 情况下,操作52被适当地省略(因为在这些实施例中它被归入由采集装置 12执行的后-采集数据处理操作中)。在操作56中,识别由含有研究变体的 基因影响的基因路径。操作56适当的访问路径数据库58,以做出该识别。 例如,路径数据库58可以是在http://www.genome.jp/kegg/(最近访问是在 2012年5月4日)上可用的基因与基因组(KEGG)路径(Kyoto Encyclopedia  of Genes and Genomes(Kegg)pathway)数据库的京都百科全书。在操作60 中,与由含有研究变体的基因影响的基因路径相关联的所有基因被识别。 操作60能够再次访问路径数据库58,以做出该识别。在操作62中,与由 含有研究变体的基因影响的基因路径相关联的基因中的所有多态被识别, 并且这些形成(或者包含在)被认为是与研究变体在功能上相关的该组多 态44。针对由临床研究20识别的该组研究变体22的每个研究变体,反复 进行操作50、52、56、60和62。

参考图3,在另一种方法中,针对每个研究变体70,操作42执行识别 操作72,其识别具有与该研究变体相同临床关联性的其他基因变体。具有 相同临床关联性的这些其他变体可以在相同的研究20中来识别,或任选地 可以通过其他临床研究来识别。例如,如果研究基因变体与通过研究20的 眼部黄斑退化相关联,则操作72识别已被识别为与眼部黄斑退化相关联的 其他基因变体。对应于这些由操作72识别的变体的多态随后形成(或包括 在)被认为与研究变体在在功能上相关的该组多态44。针对由临床研究20 识别的该组研究变体22的每个研究变体,反复进行操作70、72。

参考图4,在另一种方法中,针对每个研究变体80,操作42执行识 别操作82,其识别包括研究变体的疾病标签。识别操作82适当地参考疾病 标签数据库84或其他定义疾病标签的文献。对应于含有研究变体的疾病标 签的其他变体的多态随后形成(或包括在)被认为与研究变体在功能上相 关的该组多态44。针对由临床研究20识别的该组研究变体22中的每个研 究变体,反复进行操作80、82。

适当的用于执行参考附图2-4所述的操作42的方法的示意性范例仅是 范例,能够使用其他方法来识别被认为是与研究变体在功能上相关的该组 多态44。此外,附图2-4的方法能够进行各种组合。例如,操作42能够采 用图2的路径分析方法来识别某些在功能上相关的多态,也能够参考按照 图4的含有研究变体的公知的疾病标签来识别附加的在功能上相关的多态, 并且最终组的在功能上相关的多态44是相应的图2和图4的两个程序的输 出的组合。

返回参考图1并进一步参考图5,生成在研究种群中的在功能上相关的 变体的背景分布48的操作46能够采用各种方法。在图5的示意性范例中, 针对每个研究变体90,与研究变体44在功能上相关的该组多态(其通过操 作42生成,例如,使用图2-4的一种或多种方法)被取回。在操作92中, 针对每个研究对象,对应的基因数据集从用于研究对象的该组基因数据集 24中取回,特征矢量被生成,其具有存储针对该组多态44在对象中观察到 的变体的矢量元素。

各种类型的格式能够被用于矢量元素的数值。在SNP的情况下,数值 可以被存储为实际核苷酸(或核苷酸的数字等值,例如“0”=腺嘌呤,“1” =胞嘧啶,“2”=鸟嘌呤,“3”=胸腺嘧啶)。备选地,SNP数值可以被存储 为二元数值,例如,如果SNP具有其通常的碱基值时为“0”,如果SNP具 有不同于通常碱基值时为“1”。其他编码能够被用来存储用于各种其他类 型多态的数值。用于所有研究对象的特征矢量应当具有带有相同格式的相 同的矢量元素。例如,如果矢量元素7存储用于一个研究对象的SNP x的 数值,则相同矢量元素7应当存储用于所有其他研究对象的SNP x的数值。

在某些对象基因数据集可能是不完整的,使得并非该组多态44中的每 个多态都能够针对所有对象被确定的实施例中,错误的“填充”数值能够 被用于指示该数值是不可用的,或者备选地,该数值能够用最可能的数值 (例如,在临床研究22的种群中最经常出现的数值)来填充。

操作92的输出是用于临床研究22的对象的一组特征矢量。例如,如 果临床研究22包括N个对象,则操作92输出对应的N个特征矢量。如 果该组多态44的所有多态被编码在带有每一多态的一个矢量元素的特征矢 量中,那么如果该组多态44包括R个多态,则特征矢量具有维数R。背景 分布48因而是一组N个维度为R的特征矢量。在某些实施例中,这被存储 为N×R的矩阵(或者,备选地,被存储为R×N的矩阵)。

返回参考图1并进一步参考图6,对患者相关性评价操作34、36的示 意性实施例进行描述。针对具有根据临床研究20的疾病关联性的患者基因 数据集14中观察到的每个变体100执行患者相关性评价。与研究变体相关 的该组多态44被取回,在操作102中,生成用于患者的患者特征矢量。操 作102适当地以与操作92(参见图5)相同的方式执行,除了从患者基因 数据集14中获得的变体。患者特征矢量应当具有与针对研究对象在操作92 中生成的特征矢量相同格式的相同矢量元素。例如,如果矢量元素7存储 用于研究对象的特征矢量中的SNP x的数值,则患者特征矢量的相同矢量 元素7应当存储用于患者的SNP x的数值。所得到的患者特征矢量适当地 用作患者中在功能上相关的变体的前景分布104。

在操作106中,计算比较度量,其比较前景分布104和背景分布48。 在简单直接的方法中,计算在患者特征矢量和每个研究对象特征矢量之间 的距离(例如,欧几里德距离),所述距离被相加并任选地由对象特征矢量 (N)的数量标准化,以生成比较度量。

在另一种方法中,计算统计显著性度量,其指示前景分布相对于背景 分布的显著性。例如,统计显著性度量能够是费舍尔精确检验、KS检测或 Wilconxon标记秩检测。由统计显著性度量计算的p值提供适当的比较度量。

使用距离度量或者统计显著性度量,距离或p-度量的较低的数值指示 前景分布对背景分布的更接近的相似性。在统计学意义上,更接近的相似 性对应于与研究对象更相似的患者,并且相对于被预计为指示研究变体对 患者的相关性的参数(与研究变体相关的多态44)。因此,距离或p-度量的 较低的数值指示研究变体与患者的较高的相关性,而距离或p-度量的较高 的数值指示研究变体与患者的较小的相关性。

设想其他比较度量。例如,在另一种方法中,对对象特征矢量进行聚 类来限定多个集群,计算异常值度量,其测量来自集群的患者特征矢量的 不同。在这种情况下,更高的异常值度量指示更大的来自集群的不同,对 应于研究变体与患者的更小的相关性。

在操作108中,连同临床关联性和对患者的相关性,呈现在患者中观 察到的基因变体的列表(例如,显示在显示设备上,和/或使用打印机或其 他标记引擎等打印在纸张上,等等)。这种输出能够采取各种形式。在一种 方法中,变体根据相关性排名,在列表顶部是最相关的变体。这样的列表 被任选地截短,即患者相关性降低至低于一定阈值的变体根本未列出。对 于距离或统计显著性比较度量,相关性可以适当地被量化为距离或统计显 著性量度的倒数,从而使距离或统计显著性度量的较高的数值指示研究变 体与诊断对象的更低的相关性。能够执行各种标准化或其他调整来提供易 于由医生或其他查看医务人员理解的量化的相关性量度。

在另一种方法中,只有其相关性超过一定阈值的变体被包括在列表中, 但没有示出量化的患者相关性数值。在这种情况下,患者相关性被隐含地 包括在列表中,因为列表上的变体的内容指示其患者相关性超出阈值。

图1的诊断基因分析系统能够不同地实现。在一种方法中,诊断基因 分析系统被提供为基于网络的服务。医生上传患者基因数据集14,网站包 括体现处理部件30、40并存储或具有对相关临床研究数据22、24的访问 接口的服务器。服务器执行本文中所公开的变体识别和相关性评价操作, 基于列表108或类似的输出制定患者报告,并向医生返回患者报告。

在另一服务模式中,服务经由邮件提供并包括基因数据采集。在这种 情况下,医生经由邮件、快递或其他快捷方式将组织样本10发送到实验室, 实验室包括处理部件30、40,存储或具有对相关临床研究数据22、24的访 问接口,并且还包括基因数据采集装置12。所有操作都在服务实验室进行, 基于列表108或某些类似输出的患者报告经由邮件、快递等返回给医生。

在示意性实施例中,示出了单个临床研究20。很容易理解,这能够被 扩展到采用由两个或多个不同临床研究识别的变体的诊断过程。在这种情 况下,相对于已发表变体-疾病关联性的用于临床研究的研究种群,计算用 于每个变体的背景分布。

如已经指出的,处理部件30、40可以任选地被集成为单个处理部件(例 如,单台计算机,其可以是网络服务器计算机、台式计算机、笔记本计算 机、包括电脑的网络的“云”计算机,等等)。附加地,所公开的变体识别 和相关性评价技术能够被体现为非暂态存储介质,其存储由适当的电子数 据处理设备30、40可执行的指令。非暂态存储介质可以例如包括:硬盘驱 动器或其他磁性存储介质;随机存取存储器(RAM)、只读存储器(ROM)、 快闪存储器或其他电子存储介质;光盘或其他光存储介质;它们的各种组 合;等等。

已参考优选实施例对本发明进行了描述。现任,对于一旦阅读并理解 了前述详细说明的其他人,可能想起修改和变更。其意图是本发明解释为 包括所有这种修改和变更,只要它们落入所附权利要求或其等同物的范围 内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号