首页> 中国专利> 表征来自于遗传物质样品的序列的方法

表征来自于遗传物质样品的序列的方法

摘要

本文提供诸多方面,其中提供一种方法,该方法描述了使用单核苷酸多态性(SNP)基因分型微阵列来解析来自于特定个体的遗传物质(如基因组DNA)是否存在于遗传物质混合物(如复杂基因组DNA混合物)中。另外,证明了鉴定具体个体的遗传物质(如基因组DNA)在一系列复杂基因组混合物中的存在是可能的。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-08

    未缴年费专利权终止 IPC(主分类):G06F19/18 授权公告日:20140723 终止日期:20160722 申请日:20090722

    专利权的终止

  • 2014-07-23

    授权

    授权

  • 2011-10-05

    实质审查的生效 IPC(主分类):G06F19/18 申请日:20090722

    实质审查的生效

  • 2011-08-24

    公开

    公开

说明书

相关申请的交叉引用

本申请要求2008年7月23日提交的美国临时申请No.61/082,912的优先权,该临时申请的全文通过引用并入本文。

关于联邦资助研发的声明

根据国立卫生研究院授予的资助编号为5U01HL086528的条款所提供的内容,美国政府保留本发明的某些权利。

版权声明

本专利文件公开的一部分含有受到(版权或屏蔽作品(mask work))保护的材料。(版权或屏蔽作品)所有者不反对由专利文件或专利公开的任一种的传真复制,如其在专利商标局专利文件或案卷中显示的那样,但在其它方面保留任何所有(版权或屏蔽作品)的权利。

发明领域

本发明涉及用于使用多个单核苷酸多态性(SNP)表征样品中遗传物质的系统和方法。

发明背景

解析个体的遗传物质是否存在于含有来自于许多个体的遗传物质(如DNA)的复杂混合物中在多个领域是感兴趣的。例如,在法医学中,确定个人是否向混合物中贡献了他们的遗传物质通常是一种需要熟练技术的过程。很大程度上,法医学上鉴定个人是否向混合物贡献了低于10%的总基因组DNA并不容易进行,难以自动化,并且很容易与多个个体的夹杂物相混淆。

目前存在许多检查DNA混合物的方法,其中大部分针对法医学研究中较少数目的个体的混合物(参见Egeland,T.,Dalen,I.和Mostad,P.F.Estimating the number of contributors to a DNA profile(估算DNA谱的贡献者的数目).Int J Legal Med(国际法医学杂志)117,271-275(2003);Hu,Y.Q.和Fung,W.K.Interpreting DNA mixtures with the presence of relatives(解释存在亲属关系的DNA混合物).Int J Legal Med(国际法医学杂志)117,39-45(2003);和Balding,D.J.Likelihood-based inference for geneticcorrelation coefficients(基于相似性的对遗传相关系数的推断).Theor PopulBiol(理论群体生物学)63,221-230(2003))。使用短串联重复(STR)是一种常用的产生DNA基因分型谱的方法并且允许鉴定混合物内多种等位基因及其相对数量(参见Clayton,T.M.,Whitaker,J.P.,Sparkes,R.和Gill,P.Analysis and interpretation of mixed forensic stains using DNA STR profiling(使用DNA STR谱对混合法医学印迹进行分析和解释).Forensic Sci Int(国际法医科学)91,55-70(1998);Cowell,R.G.,Lauritzen,S.L.和Mortera,J.Identification and separation of DNA mixtures using peak area information(使用峰区信息鉴定和分离DNA混合物).Forensic Sci Int(国际法医科学)166,28-34(2007);Pearson,J.V.等人.Identification of the genetic basis forcomplex disorders by use of pooling-based genomewidesingle-nucleotide-polymorphism association studies(通过使用基于混合池的基因组范围单核苷酸多态性相关研究鉴定复杂病症的遗传基础).Am JHum Genet(美国人类遗传学杂志)80,126-139(2007);和Bill,M.等人.PENDULUM--a guideline-based approach to the interpretation of STRmixtures(PENDULUM-解释STR混合物的指南方法).Forensic Sci Int(国际法医科学)148,181-189(2005))。Y染色体上的STR常常在解析混合物的男性成分时是有用的(参见Jobling,M.A.和Gill,P.Encoded evidence:DNA in forensic analysis(编码证据:法医学分析中的DNA).Nat Rev Genet(自然综述:遗传学)5,739-751(2004))。然而,预期这些基于STR的方法的能力在使用严重降解的DNA时受到限制(参见Jobling,M.A.和Gill,P.Encoded evidence:DNA in forensic analysis(编码证据:法医学分析中的DNA).Nat Rev Genet(自然综述:遗传学)5,739-751(2004);和Ladd,C.,Lee,H.C.,Yang,N.和Bieber,F.R.Interpretation of complex forensic DNA mixtures(解释复杂法医DNA混合物).Croat Med J(克罗地亚医学杂志)42,244-246(2001))。基于高变区测序的线粒体DNA(mtDNA)因为它们的高拷贝数目和改善的稳定性在分析降解的DNA时是有用的。从mtDNA获得的谱也可与STR分析组合以获得更好的鉴定(参见Goodwin,W.,Linacre,A.和Vanezis,P. The use of mitochondrial DNA and short tandem repeat typing inthe identification of air crash vict

本发明此处展示的方面和应用在下述附图和发明详述部分进行描述。

发明概述

本发明一些实施方案提供多种方法(以及实施这些方法的设备),其用于确定受试者的遗传物质是否存在于遗传物质样品(“测试遗传物质样品”)中。尽管这可通过多种技术完成,在一些实施方案中,这通过如下完成,即通过确定测试遗传物质样品的单核苷酸多态性(SNP)的集合中等位基因的存在和/或频率相对于参比和/或受试者SNP标志或SNP基因型的集合是否存在偏倚(bias)和/或方向(direction)来完成。

在一些实施方案中,提供了确定受试者是否向样品贡献遗传物质的系统。该系统可包括配置用来允许输入一个或多个样品SNP标志、参比SNP标志和受试者SNP标志的输入模块;配置用来确定样品SNP标志的SNP内等位基因频率相对于参比SNP标志和受试者SNP标志的偏倚的模块;和配置用来输出该偏倚的模块,其中一个或多个该模块在计算装置上执行。

在一些实施方案中,提供了确定感兴趣的人是否向测试遗传物质样品贡献遗传物质的方法。该方法可包括确定测试遗传物质样品的SNP内等位基因频率相对于参比和受试者SNP标志的偏倚。

在一些实施方案中,提供了表征测试遗传物质样品以确定感兴趣的人(“POI”)的遗传物质是否在测试遗传物质样品内的方法。该方法可包括提供测试遗传物质样品的SNP分析;提供参比遗传物质样品的SNP分析;提供POI的遗传物质的SNP分析;在第一比较中,比较该测试遗传物质样品的SNP分析和该POI的遗传物质的SNP分析;在第二比较中,比较该参比遗传物质的SNP分析与该POI的遗传物质的SNP分析;和比较第一和第二比较,由此确定该POI的遗传物质是否可能在该测试遗传物质样品中。

在一些实施方案中,提供了表征测试遗传物质样品的方法。该方法可包括提供关于感兴趣的人(POI)的SNP的第一等位基因频率;提供关于来自于遗传物质的一个或多个参比群体的SNP的第二等位基因频率;提供关于测试遗传物质样品的SNP的第三等位基因频率;对至少10个不同SNP重复上述过程;和分析第一、第二、和第三等位基因频率以表征该测试遗传物质样品。

在一些实施方案中,提供了确定受试者向测试遗传物质样品贡献遗传物质的可能性的方法。该方法可包括提供测试遗传物质样品;在该测试遗传物质样品上进行单核苷酸多态性分析,由此分析所述测试遗传物质样品中至少50个不同单核苷酸多态性,从而产生样品SNP标志;和将样品SNP标志与受试者SNP标志比较以确定该受试者向测试遗传物质样品贡献遗传物质的可能性。

以前,在法医学领域以及在人类遗传学领域,存在基本假设即不可能使用来自于SNP数据的汇总的数据(例如等位基因频率)鉴定个体。本文提供的一些实施方案提供了使用几百或几千个SNP(任选地在高密度微阵列上测定)解析复杂混合物中痕量DNA贡献(或其它遗传物质)的方法。在一些实施方案中,这可特别地使用混合样品和基因型识别算法利用DNA分析中的原始等位基因强度测量值,对从SNP阵列中获得的本来为模拟的信息进行数字化(参见,例如Kennedy,G.C.等人.Large-scale genotyping ofcomplex DNA(复杂DNA的大规模基因分型).Nat Biotechnol(自然:生物技术)21,1233-1237(2003))。

在一些实施方案中,本发明一般涉及单核苷酸多态性基因分型且更具体地涉及对来自于多个个体和/或来源的样品进行单核苷酸多态性基因分型。

在一些实施方案中,该方法包括来自于受试者活组织检查的样品SNP标志,其中来自于受试者的活组织检查将测试癌症的存在。在一些实施方案中,样品SNP标志从想要确定她是否怀孕的女性产生。在一些实施方案中,受试者SNP标志是病毒DNA标志。

对附图的多个视图的简单描述

对本发明多种实施方案的更完整的理解可通过参考详细描述并联系下述示意图获得。在这些图中,相同的附图标志在全部图中是指相同的元件或动作。

图1A为给出多种方法的一些实施方案的直觉的理解,为每个SNP给出了对应于基因型AA,AB和BB的感兴趣的人的可能等位基因频率的三种不同方案。参比群体、感兴趣的人(受试者)和混合物的等位基因频率分别描述为Mi(测试遗传物质样品),Yi(受试者)和Popi(参比群体)。当感兴趣的人的Yi与参比群体的Popi相比更靠近混合物的Mi时,距离测量较大(并且是正数)。相似地,当感兴趣的人的Yi与混合物的Mi相比更靠近参比群体的Popi时,距离测量较小(并且为负数)。检验统计量则是使用这种距离测量的z-得分(z-score)。

图1B是流程图,描绘了在本文描述的一些实施方案中多种可能的过程。

图2A-2C描绘了多种模拟实验结果:使用1423个Wellcome Trust 58C个体,给出了来自于基于三个变量的模拟实验的对数尺度的p-值:SNP数目(s),个体在混合物中的分数(f)和探针方差(vp)。该图以三种变量之间的关系作图,在每幅图中固定了一种不同变量。对数尺度的p-值通过图中每个点的阴影以及右图上的z-轴表示。这些模拟实验表明:当给定个体是混合物的0.1%(f),探针方差最多为0.01(vp)并且被探测到的SNP数目是50,000(s)时,人们可以分辨混合物。

图3A-3D提供来自于一系列实验的结果。使用一系列混合物的实验验证(参见表1,A-F)在Affymetrix GeneChip 5.0,Illumina BeadArray 550和Illumina 450S Duo Human BeadChip上测定。x-轴显示CEU HapMap群体中每个个体,左边y-轴显示p-值(对数尺度的),且右边y-轴显示检验统计量的值。关于混合物A,B,E和F,在混合物中的那些阴影浅并进行了鉴定,且不在混合物中的那些阴影较深并进行了鉴定。关于混合物C和D,不在混合物中的那些个体阴影深并进行了鉴定,与混合物中1%或10%个体相关的那些个体阴影较浅并鉴定为“1-10”,与90%或99%相关的那些个体阴影仍然较浅并鉴定为“90-99”,并且在混合物中的那些人比不存在于混合物的那些阴影较浅并进行了鉴定。在所有混合物中,鉴定个人基因组DNA的存在是可能的。箭头标示对许多(或一簇)数据点的鉴定而线标示对具体数据点的鉴定。除非另有说明,无记号的数据点是最靠近的标示的簇的一部分。

图中的元件和动作为简单起见进行了说明,它们不是根据任何特定顺序或实施方案所必需具有的。

发明详述

在下述描述中,且为解释的目的,叙述了许多具体细节,以便提供对本发明多个方面的完全理解。然而,应当理解,有关领域的技术人员可在不需要这些细节的条件下实施这些实施方案。在其它情况下,更一般地显示或讨论了已知的结构和装置以避免模糊本发明。在很多情况下,对操作的描述足以使人们实施本发明的多种形式,特别当操作在软件中执行时。应当注意本发明可适用于许多不同和备选的配置、装置和技术。多种实施方案的全部范围和本发明本身不限于下文描述的实例。本申请同计算机程序列表附件一同提交,该附件在权利要求书之前。

本公开提供了多种方法(以及实施这些方法的设备),其用于确定受试者的遗传物质是否存在于遗传物质样品(“测试遗传物质样品”)中。尽管这可通过多种技术完成,在一些实施方案中,这通过如下完成,即通过确定测试遗传物质样品的SNP中等位基因的存在和/或频率相对于参比和/或受试者SNP标志(例如SNP基因型)是否存在偏倚和/或方向来完成。本文提供诸多方面,其中提供一种方法,该方法描述了使用单核苷酸多态性(SNP)基因分型微阵列来解析来自于特定个体的遗传物质(如基因组DNA)是否存在于遗传物质混合物(如复杂基因组DNA混合物)中。另外,本文展示的结果证明了鉴定具体个体的遗传物质(如基因组DNA)在一系列高度复杂基因组混合物中的存在是可能的,该混合物包括个体贡献低于总遗传物质(如基因组DNA)的0.1%的混合物。这些发现改变了SNP在鉴定法医学混合物中个体痕量贡献者的已知用途,并证明了在以前由于样品污染造成的欠佳DNA来源中的可用性。这些发现也显示同类者综合统计学(composite statistics across cohorts),如等位基因频率或基因型计数,不会掩盖基因组范围内相关研究内的特性。

尽管SNP和高密度SNP基因分型阵列已经存在一段时间,它们的用途主要被开放为遗传学使用的工具,用来鉴定使个体易于患病的常见遗传变异。本文公开的一些实施方案允许使用SNP鉴定一个或多个个体的遗传物质存在或不存在于样品中。

在一些实施方案中,基于SNP的分析可用于分析法医学混合物。传统上SNP通过基因型(例如AA,AT或TT)进行分析,并且在本公开之前,认为其在解析混合物中并不理想。已有主张认为它们在分析混合DNA样品中不良表现是SNP基因分型阵列尚未被法医学团体采用的主要原因(参见Jobling,M.A.和Gill,P.Encoded evidence:DNA in forensic analysis(编码证据:法医学分析中的DNA).Nat Rev Genet(自然综述:遗传学)5,739-751(2004)和Kidd,K.K.等人.Developing a SNP panel for forensic identificationof individuals(开发用于个体法医鉴定的SNP组).Forensic Sci Int(国际法医科学)164,20-32(2006))。其它方法在使用STR推断基因型后利用匹配概率估算,其中评估两个不相关个体共享标志物的组合的概率(参见Jobling,M.A.和Gill,P.Encoded evidence:DNA in forensic analysis(编码证据:法医学分析中的DNA).Nat Rev Genet(自然综述:遗传学)5,739-751(2004))。排除概率给出基于排除随机个体的概率的计算(参见Chakraborty,R.,Meagher,T.R.和Smouse,P.E.Parentage analysis with genetic markers innatural populations.I.The expected proportion of offspring with unambiguouspaternity(自然群体中遗传标志物的家系分析。I.亲子关系不明的后代的预期比率).Genetics(遗传学)118,527-536(1988))。然而,这些方法中许多依赖于假定混合物中的个体数目(参见Egeland,T.,Dalen,I.和Mostad,P.F.Estimating the number of contributors to a DNA profile(估算DNA谱的贡献者的数目).Int J Legal Med(国际法医学杂志)117,271-275(2003))并且仅适用于STR标志物。在一些实施方案中,人们在使用本文公开的方法时不必知道或估算对混合物有贡献的个体的数目。

当检验哪种假说被证据或DNA样品支持时常常使用似然比(参见Weir,B.S.等人.Interpreting DNA mixtures(解释DNA混合物).JForensic Sci(法医科学杂志)42,213-222(1997))。在一些实施方案中,人们可计算两种假说的似然比:个体对混合物有贡献和个体对混合物无贡献。在一些实施方案中,然后可基于目前的情况或上下文给出适当的先验相对风险比(priorodds ratio),然后与似然比组合以给出后验相对风险比(posterior add ratio)。在一些实施方案中,然后人们可使用SNP微阵列确定等位基因频率或等位基因计数。这是特别有利的,因为训练数据集(training dataset)(如来自于HapMap计划或1000基因组计划)易于获得并可用于计算所观察的混合物的等位基因频率或感兴趣的个体的基因型的概率。在一些实施方案中,贝叶斯方法(Bayesian approach)包括显式假说(explicit hypotheses)的建立、估算对混合物有贡献的感兴趣的个体的总分数、在提供祖先信息的SNP上包含多个祖先背景,以及包含相关个体在混合物内的概率。

本公开展示了对上文描述的多种实施方案中的一些以及附加实施方案的详细描述。下述部分简单概述多种术语中的一些,并且随后对一些原理验证和一些技术的示例性实施方案进行更具体的描述。这部分之后是对用于各种成分的各种附加实施方案和/或一些实施方案的各部分的选择,其后是用于各种实施方案的一些的一组实施例。

定义

本文中使用的小节的标题仅为组织的目的,并不解释为以任何方式限制所描述的主题。本申请中引用的所有文献和类似材料,包括但不限于专利、专利申请、文章、书籍、条约和互联网页面为了任何目的通过引用以其全文明确并入本文。当所并入的文献中的术语的定义显得与本文教导提供的定义不同时,以本文的教导所提供的定义为准。应当理解在本文教导中讨论的温度、浓度、时间等等前面隐含有“大约”,从而轻微的和非实质性的偏倚包括在本文教导的范围内。在本申请中,除非另有明确说明,单数的使用包括复数。同样,使用“包括”、“包含”、“含有”、“具有”(“comprise”,“comprises”,“comprising”,“contain”,“contains”,“containing”,“include”,“includes”和“including”)无限制之意。应当理解前文一般描述和随后的详细描述均仅为示例性和解释性的,并不限制本发明。术语“和/或”表示所提供的可能性可同时使用或择一使用。因而,术语“和/或”表示该组可能性存在两种选择。

除非另有定义,本文描述的与本发明关联使用的科学和技术术语应当具有本领域普通技术人员通常理解的含义。另外,除非上下文另有需要,单数术语应当包括复数并且复数术语应当包括单数。一般而言,与本文描述的细胞和组织培养、分子生物学和蛋白和寡-或多核苷酸化学和杂交关联使用的命名和它们的技术是本领域熟知并且常规使用的。例如,使用标准技术进行遗传物质(核酸)纯化和制备、化学分析、重组核酸和寡核苷酸分析。酶反应和纯化技术根据制造商的说明书或本领域常规完成或如本文的描述进行。本文描述的技术和程序通常根据本领域熟知的常规方法和如在本说明书全文引用和讨论的多种一般或专业文献中所述实施。参见,例如Sambrook等人.,Molecular Cloning:A Laboratory Manual(分子克隆:实验室指南)(第三版,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.2000)。本文描述相关使用的命名和实验室程序和技术是本领域熟知并常规使用的。

发明人完全清楚如果需要他们可以成为自己的词典编撰者。发明人作为自己的辞典编撰者明确选择在说明书和权利要求书中使用术语的普通和平常的含义,除非他们另有明确声明并且之后进一步明确叙述该术语的“专用”定义并解释它与普通和平常含义如何不同。在没有应用“专用”定义的意图的此类明确声明的情况下,发明人的意图和愿望是将对该术语的简单、普通和平常的含义用于解释本说明书和权利要求书。

当根据本文提供的实施方案使用时,下述术语,除非另有指明。应当理解为具有下述含义:

术语“遗传物质”是指天然核酸、人工核酸、非-天然核酸、正交核苷酸(orthogonal nucleotides)、其类似物、或其组合。遗传物质还可包括具有对碱基或主链修饰的DNA或RNA的类似物。例如,当用于本文时,遗传物质包括使用肽核酸(PNA)。术语“遗传物质”还包括嵌合分子。遗传物质可包括单链和/或双链物质的一条或多条链的核酸、可由这样的核酸组成、或可基本由这样的核酸组成。来自于受试者的遗传物质一般(除非另有注明)是许多链和许多基因,并且在一些实施方案中,可包括受试者的完整基因组。在一些实施方案中,遗传物质包括核酸或由核酸组成或基本由核酸组成。

在一些实施方案中,遗传物质来自于受试者,人们希望确定在测试的遗传物质样品中其存在或不存在。示例性遗传物质包括DNA,RNA,mRNA和miRNA。在一些实施方案中,遗传物质和/或测试的遗传物质样品包括DNA,RNA,mRNA,miRNA及其任意组合、由其组成、或基本由其组成。在一些实施方案中,遗传物质包含于测试的遗传物质样品中。在一些实施方案中,遗传物质可以是一条链或多条链。在一些实施方案中,目标遗传物质包括代表性选择的核酸。在一些实施方案中,目标遗传物质包括基因组范围选择的核酸。除非另有明确注明,术语“遗传物质”可以是单数和/或复数(即,“遗传物质”可以表示例如来自于一种或多种来源的遗传物质)。

当用于本文时,术语“多核苷酸”、“寡核苷酸”和“核酸寡聚物”可互换地使用,意思是核酸的单链和双链聚合物,包括但不限于通过核苷酸间磷酸二酯键(例如,3’-5’和2’-5’)、反向键(例如,3’-3’和5’-5’)连接的2’-脱氧核糖核苷酸(核酸)和核糖核苷酸(RNA),分支结构或类似物核酸。多核苷酸具有缔合的平衡离子,如H+,NH4+,三烷基铵,Mg2+,Na+等等。多核苷酸可完全由脱氧核糖核苷酸、完全由核糖核苷酸、或其嵌合混合物构成。多核苷酸可由核碱基和糖类似物构成。多核苷酸典型的大小范围从数个单体单元(例如5-40,当它们通常在本领域被普遍地称为寡核苷酸时)至几千单体核苷酸单元。除非另有注明,无论何时表示多核苷酸序列时,应当理解核苷酸从左至右是以5’至3’的顺序并且“A”表示脱氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷,“T”表示胸苷。

术语“降低”表示量的减少。在一些实施方案中,事件被降低百分之1,2,3,4,5,10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,96,97,98,99,99.9,99.99,99.999或更多,包括超过任何前述数值的任何数值,以及前述任何两个数值之间所定义的任何范围。

对于本申请,术语“全基因组”意思是“基因组范围”而不是需要存在任何生物的完整基因组。基因组范围表明对于所实施的技术,存在在整个生物体的基因组范围内的各种核酸的足够多样性和选择。基因组范围的选择可以是在整个生物体的基因组内随机的选择,或偏倚特定区域。在一些实施方案中,基因组范围的选择偏倚至那些具有待研究的特定SNP的区域。在一些实施方案中,可能使用低于一个拷贝的完整基因组,如在降解的样品或单倍体精子细胞中,只要以足以辨别混合物和个人的SNP存在的足够部分的基因组核酸。这可以是低至1,000个SNP,注意在人基因组内已知数百万个SNP。例如,人们可使用仅在1号染色体上的SNP鉴定个体。

术语“测试遗传物质样品”表示要研究其组成的样品。通常,人们希望了解特定个体是否对测试遗传物质样品中的遗传物质有贡献,和/或其他人或生物体是否对测试遗传物质样品中的遗传物质有贡献。在一些实施方案中,测试遗传物质样品是这样的样品,其待测或已经测定存在或不存在多个SNP。在一些实施方案中,目标核酸包含于测试遗传物质样品中。在一些实施方案中,目标核酸不在测试遗传物质样品中。“样品SNP标志”是对于测试遗传物质样品的SNP标志。

术语“SNP标志”表示对于待评价SNP集合的一种或多种SNP和基因型、等位基因和/或其百分比。“参比标志”表示对于参比(或其群体)中的SNP存在的等位基因。“测试遗传物质样品标志”表示对于测试遗传物质样品中的SNP存在的等位基因。“受试者的SNP标志”、“感兴趣的人的SNP标志”或其他类似术语表示对于该受试者或感兴趣的人中的SNP存在的等位基因。术语SNP标志不需要使用完整SNP标志(除非明确使用术语“完整”)。因此,可仅仅通过比较多种等位基因频率的亚组或通过本文描述的其它方法完成一个SNP标志与另一个SNP标志的比较、利用和/或使用或与另一个SNP标志一起利用和/或使用一个SNP标志。此外,当SNP标志可表示一个或多个多种SNP等位基因及其(多个)频率时,应当理解SNP标志的比较包括对于来自一种来源的一个或多个SNP与来自第二来源的一个或多个等位基因的任何比较,因此,“比较”第一和第二SNP标志并不实际需要比较每种SNP等位基因的频率统计量(除非明确说明),而可通过比较和/或分析与这些频率相关的任何数据或计算来完成。因此,比较还可通过比较用于获得所注明的频率的数值(包括原始数据)来完成。它还可通过比较从所注明的频率随后获得的数值来完成。本领域技术人员在本公开的基础上将理解如何维持多种SNP标志之间的适当关系。

尽管术语“感兴趣的人”在本文中偶尔使用,本领域技术人员将理解该术语与术语“受试者”一般是可互换的。因此,关于本公开,“感兴趣的人”不限于人,并且除非说明,可以是任何受试者,如包含遗传物质的任何受试者(人、哺乳动物、细菌、病毒等)。术语“感兴趣的人”的确表示该受试者是其遗传物质在测试遗传物质样品中正在被检查的受试者。尽管该受试者通常是人(例如在许多法医学检验中),但其不限于人,除非明确注明。

术语“参比群体”表示多个参比受试者之一的群体。参比受试者的SNP标志允许感兴趣的人的SNP标志和测试遗传物质的SNP标志之间的比较。并不是本文公开的所有实施方案都需要参比群体或参比群体的SNP。在一些实施方案中,参比群体和参比SNP标志将具有与样品SNP标志相似的祖先构成(ancestral make-up)。术语“相似的祖先构成”可定义为个体间或使用一组SNP或其它遗传变异的群体内的遗传距离。因此,可能对于一些SNP保留用于家系评价并且一些SNP保留用于确定是否一个POI处在混合物中。在一些实施方案中,参比群体应当一般在所研究的SNP中被质疑的SNP处与混合物相匹配。

SNP是在多于两个个体中发现的核苷酸的遗传的置换(例如A至T,A至G或G至C)。通常大部分SNP超过高于0.1%的频率,尽管也预见到更低频率的遗传变异。本文描述的方法可扩展至其它类型的遗传变异,包括插入/缺失(indels)、拷贝数变化和/或其它结构变异。

一般实施方案

检验统计量的确立存在多种方法获得检验统计量用于评价受试者遗传物质存在于混合物中的假设,并且这些在本文中进一步讨论。在下面一些实例中,使用频率论(frequentist)方法。在下文一些实例中,使用贝叶斯(Bayesian)方法。取决于测定的目的,可使用任何一种。在一些实施方案中,在不偏倚方法的前体下使用其它方法。

图1A提供了该方法的一些实施方案的概览。在一些实施方案中,本方法可总结为在所有可得的SNP中基因频率改变(allele shift)的累积总和,其中改变的征象定义为感兴趣的个体更靠近参比样品还是更靠近给定混合物。本发明的一方面包括对单个个人的给定SNP进行基因分型(genotyping),其解决了SNP基因分型微阵列的最初设计问题。在一些实施方案中,本发明可以是进一步修改的方法以适用于混合物和汇总的数据(pooled data)。

基因分型微阵列技术可以测定数百万的SNP。预期基因型来自于测定并且数据本身是分类的,例如AA,AB,BB或无识别(NoCall),其中A和B象征性地表示双等位基因SNP的两个等位基因。然而,如拷贝数、识别算法(calling algorithm)和基于混合池(pooling-based)的GWA研究(Pearson等人;Am J Hum Genet(美国人类遗传学杂志).2007Jan;80(1):126-39.Epub2006Dec 6.)所证明的,来自于SNP基因分型阵列的原始预处理数据通常是等位基因强度测量值的形式,该测量值与杂交到微阵列上的特异性探针(或称为特征)的“A”和“B”等位基因的量成比例。单个探针强度测量值可得自于单个珠子(例如Illumina)、平面上微米级的正方形(例如Affymetrix)或其一些组合的荧光测量值。在基因分型阵列上,每个SNP以固定数目的拷贝(Affymetrix)或可变数目的拷贝(Illumina)存在多个探针。例如,最近一代Affymetrix阵列通常具有分别针对A等位基因和B等位基因特异性的3-4个探针,而Illumina阵列对每个等位基因具有平均大约18个探针的随机数目的探针。对于500,000+SNP,在SNP基因分型阵列上存在数百万探针(或特征)。尽管在SNP基因分型平台之间杂交之前存在相当数量的不同样品制备化学,可使用这些化学中的任何一种,因为它们不会影响本文公开的多种实施方案。

SNP基因分型算法的开始通常通过将标准化数据转换为比值或极坐标。为简单起见,人们可以利用比值转换Yi=Ai/(Ai+kiBi),其中Ai是A等位基因的探针强度,B是在第jSNP中的B等位基因的探针强度。数篇文章已经显示Yj转换接近等位基因频率,其中kj是补偿实验偏倚的SNP特异性校正因子并且可从个体基因分型数据中容易地计算。因此通过这种转换,Yi是每种SNP的等位基因频率估计值(称为pA)。由于大部分个体含有两个拷贝的常染色体SNP,单个个体中A等位基因频率(pA)的值可以是0%,50%或100%(分别针对在AA,AB或BB的A等位基因)。含糊地Yi将大约为0,0.5或1,由于测量噪声,其在这些值中变化。举例而言假设kj=1,探针强度测量值Aj=450和Bj=550产生的Yj=0.45,这种SNP将被称为AB。在来自单个个体的样品中,人们将预期看到Y在所有SNP的三峰分布(trimodal distribution),因为仅仅预期有AA,AB或BB基因型识别。然而,在多个个体的混合物中,基因型识别算法的假设是无效的,因为仅仅给出了AA,AB,BB或无识别而未考虑汇总的染色体的数目。

然而,考虑到本公开,本领域技术人员将能够从相对探针强度数据中提取信息和含义并因此能够使用该数据进行例如鉴定受试者是否对混合物有贡献。在该方法的一些实施方案中,人们比较来自于混合物的等位基因频率估计值(称为M,其中Mi=Ai/(Ai+kiBi))与参比群体的平均等位基因频率的估计值。当用于本文时,混合物的等位基因频率的估计值也包涵在术语样品SNP标志内。此外,当用于本文时,参比群体的平均等位基因频率也包涵在术语参比SNP标志内。

在需要时参比群体的选择在下文进行更详细的讨论。在一些实施方案中,人们假定参比群体具有与混合物相似的祖先构成。这可意味着可互换地具有相似的群体亚结构、种族划分和/或祖先成分,并且将个体或混合物的相似祖先成分定义为在所有(或基本所有)SNP上具有相似等位基因频率。

人们可将Yi,j作为来自于SNP基因分型阵列的个体i和SNPj的等位基因频率估计值,其中Yi,j∈{0,0.5,1}。个体的等位基因频率估计值也包涵在术语受试者SNP标志内。

然后人们比较两个差的绝对值。第一差|Yi,j-Mj|(其也表征为受试者SNP标志减去样品SNP标志的绝对值)测量混合物Mj在SNPj的等位基因频率与个体Yi,j对于SNPj的等位基因频率的差别如何(或换言之,测量样品SNP标志与受试者SNP标志的差别如何)。第二差|Yi,j-Popj|(其也可表征为受试者SNP标志减去参比SNP标志的绝对值)测量参比群体等位基因频率Popj与个体Yi,j对于每种SNPj的差别如何(或换言之,测量参比SNP标志与受试者SNP标志的差别如何)。Popj的值可由等摩尔混合的样品的阵列或由含有多个群体的基因型数据的数据库确定。这两个差之间取差值,人们获得用于个体Yi的距离测量:

D(Yi,j)=|Yi,j-Popj|-|Yi,j-Mj|(方程1)。

如图1A所示,在个体不存在于混合物中的零假设(null hypothesis)下,D(Yi,j)接近于零,因为混合物和参比群体由于具有相似的祖先成分计算为具有相似等位基因频率。在另一种假设下,D(Yi,j)>0,因为人们预测通过Yi对混合物的贡献而使Mj从参比群体中移开。在D(Yi,j)<0的情况下,Yi与混合物相比更相似于参比群体,因此更不像存在于混合物中。与图1A的解释一致,当Yi,j更接近Mj时D(Yi,j)是正数,并且当Yi,j与Popj更接近时D(Yi,j)是负数。通过对许多SNP取样(例如500K+SNP),人们将通常预期根据中心极限定理D(Yi,j)服从正态分布。在一些实施方案中,人们可为受试者中在所有(或至少一个或多个)SNP取样进行单样本t-检验,由此获得检验统计量:

T(Yi)=(均值(D(Yi,j))-μ0/(sd(D(Yi,j)/sqrt(s)))方程2

在方程(2)中,假定μ0是个体Yk不在混合物中的D(Yk)的均值,sd(D(Yi,j))是D(Yi,j)对于所有SNPj和个体Yi的标准差,sqrt(s)是SNP数目的平方根。在一些实施方案中,人们可将μ0设定为零,因为随机个体应当与混合物和混合物的参比群体具有相等距离,因此T(Yi)=均值(D(Yi,j))/(sd(D(Yi,j)/sqrt(s))。在所有零假设下T(Yi)是零并且在另一种假设下T(Yi)>0。为补偿个体、混合物和参比群体之间祖先的微小差异人们可将等位基因频率估计值对参比群体进行标准化。如果使用这样大量的SNP,以至于由于标志之间的相关性分布不再服从传统正态分布,在使用连锁不平衡中的SNP的情况下,人们也可使用已知不在混合物中的个体用于样本分布。在这种情况下,可使用另外的方法来校正和了解检验-统计量的分布,如来自于HapMap和适当估计p-值。

尽管上述讨论提供了通过频率论方法(frequentist approach)如何比较和分析数据的分析,本领域技术人员考虑到本公开将理解其它方式也是有用的。例如,如下文所讨论的,在一些实施方案中可使用贝叶斯法。

如上文所讨论和下文所显示的,高通量SNP基因分型微阵列具有精确和强力解析是否在复杂遗传物质混合物中有个体痕量贡献。下述部分建立了概率模型并使用贝叶斯推断(Bayesian inference)精确比较两种模型:假定个体存在于混合物中的模型和假定个体不存在于混合物中的模型。使用训练数据集(training dataset)人们能够使用关于微阵列上每种探针的原始数据,而不是使用来自于基因分型识别算法的基因型或其它此类数据转换。通过后验相对风险比值比较两种模型,人们能够使用对基因组尺度的观察评价个体在混合物中的可能性。通过贝叶斯法,人们提供了使用SNP鉴定测试遗传物质样品中个体痕量贡献者的另外选择。

如上所述,法医学领域中的一个挑战是鉴定个体在高度复杂的基因组DNA混合物中的存在。如本文所述,同样挑战也存在于多种其它技术中,因此解决这种法医学问题在许多其它领域具有直接的用途。目前存在许多方法能够检查具有少数个体的混合物和由数千个体构成的混合物(参见,例如T.Egeland,I.Dalen和P.F.Mostad.Estimating the number of contributorsto a DNA profile(估算DNA谱的贡献者的数目).Int.J.Legal Med.(国际法医学杂志),117:271{275,Oct 2003;Y.Q.Hu和W.K.Fung.Interpreting DNAmixtures with the presence of relatives(解释存在亲属关系的DNA混合物).Int.J.Legal Med.(国际法医学杂志),117:39-45,Feb 2003;和D.J.Balding.Likelihood-based inference for genetic correlation coefficients(基于相似性的对遗传相关系数的推断).Theor Popul Biol(理论群体生物学),63:221-230,May 2003)。这些方法包括使用短串联重复(STR)用于产生DNA谱,包括特别用于鉴定混合物中男性成分的Y染色体上的STR(参见,例如T.M.Clayton,J.P.Whitaker,R.Sparkes和P.Gill.Analysis and interpretation ofmixed forensic stains using DNA STR profiling(使用DNA STR谱对混合法医学印迹进行分析和解释).Forensic Sci.Int.(国际法医科学),91:55-70,Jan1998;R.G.Cowell,S.L.Lauritzen和J.Mortera.Identification and separationof DNA mixtures using peak area information(使用峰区信息鉴定和分离DNA混合物).Forensic Sci.Int.(国际法医科学),166:28-34,Feb 2007;M.Bill,P.Gill,J.Curran,T.Clayton,R.Pinchin,M.Healy和J.Buckleton.PENDULUM{a guideline-based approach to the interpretation of STRmixtures(PENDULUM{解释STR混合物的指南方法).Forensic Sci.Int.(国际法医科学),148:181-189,Mar 2005;M.A.Jobling和P.Gill.Encodedevidence:DNA in forensic analysis(编码证据:法医学分析中的DNA).Nat.Rev.Genet.(自然综述:遗传学),5:739-751,Oct 2004.Methods usingMitochondrial DNA(mtDNA))are useful when analyzing severely degradedDNA and can be used jointly with STRs(当分析严重降解的DNA时,使用线粒体DNA(mtDNA)的方法是有用的并可与STR联合使用).Goodwin,A.Linacre和P.Vanezis.The use of mitochondrial DNA and short tandem repeattyping in the identification of air crash victims(空难牺牲者鉴定中线粒体DNA和短串联重复分型的应用).Electrophoresis(电泳),20:1707-1711,Jun1999)。还研究了许多方法使用非常少量的SNP与mtDNA一起以减轻mtDNA的特异性问题(M.D.Coble,R.S.Just,J.E.O′Callaghan,I.H.Letmanyi,C.T.Peterson,J.A.Irwin和T.J.Parsons.Single nucleotide polymorphismsover the entire mtDNA genome that increase the power of forensic testing inCaucasians(整个mtDNA基因组的单核苷酸多态性增加了白种人中法医测试的能力).Int.J.Legal Med.(国际法医学杂志),118:137-146,Jun 2004;T.J.Parsons和M.D.Coble.Increasing the forensic discrimination of mitochondrialDNA testing through analysis of the entire mitochondrial DNA genome(通过分析整个线粒体DNA基因组增加对线粒体DNA测试的法医辨别).Croat.Med.J.(克罗地亚医学杂志),42:304-309,Jun 2001;R.S.Just,J.A.Irwin,J.E.O′Callaghan,J.L.Saunier,M.D.Coble,P.M.Vallone,J.M.Butler,S.M.Barritt和T.J.Parsons.Toward increased utility of mtDNA in forensic identifications(关于mtDNA在法医鉴定中增加的应用性).Forensic Sci.Int.(国际法医科学),146Suppl:S147-149,Dec 2004;和P.M.Vallone,R.S.Just,M.D.Coble,J.M.Butler和T.J.Parsons.A multiplex allele specific primer extension assayfor forensically informative SNPs distributed throughout the mitochondrialgenome(对分布在整个线粒体基因组的有法医学信息的SNP的多重等位基因-特异性引物延伸测定).Int.J.Legal Med.(国际法医学杂志),118:147-157,Jun 2004)但是并没有专门在基因组尺度上将SNP作为复杂混合物中的内含物的决定因素来研究。最近,Homer等人.(Homer等人.Resolvingindividuals contributing trace amounts of DNA to highly complex mixturesusing high-density snip genotyping microarrays(使用高密度snip基因分型微阵列解析对高度复杂混合物贡献痕量DNA的个体),其全文通过引用并入本文)和本文展示的本公开已经证明高通量SNP基因分型微阵列具有精确且强力解析在复杂基因组DNA混合物中是否有个体痕量贡献者。这种基因组法不靶向特定序列、区或少量多态性,而是使用在SNP微阵列上实施的多重实验来解析个体是否存在于复杂混合物中。在一些实施方案中,本方法也不依赖于知道混合物中个体的数目。SNP微阵列在基因组范围相关研究中已经广泛使用,当用于法医学时在其它方法中以前尚未发现有在多重水平上的SNP微阵列。然而,Homer等人.(以及上文讨论的结果和实施例1中的结果)提供了基于在所有SNP上相对等位基因信号的累积转变(cumulative shift)的频率论方法从而提供对于零假设(其中假定个体不存在于混合物中)的显著性值。在一些实施方案中,可运行两个微阵列,一个使用来自于感兴趣个体的DNA,一个使用来自混合物的DNA池。这允许人们使用用于比较的参比群体,允许精确鉴定是否个体存在于混合物中。另外,即使使用亲属的DNA作为感兴趣个体的代用品也可完成这种过程。尽管此类实施方案对许多复杂混合物运行良好,也可使用其它方法,因此,下述部分展示了概率模型。

贝叶斯

下述部分描述基于在SNP微阵列的原始强度水平上的总观察的概率模型以精确评价感兴趣的个体(例如受试者)在或不在复杂混合物(例如测试遗传物质样品)中的可能性。另外,使用训练数据集估计原始强度水平观察的概率分布。以后验相对风险比值的形式比较了两种模型,一种中假定感兴趣的个体在混合物中,另一种中假定感兴趣的个体不在混合物中。使用贝叶斯推断获得两种模型中每一种的可能性以精确评价观察的概率。通过这种实施方案,产生了更强力和精确的观察模型,产生了对证据更好的统计测量值。随着目前微阵列技术上可得的SNP数目继续增加,该方法的多种实施方案鉴定个体对高度复杂混合物贡献的精确度也将增加。

模型

两种竞争性模型

进行建模以鉴定个体是否存在于给定复杂混合物内。因此可检查两种竞争性模型之间的优势比,一种中假定个体在混合物中(表示为θA),一种中假定个体不在混合物中(表示为)。存在两种不同观察,一组观察来自于感兴趣的个体,一组观察来自于复杂混合物。对于所有SNP,对感兴趣的个体的观察表示为对复杂混合物的观察表示为对于SNP i,对感兴趣的个体(例如受试者)的观察xi是原始强度值,且对复杂混合物的观察yi进行相似的定义。

在给定微阵列上,通常每个SNP存在多个探针以及每个探针存在多对的强度值。可选择单独处理探针值(一对强度值)或将探针组合成单个测量值。对于这种分析,探针值可通过取所有探针的平均探针值,并将一对强度值组合成两个数值的单个比值来进行合并。例如,如果有一对强度X和Y,可使用比值或更优选的反正切比值。然而,组合强度值的这种方式已经在以前使用DNA的复杂混合物的研究(即基于混合池的基因组范围相关研究)中使用(J.V.Pearson,M.J.Huentelman,R.F.Halperin,W.D.Tembe,S.Melquist,N.Homer,M.Brun,S.Szelinger,K.D.Coon,V.L.Zismann,J.A.Webster,T.Beach,S.B.Sando,J.O.Aasly,R.Heun,F.Jessen,H.Kolsch,M.Tsolaki,M.Daniilidou,E.M.Reiman,A.Papassotiropoulos,M.L.Hutton,D.A.Stephan和D.W.Craig.Identification of the genetic basis forcomplex disorders by use of pooling-based genomewidesingle-nucleotide-polymorphism association studies(通过使用基于混合池的单核苷酸多态性相关研究鉴定复杂病症的遗传基础).Am.J.Hum.Genet.(美国人类遗传学杂志),80:126-139,Jan 2007)并且采用了这种方法。

为比较两种模型的后验相对风险比值,检查

如果优势比大,则这给出该感兴趣的个体在混合物中的证据。如果优势比小,则这给出该感兴趣的个体不在混合物中的证据。通过这种方式,能够解析个体是否存在于复杂混合物内。

可能性

假设有s个SNP,将观察表示为和然而。为正确地用公式表述可能性,应当知道许多隐藏的变量。设定η+2为混合物中染色体的数目。由于混合物中每个个体贡献两条染色体,η是2的倍数。对于每个SNP i,假设有两个等位基因A和B。则应当知道混合物κi中A等位基因的数目和感兴趣的人βi中A等位基因的数目。由于根据定义η、κi和βi是隐藏的,为计算任何一种模型的可能性,应当计算这三种隐藏变量所有可能数值的和。为了一致,希腊字母用于隐藏变量,字母表字母用于观察的变量。

训练数据集

就观察的和隐藏的变量而言,更多信息对于精确计算可能性是有用的。由于拥有对于混合物和感兴趣的人两者的原始强度值而非基因型,应当知道对于的条件概率Pr(Ri=rii=γi)。这是假如隐藏的无序基因型是i,则对于SNP i相对强度值是ri的条件概率,其中无序基因型A/A表示为0,A/B为1,且B/B为2。同样不知道对于每个SNP i和混合物中的每个个体或对于感兴趣的人的γi,但这种情况下可通过使用来自于HapMap计划(The International HapMap Project(国际HapMap计划).Nature(自然),426:789-796,Dec 2003)的训练数据集估算这些概率的分布。通过HapMap计划能够为给定个体获得Affymetrix 5.0平台上每个SNP的一致基因型识别和原始强度值。HapMap计划具有来自于四种不同人群的270名个体的这种信息。另外,每个SNP的基因型不仅得自于相应原始强度值,还得自于产生对于每个SNP的一致基因型识别的其它微阵列平台和重复实验。这让人进一步确信基因型识别是正确的。

因此对于每个SNP i可绘制出三种给定每种可能的无序基因型γi的ri的分布。为简单起见,假定三种分布Pr(Ri=rii=0),Pr(Ri=rii=1)和Pr(Ri=rii=2)的每种分别服从正态分布N(μ0,σ0),N(μ1,σ1)和N(μ2,σ2)。可从训练数据集容易地估算μ0,μ1,μ2,σ0,σ1,σ2并使用这些参数计算可能性。

最后,这种训练数据集给出了对于每个SNP i以pi表示的群体等位基因频率A。其在选择训练数据集群体以考虑群体的祖先时是有用的,因为等位基因频率在群体中可能变化并因此在模型中引入系统性偏倚。然而,如果在可能性计算中使用的选择为无祖先偏倚且不相关的SNP,则避免混合问题并能独立处理每个SNP。

计算的可能性;

首先,检查了假定感兴趣的人不在混合物中的模型因此的可能性就是:由于没有观察混合物中染色体的数目η,可计算所有η的可能值的和。

其中如果η是2的倍数,I{η%2=0}是1,其它情况下为0。给定具体情形,可假定单一结构(统一的)的在先η以及设定η的最大值界限。因此使得在η的所有值上是统一的。

由于每个SNP被定义为独立的,可简单地独立地检查每个SNP i并取每个SNP概率的乘积,从而

为计算应当知道混合物中A等位基因的数目,以κi表示。由于κi是隐藏的,可简单的计算所有κi的可能值的和。在模型中,感兴趣的个体不在混合物中,所以κi范围是从0至η+2,给出

假定

服从二项分布B(η+2;pi),其中pi是得自于训练数据集的等位基因A的等位基因频率。因此得到

另外,没有直接观察感兴趣的个体βi的A等位基因的数目,因此简单对的所有βi的可能值求和,给出

为计算最终两个概率

使用从训练数据集估算的三种概率分布:Pr(Ri=rii=0),Pr(Ri=rii=1)和Pr(Ri=rii=2)。由于假定这三种分布是正态分布,得到

此处得到为在三种不同分布之间顺畅地插入,如果λi>0.5则μλi=μ2(2λi-1)+μ1(2-2λi),并且如果λi≤0.5则

μλi=μ1(2λi)+μ0(1-2λi)。

对于第二概率相似地得到

由于βi是0、1、或2,知道使用哪种分布,因为可从βi推断无序基因型。如果βi=0则μβi=μ0且σβi=σ0,如果βi=1则μβi=μ1且σβi=σ1,并且如果βi=2则μβi=μ2且σβi=σ2

计算θA的可能性

下一步检查假定感兴趣的人在混合物中的模型θA。因此θA的可能性就是由于没有观察混合物中染色体的数目η,应计算所有η的可能值的和。

Pr(gx,θA)=Ση=0I{η%2=0}Pr(g|η,x,θA)Pr(η|x,θA)

其中如果η是2的倍数,I{η%2=0}是1,其它情况下为0。与模型相似,给定具体情形,可假定单一结构(统一的)的在先η以及设定η的最大值界限。因此使得在η的所有值上是统一的。

由于每个SNP被定义为独立的,可简单地独立地检查每个SNP i并取每个SNP概率的乘积,从而

Pr(g|η,x,θA)=Πi=0sPr(gi|η,xi,θA).

在θA模型下,假定感兴趣的个体在混合物中。因此不像模型,得到混合物中A等位基因的数目部分地依赖于βi。因此首先对βi的所有可能值求和:

Pr(yi|η,xi,θA)=Σβi=02Pr(gi|βi,η,θA)Pr(βi|η,xi,θA).

假定感兴趣的个体(例如受试者)向混合物贡献了两条染色体。因此当对κi的所有可能值求和时,允许κi的范围0从至η,排除由βi确定的两条染色体的2。因此得到

Pr(gi|βi,η,θA)=Σκi=0ηPr(yi|κi,βi,η,θA)Pr(κi|η,βi,θA).

假定

Pr(κi|η,βi,θA)

服从二项分布

其中pi是得自于训练数据集的等位基因A的等位基因频率。因此得到

Pr(κi|η,βi,θA)=ηκipiκi(1-pi)(η-κi).

最后,与模型相似,获得概率

Pr(yii,βi,η,θA)

和Pr(βi|η,xi,θA),其使用从训练数据集获得的三种概率分布:

Pr(Ri=rii=0),Pr(Ri=rii=1),and Pr(Ri=rii=2)。

因此得到

此处得到这种λi的定义与在模型下的定义不同,因为现在以感兴趣的个体贡献βiA等位基因为条件。与相似,顺畅地插入至三种不同分布之间,如果λi>0.5则μλi=μ2(2λi-1)+μ1(2-2λi)并且如果λi<0.5则μλi=μ1(2λi)+μ0(1-2λi)。

对于第二概率相似地得到

由于βi是0、1、或2,人们知道使用哪种分布,因为可从βi推断无序基因型。如果βi=0则μβi=μ0且σβi=σ0,如果βi=1则μβi=μ1且σβi=σ1,并且如果βi=2则μβi=μ2且σβi=σ2

计算复杂性

首先观察到计算二项分布的概率质量函数不是常数运算并且具体应用中依赖于η和κi两者。基本上这受下述决定:η乘以(合并的pi和(1-pi))和项其在最差情况下需要O(η)运算。还能计算正态分布的概率质量函数。假设进行这种计算的时间为

假设ηl是ηl的最大值则容易看到计算或θA的时间简单地是

这种算法的空间复杂性是O(1),因为可独立地检查每个SNP。

扩展

上述模型的一个因素是实际实施。当计算这些概率时清楚的是上述计算的一些概率可接近0,因此在对数尺度计算时是-∞。有用的是,当计算这些概率时,注意在不引入误差的条件下在对数尺度进行计算。

对这种方法有许多扩展可改善该模型。首先,人们确保选择独立的一组SNP,因为人们在计算中独立地处理每个SNP。例如,在Affymetrix 5.0SNP微阵列平台上存在大约500,000个SNP。为确保SNP不相关,所产生的SNP组大约是最初组大小的十分之一。为了确信,人们丢掉大量冗余和有用的信息。该方法的一种扩展是不假定SNP之间的独立性,而是调整SNP之间的相关性,从而利用在目前微阵列平台上存在的所有组的SNP。

人们也可隐含地假定混合物和感兴趣的个体具有与训练数据集相同的祖先构成。例如,如果感兴趣的个体和混合物祖先上是美国当地人,人们如果使用白种人或亚洲人训练数据集则丧失效力。为纠正这种问题,人们可选择不接受混合物和感兴趣的个体的祖先的训练数据集。另外,人们也可选择其等位基因频率在群体中不变的SNP。

由于人们假定κi的概率是二项分布的,人们隐含地假定哈迪-温伯格平衡(Hardy-Weinberg Equilibrium)(HWE)。对于许多SNP这是不正确的,人们注意在从训练集中计算等位基因频率pi时要小心。相反,人们应当通过用训练数据集检验对于每个SNP的HWE并且在进一步的分析中排除某些百分数的SNP。

在分析每个SNP中,组合多个探针并且对每个探针组合相对强度值。为扩展该方法和完全使用原始数据值,可将探针作为对于给定snip的多个相同分布的观察处理,并且单独处理探针的每个强度值。因此当计算Pr(Ri=rii=γi)时,将得到六个分布而非三个,排除每个等位基因的强度值被单独处理的事实。

在上述部分,建立了用于鉴定复杂DNA混合物内个体的痕量贡献的概率模型。以前的方法依赖于测序或探测小部分DNA或mtDNA(T.Egeland,I.Dalen和P.F.Mostad.Estimating the number of contributors to aDNA profile(估算DNA谱的贡献者的数目).Int.J.Legal Med.(国际法医学杂志),117:271{275,Oct 2003;Y.Q.Hu和W.K.Fung.Interpreting DNAmixtures with the presence of relatives(解释存在亲属关系的DNA混合物).Int.J.Legal Med.(国际法医学杂志),117:39-45,Feb 2003;D.J.Balding.Likelihood-based inference for genetic correlation coefficients(基于相似性的对遗传相关系数的推断).Theor Popul Biol(理论群体生物学),63:221-230,May 2003;T.M.Clayton,J.P.Whitaker,R.Sparkes和P.Gill.Analysis andinterpretation of mixed forensic stains using DNA STR profiling(使用DNASTR谱对混合法医学印迹进行分析和解释).Forensic Sci.Int.(国际法医科学),91:55-70,Jan 1998;R.G.Cowell,S.L.Lauritzen和J.Mortera.Identification and separation of DNA mixtures using peak area information(使用峰区信息鉴定和分离DNA混合物).Forensic Sci.Int.(国际法医科学),166:28-34,Feb 2007;M.Bill,P.Gill,J.Curran,T.Clayton,R.Pinchin,M.Healy和J.Buckleton.PENDULUM{a guideline-based approach to theinterpretation of STR mixtures(PENDULUM{解释STR混合物的指南方法).Forensic Sci.Int.(国际法医科学),148:181-189,Mar 2005;M.A.Jobling和P.Gill.Encoded evidence:DNA in forensic analysis(编码证据:法医学分析中的DNA).Nat.Rev.Genet.(自然综述:遗传学),5:739-751,Oct 2004;W.Goodwin,A.Linacre和P.Vanezis.The use of mitochondrial DNA and shorttandem repeat typing in the identification of air crash victims(空难牺牲者鉴定中线粒体DNA和短串联重复分型的应用).Electrophoresis(电泳),20:1707-1711,Jun 1999;M.D.Coble,R.S.Just,J.E.O′Callaghan,I.H.Letmanyi,C.T.Peterson,J.A.Irwin和T.J.Parsons.Single nucleotidepolymorphisms over the entire mtDNA genome that increase the power offorensic testing in Caucasians(整个mtDNA基因组的单核苷酸多态性增加了白种人中法医测试的能力).Int.J.Legal Med.(国际法医学杂志),118:137-146,Jun 2004;T.J.Parsons和M.D.Coble.Increasing the forensicdiscrimination of mitochondrial DNA testing through analysis of the entiremitochondrial DNA genome(通过分析整个线粒体基因组增加对线粒体DNA测试的法医辨别).Croat.Med.J.(克罗地亚医学杂志),42:304-309,Jun2001;R.S.Just,J.A.Irwin,J.E.O′Callaghan,J.L.Saunier,M.D.Coble,P.M.Vallone,J.M.Butler,S.M.Barritt和T.J.Parsons.Toward increased utility ofmtDNA in forensic identifications(整个mtDNA基因组的单核苷酸多态性增加了白种人中法医测试的能力).Forensic Sci.Int.(国际法医科学),146Suppl:S147-149,Dec 2004;和P.M.Vallone,R.S.Just,M.D.Coble,J.M.Butler和T.J.Parsons.A multiplex allele specific primer extension assay forforensically informative SNPs distributed throughout the mitochondrialgenome(对分布在整个线粒体基因组的有法医学信息的SNP的多重等位基因-特异性引物延伸测定).Int.J.Legal Med.(国际法医学杂志),118:147-157,Jun 2004)并且并未使用全基因组(或基因组范围的分析)来解决这种问题。随着目前SNP微阵列技术的密度的增加和价格的降低,可以在一千美元以下探测超过一百万的SNP,并且因此在这种问题上给出了基因组学前途。

上述分析平衡了微阵列上的SNP数目从而精确评价感兴趣的个体(例如受试者)存在于高度复杂混合物中的概率。由于微阵列上SNP的数目现在超过一百万,与以前的方法相比人们能够获得足够数目的观察以确定内含物。该方法的这种实施方案特别计算两种模型之间的后验相对风险比。第一模型假定感兴趣的个体不存在于混合物中,第二模型假定感兴趣的个体存在于混合物中。然后人们获得给定混合物和感兴趣的个体的观察的两种模型的似然函数。使用训练数据集来为给定无序基因型所观察的探针强度值提供每个SNP的概率分布。尽管上述贝叶斯法证明一些实施方案用于实施比较或实施本文描述的方法,并非本文描述的所有实施方案都一定需要这些过程或步骤。尽管上述描述(以及下文对上述描述过程的证明)建立了本发明多种实施方案的概念和功能的证据,本领域技术人员将理解该一般方法可通过广泛种类的技术或操作实施并且理解其怎样用于实际应用。尽管仅有一些可能实施方案的概述,图1B描述了如何采用本文描述的遗传物质匹配技术的更多图示。

如图1B所示,在一些实施方案中,人们可最初如下开始本文描述的一些实施方案:任选地获得可能(但不是必须)包括遗传物质(例如测试遗传物质样品)的样品,如过程10所示。然后,人们可以任选地纯化和/或扩增样品内的任何遗传物质的至少一部分,如过程20所示。然后,人们可以任选地制备将于SNP阵列上运行的样品,如过程30所示。然后人们可以任选地确定样品中一种或多种SNP以获得样品SNP标志,如过程40所示。然后人们可以任选地获得参比群体的SNP标志,如过程50所示。这种SNP标志可以是例如对参比群体的SNP分析产生的或可以数据形式获得的。然后人们可以任选地获得受试者的SNP标志,如过程60所示。然后人们确定样品内等位基因的计数和/或频率相对于该参比和/或该受试者标志的方向或偏倚,如过程70所示。然后人们可以任选地分析该方向或偏倚以确定该受试者的遗传物质在样品中的可能性,如过程80所示。人们可任选地将来自上述过程的任何结果输出到终端用户或存储器90。在一些实施方案中,人们可任选地输出受试者SNP标志和样品SNP标志和/或参比SNP标志之间的任何相关性(或缺少该相关性)至终端用户、显示器、存储器和/或计算机可读存储装置。在一些实施方案中,这种信息输出或提供给该受试者。

在一些实施方案中,图1B中任何一个或多个过程通过配置用来实施该过程的模块实施,该模块可以是系统的一部分。因此,在一些实施方案中,图1B还表示了能够执行任选地获得可能(但不是必须)包括遗传物质(例如测试遗传物质样品)的样品的步骤的模块,如10所示;任选地纯化和/或扩增样品内的任何遗传物质的至少一部分的模块,如20所示;任选地制备将于SNP阵列上运行的样品的模块,如30所示;任选地确定样品中一种或多种SNP以获得样品SNP标志的模块,如40所示;任选地获得参比群体的SNP标志的模块,如50所示;任选地获得受试者的SNP标志的模块,如60所示;确定样品内等位基因的计数和/或频率相对于该参比和/或该受试者标志的方向或偏倚的模块,如70所示;任选地分析该方向或偏倚以确定该受试者的遗传物质在样品中的可能性的模块,如80所示;任选地将来自上述过程的任何结果输出到终端用户或存储器的模块90。然而,应当理解,这种说明仅是示例性的,此类模块或元件可在多个计算装置、一个或多个虚拟机上,作为独立的元件,等等执行。

在一些实施方案中,人们还具有输出受试者SNP标志和样品SNP标志和/或参比SNP标志之间的任何相关性(或缺少该相关性)至终端用户、显示器、存储器和/或计算机可读存储装置的模块。在一些实施方案中,这种信息输出或提供给该受试者。在一些实施方案中,该系统包括输入模块,来输入一个或多个SNP标志;处理模块,来比较两个或更多SNP标志;和输出模块,来输出该比较。在一些实施方案中,上述模块的任何一个或多个在一个或多个计算装置上执行。另外,本文描述的方法和功能不限于任何特定顺序,其相关块或状态可以其它适当顺序实施。例如,所描述的块或状态可以与具体公开的顺序不同的顺序实施,或者多个块或状态可组合在单个块或状态中。

尽管可能性确定是一种展示测试遗传物质样品中的遗传物质和受试者遗传物质之间任何存在的相关性的有用方式,任何其它展示受试者遗传物质和测试遗传物质样品和/或参比群体的遗传物质之间相关性的方式也可以使用并输出到终端用户或存储器。

附件A是上文提及的计算机程序列表附件,其是本说明书的一部分。其提供一些代码文件的实施方案,可用于执行本文提供的过程和/或模块的一些实施方案。附件A中的第一代码和附件A中任何其它代码是可用于本发明实施方案中一些实施方案的代码的非限制性实例。与本发明关联使用的代码不必包括本说明书结尾处附件A列出的任何或所有代码。然而,在一些实施方案中,计算机程序设计包括附件A的前84页上所列的代码、由其组成或基本由其组成。

实施方案的变体

在一些实施方案中,提供了确定受试者向测试遗传物质样品贡献遗传物质的可能性的方法。在一些实施方案中,人们通过评价与一个或多个参比群体相比混合物的等位基因频率朝向POI偏倚的可能性来测试是否POI在混合物中。

本文描述的方法和功能不限于任何特定顺序,与其相关的块或状态可以其它适当顺序实施。例如,所描述的块或状态可以与具体公开的顺序不同的顺序实施,或者多个块或状态可组合在单个块或状态中。

复杂混合物

在一些实施方案中,复杂遗传物质混合物(或测试遗传物质样品)包含来自于超过一种来源的遗传物质(如DNA)。复杂混合物还可含有化合物,该化合物的存在导致可能掩盖一些技术(如STR分析)的鉴定的实验噪声。

在一些实施方案中,本发明涉及迅速并灵敏地确定来自于个体来源的痕量(<1%)基因组DNA是否存在于复杂DNA混合物中的方法。

在一些实施方案中,测试遗传物质样品包括将阻止或使STR分析变得复杂的化合物。在一些实施方案中,测试遗传物质样品包括将降解核酸的分子。在一些实施方案中,测试遗传物质样品包括蛋白质和/或酶。在一些实施方案中,测试遗传物质样品包括mRNA,RNA,siRNA和/或DNA。

在一些实施方案中,混合物包括或被怀疑包括来自于超过一个人,例如2,3,4,5,6,7,8,9,10,20,30,40,50,60,80,100,150,200,300,500,1000,10,000(包括任何两个前述数值之间定义的任何数量或大于任何一个前述数值的任何数量的)个人或更多的遗传物质/核酸。

在一些实施方案中,在测试遗传物质样品中受试者的遗传物质是或被怀疑是低于100%该遗传物质的来源,例如低于100%、99、98、95、90、80、70、60、50、40、30、20、10、5、1、0.5、0.1、0.05、0.01、0.005、0.001、0.0005、0.0001%或更低的该样品遗传物质是来自于该受试者的,包括任何两个前述数值之间定义的任何数量或大于任何一个前述数值的任何数量。

样品制备

在一些实施方案中,尽管为了分析样品STR分析可能不同地需要对靶标的另外的操作,仅需要对测试遗传物质样品进行足够操作以允许将该样品应用到SNP阵列上。在一些实施方案中,人们可能预期丢失SNP是可以接受的,因为可获得用于测试的SNP是大量的。即如果500,000SNP中仅有10%能够给出可靠识别,50,000个SNP远远满足可靠评价混合物的要求。相比之下,如果13个STR仅有2个可用,通常解析混合物的能力很小。

在一些实施方案中,在遗传物质(参比、受试者和/或测试遗传物质样品)上进行PCR反应。在一些实施方案中,这可以是简单的PCR反应,尽管可使用任何扩增所需遗传物质的方法。在一些实施方案中,用于扩增反应的引物包括在本发明的方法中或作为试剂盒的一部分。可选择引物从而扩增遗传物质的所需部分以便选择性扩增待查SNP。在一些实施方案中,可在来自于参比、受试者和测试遗传物质样品的一种或多种样品上使用相同的引物以便增加考查相同SNP的可能性。

在一些实施方案中,使用本文描述的一种或多种方法允许人们减少对其进行检查以制备SNP标志之前对样品(参比、受试者和/或测试遗传物质样品)的操作。在一些实施方案中,对于SNP分析,不除去否则将使STR分析变得复杂的杂质。

遗传物质的来源

来源可包括人类、宠物、哺乳动物、鸟类、爬行动物、两栖动物、其它动物、多种细胞类型、藻类、粘菌、软体动物、植物、细菌、病毒和任何其它含有遗传物质(如DNA)的生物,无论地球上的还是地球外的。

探针

在一些实施方案中,选择SNP探针以便降低任何不想要的交叉杂交。在一些实施方案中,交叉杂交通过使用分位点标准化方法对标志物进行标准化,和/或通过直接测量给定等位基因是纯合子的个体解决交叉杂交的问题。在一些实施方案中,探针是随机探针。在一些实施方案中,探针是那些将杂交到与标准STR法医学标志物相连系或相似的遗传物质的探针。在一些实施方案中,探针允许检查这样的遗传物质,该遗传物质可通过限制性片段长度多态性、PCR分析、STR分析、线粒体DNA分析和/或Y-染色体分析进行检查。在一些实施方案中,探针探测与关于CODIS的13个特异性STR区相关,相同或相连系的遗传物质。在一些实施方案中,探针揭示关于一个或多个下述STR位点的信息:D3S1358,vWA,FGA,D8S1179,D21S11,D18S51,D5S818,D13S317,D7S820,CSF1PO,TPOX,THO1和/或D16S539。在一些实施方案中,使用上述和/或其它已知STR附近的SNP。在一些实施方案中,使用追踪上述或其它已知STR的SNP。

在一些实施方案中,探针的数量和方差基于实施例1中呈现的结果进行选择,该实施例概括了探针方差(probe variance)、探针数目和混合物中的人数。

试剂盒

在一些实施方案中,本文描述的装置、部分、小部分(subpart)或方法可组合成试剂盒用于实施任何所公开的技术。在一些实施方案中,任何该方法可以书面形式(如以一组说明书)提供,或在计算机可读介质上提供。在一些实施方案中,本文描述的能够被机器执行的任何步骤或过程可以计算机可读介质提供。在一些实施方案中,可提供获得多种SNP标志的程序。在一些实施方案中,可提供比较多种SNP标志的程序(如执行本文提供的任何方程)。在一些实施方案中,提供输出受试者对测试遗传物质样品有贡献的可能性的程序。任何此类程序可在计算机可读介质上和/或可从在线来源下载。

在一些实施方案中,试剂盒包括用于SNP扩增的一种或多种引物。在一些实施方案中,SNP并且因此该引物是对法医学中有用的区特异性的。在一些实施方案中,使用大量SNP引物,例如多于100,如101,200,500,1000,2000,5000,10,000,20,000,30,000,40,000,50,000,60,000,70,000,80,000,90,000或更多SNP,包括任何两个前述数值之间定义的任何数量或大于任何一个前述数值的任何范围。

在一些实施方案中,该试剂盒包括一个或多个参比SNP标志。此类SNP标志可存储在计算机可读介质或可从网站上下载。在一些实施方案中,该参比群体通过组来鉴定从而适当的参比群体可与受试者和/或测试遗传物质样品匹配。在一些实施方案中,试剂盒包括一个或多个SNP标志。此类SNP标志可包括例如定罪罪犯所选择的SNP标志。在一些实施方案中,参比SNP标志可包括来自于人群的一般选择。在一些实施方案中,参比SNP标志可配置用于细胞选择、活组织检查或任何本文提供的其它用途。

在一些实施方案中,该试剂盒包括用于执行图1B中的一个或多个步骤10,20,30,40,50,60,70,80和/或90的程序和/或软件。在一些实施方案中,该程序和/或软件处于存储器中或计算机可读存储器中。在一些实施方案中,该程序和/或软件输出图1B中任何过程的结果。这可包括输出受试者SNP标志和样品SNP标志和/或参比SNP标志之间的任何相关性(或缺少该相关性)至终端用户、显示器、存储器和/或计算机可读存储装置。

在一些实施方案中,试剂盒包括SNP阵列和运行SNP阵列的成分。在一些实施方案中,试剂盒包括收集法医样品的工具。在一些实施方案中,试剂盒包括PCR扩增成分。在一些实施方案中,试剂盒包括phi-29和/或相似的聚合酶。在一些实施方案中,试剂盒不包括所有或任何STR分析成分。

多种应用

在一些实施方案中,本文描述的任何方法可用于确定受试者遗传物质(如DNA)是否匹配、符合或在测试遗传物质样品中。在一些实施方案中,人们提供受试者遗传物质或该遗传物质的来源在测试遗传物质样品中的可能性。

在一些实施方案中,本文描述的任何方法可用于确定受试者是否怀孕。在一些实施方案中,本文描述的任何方法可用于确定一个男性是否是未出生孩子的父亲。在一些实施方案中,本文描述的方法可用于确定(包括简单确定孩子遗传物质是否符合)与一个或多个候选父母相比孩子的父子关系或母子关系。在一些实施方案中,本文描述的任何方法可用于确定测试遗传物质样品中是否存在未知的人(换言之,是否存在不同于对测试遗传物质样品有贡献的受试者的某人或对测试遗传物质样品有贡献的受试者的额外的某人)。在一些实施方案中,本文描述的任何方法可用于确定某人是否对测试遗传物质样品有贡献,而不必假定对该测试遗传物质样品可能有贡献的人数的因素。在一些实施方案中,人们实施对测试遗传物质样品的分析,不考虑和/或不知道和/或不估算对测试遗传物质样品有贡献的个体数目。在一些实施方案中,本文描述的任何方法可用于法医学中。在一些实施方案中,本文描述的任何方法可用于确定受试者向测试遗传物质样品贡献遗传物质(或受试者的遗传物质匹配测试遗传物质样品)的百分数或可能性。在一些实施方案中,本文描述的任何方法可用于确定或表征一群细胞中多种细胞的性质。这可用于从其它细胞中分选或选择一些细胞,或确定含有细胞的样品的纯度。在一些实施方案中,本文描述的任何方法可用于来自于受试者的多种细胞或组织上。例如,在一些实施方案中,人们可在来自于活组织检查的样品上使用该方法并确定是否存在恶性对良性细胞,和/或健康细胞对癌症细胞,和/或细胞中存在的癌症类型。在涉及许多细胞类型的实施方案中,在一些实施方案中,该细胞的所有或部分可一起检查,而不是必需分离出单个细胞。在一些实施方案中,本文描述的任何方法可用于确定与其它非人生物相比较测试遗传物质是否来自于人(和/或哪个人)。

在一些实施方案中,受试者SNP标志包括来自于多个个体的遗传物质(或代表多个个体的数据)。在一些实施方案中,这可运行针对测试遗传物质比较或筛选多个个体。因此在一些实施方案中,受试者SNP实际上是一个或多个受试者以允许针对测试遗传物质样品筛选一个或多个受试者。

在一些实施方案中,本发明涉及鉴定法医学应用的高度复杂混合物内痕量个体的DNA。此类应用包括例如下述情况,其中来自于许多其它个体DNA的存在妨碍了鉴定任何单个个体存在的能力。在一些实施方案中,本文提供的任何方法可用于分析降解的或来自于线粒体的遗传物质。大量测定的SNP可允许对SNP进行分组用于不同分析,从而一个小的亚组的SNP保留用于检测这些和其它假象(artifacts)。在一些实施方案中,测试遗传物质样品包括或假定或认为包括来自于至少2个受试者,例如2,3,4,5,6,7,8,9,10,12,14,16,18,20,25,30,40,50,60,70,80,90,100,500,1000或更多个受试者(包括任何两个前述数值之间定义的任何范围或大于任何一个前述数值的任何范围)的遗传物质。

在一些实施方案中,本发明的一个或多个优点包括集中于来自于通常双等位基因的SNP的强度测量值的比值并且在任何给定SNP对DNA的量或性质进行更强的按比例测量。另外,在一些实施方案中,不必假定在混合物中存在已知数目的个体或在混合物中每个个体存在等量的DNA。此外,在一些实施方案中,通过利用累积距离测量容易分辨混合物是否更接近人群还是更接近个体。鉴于少数结论可以通过向个体基因型稍微偏倚(低于1%)的SNP测量得出,通过统计分析数百至数百万的SNP中的所有测量的累积集合可获得相当的置信度。在一些实施方案中,使用1,000-100,000个SNP,包括以下范围,2,000至20,000和3,000至10,000和大约5,000个。

在一些实施方案中,使用给定个体的基因型,在任何研究中通过可用的汇总统计能够检测个体的存在或不存在。

SNP标志

如上所述,存在多种可用于一些或全部所公开的实施方案的SNP标志。在一些实施方案中,每个SNP标志包含关于多个SNP信息(例如等位基因频率)的集合。在一些实施方案中,SNP标志是关于受试者、参比群体或测试遗传物质样品SNP信息的集合。在一些实施方案中,该信息以百分比表示。在一些实施方案中,该信息以绝对事物(例如具体等位基因的存在或不存在)表示。在一些实施方案中,SNP标志以代表SNP处等位基因的原始数据表示。例如在一些实施方案中,SNP标志可以是来自于SNP阵列的荧光读出,其表明SNP存在。

本领域技术人员将理解,SNP标志的大小(构成SNP标志的SNP的数目)可根据其将如何使用而变化。在一些实施方案中,当人们希望看到未知个人对测试遗传物质样品是否有贡献时,使用相对少的SNP,因为任何单个未知SNP存在于测试遗传物质样品中可以表明未知个人的存在。另外,在其中较少数目的人对测试遗传物质样品中的遗传物质有贡献(或可能已经贡献)的实施方案中,与其中大量人对TGMS(测试遗传物质样品)有贡献的实施方案相比,将使用更少的SNP。

另外,任何一种标志中使用的SNP数目也可确定人们得到受试者对TGMS有贡献的确定程度。因此,在不需要高的确定程度的实施方案中,可使用较少SNP。在需要更高确定程度的实施方案中,可在SNP标志中使用更多SNP。

在一些实施方案中,存在足够多的SNP探针从而该个人对测试遗传物质样品有贡献的确定程度在至少任何下述:1000,10,000,100,000,1,000,000,10,000,000,100,000,000,1,000,000,000,5,000,000,000或更多中是1。

此外,在人们仅希望找到未知个体在TGMS中的贡献的实施方案中,可使用低达单个SNP(假定例如已知个体中没有任何个体具有该特异性SNP)。

因此,在一些实施方案中,可使用低达一个SNP,尽管也可使用多更多的SNP。在一些实施方案中,使用受试者中的所有SNP。在一些实施方案中,使用多个受试者的所有SNP。在一些实施方案中,使用多种生物或细胞(如多种肿瘤细胞)的SNP。

本领域技术人员将理解,尽管在多种SNP标志中使用的SNP应当重叠(即在样品SNP标志、参比SNP标志和受试者SNP标志中应当有相同SNP),并非所有SNP必需存在于所有标志中。因此,在不同标志中,SNP的数目和个性(identity)可以不同。在一些实施方案中,最低数目的SNP鉴于受试者SNP标志中。

在一些实施方案中,SNP标志是至少一个SNP。在一些实施方案中,SNP标志包括多于一个SNP,例如1,5,10,15,20,100,200,300,500,1000,2000,3000,5000,9,000,10,000,15,000,20,000,30,000,40,000,50,000,80,000,90,000,100,000个SNP或更多,包括任何两个前述数值之间定义的任何数量或大于任何一个前述数值的任何数量。

SNP标志可包括任何数目的个体间一个或多个生物(或细胞类型等)的一个或多个基因型。如上所述,一些SNP标志包括数十、数百或更多人的50,000或更多个SNP的SNP信息。其它SNP标志仅包括单个人的许多SNP的SNP信息,而有一些SNP标志包括单个人的低达单个SNP的SNP信息。除非另有注明,任何SNP标志(样品SNP标志、参比SNP标志、受试者SNP标志)可根据上述说明的方式变化。

如上所述,SNP标志不必在所有实施方案中都是等位基因数学值的汇编。例如,可使用显示多种SNP探针强度值的原始数据(从而表示哪种等位基因存在)。相似地,可以每次检查一个频率,从而庞大的频率表不必与另一个庞大的频率表进行比较。在一些实施方案中,SNP标志仅表示等位基因信息或与等位基因信息相关,从而可在受试者和样品和/或参比群体之间进行一致地比较(数学的、视觉的或其它的比较)。当然,在不使用SNP的实施方案中,SNP的一致性是无关的,但将是所监测的其它项目的一致性。

分析方法以及如何比较SNP标志

在一些实施方案中,本发明涉及使用可用于解析复杂混合物的任何分析方法。在一些实施方案中,所用的分析方法可取决于分析的目的。非限制性实例包括假定阵列上的SNP是相互独立的、假定阵列上的多个SNP是相关的并且不是独立的(特别是在增加微阵列密度的时候)。进一步的实例包括使用群体数据库如来自于HapMap计划的数据库来选择将在分析中使用的一个亚组的独立的标志物、使用基于单倍型的方法或连锁不平衡(LD)法组合来自于相关SNP的信息、使用贝叶斯法选择得自于训练数据集的最具有信息的SNP、和在相关标志物中使用显明冗余(explicitredundancy)。

在一些实施方案中,可使用任何这样的方法,即允许使用许多(例如数千)低信息含量的标志物累积决定个人是、或不是(或未知的个人是)在混合物中。在一些实施方案中,人们可使用似然法、Wilcoxan-符号秩检验(Wilcoxan-sign rank)、最小-二乘法-拟合(least-squares-fit)、t-检验、皮尔森相关(Pearson correlation)、Spearman秩相关(Spearman rank correlation)和/或比例检验(test of proportions)。在一些实施方案中,本文描述的方法中可使用任何允许使用数百至数千遗传变异的测量的方法。

本领域技术人员将理解,存在多种比较SNP标志的方式。尽管SNP标志不是本文描述的所用实施方案所需要的,但使用它们时,它们可以多种方式进行比较。在一些实施方案中,可使用任何比较,只要其允许人们确定测试遗传物质样品内等位基因计数和/或频率相对于参比的等位基因计数和/或频率和/或受试者中的等位基因计数和/或频率的方向或偏倚。在一些实施方案中,本文公开的任何计算方法可在这种方式中使用。在一些实施方案中,如当SNP标志以原始数据或数据读出(如SNP阵列上的荧光读出)显示时,在比较中能够使用关于SNP本身的数据。因此,尽管在一些实施方案中可使用以百分比表示的等位基因频率,在一些实施方案中,在比较中使用SNP数据本身。

本发明的一些实施方案还包括实施本文描述的任何方法和/或步骤和/或过程的软件。可获得对于软件实施该方法的一些实施方案的预-编译的UNIX二进制文件并可在所附的附件A中找到。在一些实施方案中,软件可使用来自于Affymetrix或Illumina的原始数据或通过使用基因型识别运行其分析。在一些实施方案中,软件还能够使用参比群体对检验统计量进行标准化和/或使用指定个体调整均值检验统计量。在一些实施方案中,用户可将所考虑的SNP限制为全部可得SNP的一个亚组。对于原始输入数据人们可将每个原始数据文件的信号强度的分布与输入文件混合物的分布相匹配(参见平台特异性分析)。在一些实施方案中,实施多个检验统计量和距离计算,包括注明的检验统计值、皮尔森相关、Spearman秩相关和/或Wilcoxan-符号检验(Wilcoxon sign test)。在一些实施方案中,配置软件来确定测试遗传物质样品内等位基因计数和/或频率相对于参比的等位基因计数和/或频率和受试者的等位基因计数和/或频率的方向或偏倚。

参比群体和参比标志

祖先和参比群体。在一些实施方案中,本文描述的一些实施方案中一种可能的假设是参比群体(和参比SNP标志)应当(a)在祖先组成方面精确匹配混合物和感兴趣的人或(b)限于对祖先有最小(或已知)偏倚的SNP的分析。在一些实施方案中,认识到任何单个SNP将对整体检验统计量有小的影响是有用的。此外,下述是实际可行的,即参比群体的祖先可通过分析一个小亚组的SNP确定,然后通过分离的组的SNP分析个人对混合物的贡献(认识到测定了接近500,000个SNP)。

在一些实施方案中,不匹配祖先可如下补偿:即使用与感兴趣的个体匹配的第二参比群体获得标准化的检验-统计量S(Yi)通过对该检验-统计量的标准化来补偿。如果混合物的参比群体不匹配,感兴趣的个体的参比群体仍然可以对结果进行标准化。不像混合物的参比群体,感兴趣的个体的参比群体与感兴趣的个体的祖先或群体亚结构匹配并因而用作T(Yi)分布的锚定点(anchor)。因此人们可计算对于观察结果Yi或更极端地对于个体Yi的p-值,假定混合物和感兴趣的个体的参比群体都被正确地进行推断。另外,在一些实施方案中,当匹配参比群体与感兴趣的个体时,人们可选择平均参比群体检验统计量平均均值(Tpop)作为近亲属来对相关家族关系或其它考虑进行标准化。人们也可选择估算来自于异源群体的受试者参比群体检验统计量标准差sd(Tpop)来给出对检验统计量T(Yi)的真实标准差的保守的过高估算(conservative overestimate)。在一些实施方案中,与受试者匹配的参比群体补偿选择混合物的参比群体中的误差。

在一些实施方案中,参比群体通过使用有祖先信息的标志物确定,该标志物与用于检测个人是否在混合物中的标志物是不冗余的。在一些实施方案中,参比群体通过使用多个参比组确定遗传距离来确定。在一些实施方案中,参比群体如下确定:添加选自多个个体的SNP识别的数据库的个体来有效使得“参比群体”与有祖先信息的标志物相匹配。在一些实施方案中,参比群体通过收集多个方面(任选地可包括感兴趣的人)的SNP获得。在一些实施方案中,参比群体从个体(如癌症患者或希望了解她是否怀孕的候选者)获得。在一些实施方案中,参比群体是家庭或其部分。在一些实施方案中,参比群体无偏倚。在一些实施方案中,参比群体有通过遗传距离、基因组对照测量的最小偏倚,其可通过使用一个亚组的SNP获得,该亚组的SNP未用于混合物内的解析且与在分析中使用的任何SNP不处于连锁不平衡。在一些实施方案中,参比群体具有偏倚,但其是已知的偏倚。

在一些实施方案中,参比群体通常在待检SNP上与混合物匹配。在一些实施方案中,人们可通过仅利用人群间有小的差异(如通过低Fst测量的)SNP使变异最小化。在一些实施方案中,人们还可使用数千SNP的一个亚组来确定并匹配参比的大概构成,这通过基本上选择与混合物具有最短遗传距离的个体来完成。可使用高信息含量的SNP因为它们将对不同祖先人群敏感。在一些实施方案中,这些SNP独立于那些用于鉴定个人的SNP,因此可被限定在一个特定群体。在一些实施方案中,当计算后验概率时可使用多个参比并构建进入总体似然统计。

在一些实施方案中,大量SNP相互之间可具有相关性,使得分布偏离正态分布。在一些实施方案中,人们可通过计算添加已知不在混合物中的个体到数据集中并确定沿检验统计量在何处对分布进行取样。在一些实施方案中,另外的方法(如使用对这些相关性的校正)也可使用,如通过HapMap计划获得的连锁不平衡测量。

在一些实施方案中,参比群体包括来自于一个或多个生物、病毒、细胞类型等的遗传物质。例如,在一些实施方案中,参比群体可包括1,2,3,4,5,6,7,8,9,10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100,110,120,130,140,150,160,170,180,190,200,300,400,500,600,700,800,900,1000,2000,3000,4000,5000,6000,7000,8000,9000,10,000,50,000,100,000,500,000,1,000,000,5,000,000,10,000,000,100,000,000,1,000,000,000,5,000,000,000或更多不同来源的遗传物质。

在一些实施方案中,可通过扩展至多维检验统计量或距离测量使用超过一个参比和/或参比群体和/或参比群体标志。

计算方面

尽管本公开根据过程概述了多种方法,本领域技术人员将理解本文公开的任何和/或所有过程/步骤可在装置上实施。在一些实施方案中,该装置是带有实施本文概述的一个或多个过程的相关软件的计算机。在一些实施方案中,本文公开的步骤和过程可使用一个或多个计算装置(如网络服务器或点-对-点客户端)组合实施。例如该步骤或过程可在单个计算装置上实施,或备选地,单个步骤或过程如70或步骤或过程的组合如10-90,10-70,20-70,30-70,40-70,50-70,60和70,70和40,70和60和/或70和90可在与实施其它步骤或步骤组合的其它计算装置通讯的计算装置上实施。

此处描述的系统、方法和技术可在计算机硬件、固件、软件或其组合中实施。体现这些技术的系统可包括适当的输入和输出元件、计算机处理器和计算机程序产品,该程序产品有形地体现在计算机可读存储元件或介质中用于通过可编程的处理器执行。体现这些技术的过程可通过执行指令程序的可编程处理器实施,从而通过对输入数据的操作和产生适当的输出来实施所需的功能。在一些实施方案中,该技术可有利地在一个多多个计算机程序中实施,该程序可在包括至少一个可编程的处理器的可编程的系统上执行,该处理器偶联至数据存储系统(从中接收数据和指令并传输数据和指令到其中)、至少一个输入元件和至少一个输出元件。每个计算机程序可在高级程序或面向对象编程的语言中实施,或如果需要在汇编或机器语言中实施;并且在任何情况下,该语言可以是编译或解释语言。适当的处理器包括,举例而言,通用和专用微处理器。通常,处理器将从只读存储器和/或随机存取存储器接收指令和数据。适合于有形地体现计算机程序指令和数据的存储元件包括所有形式的非易失性存储器,举例而言包括半导体存储器元件,如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和快闪式存储元件;磁盘如内部硬盘和可移动盘;和光盘只读存储器(CD-ROM盘)。上述任何可补充或包含于特别设计的ASICs(特定用途集成电路)。

在一些实施方案中,整个过程,从SNP分析到最终输出受试者遗传物质在测试遗传物质样品中的可能性是自动化和/或计算机化的。在一些实施方案中,从步骤10-90的任何结果输出到终端用户和/或存储器。在一些实施方案中,图1B概述的任何1,2,3,4,5,6,7,8或9过程在计算机上实施和/或通过计算机输出。在一些实施方案中,计算机准备一个或多个SNP标志并且个人可在SNP标志之间进行比较。在一些实施方案中,第一计算机可准备一个或多个SNP标志,第二计算机可准备不同SNP标志,且第三计算机可比较不同SNP标志。在一些实施方案中,SNP标志是标准化的并包含于存储器系统、cd,dvd或其它存储装置。在一些实施方案中,此类存储的或标准化的SNP标志用于参比SNP标志、受试者SNP标志和/或样品SNP标志。在一些实施方案中,配置软件和/或硬件用来检测多种SNP的标志物、开发多种SNP标志(例如受试者SNP标志、测试遗传物质SNP标志和参比群体SNP标志)并比较SNP标志。

在一些实施方案中,提供允许分析SNP阵列的程序。在一些实施方案中,该分析通常包括关于荧光阵列上不同位置的荧光的数据。在一些实施方案中,该程序允许比较第一SNP阵列(如受试者SNP标志阵列)与第二SNP阵列(如参比SNP标志阵列)和/或第三SNP阵列(如样品SNP标志阵列)进行比较。

在一些实施方案中,图1B中一个或多个步骤被不同用户和/或装置实施。在一些实施方案中,计算机、装置、存储器等包括程序,从而允许确定混合物内等位基因计数或频率相对于参比和感兴趣的个体的方向或偏倚。在一些实施方案中,计算机、装置、存储器等使用本文提供的一个或多个公式。

在一些实施方案中,本文描述的系统和方法可有利地使用计算机软件、硬件、固件或软件、硬件和固件的任何组合实施。在一些实施方案中,系统作为一些软件模块实施,模块包括实施本文描述的功能的计算机可执行代码。在某些实施方案中,计算机-可执行代码在一个或多个通用计算机上执行。然而,技术人员将理解,根据本公开,可使用将在通用计算机上执行的软件实施的任何模块也可使用硬件、软件或固件的不同组合实施。例如,此类模块可在使用集成电路组合的硬件中完全实施。备选地或另外地,此类模块可使用设计用来实施本文描述的特定功能的专用计算机上完全或部分实施而不是通过通用计算机实施。

根据可通过计算机程序指令实施的方法、设备(系统)和计算机程序产品描述了本发明的一些实施方案。这些计算机程序指令可提供给通用计算机、专用计算机的处理器或其它可编程数据处理的设备来产生一种机器,从而该指令(其通过计算机的处理器或其它可编程数据处理设备执行)产生用于实施本文说明的动作的装置从而将数据从第一状态转换为第二状态。

这些计算机程序指令可存储在计算机可读存储器中,其可指导计算机或其它可编程数据处理设备以特定方式操作,从而存储在计算机可读存储器中的指令产生一种制品,该制品包括实施本文说明的动作的装置。

计算机程序指令还可装载到计算机或其它可编程数据处理设备中以产生一系列操作步骤,该步骤将在计算机或其它可编程设备上实施从而产生计算机实施的过程,由此在计算机或其它可编程的设备上执行的指令提供实施本文说明的动作的步骤。

在一些实施方案中,本发明还包括使用得自于AA,AB和BB的Yi算术平均值的文库将基因型识别对来自于个体基因分型样品的每个SNP的预期Yi值作图。

如本文所述,使用高密度SNP基因分型数据解析复杂混合物。在一些实施方案中,该方法包括构建一系列模拟实验来评价使用所描述的分析框架和目前这一代SNP基因分型微阵列的给定特征解析个体在混合物内的理论限制。在一些实施方案中,该方法还包括实验检验下述可行性,即检测个体是否向高度复杂混合物贡献痕量DNA的可行性。在这些模拟实验和实验检验中,给予特别关注(对于一些实施方案)的是复杂混合物-含有数百至数千个体的那些。此类方法可用于解析来自于许多个体留下DNA的常规表面的的DNA的混合物。

如通过下述实验原理的证据所证明的,为解析感兴趣的人低于总混合物的1%的混合物,保守地25,000个SNP可以足够用于获得低于10-6的p-值。如果人们使用所有可获得的SNP,人们可容易地解析感兴趣的人低于总混合物的0.1%的混合物并获得低于10-6的p-值。

在一些实施方案中,本发明涉及累积分析等位基因探针强度在个体基因型方向上的改变。在一些实施方案中,本发明涉及测量来自于参比群体的个体的距离和来自于混合物个体的距离之间的差异的方法。在一些实施方案中,本发明优于本领域其它方法的一个优点在于本方法不需要知道混合物中个体的数目并且能够从来自于包含超过一千来源的混合物辨别个体来源。

上述讨论和实施例1提供了一些实施方案的解释,这些实施方案存在根据多种因素包括混合物的同质性和参比群体的精确度而进行的改动。

提供下述实例仅为示例性目的,无意以任何方式限制本发明的范围。事实上,除了那些显示的和本文描述的之外,根据前文描述本发明的多种改动对本领域技术人员是显而易见的并落入所附权利要求书的范围。

实施例1

复杂混合物构建。总共构建了8个复杂混合物(参见表1)。所有DNA样品的浓度使用Invitrogen(Carlsbad,CA)的Quant-iT PicoGreen dsDNA测定试剂盒检验一式三次。使用来自于Roche Diagnostics(Cat#:11691112001,Indianapolis,IN)的人基因组DNA制备八个点的标准曲线。计算每个个体DNA样品的平均浓度。

表1

混合物A1,A2,B1和B2:HapMap个体的等摩尔混合物。显示于表1,一式两份构成两种主要混合物(混合物A和B),产生总共4个混合物。混合物A由41HapMap CEU个体(14个三人小组减去一个个体)构成,且混合物B由47HapMap CEU个体(16个三人小组减去一个个体)构成。

混合物C1:90%NA12752和10%NA07048.在单个混合物中组合两个CEU男性,从而一个个体(NA12752)贡献90%(675ng)的混合物DNA,而另一个个体(NA07048)贡献10%(75ng)DNA到混合物中(以浓度计算)。

混合物C2:90%NA10839和10%NA07048.在单个混合物中组合两个CEU个体(一个男性一个女性),从而一个个体(NA10839)贡献90%(675ng)的混合物DNA,而另一个个体(NA07048)贡献10%(75ng)DNA到混合物中(以浓度计算)。

混合物D1:99%NA12752和1%NA07048.在单个混合物中组合两个CEU男性,从而一个个体(NA12752)贡献99%(742.5ng)的混合物DNA,而另一个个体(NA07048)贡献1%(7.5ng)DNA到混合物中(以浓度计算)。

混合物D2:99%NA10839和1%NA7048.在单个混合物中组合两个CEU个体(一个男性一个女性),从而一个个体(NA10839)贡献99%(742.5ng)的混合物DNA,而另一个个体(NA07048)贡献1%(7.5ng)DNA到混合物中(以浓度计算)。

混合物E:50%的混合物A1和50%的184个等摩尔白种人的混合物。两个混合物组合成单个混合物从而最初的每个混合物贡献相同量的基因组DNA(以体积计算)到最终混合物中。CAU2混合物含有从Coriell细胞库获得的184个白种人对照个体。混合物A1如上文所述进行构建并且含有41个CEU个体。

混合物F:50%的混合物B2和50%的184个等摩尔白种人的混合物。两个混合物组合成单个混合物从而最初的每个混合物贡献相同量的基因组DNA(以体积计算)到最终混合物中。CAU3混合物含有从Coriell细胞库获得的184个白种人对照个体。混合物B2如上文所述进行构建。

混合物G:5%的混合物A2和95%的184个等摩尔白种人的混合物。两个混合物组合成单个混合物,混合物A2包含5%的混合物并且CAU3包含95%的混合物。CAU3混合物含有从Coriell细胞库获得的184个白种人对照个体。混合物A2如上文所述进行构建。

混合物H:5%的混合物B1和95%的184个等摩尔白种人的混合物。两个混合物组合成单个混合物,混合物B1包含5%的混合物并且CAU2包含95%的混合物。CAU2混合物含有从Coriell细胞库获得的184个白种人对照个体。混合物B1如上文所述进行构建。

基因分型。四个人群在Illumina(San Diego,CA)HumanHap550Genotyping BeadChip v3上进行测定,一个人群在Illumina(San Diego)HumanHap450S Duo上进行测定,以及三个人群在Affymetrix(Emeryville,CA)Genome-Wide Human SNP 5.0阵列上进行测定,每个人群在单个芯片上进行测定。从用于Illumina平台的BeadScan软件、以及从用于Affymetrix数据的Affymetrix GTYPE 4.008软件产生的文件夹提取探针强度值进行分析,如在以前研究中所描述的(参见Pearson,J.V.等人.Identification of thegenetic basis for complex disorders by use of pooling-based genomewidesingle-nucleotide-polymorphism association studies(通过使用基于混合池的单核苷酸多态性相关研究鉴定复杂病症的遗传基础).Am J Hum Genet(美国人类遗传学杂志)80,126-139(2007))。

平台特异性分析。对于Affymetrix平台基因型用于每个个体并发现对于Illumina平台有相似的结果。另外,使用来自于HapMap数据集的原始CEL文件(参见The International HapMap Project(国际HapMap计划).Nature (自然)426,789-796(2003)),该数据集在全球信息网(world wideweb)的HapMap.org处找到。为克服CEL文件间信号强度分布的差异,信号强度的分布与混合物CEL文件的分布相匹配。这通过在给定芯片上对等位基因频率(和混合物中等位基因频率)排序完成。来自于感兴趣的混合物的ith等位基因频率替换为给定芯片的ith等位基因频率。没有这种调整,解析任何混合物中的任何个体存在困难,因为未对脱靶交叉杂交(off-targetcross-hybridization)进行补偿。在一些实施方案中,当这混合物、感兴趣的人和参比群体可获得原始数据时,这种类型的调整是优选类型的标准化方法。

对于Illumina平台,使用来自于HapMap数据集的感兴趣的人和参比群体的基因型(参见The International HapMap Project(国际HapMap计划).Nature(自然)426,789-796(2003))而不是如Affymetrix平台那样使用原始强度值。对于混合物使用原始强度值。这组数据模拟了当原始数据不可获得但基因型识别是可获得的情况。不同微阵列之间误差的降低通过对每个微阵列的标准化(通过除以来自于每个相应通道的平均通道强度)来完成。这在来自于混合物的原始数据上实施。当个人基因型的原始数据存在于相同平台时,可以不需要进行这种平台特异性调整。在Illumina具体实例中,在没有平台特异性基因型数据的条件下利用来自于HapMap的识别。

模拟实验。模拟实验用于检验在解析混合物中使用高密度SNP基因分型的有效性。模拟实验的相关变量是:SNP数目s,由感兴趣的人Yi贡献的总DNA混合物的分数f,和测定探针固有方差或噪声vp。在模拟实验中,理论混合物由从58C Wellcome Trust Case-Control Consortium(WTCCC)数据集(参见Genome-wide association study of 14,000cases of seven commondiseases and 3,000shared controls(七种常见疾病的14,000名病例和3,000个共用对照的基因组范围相关研究).Nature(自然)447,661-678(2007))随机取样的个体构成。除去复制品、亲属和其它数据异常后,剩余总共1423个个体。这些个体的基因型识别由WTCCC提供并以前在Affymetrix 500K平台上进行基因分型。每个模拟实验内,随机选择N个体以便在混合物中被平等的代表,然后计算对于每个SNP混合物的平均等位基因频率(Yi)。除去在参比群体中观察到Yij低于0.05或高于0.95的SNP j,因为它们可能具有假阳性和低的固有信息量。

模拟了这样的微阵列,为简单起见,其将含有平均16个探针,接近在Illumina 550K,Illumina 450S Duo和Affymetrix 5.0平台上发现的平均探针数目(分别是18.5,14.5和4)。对于每个SNPj每个探针的Yij加上基于高斯噪声减除的(Gaussian noise based off)以前测量的探针方差。当固定时,探针方差在模拟Affymetrix 5.0阵列时设定为0.006,对于Illumina 550K和Illumina 450S Duo阵列均设定为0.001。然后计算混合物的等位基因频率为这些探针值的均值。混合物大小N等同于说个体DNA代表混合物中总DNA的f=1/Nth。检验了范围在10个体至1,000个体的等摩尔的混合物。使用这种设计,在他们向总混合物贡献在10%和0.1%之间的基因组DNA时检验每个个体中他们的存在。为获得检验零假说的显著性水平(p-值),对正态分布进行取样。没有足够样本来检验分布的尾部,因此p-值不是完全精确(例如低于10-6)。然而,预期p-值对用于定性评价本方法的限度是足够精确的。

联合调整混合物分数(f)和SNP数目(s)。检验了所考虑的SNP数目和属于感兴趣的人的DNA混合物分数之间的权衡(trade-off)。尽管绝对检测极限最终由群体的遗传变异所决定,人们预期当在计算中使用更多SNP时有更大的能力解析来自于混合物的个体。假定每个探针估算的等位基因频率的方差(vp)是0.001,其与Illumina 550K平台在其它基因分型研究中多个阵列上观察的方差(0.00158)密切相符。图2a显示10,000个模拟实验,范围在s=10至s=500,000和f=0.1至f=0.001,其中Z-轴是p-值。使用10,000至25,000个SNP,能够在低于10-6的p-值解析其中感兴趣的人低于总混合物的1%的混合物。对于图2a,p-值的阴影在图下的柱中注明。暗灰色主要存在于较下边和左手边,其后是白色带(当向上和向右移动时),随后是灰色区域。

联合调整探针方差(vp)和混合物分数(f)。在这些模拟实验中,假定每个微阵列上存在50,000个SNP(s=50,000)。尽管可想象使用多得多数目的SNP,在偏好性赋予其等位基因频率在不同群体间变化最小的SNP的设定中较少数目的SNP将是更现实的。图2b显示10,000个模拟实验,从vp=0.0001至vp=0.01和f=0.1至f=0.001。清楚的是在小的探针方差内人们能够解析包含千分之一混合物的个体。如果探针方差低于0.001,可容易地解析其DNA包含混合物的10%至0.1%的个体。即使噪声增加,仍然能够以低于10-6的p-值解析其中感兴趣的人贡献低于2.5%的混合物。还能够观察到探针方差对p-值没有大的影响,并且在这种情况下当SNP数目固定时混合物分数是重要因素。对于图2b,p-值的阴影在图下的柱中注明。暗灰色主要存在于较下边和右手边,其后是白色带(当在图上向左和向上移动时),随后是灰色区域。

联合调整SNP数目(s)和探针方差(vp)。最后检查了SNP数目和探针方差之间的权衡。假定感兴趣的人向混合物贡献1%(f=0.01)。图2c显示10,000模拟实验,从s=10至s=500,000和vp=0.0001至vp=0.01。探针方差对检验的显著性影响不大。因此,即使有高水平的噪声,使用50,000个SNP将足够解析大小达100的混合物。在模拟实验内,探针数目固定在16,从而噪声不影响等位基因频率估算值,如在使用4个探针的阵列的情况下一样。对于图2c,p-值的阴影在图下的柱中注明。暗灰色主要存在于左手边,其后是白色带(当向右移动时),随后是灰色区域。

等摩尔混合物相对两人混合物。使用包含两个个体的混合物实施相同的三个模拟实验设计。不同于对混合物有相等贡献的N=1/f个体,产生如下混合物,其中个体一将构成混合物的(N-1)/N并且个体二将构成混合物的1/N。当实施三个模拟实验时,观察到显著性的增加(较小的p-值)。这使得本方法在存在少量总的贡献者同时感兴趣的人构成混合物的一小部分的情况中有进一步的用途。

模拟实验结论。本文证明10,000至50,000个SNP用于解析混合物,其中感兴趣的人的基因组DNA构成总混合物内DNA的10%至0.1%。可能与直觉相反,噪声有重要但次要影响,因为与群体抽样方差相比,微阵列技术(如Illumina 550K和Illumina 450S Duo平台)具有足够大数目的重复探针。另一个考虑是SNP的选择没有任何特别的意图,因此如果人们选择最具有信息的SNP(例如选择一组在不同群体中不变的SNP),人们能够显著降低SNP的数目。

实验验证。为凭经验检查上述方法的有效性,来自于HapMap个体的DNA形成多种已知混合物并在三种不同平台上对该混合物基因分型。表1中列出的和本文详述的是所形成的不同混合物的组成和测定它们的平台。使用HapMap个体的混合物具有数种优点。首先,人们对基因型识别有信心,因为在大多数情况下已经使用多于一种平台鉴定共有基因型。其次,可获得三人小组,这允许对使用亲属的基因型数据评价对个体的鉴定。第三,通过使用多个HapMap个体的混合物,能够评价解析混合物内每个个体的能力。因此构建了简单的两人混合物以及含有来自于40+个体的贡献者的复杂混合物。对于每个混合物,不存在于混合物中的HapMap CEU个体用作该混合物的参比群体。

解析40+个体混合物内的个体。图3显示每个混合物内每个个体的检验统计量。检验了混合物中的个体和不在混合物中的个体在混合物内的存在。每幅图上,左侧y-轴表示-对数p-值,右侧y-轴表示标准化的检验统计量S(Yi,j),底轴表示每个个体。每个实验进行多于一次,因此在底轴上索引了86个体的倍数。对于混合物A,B,E,F,G和H,在混合物中那些的阴影浅并进行了鉴定,不在混合物中的那些阴影更黑并进行了鉴定。鉴定出了由超过40个体构成的混合物中的所有个体,0个假阳性。

解析2人混合物内的成员(f=1%和f=10%)。对于混合物C和D,没有在混合物中的那些个体是黑色阴影并进行了鉴定,与混合物中的人相关的那些个体是橙色的,并且在混合物中的那些人阴影较浅并进行了鉴定。能够正确地鉴定混合物内的个体,0个假阳性,除了如所预料的混合物中个体的亲属之外,他们出现在混合物中的那些和不在混合物中的那些之间的中点外。

使用亲属的基因型从混合物中解析个体。令人感兴趣观察到在混合物A,B,E,F,G或H中没有假阳性,但是当考虑混合物C和D时存在假阳性。这并不在意料之外,因为HapMap群体由三人小组构成,并且实际上解析个体(儿子或女儿)的母亲或父亲在混合物中;在图3a和3c中很明显,标明为“1-10”和“90-99”的数据点标记所观察的个体。因此,即使在使用他们的母亲的基因型或父亲的基因型时,人们可容易地解析个体(儿子或女儿)。

通过50,000个SNP从混合物解析个体。图3a中,人们可观察到,当人们使用Illumina 550K平台上存在的所有504,605个SNP时,能够无假阴性地解析所有混合物。考虑了50,000个SNP来进行相同的分析(参见图3b)并发现样品具有同样程度的分离。因此,即使产生了预期基因型的一小部分(如在降解的样品中),鉴定复杂混合物中的个体是可能的。

当贡献低于1%时解析个体。在图3d中,考虑了在每个个体的DNA分数在总混合物的0.15%和0.25%之间时的混合物G和H。人们可以看到使用所有可获得的SNP人们能够在Illumina 450S Duo平台上无假阴性地解析所有混合物。因此,即使当他们的DNA分数在混合物中的分数低于1%时,也能够解析个体。

实施例2

本实施例证明检测个体遗传物质(核酸)在来自于多个受试者的遗传物质的复杂混合物中存在的方法。

首先,产生遗传物质的参比样品以提供在以参比样品代表的群体中SNP的平均等位基因频率的估算值(以获得参比SNP标志)。参比样品可通过从商业供应商,如Coriel细胞库(Coriel Institute for Medical Research,Camden,NJ)获得遗传物质的样品来构建。参比样品由来自于白种人家系的100个个体的遗传物质构成。参比样品的遗传物质可从Coriel细胞库目录号HD100CAU获得。

其次,选择在分析中将要包含的具体SNP。测量参比样品中所有选定SNP的等位基因频率。一旦测量后,除去平均等位基因频率低于0.05或高于0.95的SNP而不进行考虑。选择所有剩余的SNP用于随后的分析,并记录这些剩余SNP的平均等位基因频率。备选地,选定SNP的等位基因频率可从数据库获得,该数据库以前已经在可比较的参比群体中测量了选定SNP的等位基因频率。

然后,收集含有来自于许多来源的DNA的复杂混合物,然后确定该复杂混合物的上述选定SNP的平均等位基因频率。

然后,从感兴趣的人(或受试者)取得足够量的DNA。分析这种DNA以确定来自于感兴趣的人的DNA中选定SNP的等位基因频率。

最后,得自于感兴趣的人SNP的数据与得自于参比群体的数据和来自于混合物的数据相比较以确定未知样品的来源。对于足够数量的选定SNP重复这一过程以获得用于建立感兴趣的人DNA与复杂混合物中DNA匹配所需的确定程度。组合来自于每个SNP的结果,输出显示复杂混合物中遗传物质属于感兴趣的个体的可能性。

实施例3

本实施例中,本公开的方法用于法医学应用。首先,收集遗传物质的参比样品以提供对于在给定人群体中待分析的SNP的平均等位基因频率的估算。参比样品通过从商业供应商如Coriel细胞库(Coriel Institute forMedical Research,Camden,NJ)获得人遗传物质样品来构建。可从Coriel细胞库获得多种人群的遗传物质,包括白种人、非洲美洲人、中东人、亚洲人和其它人种家系的个体小组。在本实施例中,代表10个或更多个白种人、非洲美洲人、中东人和亚洲人家系的个体小组的参比样品从Coriel细胞库获得并合并形成参比样品。然后测试参比样品以确定所有可得SNP的平均等位基因频率并产生SNP标志。备选地,待分析的SNP的平均等位基因频率可从商业数据库获得(由此获得参比SNP标志)。任选地除去报告的频率值为低于0.05或高于0.95的SNP不再进行考虑。

然后,通过从被怀疑向犯罪现场获得的样品贡献遗传物质的个体获得的遗传物质来产生受试者SNP标志。测量来自于受试者的遗传物质样品的选定SNP的等位基因频率以获得受试者SNP标志。

然后,分析来自于犯罪现场遗传物质的样品(测试遗传物质样品)。分析了测试遗传物质样品并获得和记录选定SNP的平均等位基因频率,由此提供样品SNP标志。

最后,比较每个标志以确定从犯罪现场取得的未知样品是否属于该受试者。受试者SNP标志(例如该受试者每个SNP的等位基因频率)与参比SNP标志(例如参比中相同SNP的平均等位基因频率)相比较并与样品SNP标志(测试遗传物质样品中的平均等位基因频率)相比较。

输出可通过受试者对测试遗传物质样品有贡献的可能性来表示。

实施例4

本实施例中,本公开的方法用于对由于暴露于环境或其它因素已经降解的样品进行法医学分析。

收集遗传物质的参比样品以提供对于给定人群中待分析SNP的平均等位基因频率的估算值,由此提供参比SNP标志。可从Coriel细胞库获得多种人群的遗传物质,包括白种人、非洲美洲人、中东人、亚洲人和其它人种家系的个体小组。代表10个或更多白种人、非洲美洲人、中东人和亚洲人家系的个体小组的遗传物质样品从Coriel细胞库获得并合并形成参比样品。然后测试参比样品以确定所有可得SNP的等位基因频率由此产生参比SNP标志。任选地除去报告的频率值为低于0.05或高于0.95的SNP不再进行考虑。

然后从被怀疑向测试遗传物质样品贡献遗传物质的一个或多个个体收集受试者的遗传物质。在本实施例中,遗传物质从已经进入测试遗传物质样品场所的10个不同被怀疑者收集。来自于所有10个个体的遗传物质合并形成混合物样品,并测量选定SNP的等位基因频率,由此形成受试者SNP标志。

然后,分析遗传物质的降解的样品。测量并记录选定SNP的等位基因频率,产生样品SNP标志。

最后从每个样品获得的标志(或至少其一部分)进行比较以确定该降解样品是否属于向该测试遗传物质样品贡献遗传物质的10个受试者之一。降解样品中至少一些SNP的等位基因频率与在参比样品和混合物样品中相同SNP的平均等位基因频率进行比较。对于选定SNP这一过程重复必要多的次数。由此人们获得足够多的SNP比较以确定10个受试者之一是否对测试遗传物质样品中的遗传物质有贡献。

实施例5

本实施例中,本公开的方法用于确定人类女性是否怀孕。

首先从女性宿主取得适当样品(可能含有来自于宿主中胎儿遗传物质的样品)用于分析。分离该样品中的遗传物质并从该遗传物质制备样品SNP标志。然后使用来自于女性受试者的样品制备受试者SNP标志。

样品SNP标志与受试者SNP标志进行比较,如果该比较揭示存在另一个人的遗传物质(如通过额外的SNP),人们得出结论该宿主是怀孕的。

备选地,可使用来自于适当参比群体的另一个参比SNP标志,且比较可在a)受试者SNP标志和b)参比SNP标志和样品SNP标志中的每一种之间进行。

实施例6

本实施例中,本公开的方法用于确定未出生孩子的亲子关系。

首先,从怀孕女性取得适当样品用于分析。该样品将包括来自于未出生孩子的遗传物质。确定样品中的SNP并从该未出生孩子获得样品SNP标志。该样品可任选地包括母亲的遗传物质。

然后,从可能的父亲获得适当的样品并制备该可能父亲的SNP标志。

可能的父亲的SNP标志可与样品SNP标志相比较,当样品SNP标志仅包括来自于孩子的遗传物质时,可确定该可能的父亲是该孩子父亲的可能性。

备选地,可制备参比SNP标志并且可能父亲的SNP标志可与参比SNP标志和样品SNP标志中的每一种相比较以确定该可能父亲是否对该未出生孩子的DNA有贡献。

如本领域技术人员将理解的,人们没有寻找样品SNP标志和可能父亲的SNP标志中SNP之间的特异性匹配,而是与亲子关系一致的相似程度。

实施例7

本实施例中,使用方法确定未知组织残留物是牛来源还是人来源。首先,通过获得牛遗传物质的样品产生参比样品。牛遗传物质可从供体牛动物获得,或可从商业供应商(如Coriel细胞库)获得。制备并分析牛遗传物质的样品以确定1,000个SNP的平均等位基因频率。选择剩余SNP用于分析并记录它们的值。

然后,制备人遗传物质的样品。人遗传物质可从人供体获得,或可从商业供应商(如Coriel细胞库)获得。使用本公开的方法分析人遗传物质,以确定选定SNP的平均等位基因频率。一旦获得,记录该数值。

然后,从未知组织残留物制备遗传物质的样品。分析未知样品,获得并记录选定SNP的平均等位基因频率。

最后,比较每个样品获得的数据以确定该未知样品的来源。未知组织残留物中每个SNP的平均等位基因频率与牛样品和人样品每一种中的相同SNP的平均等位基因频率相比较。如果未知样品的SNP频率更相似于牛等位基因频率,将表明该样品是人的机会较低,如果未知样品的SNP频率更相似于人等位基因频率,将表明该样品是牛的机会较低。组合并总结每个SNP的结果,输出表明该未知样品残留物是牛的还是人的。

实施例8

许多细胞系通过将感兴趣的细胞与支持细胞类型一起生长进行最成功的培养。其实例包括在小鼠胚胎饲养细胞层上培养人胚胎干细胞或与大鼠微血管内皮细胞共培养中生长原代人肝细胞。在一些实施方案中,本公开的方法提供用于分辨感兴趣的细胞和支持细胞的快速且精确的方法。

本实施例中,胚胎干细胞系与数种不同小鼠胚胎饲养细胞在共培养中培养数代。培养胚胎干细胞数代后,从小鼠胚胎饲养细胞中分离胚胎干细胞。然后本公开的方法如下文的描述使用。

首先,通过合并来自于数种不同饲养细胞系(其用于培养感兴趣的胚胎干细胞系)的遗传物质产生参比样品。测量参比样品中许多可得的SNP的平均等位基因频率并记录该数值。

然后,从感兴趣的细胞系获得遗传物质的样品。在本实施例中,感兴趣的细胞系是可从NIH获得的人胚胎干细胞系。获得该细胞系的样品,测量并记录选定SNP的等位基因频率。

在与三种不同类型的饲养细胞的共培养中成功培养一代或多代后,从该饲养细胞分离感兴趣的胚胎干细胞。为确认该胚胎干细胞已经成功地从饲养细胞中分离,收集分离的胚胎干细胞样品并且制备来自于该细胞的遗传物质用于分析。获得并记录样品中选定SNP的平均等位基因频率。

最后,从分离的胚胎干细胞样品获得的数据与从胚胎干细胞样品和饲养细胞混合物样品中的每一种获得的数据相比较。分离的胚胎干细胞样品中每个SNP的等位基因频率与胚胎干细胞样品和饲养细胞混合物样品每一种中的相同SNP的平均等位基因频率相比较。对于所有选定的SNP重复这一过程。组合每种SNP获得的结果,输出表明该分离的胚胎干细胞样品是否没有饲养细胞。

实施例9

当在肿瘤上进行活组织检查时,通常对来自于肿瘤的细胞进行分析以确定该细胞是恶性还是良性的。本公开的方法可用于分析来自于肿瘤活组织检查的细胞并确定这些细胞是恶性的还是良性的。

首先,通过合并来自于数种不同的已知为良性肿瘤细胞和/或健康细胞的遗传物质产生良性肿瘤样品。在本实施例中,使用数种不同的已知形式的良性骨肿瘤产生样品。测量良性肿瘤样品中所有可得SNP的平均等位基因频率并记录该数值。

然后,产生代表不同类型恶性骨癌的恶性肿瘤样品。在本实施例中,使用数种已知形式的恶性骨肿瘤产生样品。来自于恶性肿瘤的遗传物质分类为多发性骨髓瘤(multiple myeloma)、骨肉瘤(osteosarcoma)、尤因氏肉瘤(Ewing’s sarcoma)和软骨肉瘤(chondrosarcoma)并合并以产生恶性肿瘤样品。测量恶性肿瘤样品中选定SNP的平均等位基因频率并记录数值。

然后,从未知骨肿瘤获得组织的活组织检查并使用本领域熟知的方法从该活组织检查的组织中分离细胞。分离来自于细胞的遗传物质,测量并记录选定SNP的平均等位基因频率。

最后,从肿瘤活组织检查样品获得的数据与从良性肿瘤样品和恶性肿瘤样品的每一种获得的数据相比较。未知肿瘤活组织检查样品中每个SNP的平均等位基因频率与良性肿瘤样品和恶性肿瘤样品每一种中相同SNP的平均等位基因频率相比较。对于足够多数目的选定SNP重复这一过程。组合来自于每个SNP的结果,输出表明该肿瘤由良性还是由恶性细胞构成。

实施例10

本实施例证明一种比较SNP等位基因频率的方法。第一组SNP数据鉴定为参比群体,第二种SNP数据鉴定为混合物群体。对于每个个体SNP,对参比群体中数据的等位基因频率值取平均以提供参比群体中每个SNP的平均等位基因频率值(由此提供参比SNP标志)。对混合物群体重复这一过程,提供混合物群体中每个SNP的平均等位基因频率(由此提供样品SNP标志)。

对于任何给定受试者的SNP,每个受试者SNP的等位基因频率的值与参比群体中相同的SNP和来自于混合物的相同的SNP的平均等位基因频率值相比较。

对待分析的第一SNP,用受试者SNP等位基因频率值减去混合物中SNP的平均等位基因频率,存储该差的绝对值。然后,用受试者SNP等位基因频率值减去参比群体中SNP的平均等位基因频率,并存储该差的绝对值。最后,通过用第二个值减去第一个值的绝对值获得个体SNP的值。

负数(低至-0.5)表示该受试者可能在参比群体中。正数(至多达0.5)表示该受试者可能在混合物中,数值0表示该受试者在混合物和参比群体中的可能性相等。

在一些实施方案中,可在所有将在分析中包含的SNP中重复上述过程,每个SNP获得的值Yi,j总结如下:

D(Yi,j)=|Yi,j-Popj|-|Yi,j-Mj|(方程1).

总结的结果用于确定该受试者是混合物群体的成员、参比群体的成员还是都不是。另外,可对个体i进行单样本t-检验并用于获得如下检验统计量:

T(Yi)=(均值(D(Yi,j))-μ0)/(sd(D(Yi,j)/sqrt(s)))(方程2)

人们可使用多个参比,将这一公式扩展至多维检验统计量。这可能对于混合种族的人是特别有用的,尽管不是不必要。

实施例11

基于群体的遗传资源,不同群体将具有不同的平均SNP等位基因频率。本实施例提供一种构建与本公开的方法一起使用的参比群体的方法。此类参比群体可用于处理祖先对多个样品中观察的等位基因频率的影响。

首先,鉴定受试者群体。如果受试者是白种人家系,基于白种人群体产生参比样品。参比样品可典型地包括来自于10个或更多个为目标群体成员的个体的样品。理想地,该个体代表目标群体典型的成员。在白种人家系的目标群体中,用于产生参比样品的样品可包括女性和男性白种人个体。

然后,通过从目标群体的成员获得代表性遗传物质样品构建参比群体样品。可通过从个体供体获得遗传物质的样品构建参比群体样品。选择10名白种人供体产生参比群体样品。五个供体是白种人女性,五个供体是白种人男性。

从每个参比供体获得遗传物质样品。测量每个样品中每个SNP的等位基因频率,并记录结果。在所有10个供体样品中每个SNP获得的值求和并确定平均等位基因频率值。然后每个SNP的平均等位基因频率值(例如参比SNP标志))可在随后的分析中作为参比群体的平均等位基因频率值使用。

实施例12

在犯罪调查中,明确特定个体或多个个体对给定法医样品没有贡献遗传物质可能是有用的。这可以是触摸平常表面,如门把、马桶坐垫圈或其他平常表面。在本实施例中,本公开的方法用于验证来自给定受试者的遗传物质不存在于法医样品中。

首先,从受试者获得遗传物质样品。分析该样品并确定样品中SNP的等位基因频率(提供受试者SNP标志)。

然后,从法医样品分离遗传物质。分析该样品并确定样品中SNP的等位基因频率(提供样品SNP标志)。

一旦获得受试者和法医样品的SNP的等位基因频率,对这两者进行比较以便了解受试者SNP标志中存在的任何SNP是否不存在于样品SNP标志中。显著数目的不存在的SNP将表明该受试者对该法医样品没有贡献。

备选地,该比较可包括参比SNP标志,其中受试者遗传物质也表现在参比SNP标志中,比较可以是在a)受试者SNP标志和参比SNP标志,以及b)受试者SNP标志和样品SNP标志之间进行,以便证明与向法医样品贡献相比该受试者更可能对参比群体有贡献。

实施例13

法医样品可含有来自于一个或多个未知个体的遗传物质。本实施例证明本公开的方法如何用于确定复杂样品是否含有来自于一个或多个未知受试者的遗传物质。

分离并表征来自于法医样品的遗传物质以获得样品SNP标志。

分离并表征来自于受试者的遗传物质以获得受试者SNP标志。

分离并表征参比样品的遗传物质以获得参比SNP标志。受试者将是参比群体的成员,因此表现在参比SNP标志中。

比较三个SNP标志,结果表明受试者可能对法医样品中的遗传物质没有贡献,或者尽管受试者对法医样品确实有贡献,至少一个其他受试者(其SNP标志与该受试者的SNP标志不同)也对该法医样品有贡献。

实施例14

本实施例证明一种确定一些受试者中是否任何一个对测试遗传物质样品有贡献的方法。

分离并表征来自于法医样品的遗传物质以获得样品SNP标志。

分离并表征来自于100名受试者的遗传物质以获得受试者SNP标志。受试者SNP标志包括100名受试者中多个SNP标志的平均频率。

分离并表征来自于参比群体的遗传物质以获得参比SNP标志。

如本文的描述比较三个SNP标志。结果证明100名受试者中至少一个对测试遗传物质样品有贡献。在备选配置中,可进行另外的比较以确定100名受试者中哪一个对测试遗传物质样品有贡献。

实施例15

本实施例概述如何可以分析SNP标志。获得参比SNP标志、受试者SNP标志和样品SNP标志。每个标志包括来自于SNP微阵列的强度水平,该微阵列来自于参比样品、受试者样品或测试遗传物质样品微阵列之一。然后以后验相对风险比的形式比较两种模型,一种中假定感兴趣的个体在混合物中,另一种中假定感兴趣的个体不在混合物中(如上文详细描述中所解释的)。使用贝叶斯推断获得两种模型的每一种的可能性以精确评价观察的概率(如上文详细描述中所解释的)。通过这种方法,产生了观察的更强且更精确的模型,给出了证据的更好的统计学测量。

通过引用的并入

本文引用的所有参考文献,包括专利、专利申请、论文、教科书等以及其中引用的参考文献,在其尚未引入的程度,其全文通过引用并入本文。在一个或多个所并入的文献和相似材料与本申请不同或相抵触的情况下,包括但不限于定义的术语、术语用法、描述的技术或诸如此类,以本申请为准。此外,“Resolving Individuals Contributing Trace Amounts of DNA toHighly Complex Mixtures Using High-Density SNP Genotyping Microarrays(使用高密度SNP基因分型微阵列解析对高度复杂混合物贡献痕量DNA的个体),”PLoS Genentics(科学公共图书馆:遗传学),August 2008,Vol.4,8,第1-9页的全文通过引用并入本文,包括任何关于其中公开的方法的讨论、那些方法的多种应用、有关该方法的多种公式以及如何定义和获得那些公式的多种成分。

等同形式

前面的描述和实施例详述了本发明的某些具体实施方案并描述了发明人想到的最佳方式。然而应当理解,无论前文在文本上显得多么具体,本发明可以许多方式实施,并且本发明应当根据所附的权利要求及其任何等同形式来解释。

在详细描述或附图描述或权利要求书中使用的词语“功能”、“手段”或“步骤”无意表明希望采用35U.S.C.§112,6中的特别条款来定义本发明。相反,如果请求采用35U.S.C.§112,6条款来定义本发明,权利要求中将特别且明确地使用精确的短语“用于……的装置”或“用于……的步骤”并还将叙述词语“功能”(即,将说明“用于实施[插入功能]的功能的手段”),还不在此类短语中叙述任何支持该功能的结构、材料或动作。因此,即使当权利要求叙述“用于实施……功能的装置”或“用于实施……功能的步骤”,如果权利要求还叙述了任何支持该装置或步骤或实施所叙述的功能的结构、材料或动作,则也不采用35U.S.C.§112,6条款。此外,即使采用了35U.S.C.§112,6条款来定义所要求保护的发明,意图是本发明不仅限于在优选实施方案中描述的具体结构、材料或动作,而是另外包括实施所请求保护的功能的任何和所有结构、材料或动作(如在本发明备选实施方案或形式中描述的),或现在熟知或以后开发的用于实施所请求保护的功能的等同的结构、材料或动作。

附件A

此页空白

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号