首页> 中国专利> 用于高通量筛选的组合序列条形码

用于高通量筛选的组合序列条形码

摘要

本发明涉及至少两个核苷酸序列标识符的组合在制备用于高通量测序的样本DNA中的方法和用途。因此,在多种制备的样本DNA的高通量测序中,样本DNA的各制备包括至少两个核苷酸序列标识符的独特组合,其中第一核苷酸序列标识符选自核苷酸序列标识符的一组,且第二核苷酸序列标识符选自核苷酸序列标识符的一组。

著录项

  • 公开/公告号CN102933721A

    专利类型发明专利

  • 公开/公告日2013-02-13

    原文格式PDF

  • 申请/专利权人 凯津公司;

    申请/专利号CN201180028072.1

  • 申请日2011-06-08

  • 分类号C12Q1/68(20060101);C12N15/10(20060101);

  • 代理机构11314 北京戈程知识产权代理有限公司;

  • 代理人程伟;韩文华

  • 地址 荷兰瓦赫宁恩

  • 入库时间 2024-02-19 18:28:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-12-02

    授权

    授权

  • 2013-06-12

    实质审查的生效 IPC(主分类):C12Q1/68 申请日:20110608

    实质审查的生效

  • 2013-02-13

    公开

    公开

说明书

技术领域

本发明涉及分子生物学领域,尤其涉及用于测序方法的样本DNA的制备。更 具体地,本发明涉及用于高通量测序的核苷酸序列标识符的用途。

背景技术

对低成本测序的高度需求已带动了高通量测序技术的发展。在这种技术中, 平行生产数以百万计的序列。例如,454 Life Sciences,现在Roche Applied Sciences 开发出了样本DNA的高通量测序技术,其涉及步骤:使DNA片段化,将接头连 接至DNA片段,用包被有引物的珠捕获单一DNA片段,在油中的水滴内部在珠 上扩增各DNA片段(乳液PCR(emulsion PCR)),随后各珠装载到皮升的孔中, 并用焦磷酸测序对各扩增的DNA片段进行测序。一般情况下,高通量测序技术涉 及将接头连接至DNA片段(接头可包括用于捕获的引物结合位点)、DNA片段的 扩增和/或测序。因为可以产生大量的序列,来自不同来源的样本往往组合于单次 高通量测序运行中。为了从样本池(pool)中追溯各样本的来源,目前的高通量测 序应用依赖于核苷酸序列标识符的使用。术语核苷酸序列标识符(NSI,(基于序 列的条形码或序列索引是可互换的术语并且具有相同的含义。核苷酸序列标识符 是一段特定的核苷酸序列,该序列被用作标识符。核苷酸序列标识符包含在引物 结合位点的接头下游,从而当从引物结合位点测序时,标识符序列的核苷酸序列 得以确定。将包含不同核苷酸序列标识符的不同接头连接至不同样本,之后可以 合并样本。当合并样本的序列被确定时,核苷酸序列标识符随着接头所连接的片 段的部分序列被一起测序。因此核苷酸序列标识符的存在或不存在确定池中样本 DNA的存在或不存在。随着核苷酸序列标识符被一起测序的内部序列的序列,进 一步使得能够将该序列指定到其所来源的特定样本,因为核苷酸序列标识符用来 鉴定样本DNA来源。

例如,由Roche开发的高通量测序系统(Genome Sequencer FLX系统)使用 多重标识符序列(multiplexed identifier sequence,MID)。MIDs是10-mer序列, 其并入接头以便将序列读取指定到单个样本。目前正在使用的有超过100个不同 的MIDs(454 Life Science Corp(2009)Technical Bulletin No.005-2009)。相似的核 苷酸序列标识符可用于其它测序系统。

例如,Rigola等人PLoS ONE.2009;4(3):e4761和WO 2007/037678中描述了 这样的方法,在其中核苷酸序列标识符并入引物5′端。通常,核苷酸序列标识符和 靶序列没有显著的互补性。因此,引物在5′端含有包含核苷酸序列标识符的一段以 及在3′端含有和靶序列互补的序列。当用引物对(引物包括核苷酸序列标识符)扩 增样本时,扩增子将包括核苷酸序列标识符。当随后合并样本,并进行高通量测 序方法时,核苷酸序列标识符将用来鉴定所测序的扩增子的来源。因此,通过确 定核苷酸序列标识符确定扩增子的来源。同时,已被扩增并随着核苷酸序列标识 符一起被测序的内部序列也可以被追溯到其所来源的样本。

在这两种情况下,包括核苷酸序列标识符的接头或引物概念是相同的,即确 定使用高通量测序平台从多个DNA样本所产生的序列的样本来源,其中DNA样 本在样本制备过程中的某些时刻已被多路化(multiplexed),如被组合或被合并。

发明内容

自推出以来,高通量测序技术能力的能力每两年提高一个数量级。采用高通 量测序,使得可以多路化越来越多的样本数,为了鉴定样本来源所需的独特接头 或引物的数目也越来越多。尽管使用100个不同引物或接头可能已具有挑战性, 当数目增至1000时,这可能会成为瓶颈。因此,需要能够减少所要使用的引物和 /或接头的数目,因为这可简化样本制备、可减少工作量、可优化技术性能并能降 低成本。本发明使得能够减少所需不同的引物和/或接头的数目。通过使用所谓的 “分割条形码(split barcode)”可减少数目。根据本发明的分割条形码是出现在至 少两个接头和/或引物上的核苷酸序列标识符。使用例如引物对和/或一对接头制备 样本DNA(或样本DNA的组合),对中的各引物或接头含有一个核苷酸序列标识 符。产生的扩增子或接头连接的DNA片段包括至少两个核苷酸序列标识符。对于 各不同样本,可以使用核苷酸标识符的独特组合。核苷酸序列标识符的组合,也 一起表示为分割条形码,用作标识符。

附图说明

图1.用两个核苷酸序列标识符从样本DNA制备扩增子的方法。提供样本 DNA(1),样本DNA包括两侧为两个引物结合位点(P1和P2)的内部序列(IS), 以及一对扩增引物(2),扩增引物在3′端包括和引物结合位点互补的序列以及在其 5′(端)包括核苷酸序列标识符(NSI1和NSI2)。用扩增引物扩增样本DNA(3), 产生在两侧带有两个核苷酸序列标识符的扩增子(5′表示核苷酸链的5′端,3′端没 有注解)。

图2.用两个核苷酸序列标识符从样本DNA制备接头连接的DNA片段的方 法。

提供样本DNA(1),使其片段化提供DNA片段(2),提供包括第一和第二 NSI(NSI1和NSI2)的一对接头(3),接头连接到DNA片段的两端,产生接头 连接的DNA片段(4)(5′表示核苷酸链的5′端)。

图3.用2、3或4个核苷酸序列标识符从样本DNA制备扩增的接头连接的 DNA片段的方法。

提供样本DNA(1),使其片段化提供DNA片段(2),提供一对接头,其中 的至少一个包括NSI(NS1和任选(NS2))且两者都包括引物结合位点(P1和P2), 接头连接DNA片段(3),即内部序列(IS),产生接头连接的DNA片段(4),其 在接头连接的DNA片段两端包括引物结合序列。提供一对扩增引物(5),各在3′ 端包括和序列引物结合位点互补的序列,以及至少一个扩增引物在5′端包括核苷酸 序列标识符(NSI3或任选(NSI4))。用扩增引物的对扩增接头连接的DNA片段 (6)。结果(7)是含有至少两个NSI的扩增的接头连接的DNA片段。所述至少 两个NSI可以在IS两侧,和/或所述至少两个NSI可以在IS同一侧(5′表示核苷 酸链的5′端;括号表示在方法中纳入第二和/或第四NSI是任选的)。

图4.用2、3或4个核苷酸序列标识符从样本DNA制备接头连接的扩增子的 方法。提供样本DNA(1),样本DNA包括两侧为两个引物结合位点(P1和P2) 的内部序列(IS),以及一对扩增引物(2),扩增引物在3′端包括和引物结合位点 互补的序列,以及引物中的至少一个在5′端包括核苷酸序列标识符(NSI1和任选 (NSI2))。用扩增引物扩增样本DNA(3),产生带有至少一个核苷酸序列标识符 的扩增子(4)。提供一对接头,接头包括第三和任选第四核苷酸NSI(NSI3和任 选(NSI4)),接头连接至扩增子的各端,从而提供接头连接的扩增子(6)。所述 至少两个NSI可以在IS两侧,和/或所述至少两个NSI可以在IS同一侧(5′表示 核苷酸链的5′端;括号表示此方法中纳入第二和/或第四NSI是任选的)。

图5.用于确定接头连接的DNA片段的两个核苷酸序列标识符的序列的方法。

提供样本DNA(1),使其片段化提供DNA片段(2),提供包括第一和第二 NSI(NSI1和NSI2)的一对接头(3),接头连接到DNA片段的各端,产生接头 连接的DNA片段(4)。各接头包括测序引物结合位点(SEQ1和SEQ2),任选各 包括扩增引物结合位点((P1)和(P2))。位点在接头中存在的顺序是:(P)-SEQ-NSI, 如(P1)-SEQ1-NSI1。连接到DNA片段的接头一侧是含有NSI的一侧。可任选 用针对引物结合位点的引物扩增接头连接的DNA片段(4)。接头连接的DNA片 段的各链,可作为用于测序反应的模板。所用的一个模板链表示如下:3′-(P1) -SEQ1-NSI1-IS-NSI2(P2)-SEQ2-5′,其中测序引物是用来针对SEQ1的。

提供测序引物,从而从各模板从SEQ1或SEQ2确定NSI的序列。可分别确定 该序列。可连续确定该序列,如,比如在配对末端测序中(5′表示核苷酸链的5′ 端)。

图6.用于确定接头连接的DNA片段的两个核苷酸序列标识符序列的方法: 单读取双标签。

提供样本DNA(1),使其片段化提供DNA片段(2),提供包括第一和第二 NSI(NSI1和NSI2)的一对接头,接头连接到DNA片段的各端(3),产生接头 连接的DNA片段(4)。各接头包括测序引物结合位点(SEQ1或SEQ2),任选各 包括扩增引物结合位点((P1)或(P2))。位点在两个接头中存在的顺序:(P1)- SEQ1-NSI1和SEQ2-NSI2-(P2)。接头连接至DNA片段,从而(P1)和(P2)位 点是接头连接的DNA片段的外侧位点(4),可任选用针对其的引物扩增接头连接 的DNA片段(5)。在使用SEQ1和SEQ2测序引物结合位点(即使用相应的不同 测序引物)的两个不同的测序反应中,接头连接的DNA片段的一条链,可作为测 序的模板。所用的模板链表示如下:3′-(P1)-SEQ1-NSI1-IS-SEQ2-NSI2-(P2) -5′(5′表示核苷酸链的5′端)。

图7.用于从样本DNA确定扩增子的两个核苷酸序列标识符的序列的方法。 提供样本DNA(1),样本DNA包括两侧为两个引物结合位点(P1和P2)的内部 序列(IS),以及一对扩增引物(2),扩增引物在3′端包括和引物结合位点互补的 序列以及在5′端包括测序引物结合位点(SEQ)。在扩增引物中上述二者之间,设 置核苷酸序列标识符。用扩增引物扩增样本DNA(3),产生在各侧带有两个核苷 酸序列标识符的扩增子,在扩增子的外端有两个SEQ(SEQ1和SEQ2)。扩增子的 各链可作为用于测序反应的模板。所用的一个模板链表示如下:3′-SEQ1-NSI1-P1 -IS-P2-NSI2-SEQ2-5′,测序引物是用来针对SEQ1的。提供测序引物,从而从各模 板确定NSI序列。可分别确定该序列。可连续确定该序列,如,比如在配对末端 测序中(5′表示核苷酸链的5′端)。

图8.用于从样本DNA确定扩增子的两个核苷酸序列标识符的序列的方法: 单读取双标签。提供样本DNA(1),样本DNA包括两侧为两个引物结合位点(P1 和P2)的内部序列(IS),以及一对扩增引物(2),扩增引物在3′端包括和引物结 合位点互补的序列(C1或C2)。除此之外,引物还包括NSI和测序引物结合位点, 包括不同位点/序列的不同引物表示如下:5′-SEQ1-NSI1-C1和C2-SEQ2-NSI2-5′。 用扩增引物扩增样本DNA(3),产生在各侧带有核苷酸序列标识符的扩增子,在 扩增子的一个外端有SEQ1,在另一外端有NSI2(4)。在使用SEQ1和SEQ2测序 引物结合位点(即使用相应的不同测序引物)的两个不同的测序反应中,扩增子 的一条链可作为测序的模板。所用的模板链表示如下: 3′-SEQ1-NSI1-P1-IS-P2-SEQ2-NSI2-5′(5′表示核苷酸链的5′端)。

图9.用于从样本DNA确定扩增子的四个核苷酸序列标识符的序列的方法: 单读取双标签。

提供样本DNA(1),样本DNA包括两侧为两个引物结合位点(P1和P2)的 内部序列(IS),以及一对扩增引物(2),扩增引物在3′端包括和引物结合位点互 补的序列(C1或C2)。除此之外,引物还包括NSI,以及引物之一还包括测序引 物结合位点。包括不同区段的不同引物表示如下:5′-NSI1-C1和C2-SEQ2-NSI2-5′。 用扩增引物扩增样本DNA(3),产生在扩增子的一个外端带有两个核苷酸序列标 识符的扩增子。之后,提供一对接头(4)。一个接头包括测序引物结合位点(SEQ1) 和NSI(NSI3),另一引物包括NSI(NSI4)。接头连接至扩增子的各端,产生接 头连接的扩增子,其中SEQ1区段在接头连接的扩增子的外端(5),SEQ1和SEQ2 在IS的两侧。在使用SEQ1和SEQ2测序引物结合位点(即使用相应的不同测序 引物)的两个不同的测序反应中,接头连接的DNA片段的一条链可作为测序模板。 所用的模板链表示如下:3′-SEQ1-NSI3-NSI1-IS-SEQ2-NSI2-NSI4-5′(5′表示核苷酸 链的5′端)。

图10.用于从样本DNA确定扩增子的四个核苷酸序列标识符的序列的方法。

提供样本DNA(1),样本DNA包括两侧为两个引物结合位点(P1和P2)的 内部序列(IS),以及一对扩增引物(2),扩增引物在3′端包括和引物结合位点互 补的序列(C1或C2)。此外,引物还包括NSI。包括不同区段的不同引物表示如 下:5′-NSI1-C1和C2-NSI2-5′。用扩增引物扩增样本DNA(3),产生在扩增子的 一个外端带有两个核苷酸序列标识符的扩增子。之后,提供一对接头(4)。各接 头包括测序引物结合位点(SEQ1或SEQ2)和NSI(NSI3或NSI4)。接头连接至 扩增子的各端,产生接头连接的扩增子,其中SEQ1和SEQ2区段在接头连接的扩 增子的外端(5)。接头连接的扩增子的各链可作为测序反应的模板。提供测序引 物,从而从各模板确定NSI序列。可分别确定该序列。可连续确定该序列,如, 比如在配对末端测序中。所用的模板链之一表示如下:3′-SEQ1- NSI3-NSI-1-P1-IS-P2-NSI2-NSI4-SEQ2-5′,其中使用的测序引物是针对SEQ1的(5′ 表示核苷酸链的5′端)。

图11.用引物对的扩增(UT1,通用尾1;BC1,条形码部分1,UT2通用尾 2;BCP2,条形码部分2)。

A.通用尾1可以是序列引物位点1(粗黑箭头)和通用尾2可以是序列引物 位点2(点画箭头),如,在Illumina GA配对末端测序的情况中的P5和P7。

B.通用尾1可以是序列引物位点1(粗黑箭头)和通用尾2可以是序列引物 位点2(虚线箭头),如,在具有从同一链的两次引物事件的Illumina GA测序的情 况中的P5和P7。

图12.一对条形码接头的连接(P5,P5+seq.pr.位点;BC1,条形码部分1; BC2,条形码部分2;P7,P7+seq.pr.位点;B,平端接头)。

A.EcoRI和Msel条形码接头连接至EcoRI/Msel消化的DNA,其中条形码部 分1(EcoRI侧)和2(Msel侧)的组合唯一地限定样本。

B.EcoRI和平端条形码接头连接至样本,其中先用EcoRI消化样本,随后是 EcoRI条形码接头连接(条形码1),随后将接头连接的片段进行片段化,补平 (polishing)任选端,随后是平端接头连接(条形码2),其中条形码部分1(EcoRI 侧)和条形码部分2(平端侧)的组合唯一地限定样本。

具体实施方式

定义

在如下描述和实施例中,使用了一些术语。为了提供对说明书和权利要求(包 括这种术语所给出的范围)清楚一致的理解,提供下面的定义。除非此处另有指 明,否则所用的所有技术和科学术语,同本发明所属领域的普通技术人员所通常 理解的,具有相同含义。所有出版物、专利申请、专利和其它参考文献的公开通 过参考其全部并入此处。

实施本发明方法中所用常规技术的方法对于技术人员而言将是显而易见的。 分子生物学、生物化学、计算化学、细胞培养、重组DNA、生物信息学、基因组 学、测序和相关领域中的常规技术操作对于本领域技术人员是公知的,并在例如 以下参考文献中进行了讨论:Sambrook等人,Molecular Cloning.A Laboratory Manual,第二版,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y., 1989;Ausubel等人,Current Protocols in Molecular Biology,John Wiley & Sons,New York,1987及其定期更新;以及丛书Methods in Enzymology,Academic Press,San Diego。

如本文所用,单数形式“一”、“一个”和“该”包括复数指代,除非上下 文清楚地另有指明。例如,分离DNA包括分离多个DNA分子(如10个、100个、 1000个、1万个、10万个、百万个、或者更多分子)。

“核苷酸序列”,根据本发明可包括核苷酸(比如嘧啶和嘌呤碱基,分别优 选为胞嘧啶、胸腺嘧啶和尿嘧啶,以及腺嘌呤和鸟嘌呤)的任何聚合物或寡聚物, 及其组合(见Albert L.Lehninger,Principles of Biochemistry,793-800(Worth Pub. 1982),其被整体引用并纳入此处用于各个目的)。本发明考虑任何脱氧核糖核 苷酸、核糖核苷酸或肽核酸组分,及其任何化学变体,比如这些碱基的甲基化、 羟甲基化或糖基化形式等。聚合物或寡聚物在组成方面可以是异质的或均质的, 并且可以分离自天然发生的来源或者可以是人工或合成生产的。此外,核苷酸序 列可以是DNA或RNA,或其混合物,并且可以以单链或双链形式永久或暂时存 在,包括同源双链、异源双链和杂交状态。

“样本DNA”根据本发明是指源自生物体并包含DNA的样本。“样本DNA” 不仅可包括来自包含DNA的生物体的细胞,还包括从来自生物体的细胞分离的 DNA。只要“样本DNA”包括可用于本发明方法中的DNA,这样的样本DNA就 可用于本发明。从其可获得样本DNA的生物体是例如植物、哺乳动物、真菌和微 生物。样本DNA也可包括表达的序列标签或cDNA,其中由于RNA表达于生物 体的细胞中,通过反转录将其转换成双链DNA。样本DNA也可包括获自生物体 不同位点、和/或获自几个不同生物体的合并的样本DNA。合并的样本DNA可被 合并于例如一个3-D池方案(pooling scheme)中,从而可确定包括在样本DNA 中的各样本的来源(例如,如WO2007/037678中描述的)。

“片段化DNA”包括当应用到样本DNA时产生DNA片段的任何技术。本 领域公知的技术是超声、剪切和/或酶限制,但也可考虑其它技术。

“限制性内切酶”或“限制性酶”是一种酶,其识别例如双链DNA分子中的 特异性核苷酸序列(识别位点),并将在每个识别位点处或附近切割DNA分子的 两条链,产生平的或3′-或5′-突出端。识别的特异性核苷酸序列可确定切割的频率, 如6个核苷酸的核苷酸序列发生在平均每4096个核苷酸上,4个核苷酸的核苷酸 序列发生得更频繁地,出现在平均每256个核苷酸上。I型限制性酶在不同于其识 别位点的地方切割,离其识别位点有一定的距离(至少1000bp)。识别位点是不 对称的,并且由两个部分组成—一个含3-4个核苷酸,另一个含4-5个核苷酸— 由约6-8个核苷酸的间隔分开。II型限制性酶具有通常未分割的和回文的且4-8个 核苷酸长的识别位点。它们在同一位点识别和切割DNA。IIs型在其识别序列之外 进行切割,IIB型在其识别位点的两侧切割DNA来切掉识别位点。III型限制性酶 (如,EcoP15)识别两个单独的反向的非回文序列。它们在识别位点后切割DNA 约20-30个碱基对。IV型限制性酶切割甲基化DNA。

“补平”包括用于使具有3′或5′突出的双链核苷酸序列变为平端的任何技术。 例如,在这种情况,使用超声或使用酶使样本DNA片段化产生交错的(突出)端。 DNA聚合酶I、大(Klenow)片段可以用来填补5′突出(也称为3′凹端)且去掉 3′突出,或绿豆核酸酶可以用来去掉3′或5′突出。

“连接”根据本发明涉及单独双链核苷酸序列的连接。双链DNA分子可以是 平端的,或可具有兼容的突出(粘性突出),从而突出可以彼此杂交。DNA片段 的连接可以是利用连接酶、DNA酶的酶促的。然而,也可使用非-酶促连接,只要 DNA片段被连接上,即形成共价键。通常,在连接反应中,形成单独链的羟基和 磷酸基团之间的磷酸二酯键。双链核苷酸序列可在连接之前被磷酸化。

“扩增引物”是指可以引发DNA合成的单链核苷酸序列。DNA聚合酶没有 引物不能从头合成DNA。扩增引物杂交至DNA,即形成碱基对。可以形成碱基对 的核苷酸彼此是互补的,例如胞嘧啶和鸟嘌呤、胸腺嘧啶和腺嘌呤、腺嘌呤和尿 嘧啶、鸟嘌呤和尿嘧啶。扩增引物和存在的DNA链之间的互补性无需为100%, 即并非引物的所有碱基都需要与存在的DNA链碱基配对。扩增引物所杂交(或部 分杂交)的存在的DNA链(如样本DNA或接头连接的DNA片段)的序列,通 常被称为引物结合位点(PBS)。从与存在的DNA链杂交的引物的3′端,使用存 在的链作为模板并入核苷酸(模板指导的DNA合成)。我们也可涉及合成的寡核 苷酸分子,其在扩增反应中用作“引物”。扩增反应中新合成的核苷酸序列可被 称为内部序列。一旦进行PCR反应,内部序列通常是两个引物结合位点之间的序 列。根据本发明,可以在扩增步骤中使用引物向DNA引入额外的序列。这可以通 过提供具有额外序列(如标识符、测序接头或捕获配体如生物素部分)的引物来 实现。可以通过在引物的5′端提供修饰,而在来自引发DNA合成的引物部分上游 引入修饰。

“扩增”或“扩增”是指多核苷酸的扩增反应,即,一群多核苷酸从一个或 多个起始序列被复制。扩增可涉及各种的扩增反应,包括但不限于聚合酶链反应 (PCR)、线性聚合酶反应、基于核酸序列的扩增、滚环扩增等反应。通常情况下, 扩增引物用于扩增,扩增反应的产物是扩增子。

“测序引物”指的是单链核苷酸序列,其可以引发DNA的合成,并用于测序 DNA。扩增引物也可用作测序引物。测序引物可用作扩增引物。没有引物DNA聚 合酶不能从头合成DNA。测序引物杂交至DNA,即形成碱基对。可以形成碱基对 的核苷酸彼此是互补的,例如胞嘧啶和鸟嘌呤、胸腺嘧啶和腺嘌呤、腺嘌呤和尿 嘧啶、鸟嘌呤和尿嘧啶。扩增引物和存在的DNA链之间的互补性无需为100%, 即并非引物的所有碱基都需要与存在的DNA链碱基配对。测序引物所杂交(部分 杂交)的存在的DNA(如样本DNA或接头连接的DNA片段)链的序列,通常被 称为测序引物结合位点(SEQ)。从与存在的DNA链杂交的测序引物的3′端,使 用存在的链作为模板并入核苷酸(模板指导的DNA合成)。在合成过程中,可以 检测到特定核苷酸(A、T、C或G)的并入,如焦磷酸测序法或者当使用荧光标 记的核苷酸时。或者,可以使用链终止法,如Sanger测序或染料终止测序。在任 何情况下,只要可以通过用测序引物合成DNA并检测并入的核苷酸和/或合成的 片段来确定DNA模板的核苷酸顺序,就可以考虑这些和其它方法。

“测序”是指确定核酸样本如DNA或RNA中核苷酸(碱基序列)的顺序。 可获得许多技术,如Sanger测序和高通量测序技术(HTS)。Sanger测序可涉及 通过(毛细管)电泳检测的测序,其中多达384个毛细管可在一次运行中进行序 列分析。高通量测序涉及在一次当中平行测序数千或数百万或更多的序列。HTS 可以被定义为下一代测序(即基于固相焦磷酸测序的技术)或定义为下-下代测序 (基于单核苷酸实时测序(SMRT))。HTS技术是可用的,如Roche、Illumina 和Applied Biosystems(Life Technologies)所提供的。其它高通量测序技术由如下 描述和/或获得:Helicos、Pacific Biosciences、Complete Genomics、Ion Torrent Systems、Oxford Nanopore Technologies、Nabsys、ZS Genetics、GnuBio。这些测 序技术的每一个在实际测序步骤前有自己的制备样本的方式。这些步骤可包括在 高通量测序方法中。在某些情况下,出于效率或经济的原因,特别是用于测序步 骤的步骤可能被整合到实际测序步骤前的样本制备操作中。例如,连接到片段的 接头可包含可用于随后测序步骤的区段(所谓的测序接头)。或用于在测序之前 扩增片段子集的引物,在其序列中可包含引入区段的部分,该区段可被用于之后 的测序步骤中,例如,通过经由扩增步骤在扩增子中引入可用于随后测序步骤的 测序接头或捕获部分。还取决于所使用的测序技术,扩增步骤也可以省略。

“接头”是具有有限数目的碱基对的短双链DNA分子,例如约10至约100 个碱基对的长度,它是这样设计的,它们可以被连接到DNA片段或扩增子的端部。 接头通常由两个合成的寡核苷酸组成,合成的寡核苷酸具有至少部分地彼此互补 的核苷酸序列。接头可能有平端、可能有交错端、或平端和交错端。交错端是一 个3′或5′突出。当在溶液中在适当的条件下混合两个合成的寡核苷酸时,它们将彼 此退火形成双链结构。退火后,接头分子的一端可以经过设计,从而使得它和限 制性片段的端兼容,并可以连接至此;接头的其它端可以经过设计,从而使得它 不被连接,但不一定是这样,例如当接头连接于DNA片段之间时。在某些情况下, 接头可以连接至片段上以提供进行接头连接片段的后续操作的起点,例如用于扩 增或测序。在后者的情况下,所谓的测序接头可被连接至片段上。

发明详述

根据本发明的第一方面,提供了至少两个核苷酸序列标识符的组合在制备用 于高通量测序的样本DNA中的用途。因此,提供了包括这样的步骤的方法,其中 至少两个核苷酸序列标识符的组合用于制备用于高通量测序的样本DNA。通过根 据此处的样本DNA的制备,意味着这样制备样本DNA从而至少两个NSI包括在 样本DNA中,即至少两个NSI包括在例如扩增子和/或接头连接的DNA片段或其 扩增子中。因此所述至少两个NSI包括在样本DNA的核苷酸序列中从而单个多核 苷酸分子包括至少两个NSI。NSI的组合作为样本DNA的独特标识符(分割条形 码)。

从设计的角度,对可用的核苷酸序列标识符的数目没有实际限制。例如,一 个核苷酸就已经可以作为核苷酸序列标识符。因此,可设计4个不同的核苷酸序 列标识符:A、G、C或T。这种单个核苷酸标识符两侧的序列可用于引导NSI的 鉴定。通过增加条形码的大小,可能性的数目增加。三个DNA碱基允许64种可 能的3-mer序列(43)、256种可能的4-mers序列(=44)、1024种可能的5-mers 序列(=45)、以及4096种可能的7-mers序列(=46)等。然而实际上,优选选择 来自这些序列的子集,来避免在相同实验中使用仅有一个碱基区别(比如,例如 在4-mers情况中GATC和GATT)的核苷酸序列标识符,因为这可导致在一个碱 基扩增-或测序误差的情况下的错误指定。相似地,可优选避免使用具有两个相同 的连续的碱基的核苷酸序列标识符(如在5-mer情况中AATGC具有两个连续的 A),因为某些NGS平台对所谓的“同聚物”序列有较高的误差率。尽管这种选 择准则,通常不缺少合适的核苷酸序列标识符,因为其长度增加一个碱基就产生 高四倍的可从中选择的起始数目。

因此,例如当在制备的样本DNA的高通量测序方法中确定两个NSI序列时, 两个NSI的组合确定制备的样本DNA的来源。这种方式可显著减少NSI的数目, 并且因此例如可显著减少所要用的不同引物和/或接头的数目。例如,对于100个 样本,目前使用100个NSI,如包括NSI的100个不同正向引物同一个反向引物 组合。根据本发明,通过使用分割条形码,10个NSI就足够了,并且因此可使用 10个不同的正向引物和10个不同的反向引物,由此可产生100个独特组合。因此, 所要用的引物总数显著减少,数目从101个引物降低到20个引物。因此,降低了 样本制备流程的复杂程度、增加了样本等同表示(representation)的可能、降低了 工作量和所需的储存容量并降低了实验成本。

在另一实施方式中,提供了至少两个NSI的组合在制备用于高通量测序的样 本DNA中的用途,其中在高通量测序中使用多个制备的样本DNA,其中各样本 DNA制备包括至少两个NSI的独特组合,其中第一NSI选自一组NSI,且第二 NSI选自一组NSI。

所用的NSI的组包括所有NSI。对于各样本DNA,核苷酸序列标识符选自这 样的组。这意味着对于样本DNA对于至少两个NSI,可以在NSI的组合中选择相 同的NSI。此外,对于样本DNA对于至少两个NSI,可以在NSI的组合中选择不 同的NSI。只要NSI的组合对于各样本DNA是独特的,这种组合就可用。NSI的 组还可包括至少两个NSI的亚组,其中各第一和第二NSI可选自不同亚组。除了 第一和第二NSI,其它可用的NSI选自NSI的组。一组NSI可包括至少4、10、 100或1000个NSI。

应当理解,其中贯穿本发明提供一组NSI,该组可实质上提供,即不是物理上 的。例如该组可在计算机上(in silico)和/或物理上(in physico)提供。例如,一 组NSI可作为一个序列列表而提供。NSI可选自该列表并用于在计算机上设计引 物和/或接头。因此应理解,提供一组NSI和提供接头的随后步骤可包括在计算机 上提供一组NSI(其选自计算机上的NSI组)、在计算机上设计接头、和随后物 理上提供包括NSI的接头。或者,还可物理上提供NSI并直接使用,例如,在这 样的情形中,其中使用由核苷酸序列标识符组成的接头。或者例如,可物理上提 供NSI并连结(如连接或其它)至其它核苷酸链,从而产生接头和/或扩增引物, 从而提供包括NSI的接头和/或扩增引物。

本发明的原理是通过使用至少两个不同核苷酸序列标识符产生大量独特组 合,其中核苷酸序列标识符并入各样本,以及探索倍增的能力以便减少预付的试 剂成本。在表1中显示了对于两个NSI的一些数学最优情况。

表1.具有两个NSI的NSI最优组合

如所述,概念并不限于表2中所示的实例,但也可以考虑其它的组合。例如, 可选择次优的组合。也可以选择可能涉及两个以上NSI的组合。例如,利用10个 NSI,组合四个NSI,10×10×10×10=10,000个的独特组合是可能的。在所用的 设计和/或组合策略中,也要考虑实践上的考虑,如涉及样本DNA的制备的实践 考虑。

制备的样本DNA是已经进行处理的样本DNA,借此至少两个核苷酸序列标 识符包含在DNA中,即至少两个NSI包括在含有两个NSI和来自样本DNA的序 列的DNA分子中。DNA分子可以是双链DNA分子或单链DNA分子。应了解制 备的样本DNA可包括多个不同的DNA分子,各DNA分子含有NSI的独特组合, 从而各DNA分子可被指定到它源于的样本DNA。在高通量测序方法中,用高通 量测序可确定来自多个DNA分子的各DNA分子的序列。

在一个实施方式中制备的样本DNA包括扩增子。比如至少两个NSI包括在所 用的引物中来制备扩增子。因此扩增子包括来自所用的至少两个不同引物的至少 两个NSI。例如可在PCR反应中制备扩增子。也可从巢式PCR制备扩增子,即在 第一PCR反应中用第一套引物制备第一扩增子,随后由第二PCR反应用第二套引 物制备第二扩增子,其中第二套引物不同于第一套引物以及该第二套引物扩增第 一PCR反应的扩增子。例如可进行巢式PCR扩增非常低浓度的DNA序列,或例 如可以用来提供一个附加标识符或多个附加标识符。

在一个实施方式中,制备的样本DNA包括接头连接的DNA片段,样本DNA 进行片段化,并且接头连接到DNA片段。至少两个接头被连接到DNA片段,至 少两个接头中的每一个包括一个NSI。

在一个实施方式中,制备的样本DNA包括扩增子和接头连接的片段。

在一个实施方式中,制备的样本DNA包括扩增的接头连接的片段和/或接头 连接的扩增子。比如,随后样本DNA可进行片段化、接头连接和扩增。相反,样 本DNA可以例如随后进行扩增、片段化、和接头连接。在本实施方式中,样本 DNA制备中使用的所有扩增引物和/或接头中的至少两个包括NSI。

在一个实施方式中,根据本发明的方法包括:

a)提供接头和/或扩增引物,其中至少第一接头或扩增引物包括选自核苷酸序 列标识符的组的第一核苷酸序列标识符,提供第二接头或扩增引物,其包括选自 核苷酸序列标识符的组的第二核苷酸序列标识符,其中任选地,提供其它接头或 扩增引物,其包括选自核苷酸序列标识符的组的其它核苷酸序列标识符;

b)提供多个样本DNA;

c)使用接头和/或扩增引物在样本DNA上进行连接和/或扩增反应,以提供包 括第一、第二和任选其它核苷酸序列标识符的连接的和/或扩增的样本DNA;

d)使用高通量测序确定至少第一、第二和其它核苷酸序列标识符的序列;

e)确定连接的和/或扩增的样本DNA的样本来源。

只要在样本DNA的制备中,使用至少两个位于单个DNA分子末端的NSI, 其中单个DNA分子包括两个NSI和来自样本DNA的DNA序列,那么根据本发 明可以考虑这样的样本制备方法。因此,可以将单独的不同接头连接步骤和/或单 独的扩增步骤组合,以便在制备的样本DNA中纳入至少两个NSI。样本DNA的 制备也可包括不涉及NSI加入的步骤。

应了解,在样本DNA的制备中,也可包括在随后测序步骤中可进行的步骤, 反之亦然。随后测序步骤所需的步骤也可包括在样本DNA的制备中。例如,在测 序反应中,测序引物可用于结合模板中存在的测序引物结合位点。因此,样本DNA 制备中所用的接头和/或扩增引物可另外包括测序引物结合位点。或者,测序引物 结合位点可加入到高通量测序方法中,只要这些附加的序列是在靠后的阶段。

除了在高通量测序方法中至少两个NSI的测序,来自样本DNA的序列也可被 测序。这样的序列也被称为内部序列,因为这些是用样本DNA制备方法捕获和/ 或扩增的序列,并可能代表来自目标样本DNA的未知序列。这些内部序列也可随 着NSI一起被测序,从而可以通过NSI的组合确定包括这些内部序列的样本来源。 这种方式,例如通过比较内部序列和/或比较内部序列与参考序列,可检测不同样 本之间的多态性,如小核苷酸多态性、缺失、插入等。此外,这些内部序列也可 有助于将不同读取指定给制备的样本DNA,例如如下所述的情况中,其中不同的 测序读取用来建立重叠群。

高通量测序涉及数千或数百万或更多序列的一次平行测序。无论使用何种高 通量测序方法,确定制备的样本DNA的NSI,从而NSI的各组合可指定至制备的 样本DNA。例如,通过比对和组合不同测序读取可建立重叠群,借此至少两个NSI 可以偶联,并因此可以指定到包括至少两个NSI的单一DNA分子。此外,例如当 内部序列相对较大时,在从两端需要片段内部序列的情况下,优选可在制备的样 本DNA的互补链上进行两个测序反应。当两个测序读取可被指定到制备的样本 DNA时,其中包括至少两个NSI和来自样本DNA的DNA序列,就可以考虑这种 高通量测序方法。此外,在高通量测序方法中从单一测序读取可确定至少两个NSI。

例如,在所谓的配对末端测序法中,在第一测序反应中,使用链当中的一条 作为模板,可确定第一序列包括NSI。第一测序反应后,从首先用作模板的链可产 生互补链。使用这种新生成的链作为第二模板,可随后进行第二测序反应。因此, 在该方法中使用两个DNA模板链。例如,第一测序模板链的结构可以是3′-序列引 物结合位点1-NSI1-内部序列-反向互补NSI 2-反向互补序列引物结合位点 2-5′。第一次测序反应后,可以产生第一测序模板链的反向互补,其随后可用在第 二测序反应中。第二测序反应因此具有下面的模板:3′-序列引物结合位点2-NSI 2 -反向互补内部序列-反向互补NSI 1-反向互补序列引物结合位点1-5′。因为这两 个序列读取共同定位(如,在相同的孔中,相同的珠),含有NSI 1和NSI 2的两 个序列读取可指定给相同的制备的样本DNA并用于鉴定制备的样本DNA。样本 制备和随后测序的这种情形描述于图5、7和10中。

在一个实施方式中,在高通量测序方法中,使用制备的样本DNA的单一DNA 模板。通过根据本发明的单一DNA模板是指包括至少两个核苷酸序列标识符的单 链DNA分子。应了解,来自制备的样本DNA的单一DNA模板可包括多个单一 DNA模板分子,例如包括源自样本DNA的不同内部序列,其中各不同内部序列 连接有NSI的独特组合。例如当制备的样本DNA是扩增子(或多个扩增子)时, 扩增子包括两条DNA链。在本实施方式中,只有扩增子的一条链用于测序反应以 确定NSI序列。通过这种方式,可确定制备的样本DNA的来源,而不需要建立重 叠群和/或不需要源自另一DNA模板的序列。NSI可在制备的样本DNA的内部序 列两侧。NSI也可以在制备的样本DNA的(内部序列的)一侧。在这些情况下, 制备的样本DNA的单一DNA模板分子可以具有下列结构:3′-序列引物结合位点- NSI1-内部序列-NSI2-5′或3′-序列引物结合位点-NSI1-NSI2-内部序列-5′。制 备的样本DNA可包括附加的序列。序列引物结合位点、NSI和内部序列的顺序是 此结构表示中所关注的。在样本DNA的制备过程中和/或高通量测序方法中可纳 入序列引物结合位点。高通量测序中产生的序列的长度和/或质量可能是有限的。 另一方面,测序长度可能会受到限制,使得不能确定内部序列两侧的两个NSI。有 利的是,使NSI位于内部序列的一侧上,即首先测序的单一DNA模板的部分,从 而在单一读取中可以确定两个序列。NSI也可以位于内部序列的两侧。

在一个实施方式中,使用的单一DNA模板可包括两个测序引物结合位点,其 中各测序引物结合位点位于不同核苷酸序列标识符的3′。一般情况下,单一DNA 模板可包括第一区段和第二区段,两者之间是源自样本DNA的内部序列。第一区 段包括测序引物结合位点,位于其5′是NSI和任选其它NSI,第二区段包括第二测 序引物结合位点,位于其5′是NSI和任选其它NSI。在这种情况下,制备的样本 DNA的单一DNA模板可以具有下列结构:3′-序列引物结合位点1-NSI 1-内部 序列-序列引物结合位点1NSI2-5′。制备的样本DNA可包括附加序列。序列引物 结合位点、NSI和内部序列的顺序是此结构表示中所关注的。因此,测序引物结合 位点可直接位于核苷酸序列标识符的3′,但附加序列也可以存在于测序引物结合位 点和核苷酸序列标识符之间。在这种情况下,从单一模板,在高通量测序方法中 可以连续进行两个不同的测序反应。一个测序反应将确定一个(或多个)NSI,以 及第二测序反应(确定)第二NSI(或更多)。在使用相同模板的高通量测序方法 中所进行的本实施方式的两个测序反应,此后可以被称为“单读取双标签”测序。 这种单读取双标签的情形描述于图6、8和9。

在所用的样本制备期间和/或高通量测序方法期间,可以合并不同样本或不同 样本的部分,从而可以同时进行的步骤可以同时进行。样本来源可能仍确定为无 样本或不同样本的部分被合并,借此可能无法再追溯样本的来源。例如,在这样 的情形中,在样本DNA的制备中,在不同步骤中加入NSI,可有助于在这样的步 骤后合并至少一部分制备的样本。例如,在这样的情形中,其中6个NSI用于36 个样本,各样本DNA首先进行这样的步骤,即加入6个不同NSI(A-F)中之一。 可以合并包括独特标识符的样本(A1、B1、C1、D1、E1、F1),现在各池可接 受6个标识符之一的加入,6个的每组具有独特第二标识符(A2、B2、C2、D2、 E2或F2),其中A1和A2等可以或可以不是相同的。最后,一旦制备所有样本 DNA,可通过任何可能的方式合并制备的样本DNA(部分或作为一个整体),因 为现在合并至少两个独特标识符。

用于鉴定包括至少两个NSI独特组合的制备的样本DNA的样本来源,不同方 法是可能的。

在本发明的一个实施方式中,提供一种用于从多个样本DNA鉴定扩增子样本 来源的方法,其包括步骤:

a)提供多个样本DNA;

b)提供一组核苷酸序列标识符;

c)提供第一扩增引物,各第一引物包括选自核苷酸序列标识符的组的第一核 苷酸序列标识符;

d)提供第二扩增引物,各第二引物包括选自核苷酸序列标识符的组的第二核 苷酸序列标识符;

e)用一对独特的第一和第二扩增引物扩增各样本DNA,得到扩增子;

f)任选地,合并至少部分扩增子;

g)使用高通量测序确定扩增子的第一标识符序列和第二标识符序列的序列;

h)确定扩增子的样本来源。

本实施方式的这个方法的样本制备的示意图显示于图1。在该方法中两个NSI 包括在第一和第二扩增引物中。扩增子包括两个NSI。扩增引物可被设计成用于扩 增感兴趣的特定内部序列。通过对扩增子的至少部分内部序列和两个NSI进行测 序,各测序的(部分)内部序列可被指定到其所来自的样本DNA。或者,可以这 样设计扩增引物使得它们选择性的针对特定引物结合位点。仅通过确定两个NSI 的序列,来确定特定样本DNA的扩增子的存在或不存在。使用的扩增引物可具有 适合接头连接的磷酸化5′端,其可用于随后的高通量测序方法。或者,如果需要的 话,扩增子可被磷酸化。

在一个实施方式中,提供一种用于从多个样本DNA鉴定接头连接的DNA片 段的样本来源的方法,其包括步骤:

a)提供多个样本DNA;

b)提供一组核苷酸序列标识符;

c)提供第一接头,各第一接头包括选自核苷酸序列标识符的组的第一核苷酸 序列标识符;

d)提供第二接头,各第二接头包括选自核苷酸序列标识符的组的第二核苷酸 序列标识符;

e)各样本DNA进行片段化;

f)将一对独特的第一和第二接头连接至各片段化的样本DNA,得到接头连接 的DNA片段;

g)任选地,合并至少部分接头连接的DNA片段;

h)使用高通量测序确定接头连接的DNA片段的第一标识符序列和第二标识 符序列的序列;

i)确定接头连接的DNA片段的样本来源。

显示本实施方式的方法的样本制备的示意图显示于图2。在该方法中,两个接 头连接到DNA片段。如图2中所示,接头可连接至片段的两个位点中的任一个。 这特别适合于使用这样的接头连接策略的高通量测序方法。许多将两个不同接头 连接至片段的策略是可能的。例如,首先用带有两个不同识别位点的两种限制性 酶对DNA进行片段化。这不仅产生这样的DNA片段,其具有作为一种限制性酶 的结果的端部,还产生这样的片段,其具有作为两种限制性酶的结果的端部。当 这样设计两种不同接头使其可以连接到各端的特异性限制性端时,可以形成包括 两个不同接头的接头连接的片段。此外,形成包括两个相同接头的接头连接片段。 或者,例如可使用单一限制性酶将DNA片段化,随后向其连接兼容接头。接下来, 可再次将接头连接的片段片段化,但这次使用例如超声。接下来将片段的端补平, 并向补平的端连接平端接头。其结果是接头连接的片段的混合物,包括含有限制 性酶兼容接头和平端兼容接头的接头连接的片段。在这两种情形中,形成可包括 两个NSI的接头连接的片段。只能确定包括两个不同接头的接头连接的片段的样 本来源,因为它是确定样本来源所需的两个NSI的组合。

在一个实施方式中,提供一种用于鉴定接头连接的扩增子的样本来源的方法, 其包括步骤:

a)提供多个样本DNA;

b)提供一组核苷酸序列标识符;

c)提供第一扩增引物;

d)提供第二扩增引物;

e)用一对第一和第二扩增引物扩增样本DNA,得到扩增子;

f)任选地,合并样本DNA的至少部分扩增子,其中各样本DNA是利用不同 的引物对进行扩增的;

g)任选,扩增子进行片段化;

h)提供第一接头,各第一接头包括选自核苷酸序列标识符的组的第一核苷酸 序列标识符;

i)提供第二接头,各第二接头包括选自核苷酸序列标识符的组的第二核苷酸 序列标识符;

j)任选,提供其它接头,各接头包括选自核苷酸序列标识符的组的其它核苷 酸序列标识符;

k)将第一接头连接至(片段化的)扩增子;

l)任选地,合并来自步骤k)的至少部分接头连接的扩增子;

m)用第二和其它接头重复连接步骤,各连接步骤之后任选地,合并至少部分 获得的接头连接的扩增子;

n)使用高通量测序确定步骤m)中获得的接头连接的扩增子的第一、第二和 任选其它标识符序列的序列;

o)确定接头连接的扩增子的样本来源。

在本实施方式中,各样本DNA进行至少一个PCR扩增反应。对各样本可以 进行多重PCR反应,例如针对不同靶序列。可任选合并各样本的这些不同扩增子。 在本实施方式中,可以在不同步骤中加入的NSI,并在每个步骤之后,可合并至少 部分接头连接的扩增子。

在其它一些实施方式中,连接接头和扩增相结合,其中可以通过确定制备的 样本DNA的2-4个NSI来确定制备的样本DNA的样本来源。

在一个实施方式中,提供一种用于从多个样本DNA鉴定扩增的接头连接的 DNA片段的样本来源的方法,其包括步骤:

a)提供多个样本DNA;

b)提供一组核苷酸序列标识符;

c)提供第一接头,各第一接头包括选自核苷酸序列标识符的组的第一核苷酸 序列标识符;

d)提供第二接头,各第二接头任选地包括选自核苷酸序列标识符的组的第二 核苷酸序列标识符;

e)各样本DNA进行片段化;

f)将至少第一接头和任选第二接头连接至片段化的样本DNA,得到接头连接 的DNA片段;

g)任选地,合并至少部分接头连接的DNA片段;

h)提供第一扩增引物,各第一引物包括选自核苷酸序列标识符的组的第三核 苷酸序列标识符;

i)任选地,提供第二扩增引物,各第二引物任选包括选自核苷酸序列标识符 的组的第四核苷酸序列标识符;

j)用第一扩增引物和任选第二扩增引物扩增接头连接的DNA片段,其中第 一、任选第二、第三和任选第四NSI的组合对于各样本是独特的,得到扩增的接 头连接的DNA片段;

k)任选地,合并至少部分扩增的接头连接的DNA片段;

l)使用高通量测序确定扩增的接头连接的DNA片段的第一、任选第二、第 三和任选第四标识符序列的序列;

m)确定扩增的接头连接的DNA片段的样本来源。

本实施方式的方法的样本制备的示意图显示于图3。在这种情形下,可按如上 所述制备接头连接的片段。或者,只有一个接头已连接到片段上。除了NSI以外, 接头可以包括可用于随后扩增的引物结合位点,优选测序引物结合位点。在片段 各侧使用相同的接头的情形下,可使用相同的扩增引物扩增接头连接的片段。引 物结合位点还可以包括(部分)NSI。或者,可使用(更多)选择性引物,其需要 附加(不同)的核苷酸,其互补于内部序列限制性识别位点序列之外的DNA片段 内部序列。选择性引物的概念是例如在WO2006/137733中所充分描述的,本实施 方式中的方法可能涉及使用这种选择性引物的样本DNA制备。例如,设计引物使 得它互补于(部分)接头序列,以及包括限制性识别位点和附加的核苷酸的接头 所连接的样本DNA的内部序列。该附加的核苷酸是使得引物具有选择性的选择性 核苷酸。平均来说,选择性引物可以结合四个接头连接的限制性片段中的一个并 具有3′端延长。从AFLP(EP534858)中众所周知选择性引物的概念是一种复杂性 降低的方法。

在任何情况下,最终的结果是扩增的接头连接的片段,该片段可包括至少两 个NSI,或甚至3或4个NSI。包括更多NSI可能是有利的,因为这可能甚至进 一步减少NSI数目。例如,其中对于10,000个样本,在两个NSI(100×100)的 组合中需要100个NSI,在四个NSI(10×10×10×10)的组合中需要10个NSI。

在一个实施方式中,提供一种用于鉴定接头连接的扩增子的样本来源的方法, 其包括步骤:

a)提供多个样本DNA;

b)提供一组核苷酸序列标识符;

c)提供第一扩增引物,各第一引物包括选自核苷酸序列标识符的组的第一核 苷酸序列标识符;

d)提供第二扩增引物,各第二引物任选包括选自核苷酸序列标识符的组的第 二核苷酸序列标识符;

e)用一对第一和第二扩增引物扩增各样本DNA,得到扩增子;

f)任选地,合并至少部分样本DNA的扩增子,其中各样本DNA是利用不同 的引物对进行扩增的;

g)任选,扩增子进行片段化;

h)提供第一接头,各第一接头包括选自核苷酸序列标识符的组的第三核苷酸 序列标识符;

i)任选地,提供第二接头,各第二接头任选地包括选自核苷酸序列标识符的 组的第四核苷酸序列标识符;

j)将至少第一接头和任选第二接头连接至(片段化的)扩增子,其中第一、 任选第二、第三和任选第四核苷酸序列标识符的组合对于各样本是独特的,得到 接头连接的扩增子;

k)任选地,合并至少部分接头连接的扩增子;

l)使用高通量测序确定接头连接的扩增子的第一、任选第二、第三和任选第 四标识符序列的序列;

m)确定接头连接的扩增子的样本来源。

本实施方式的方法的样本制备的示意图显示于图4。在这种情形下,可按如上 所述进行样本DNA扩增,其中现在至少引物中的一个包括NSI。可直接使用扩增 子(有或没有补平),接头可连接到扩增子。在这种情形下,接头连接的扩增子 将在各端包括相同的接头。这个接头连接的扩增子可进行进一步片段化以及至第 二接头的接头连接以获得具有两个不同接头的接头连接的扩增子。或者,扩增子 可以进行片段化步骤,产生具有两个不同端部的片段,其中端部与两个不同接头 相兼容。在任何情况下,形成包括2-4个NSI的接头连接的扩增子。

在一个实施方式中,在根据任何如上所述方法的方法中,在使用高通量测序 确定标识符序列的序列的步骤中,从制备的样本DNA的单一DNA模板确定标识 符序列的序列。应了解在如上方法中制备的样本DNA包括扩增子、接头连接的片 段、接头连接的扩增子和/或扩增的接头连接的片段。

在一个实施方式中,在单一DNA模板中,第一、第二和任选其它标识符序列 是内部序列的至少3′或5′。从制备的样本DNA的单一DNA模板确定制备的样本 DNA中的序列标识符序列,独特鉴定样本来源所需的标识符序列的组合是内部序 列的至少3′或5′。因此可以制备DNA测序模板,其将具有两侧为序列引物结合位 点和内部序列的标识符序列。例如,这样的DNA测序模板的3′端可以通过下列示 意表示:′3-SEQ1-NSI4-NSI3-NSI2-NS1I-IS-(等)。通过这种方式,当模板的序 列被确定时,所有的序列标识符被首先确定。仅通过在内部序列的一端上添加序 列标识符可产生这样的DNA模板。例如,通过仅向DNA片段的一端添加接头、 和/或通过使用非对称的接头、或通过使用扩增引物组,其中只有一个引物包括序 列标识符。或者,接头和/或扩增引物可被添加到DNA片段的5′和3′端,从而在两 端定位所有的序列标识符。这样的DNA模板可以通过下列示意表示:′″3-SEQ1- NSI4-NSI3-NSI2-NS 1I-IS-NSI 1-NSI2-NSI3-NSI4-5′。这些不同策略的组合也是可 能的,在一个或多个单独的步骤中使NSI添加到IS两端并仅在一端。这样的DNA 模板可以通过下列示意表示:′″3-SEQ1-NSI2-NSI 1-IS-NSI 1-5′。只要使用这样 的策略,在其中产生这样的DNA模板,在该模板上序列标识符的独特组合两侧为 序列引物结合位点和内部序列,这样的DNA模板就足够了。因此,可以使用带和 不带核苷酸序列标识符的扩增引物和/或接头的不同组合。例如,如在实施例3和 4中所示,当任选的NSI2和NSI4将对应着NSI1和NS3时,产生合适的DNA模 板(即它将仍然需要序列引物结合位点,其可以在用于高通量测序的样本制备中 添加)。相似的,NSI2和NSI4序列可能不包括在内。此外,NSI2可能不包括在 内,且NSI4对应着NS3,或NS 12可对应着NSI 1,且不包括NSI4。在这种情形 下,只有DNA模板的一端可以包括所有的NSI。在另一个实施方式中,当从制备 的样本DNA的单一DNA模板确定标识符序列的序列时,单一DNA模板可包括 两个测序引物结合位点,其中各测序引物结合位点位于不同核苷酸序列标识符的 3′,其中在高通量测序方法中从单一DNA模板的两个测序引物结合位点用两个测 序引物进行两个不同测序反应。两个不同测序引物结合位点和相应的5′NSI或NSI 可以在制备的样本DNA的内部序列的两侧。制备的样本DNA可以是如上所述的 扩增子、接头连接的片段、接头连接的扩增子和/或扩增的接头连接的片段。

在一个实施方式中,单一DNA模板包括两个测序引物结合位点,其中至少一 个测序引物结合位点位于至少两个核苷酸序列标识符的3′,并且其中在高通量测序 方法中从单一DNA模板的两个测序引物结合位点用两个测序引物进行两个不同测 序反应。

在一个实施方式中,当从制备的样本DNA的单一DNA模板确定标识符序列 的序列时,单一DNA模板可包括两个测序引物结合位点,其中各测序引物结合位 点位于一个或更多核苷酸序列标识符的3′,并且其中在高通量测序方法中从单一 DNA模板的两个测序引物结合位点用两个测序引物进行两个不同测序反应。两个 不同测序引物结合位点和相应的5′NSI或NSI可以在制备的样本DNA的内部序列 的两侧。一个或更多核苷酸序列标识符中的各个可以是相同的。这样的结构可表 示为如下:′-3′-SEQ1-NS1-NS2-IS-SEQ2-NS1-NS2-5′。通过这种方式,通过从单一 模板测序,独特标识符的两个独特组合被测序两次。这种制备的样本DNA可以是 如上所述的扩增子、接头连接的片段、接头连接的扩增子和/或扩增的接头连接的 片段。

在一个实施方式中,当从制备的样本DNA的单一DNA模板确定标识符序列 的序列时,单一DNA模板可包括两个测序引物结合位点,其中一个测序引物结合 位点位于两个或更多核苷酸序列标识符的3′,并且其中另一个测序引物结合位点可 位于邻近内部序列。在高通量测序方法中,从单一DNA模板的两个测序引物结合 位点用两个测序引物进行两个不同测序反应。两个不同测序引物结合位点和相应 的可以在制备的样本DNA的内部序列的两侧。这样的结构可表示为如下: ′-3′-SEQ1-IS-SEQ2-NS1-NS2-5′。通过这种方式,通过在一个测序运行中从单一模 板测序可以确定内部序列,以及在另一个测序运行中可以确定序列标识符的独特 组合。

实施例

实施例1

如下,例举了采用分割条形码的用于样本制备的两种不同应用,但涉及向样 本并入两种不同分子的其它样本制备方法也在本发明的范围内:

1)采用两个条形码引物的PCR扩增;

2)向经两种限制性酶消化的样本或向单一酶消化随后接头连接1的样本连接 接头,随后是片段化和片段化端的平端化,随后是接头连接2。

PCR 扩增

提供对带有分割条形码(条形码1和条形码2)的引物对功能元件的描述,通 过配对末端测序(A)或从具有两次引物事件的相同链的测序(B)确定分割条形 码。在图11中提供示意图。在图11A中观察到通用尾1(粗箭头)可以是序列引 物位点1(即用于测序的引物位点)和通用尾2(点画箭头)可以是序列引物位点 1(即用于测序的引物位点),实例是分别用于Illumina GA配对末端测序中的P5 和P7引物。图11B中通用尾1(粗箭头)可以是序列引物位点1(即用于测序的 引物位点)和通用尾2(点画箭头)可以是序列引物位点2(即用于测序的引物位 点),实例是分别用于具有两次引物事件的从相同链的Illumina GA中的P5和P7 引物。概念可以用于涉及使用引物对扩增的任何方法。其实例是扩增子测序(如 突变检测,自然多态性)、涉及PCR引物(如KASP引物、Scorpions引物等)的 多重SNP基因分型。

接头连接

在整个基因组物理制图实验中,组合了480个不同BAC池样本。这将需要480 个不同EcoRI条形码接头。通过使用带有5nt条形码的80个EcoRI接头组合上带 有3nt条形码的6个Msel接头,来避免这种接头的量,其中组合产生独特的480 个8-mer条形码。在这种情况下,通过进行两次序列引物事件进行测序,如上PCR 扩增和图11B中描述的。在图12中,描述了在Illumina GA测序情况下的使用两 个条形码接头的概况(使用P5和P7扩增与序列引物区)。A部分描述使用两种 限制性酶消化DNA的样品制备,而B部分描述使用限制性酶和平端接头连接的组 合的样本制备。涉及使用两个条形码接头的替代样本制备方法在本发明的范围内。 概念可以用于涉及两个接头连接的任何方法,如限制性片段测序、AFLP、RAD、 WGP、全基因组测序、配对末端测序、降低的指示的测序(Reduced representation sequencing)等。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号