法律状态公告日
法律状态信息
法律状态
2017-03-22
未缴年费专利权终止 IPC(主分类):C12Q1/68 授权公告日:20130807 终止日期:20160128 申请日:20110128
专利权的终止
2013-08-07
授权
授权
2011-09-28
实质审查的生效 IPC(主分类):C12Q1/68 申请日:20110128
实质审查的生效
2011-08-03
公开
公开
技术领域
本发明属于生物技术领域,具体是一种实现DNA序列分析中增加测序阅读长度的方法,尤其涉及一种通过已测序模板的原位复制来增加阅读长度的高通量测序方法。
背景技术
随着人类基因组计划和各种模式生物基因组计划的开展和完成,使人类步入了后基因时代,对当代的生物学研究和医学研究产生了巨大的影响,分子生物学相关学科得到了迅猛的发展。从基因水平上认识生命的差异,疾病发生、发展的规律,以及药物与生命体的相互作用将成为可能。就基因序列分析而言,后基因时代的重点已由全基因组序列测定转移到了对基因组中个体遗传差异及物种间遗传差异的比较。目前,无论是找寻新的还是确认已知SNP位点,传统的Sanger DNA测序法,仍处于无可替代的地位。但这一方法存在通量低和价格高的问题。第一个人类基因组序列测定的费用大约为10亿美元,目前这一费用已经降低到大约2千万美元。但是,功能基因组的研究进展仍然受限于DNA测序技术。为此,美国Venter基金会在2003年提出了1000美金人类全基因组测序的研究目标。基于传统的Sanger DNA测序法,目前国际上要完成一个哺乳动物全基因组的测序需要上千万美元。以当前最为先进的ABI Prism? 3730 DNA测序仪为例,完成人类基因组中30亿碱基的测序,需要150台ABI Prism? 3730 DNA测序仪运转一年,其测序成本达到二千四百万美元。现在以Sanger DNA测序法为基础的,在发展高密度的毛细管阵列,以提高测序的并行性,进而提高DNA的测序速度这一研究思路在提高DNA测序速度和降低成本方面的改进空间也十分有限。
目前,全基因组DNA测序技术已经成为国际上一个竞争十分激烈的研究领域。大部分研究在合成测序策略方面,在市场化目前较为成功的例子是美国的454 Life Sciences公司基于乳液PCR产物的高通量并行焦测序技术;Illumina (Solexa)公司的桥式扩增-DNA芯片延伸测序技术;以及Applied Biosestems(SOLiD)公司基于乳液PCR产物的杂交-酶连接-酶切割高通量测序技术。在这些合成测序方法中,不管是焦测序还是标记单体的延伸测序,或者是连接测序方法,随着延伸(或者连接)反应次数的增加,由于其延伸(或者连接)效率、切割效率、测序引物的流失等影响,测序的错误会不断增加,导致序列阅读长度的降低,而序列阅读长度显著影响拼接组装效率。已有文献表明,当序列阅读长度为20个碱基时,需要进行50次以上的序列测定,而当序列阅读长度为80个碱基时,只需要5-6次左右的序列测定就能将人类基因组序列进行有效的完整组装。因此,提高测序的阅读长度不仅可以提高序列的准确性,而且可以大大降低序列测定的成本。
发明内容
发明目的:本发明的目的就是通过一种已测序的高通量测序模板的原位复制,为DNA序列分析增加测序阅读长度,建立快速,准确,便宜的基因组序列测定方法。
技术方案:一种高通量测序模板的原位复制及其增加阅读长度的测序方法,已经制备好的DNA测序模板,在测序得到一段序列片段后,将其变性为DNA单链-旧模板,再通过活化先前引入的延伸引物将其复制,并将旧模板全部切除后,得到与原来DNA测序模板完全互补的DNA单链-新模板,将这些DNA单链作为DNA测序模板进行序列测定,便得到与旧模板另一端、且互补的新测定序列,将新、旧模板测定的序列片段拼接,增加了测序模板的阅读长度,降低了短片段序列拼接的困难,提高序列的准确性。
高通量测序旧模板含有一个可以切割的位点,切割位点直接通过包含在切割位点的通用引物与测序片段连接得到,或将包含在切割位点的扩增引物通过乳液PCR、滚环扩增或者桥式PCR等方法获得到。
所述高通量测序旧模板切割位点是化学切割的化学键,所述化学键为还原剂断裂的二硫键或氧化剂断裂的邻二羟基,
所述高通量测序旧模板切割位点是酶识别切割位点,所述切割位点为核酸内切酶识别的次黄嘌呤(I)碱基或尿嘧啶DNA糖苷酶识别的尿嘧啶(U)碱基。
先前引入的延伸引物在获得旧模板的扩增过程和使用旧模板的测序过程中不能发生扩增与测序反应,在扩增前,这个延伸引物的3’端可以通过磷酸化等方式非羟基化;而在测序反应过程中,在采用延伸测序时,这个延伸引物的3’端也是非羟基化的,在采用连接测序时,则这个延伸引物的3’端是羟基化的。
旧模板测序完成并变性成单链后,通过对先前引入的延伸引物3’端羟基化后,在聚合酶的作用下,将A、G、C、T四个碱基一并加入进行延伸反应,新模板的获得通过延伸引物的一次延伸反应完成或通过多次退火进行多次延伸反应来实现。
所述测序法为延伸测序方法或连接测序方法;所述测序模板为单分子测序模板或多分子测序模板。
有益效果:
本发明与现有技术相比,具有如下优点:
1. 本发明的最大优点是实现了已测序一段DNA模板的原位复制,并以复制模板重新进行序列测定,这相当于对与原来的DNA模板的另一端进行了序列测定,增加了序列阅读长度,提高了拼接的正确性,减少重复测定的次数,大大降低了序列测定的费用。
2. 本发明涉及的已测序一段DNA模板的高通量复制、旧模板的切除,引物的固定与活化均按照传统成熟的化学与流行的分子生物学方法进行,不存在技术难点,容易在现有的技术上实施。
附图说明
图1是本发明一种高通量单分子测序模板的原位复制及其增加阅读长度的测序方法示意图。图中有:基因组(1);基因组片段(2);连接子(3、4),连接子(3)的5’端有能与基片发生键合反应的活性基团,序列中间含有化学或者酶切割位点;连接连接子(3)、连接子(4)的基因组片段(5);封闭引物(6),5’端有能与基片发生键合反应的活性基团,序列与连接子4全部或者部分互补;活化基片(7),如修饰亲和素等的玻璃片;测序引物(8),序列与连接子(4)全部或者部分互补;引物(6);延伸模板(9);测序引物(10),序列与连接子(3)全部或者部分互补。基因组(1)用酶切割(或者超声破碎)(a)成大小为50-1000碱基的片段,并在连接酶的作用下将这些片段化核酸序列(2)用一对序列已知的通用连接子(3、4)进行连接反应(b)成为含有连接臂的片段化序列(5),含有连接臂的片段化序列(5)和封闭引物(6)的活性基团(如生物素等)与基片(7)的活性基团发生化学键合(c)使之固定,加入测序引物(8)对单分子模板(5)进行一系列的测序反应(d)(Harris, T.D. et al. Single-molecule DNA sequencing of a viral genome. Science,2008,320,106–109),实现对模板5的一段序列测定;当模板5的测序反应完成后,清除测序引物(8)的合成产物,并活化(e)封闭引物6,在聚合酶作用下,引物6发生延伸反应(单体A、G、C、T的聚合合成)(f、g),得到与模板5完全互补的单链DNA模板9,对模板4进行切割(h),并将其封闭(i)后,加入测序引物(10)对单分子模板(9)进行一系列的测序反应(j)(Braslavsky, I. et al. Sequence information can be obtained from single DNA molecules. Proc. Natl. Acad. Sci. USA.2003, 100, 3960–3964),实现对模板9的一段序列测定。由于模板(5)与模板(9)是完全互补的序列,对新模板(9)序列的测定可以转换到模板(5)的序列信息,从而得到模板(5)两端各一段序列片段的信息。
图2是本发明一种微球乳液扩增高通量测序模板的原位复制及其增加阅读长度的测序方法示意图。图中有:基因组(1);基因组片段(2);连接子(3、4);连接连接子(3)、连接子(4)的基因组片段(5);微球(6);引物(7),5’端有能与微球发生键合反应的活性基团;引物(8),5’端有能与微球发生键合反应的活性基团,序列中间含有化学或者酶切割位点;固定引物(7)和引物(8)的微球(9);扩增产物(10);微球固定的基片(11);模板(10)的测序产物(12)。基因组(1)用酶切割(或者超声破碎)(a)成大小为50-1000碱基的片段,并在连接酶的作用下将这些片段化核酸序列(2)用一对序列已知的通用连接子(3、4)进行连接反应(b)成为含有连接臂的片段化序列(5),片段化序列(5)通过预扩增反应,并经电泳后,取长度100-200bp的片段用于扩增测序模板;同时,引物(7、8)固定(c)于微球(6)上, 得到固定引物7、8的微球(9)。微球(9)和长度100-200bp的片段化序列(5)在微乳液体系中进行PCR扩增(d)(Williams,R. et al. Amplification of complex gene libraries by emulsion PCR. Nature Methods,2006,3(7),545-550;Dieh,F. et al. BEAMing: single-molecule PCR on microparticles in water-in-oil emulsions. Nature Methods,2006,3(7),551-559),得到可用于测序的DNA模板,然后利用微球上引物(7)的3’端基团与基片发生键合反应(e),使之固定于基片上,对模板(10)进行一系列的测序反应(f),实现模板10的一段序列测定;当模板(10)的测序反应完成后,变性清除测序产物(12),并活化(g)封闭引物(7),在聚合酶作用下,引物(7)发生延伸反应(单体A、G、C、T的聚合合成)(h、i),得到与模板(10)完全互补的单链DNA模板(13),对模板10进行切割(j),并将其封闭(k)后,对模板(13)进行一系列的测序反应(l),实现对模板(13)的一段序列测定。由于模板(13)与模板(10)是完全互补的序列,对新模板(13)序列的测定可以转换到模板(10)的序列信息,从而得到模板(10)两端各一段序列片段的信息。
图3 不同浓度的原始DNA样品超声打碎的琼脂糖凝胶电泳图(M1、M2:梯度100bp的标识长度DNA,A:DNA浓度为100ng/mL,B: DNA浓度为150ng/m L)
图4模板磁珠在玻璃片基片固定的显微图片;
图5连接测序法一次连接得到的四色荧光图(局部),其中(1)Cyanine 3 ;(2) Cyanine 5;(3)Texas Red;(4)Fuorescein Isothiocyannate。
具体实施方式
以下结合实例对本发明作进一步的描述:
高通量测序模板的原位复制是在已经完成高通量测序模板制备,并完成对高通量DNA模板一端序列测定后,将其变性成单链DNA分子,并将先前固定在模板周围的延伸引物活化,然后以单链DNA分子为延伸模板,延伸引物完成延伸后得到与原来单链DNA分子完全互补的一条链(新模板),将旧模板全部切除后,新模板可以继续用于DNA序列的测定,测定的这段序列与旧模板另一端的一段序列完全互补,这样可以将这段序列与旧模板测定的序列片段拼接,增加了测序模板的阅读长度,降低了短片段序列拼接的困难,提高序列的准确性。
实施例1:高通量测序模板的再生及其连接测序方法测定大肠杆菌基因组
(1)将~100ng/mL大肠杆菌基因组样品100mL在超声仪上选择低频超声时间20分钟,超声结果进行了电泳检测(如图3),从凝胶上回收100±30bp长度的DNA片段。
(2)将连接子1、2(具体序列见下表)与上述100±30bp片段化核酸序列在连接酶的作用下进行连接(所有不同模板分子的两端均含有相同序列,即连接子)。
(3)将生物素修饰的扩增引物和延伸引物(具体序列见下表),与亲和素修饰的磁性微球充分反应,使其固定于磁性微球上。
(4)将连接连接子的片段化核酸序列与固定扩增引物和延伸引物的磁性微球在微乳液体系下进行PCR扩增,并利用延伸引物的3端磷酸基团与基片上的氨基键合固定磁珠(图4),得到磁性微球大肠杆菌基因组测序模板芯片。
(5)用T4激酶将延伸引物的3端羟基化,以避免干扰后续的连接测序反应。
将固定微球的玻璃片安装到高通量测序仪中构建反应池,按照连接测序方法的程序(Shendure, J. et al. Accurate multiplex polony sequencing of an evolved bacterial genome. Science, 2005,309,1728–1732.文献),获取每个磁珠每次反应的荧光信号,并将信号转化为碱基信息(图5),当进行30次连接测序测定模板30个碱基序列信息。
(6)将0.1M NaOH溶液加入到反应池中使测序产物变性成单链DNA。
(7)将聚合酶和单体A、G、C、T加入到反应池中,经过测序产物与单链DNA模板的退火,延伸,复制第一次测序的DNA模板。
(8)用核酸内切酶处理上述芯片切割第一次测序的DNA模板,并在碱性条件下将其清除。
(9)加入测序引物对新模板进行序列测定,并将测定的序列转化到对应第一次模板的序列中。
(10)将所有序列片段在大肠杆菌基因组参考序列中进行比对,拼接(相同微球上,第二次测定的序列片段第一个碱基距离第一次测定的序列片段的第30个碱基相距0~95bp),完成大肠杆菌基因组的再测序。
实施例2:高通量测序模板的再生及其连接测序方法测定人基因组
(1)按照实施例1的方法制备磁性微球人基因组测序模板芯片(见实施例1中(1)~(4)步骤)。
(2)将固定微球人基因组测序模板的玻璃片安装到高通量测序仪中构建反应池,按照延伸测序方法(Bentley, D. R. et al. Accurate whole human genome sequencing using reversible terminator chemistry. Nature,2008,456,53-59)的程序,获取每个磁珠每次反应的荧光信号,并将信号转化为碱基信息(图5),当进行35次延伸测序测定模板35个碱基序列信息。
(3)将0.1M NaOH溶液加入到反应池中使测序产物变性成单链DNA。
(4)用T4激酶处理预先固定的延伸引物的3端磷酸基团,将其羟基化。
(5)将聚合酶和单体A、G、C、T加入到反应池中,经过测序产物与单链DNA模板的退火,延伸,复制第一次测序的DNA模板。
(6)用尿嘧啶DNA糖苷酶处理上述芯片切割第一次测序的DNA模板,并在碱性条件下将其清除。
(7)加入测序引物对新模板进行序列测定,并将测定的序列转化到对应第一次模板的序列中。
(8)将所有序列片段在人基因组参考序列中进行比对,拼接(相同微球上,第二次测定的序列片段第一个碱基距离第一次测定的序列片段的第35个碱基相距0~95bp),完成人基因组的再测序。
序列表
<110> 东南大学
<120> 一种高通量测序模板的原位复制及其增加阅读长度的测序方法
<130>
<160> 6
<170> PatentIn version 3.3
<210> 1
<211> 43
<212> DNA
<213> 人工序列
<400> 1
aaccactacg cctccgcttt cctctctatg ggcagtcggt gat 43
<210> 2
<211> 43
<212> DNA
<213> 人工序列
<400> 2
ttggtgatgc ggaggcgaaa ggagagatac ccgtcagcca cta 43
<210> 3
<211> 25
<212> DNA
<213> 人工序列
<400> 3
aactgccccg ggttcctcat tctct 25
<210> 4
<211> 25
<212> DNA
<213> 人工序列
<400> 4
ttgacggggc ccaaggagta agaga 25
<210> 5
<211> 41
<212> DNA
<213> 人工序列
<400> 5
ccactacgcc tccgctttcc tctctatggg cagtcggtga t 41
<210> 6
<211> 25
<212> DNA
<213> 人工序列
<400> 6
aactgccccg ggttcctcat tctct 25
序列表
<110> 东南大学
<120> 一种高通量测序模板的原位复制及其增加阅读长度的测序方法
<130>
<160> 6
<170> PatentIn version 3.3
<210> 1
<211> 43
<212> DNA
<213> 人工序列
<400> 1
aaccactacg cctccgcttt cctctctatg ggcagtcggt gat 43
<210> 2
<211> 43
<212> DNA
<213> 人工序列
<400> 2
ttggtgatgc ggaggcgaaa ggagagatac ccgtcagcca cta 43
<210> 3
<211> 25
<212> DNA
<213> 人工序列
<400> 3
aactgccccg ggttcctcat tctct 25
<210> 4
<211> 25
<212> DNA
<213> 人工序列
<400> 4
ttgacggggc ccaaggagta agaga 25
<210> 5
<211> 41
<212> DNA
<213> 人工序列
<400> 5
ccactacgcc tccgctttcc tctctatggg cagtcggtga t 41
<210> 6
<211> 25
<212> DNA
<213> 人工序列
<400> 6
aactgccccg ggttcctcat tctct 25
机译: DNA聚合酶,包括FI29多元DNA序列,连接序列和HHHH H序列;实验室复制,扩增或测序模板DNA; DNA复制,扩增或测序方法
机译: 重组聚合酶具有增加的阅读长度和稳定性,用于单分子测序
机译: 高通量测序应用中生成信息性DNA模板的方法