公开/公告号CN103160937A
专利类型发明专利
公开/公告日2013-06-19
原文格式PDF
申请/专利权人 深圳华大基因科技有限公司;深圳华大基因研究院;
申请/专利号CN201110420042.7
申请日2011-12-15
分类号C40B50/06(20060101);C40B40/06(20060101);C12N15/10(20060101);C12Q1/68(20060101);
代理机构11285 北京北翔知识产权代理有限公司;
代理人张广育;姜建成
地址 518083 广东省深圳市盐田区北山路146号北山工业区综合楼11F-3
入库时间 2024-02-19 18:48:14
法律状态公告日
法律状态信息
法律状态
2015-02-18
授权
授权
2013-08-07
专利申请权的转移 IPC(主分类):C40B50/06 变更前: 变更后: 登记生效日:20130717 申请日:20111215
专利申请权、专利权的转移
2013-07-24
实质审查的生效 IPC(主分类):C40B50/06 申请日:20111215
实质审查的生效
2013-06-19
公开
公开
技术领域
本发明属于分子生物学领域,尤其涉及一种建立高等植物复杂基因组基 因文库的方法。
背景技术
限制性酶切位点关联DNA(restriction-site associated DNA,RAD) 标记技术是指一种将基因组DNA用限制性内切酶消化后,对酶切位点区 域进行序列分析的技术。RAD标记应用初期是使用基因芯片技术来对 RAD标记进行分离。例如,Lewis等(2007)使用NotI对粗糙链孢菌 DNA进行了酶切,之后用基因芯片对NotI酶切位点区域进行了序列分析, 并完成了对突变位点的作图;Miller等(2007)用基因芯片技术分析了斑 马鱼基因组的EcoRI标记,也完成了对突变位点的作图;Miller等(2007) 测试了使用RAD基因芯片对生物单体以及分离群体进行基因分型,结果 显示,在模式生物与非模式生物中,RAD标记都能很好的进行分型。虽 然基因芯片技术能够高密度的寻找生物体基因组中的RAD标记,但是由 于其价格昂贵,限制了应用芯片技术的RAD标记的应用。
近几年来,由于第二代测序技术的逐渐普及以及相比于芯片技术的 价格低廉,发展了使用第二代测序技术对RAD标记进行分析的方法。例 如,Baird等(2008)开发了一套利用Illumina测序技术对RAD标记附 近区域进行测序的建库方法,该方法在寻找SNP与RAD标记作图方面 取得了很好的效果。Hohenlohe等(2010)应用第二代测序技术对RAD 标记区域进行测序,在5个三刺鱼群体共100个个体中找到了45000个 SNP位点。Chutimanitsakun等(2011)以大麦为模式生物,评测了RAD 测序技术在QTL方面的应用。Pfender等(2011)使用RAD测序技术构 建的连锁图能够快速分辨出黑麦草茎的抗锈病基因的QTL位点。截至目 前,RAD技术已经在制作遗传连锁图、基因分型、QTL定位等方面得到 了越来越广泛地应用,特别是在无参考序列的情况下寻找酶切位点附近 区域SNP时展现出独特优势。目前,RAD测序技术在建立文库时使用的 主要是NotI、EcoRI以及SbfI等酶。
已报道的RAD测序技术的研究对象大多数都是基因组构成较为简单 的生物。某些高等开花植物含有复杂的基因组,例如玉米基因组中80% 以上是重复序列(Schnable等,2009)。重复序列区的大多数CG序列 的胞嘧啶出现甲基化现象(Methylation),表示为5mC。而在基因区中 的CG序列的胞嘧啶很少发生甲基化(Gruenbaum等,1981;Vanyushin 等,2011)。在研究这些复杂基因组时,常规的RAD建库方法得到的基 因组文库中含有大量的重复序列,不能起到富集基因组基因区的作用。
虽然现有技术中已经有对高等植物基因组基因区富集的方法,例如 过滤掉甲基化序列的MF(Methylated Filtration)(Palmer等,2003)、 过滤掉高拷贝序列的HC(High-Cot)(Yuan等,2003)、亚甲基部分 限制HMPR(Hypomethylated Partial Restriction)等,但是Emberton 等(2005)的结果表明,上述三种方法构建的文库基因序列分别仅可以 达到总序列的33.8%、23.4%、25.8%。本领域仍然需要一种适用于具有 复杂基因组的高等植物的基因区建库方法。
发明内容
鉴于在研究某些含有复杂基因组的高等开花植物时,常规的RAD建 库方法得到的基因组文库中含有大量重复序列,给后续的信息分析造成 干扰的事实,本发明提供了一种新的建库方法。在本发明的方法中,使 用甲基化敏感酶替代常规的非甲基化敏感酶对基因组进行酶切,之后进 行建库。
在一方面中,本发明提供了一种适合含有复杂基因组的高等开花植 物的建库方法,包括如下步骤:
1)用甲基化敏感酶对从一个或多个样本提取的基因组DNA进行酶 切,获得DNA片段;
2)对所述DNA片段进行第一接头连接,获得具有第一接头的连接 产物,其中在多个样本基因组DNA的情况下,每种样品的DNA片段连 接的第一接头带有不同标签序列,并将连接第一接头后的连接产物混合;
3)对所述具有第一接头连接产物进行打断及片段回收,获得回收产 物;
4)对所述回收产物进行末端修复,获得经过末端修复的DNA片段;
5)对所述经过末端修复的DNA片段的3′端加碱基A,获得具有粘 性末端A的DNA片段;
6)对所述具有粘性末端A的片段进行第二接头连接,获得具有第二 接头的连接产物;
7)对所述具有第二接头连接产物进行PCR扩增,获得扩增产物, 所述扩增产物构成所述基因组富集基因区测序文库。
本发明还提供了一种适合含有复杂基因组的高等开花植物的寻找 SNP的方法,包括
1)对本发明的建库方法第7)步的扩增片段进行测序;
2)将上述测序序列与参考序列做比对分析,寻找SNP。
本发明是对常规RAD方法的改进,能够较大程度地使得基因富集,并 且富集效率要高于前人所用的MF、HC、HMPR方法。所以本发明所提供 的技术是一种快速有效的对基因组,特别是对某些高等开花植物复杂基因 组,基因富集的建库方法。本发明的方法特别可以应用于对含有复杂基因组 的高等开花植物进行生物信息学分析,例如可以用于快速寻找有参考基因组 序列的SNP和无参考基因组序列的基因区酶切位点附近区域的SNP。
附图说明
图1DNA检测结果。MI是λ-Hind III digest(Takara);M2是D2000 (Tiangen)。
图2玉米四个品种的HpaII、MspI的酶切效果。M1是λ-Hind III digest(Takara);M2是D2000(Tiangen)。
图3打断产物的胶回收。M是100bp DNA ladder(Tiangen)。
图4PCR产物的切胶回收。M是100bp DNA ladder(Tiangen)。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附 图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的 具体实施例仅用以解释本发明,并不用于限定本发明。
在本发明的方法中,使用甲基化敏感酶替代常规的非甲基化敏感酶 对基因组进行酶切,之后进行建库,建库步骤可以参考例如Baird开发 的方法。
在本发明中,可以使用例如soap(version 2.21,获自 http://soap.genomics.org.cn/)将测序序列与参考基因组序列进行比对分 析。
在本发明实施例中,以玉米基因组为例,但本发明的方法不局限于 玉米基因组,而是适用于任何高等开花植物复杂基因组以及其他基因组, 特别是含有复杂的基因组的某些高等开花植物,例如基因组中80%以上 是重复序列的高等开花植物。
参考序列是所研究物种的基因序列,可以来自公共数据库,或者来 自商业数据库。所述参考序列也可以来自测序所得的短片短序列(读段), 基因组测序技术已经被市场化应用。
本发明中,建库初始的DNA总量优选高于普通RAD建库所要求的 DNA的量。若按常规RAD要求的DNA的量来建库,可能导致最后DNA 的量不够。经测试,本方法初始DNA用1.5μg为佳。
在本发明中,甲基化敏感酶可以是HpaII、AclI、HpvCH4IV等,但 是在内切酶的识别序列中必须出现CG序列。在使用甲基化敏感酶进行 酶切时,酶切时间优选为1.5h。更优选达到以下酶切效果,即出现弥散 条带。
在本发明中,所述打断片段优选为500bp左右,例如400-600bp。该 片段大小是指打断后进行电泳主带的位置,并不要求所有序列都是该片 段大小。在本发明的一个实施方案中,可以对打断后的DNA片段进行回 收,例如切胶。在本发明的一个实施方案中,回收的DNA片段大小可以 为300-700bp,或者可以为300-500bp,又或者可以为500-700bp。
在本发明中,加上P1接头和P2接头是为了进行扩增和方便后续测 序。P1接头和P2接头一般可以从测序平台提供商获得,并按照其说明 使用,例如来自illumina solexa、ABI SOLiD、Roche 454等平台。
在本发明中,标签序列是为了在多个样品的情况下区分不同样品, 根据样品多少标签序列长度可以为2-10bp,也可以更长。接头的标签部 分可以由本领域技术人员根据常理设计。
在本发明中,因为每个P1接头都可以连接有不同的标签序列,所以 不同样品混合在一起在测序时也可以区分开。
在本发明中,测序可以在高通量测序平台上进行,如Illumina Solexa、 ABI SOLiD或Roche 454等。
在本发明中,测序可以是Solexa测序,深度优选为0.4×的单向50 循环测序。
在本发明中,可以使用soap2.21将测序序列与参考基因组序列做比 对分析,品种间SNP的寻找。
在本发明中,为了评估本发明的方法的优势,可以统计基因富集效 率和基因覆盖效率。例如,基因富集效率和基因覆盖效率按照如下公式 进行计算:
基因富集率=基因reads数/总reads数
基因覆盖度=文库基因数/玉米总基因数
其中,基因富集率表示的是基因富集的效果。基因覆盖度表示的是 能够覆盖到的基因数。
例如,玉米有32000个基因,而在本发明的实施例中,使用的建库 结果中得到了其中26119个基因,则基因覆盖度为26119/32000,结果为 80.27%。在基因富集率高的情况下也要兼顾基因覆盖度。80.27%这样的 基因覆盖程度完全可满足后续分析的要求。
实施例
材料:包括四个品种的玉米,分别是B73、农科白、郑58、7922。 每个品种种植一株。
本实施例中所用试剂及仪器请见表1、表2、表3、表4。
表1
以上试剂均-20℃保存。
表2
以上试剂均常温保存。
表3
以上试剂均4℃保存。
表4常用仪器列表
步骤如下:
1.在玉米生长一月时取其叶片,用Doyle JJ与Doyle JL(1987)提 出的CTAB提取法提取玉米DNA。步骤简述如下:1)取2×CTAB和β- 巯基乙醇25∶1(体积)于离心管中,预热;2)玉米叶片1-2g,放入经 液氮预冷的研钵中,加入液氮研磨至粉末状,转移粉末到预热的离心管 中,置65℃水浴中保温;3)加等体积的氯仿/异戊醇,颠倒混匀,离心 弃沉淀;4)加入2倍体积的100%乙醇或0.7倍体积异丙醇,离心回收 DNA沉淀。
2.使用Quant-iT ds kit检测DNA浓度,之后取100ng经1%琼脂 糖电泳检测DNA质量。主带清晰、无降解或少量降解的DNA即可(图 1)。然后将DNA浓度稀释至50ng/μL。
3.使用HpaII、MspI这两种酶对玉米DNA进行酶切反应。其中, 用HpaII酶切的DNA取1.5μg,用MspI的取1μg。两种酶的详细信息见 表5,酶切反应体系见表6。HpaII与MspI为同尾酶,但是MspI是非甲 基化敏感酶。这样设计是为了对比在同样的酶切位点情况下,甲基化敏 感酶与非敏感酶的酶切效果。在37℃下酶切1.5h,之后取5μL,用琼脂 糖凝胶电泳检测酶切效果,以出现弥散条带为准(图2)。检测完之后 65℃条件30min下将酶失活。
表5内切酶
表6酶切反应体系
4.使用PCR仪将P1接头的两条单链退火为双链。退火程序为: 95℃10min,、70℃10min、65℃10min、60℃10min、55℃10min、50℃10min、 45℃10min、40℃10min、35℃10min、30℃10min、25℃10min。两条单 链序列如下:
top,
5′-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACAC GACGCTCTTCCGATCTxxxxx-3′(SEQ ID NO.1)
bottom,
5′-Phos-CGxxxxxAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG TAGATCTCGGTGGTCGCCGTATCATT-3′(SEQ ID NO.2)
将酶切好的片段与P1接头进行连接,连接反应体系见表7。HpaII 的酶切产物使用缓冲液3,MspI使用缓冲液4。使用Thermomixer 20℃ 孵育30min,之后65℃孵育25min失活T4DNA ligase。在上述序列中, xxxxx是用来区分品种的标签序列。四个品种所带标签序列信息如下:
B73:5′-TCAC-3′ 农科白:5′-CATCT-3′
郑58:5′-CGCGGT-3′ 7922:5′-GTTGAA-3′
表7P1连接反应体系
5.将同种酶酶切好的DNA,每个品种取22.5μL,混合在一个管子 中。按表8配制打断体系。
表8打断体系的配制
使用Covaris S1将DNA Mixtrue打断成主带在500bp的片段。
Covaris S1参数设置为:
Duty cycle(负载比)调为10%,Intensity(强度)调为10,Cycles/Burst (循环/脉冲)调为1000,Time调为45S,cycle调为2。打断后,使用 QIAquick PCR Purification Kit纯化,32μL EB溶解。
使用2%的琼脂糖凝胶电泳,切胶得到300-500bp,以及500-700bp的 DNA片段(图3)。500-700bp的片段放入-20℃冰箱备用。使用QIAquick Gel Extraction Kit对300-500bp的片段进行溶胶回收,产物溶于30μL EB。
6.对回收片段进行末端修复,反应体系见表9。Thermomixer 20℃孵 育30min,QIAquick PCR Purification Kit纯化,34μL EB溶解。
表9末端修复反应体系
对上步所得片段的3′端进行加A操作,反应体系见表10。 Thermomixer 37℃孵育30min,QIAquick PCR Purification Kit纯化, 23.5μL EB溶解。
表103′端加A操作
对P2接头进行退火操作。退火程序设置与P1相同。P2接头两条单 链序列为:
top,
5′-Phos-CTCAGGCATCACTCGATTCCTCCGAGAACAA-3′(SEQ ID NO.3);
bottom,
5′-CAAGCAGAAGACGGCATACGACGGAGGAATCGAGTGAT GCCTGAGT-3′(SEQ ID NO.4)
反应体系见表11。Thermomixer 20℃孵育30min,QIAquick PCR Purification Kit纯化,27μL EB溶解。
表11 P2接头连接反应体系
7.最后对上步所得片段进行PCR扩增。反应体系见表12。反应条 件设置为:1循环,98℃30sec;12循环,包括98℃10sec,65℃30sec, 72℃30sec;1循环72℃5min;4℃保存。反应引物序列为:
P1-正向引物,5′-AATGATACGGCGACCACCGA-3′(SEQ ID NO.5);
P2-反向引物,5′-CAAGCAGAAGACGGCATACGA-3′(SEQ ID NO.6)。
表12PCR扩增体系
扩增产物使用2%的琼脂糖凝胶电泳,切胶得到350-550bp的片段(图 4)。使用QIAquick Gel Extraction Kit进行溶胶回收,回收产物溶于27μL EB solution。
8.回收产物进行Solexa测序,深度为0.4×,单向50循环测序。 在网站http://www.maizesequence.org/index.html上下载玉米B73的基 因组序列,作为参考序列。使用soap2.21对将本实验的测序序列与玉米 B73的参考序列进行比对分析,统计基因富集效果(表9)。按照如下公 式进行统计:
基因富集率=基因reads数/总reads数
基因覆盖度=文库基因数/玉米总基因数
表9统计结果
注:玉米总基因数为32000
从均值来看,甲基化敏感酶HpaII得到的基因富集率是非甲基化敏 感酶MspI的3.24倍(40.42%/12.44%=3.24),而二者得到的基因覆盖 率相差不大,都比较高,在80%左右。另外,HpaII得到的基因富集率 也高于前人所用MF、HC、HMPR法得到的结果。因此,本发明利用 HpaII酶切建库是一种基因富集的好方法。
参考文献
1.Baird NA,Etter PD,Atwood TS,Currey MC,Shiver AL,Lewis ZA,Selker EU,Cresko WA,Johnson EA.Rapid SNP Discovery and Genetic Mapping Using Sequenced RAD Markers.Plos One,2008,3: e3376.
2.Chutimanitsakun Y,Nipper RW,Cuesta-Marcos A,CistuéL, Corey A,Filichkina T,Johnson EA,Hayes PM.Construction and application for QTL analysis of a Restriction Site Associated DNA(RAD) linkage map in barley.BMC Genomics,2011,12:4.
3.Doyle JJ,and Doyle JL.A rapid DNA isolation procedure for small quantities of fresh leaf tissue.Phytochemical bulletin,1987,19(1): 11-15
4.Emberton J,Ma J,Yuan Y,SanMiguel P,Bennetzen JL.Gene enrichment in maize with hypomethylated partial restriction(HMPR) libraries.Genome Res,2005,15:1441-1446.
5.Gruenbaum Y,Naveh-Many T,Cedar H,Razin A.Sequence specificity of methylation in higher plant DNA.Nature,1981,292: 860-862.
6.Hohenlohe PA,Bassham S,Etter PD,Stiffler N,Johnson EA, Cresko WA.Population Genomics of Parallel Adaptation in Threespine Stickleback using Sequenced RAD Tags.P1os Genet,2010,6:e1000862.
7.Lewis ZA,Shiver AL,Stiffler N,Miller MR,Johnson EA,Selker EU.High-Density Detection of Restriction-Site-Associated DNA Markers for Rapid Mapping of Mutated Loci in Neurospora.Genetics,2007,177: 1163-1171.
8.Miller MR,Atwood TS,Eames BF,Eberhart JK,Yan YL, Postlethwait JH,Johnson EA.RAD marker microarrays enable rapid mapping of zebrafish mutations.Genome Biology,2007,8:R105.
9.Miller MR,Dunham JP,Amores A,Cresko WA,Johnson EA. Rapid and cost-effective polymorphism identification and genotyping using restriction site associated DNA(RAD)markers.Genome Research, 2007,17:240-248.
10.Palmer LE,Rabinowicz PD,O′Shaughnessy A,Balija V, Nascimento L,Dike S,de la Bastide M,Martienssen RA,McCombie WR. Maize genome sequencing by methylation filtration.Science,2003,302: 2115-2117.
11.Pfender WF,Saha MC,Johnson EA,Slabaugh MB.Mapping with RAD(restriction-site associated DNA)markers to rapidly identify QTL for stem rust resistance in Lolium perenne.Theor Appl Genet,2011, 122:1467-1480.
12.Schnable P,Ware D,et al.The B73Maize Genome:Complexity, Diversity,and Dynamics.Science,2009,326:1112-1115
13.Vanyushin BF,Ashapkin VA.DNA methylation in higher plants: Past,present and future.Biochim Biophys Acta,2011,1809:360-368.
14.Yuan Y,SanMigue PJ,Bennetzen JL.High-Cot sequence ahalysis ofthe maize genome.The Plant Journal,2003,34:249-255.
机译: 高等植物复杂基因组基因区的富集,文库构建和SNP分析方法
机译: SNP使用SNP进行疾病相关基因组分析的系统和设备
机译: SNP使用SNP进行疾病相关基因组分析的系统和设备