首页> 中国专利> 对高等植物复杂基因组基因进行富集建库和SNP分析的方法

对高等植物复杂基因组基因进行富集建库和SNP分析的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供了一种适合含有复杂基因组的高等开花植物基因区的建库方法。在本发明的方法中，使用甲基化敏感酶替代常规的非甲基化敏感酶对基因组进行基因区富集，之后进行建库。本发明还提供了一种适合含有复杂基因组的高等开花植物的寻找SNP的方法。

著录项

公开/公告号CN103160937A

专利类型发明专利
公开/公告日2013-06-19

原文格式PDF
申请/专利权人深圳华大基因科技有限公司;深圳华大基因研究院;
展开▼

申请/专利号CN201110420042.7
发明设计人郭钰;邵迪;韩长磊;陶晔;杨焕明;张秀清;
展开▼

申请日2011-12-15
分类号C40B50/06(20060101);C40B40/06(20060101);C12N15/10(20060101);C12Q1/68(20060101);
代理机构11285 北京北翔知识产权代理有限公司;
代理人张广育;姜建成
地址 518083 广东省深圳市盐田区北山路146号北山工业区综合楼11F-3
入库时间 2024-02-19 18:48:14

法律信息

法律状态公告日

法律状态信息

法律状态
2015-02-18

授权

授权
2013-08-07

专利申请权的转移 IPC(主分类):C40B50/06 变更前: 变更后: 登记生效日:20130717 申请日:20111215

专利申请权、专利权的转移
2013-07-24

实质审查的生效 IPC(主分类):C40B50/06 申请日:20111215

实质审查的生效
2013-06-19

公开

公开

说明书

技术领域

本发明属于分子生物学领域，尤其涉及一种建立高等植物复杂基因组基因文库的方法。

背景技术

限制性酶切位点关联DNA(restriction-site associated DNA，RAD) 标记技术是指一种将基因组DNA用限制性内切酶消化后，对酶切位点区域进行序列分析的技术。RAD标记应用初期是使用基因芯片技术来对 RAD标记进行分离。例如，Lewis等(2007)使用NotI对粗糙链孢菌 DNA进行了酶切，之后用基因芯片对NotI酶切位点区域进行了序列分析，并完成了对突变位点的作图；Miller等(2007)用基因芯片技术分析了斑马鱼基因组的EcoRI标记，也完成了对突变位点的作图；Miller等(2007) 测试了使用RAD基因芯片对生物单体以及分离群体进行基因分型，结果显示，在模式生物与非模式生物中，RAD标记都能很好的进行分型。虽然基因芯片技术能够高密度的寻找生物体基因组中的RAD标记，但是由于其价格昂贵，限制了应用芯片技术的RAD标记的应用。

近几年来，由于第二代测序技术的逐渐普及以及相比于芯片技术的价格低廉，发展了使用第二代测序技术对RAD标记进行分析的方法。例如，Baird等(2008)开发了一套利用Illumina测序技术对RAD标记附近区域进行测序的建库方法，该方法在寻找SNP与RAD标记作图方面取得了很好的效果。Hohenlohe等(2010)应用第二代测序技术对RAD 标记区域进行测序，在5个三刺鱼群体共100个个体中找到了45000个 SNP位点。Chutimanitsakun等(2011)以大麦为模式生物，评测了RAD 测序技术在QTL方面的应用。Pfender等(2011)使用RAD测序技术构建的连锁图能够快速分辨出黑麦草茎的抗锈病基因的QTL位点。截至目前，RAD技术已经在制作遗传连锁图、基因分型、QTL定位等方面得到了越来越广泛地应用，特别是在无参考序列的情况下寻找酶切位点附近区域SNP时展现出独特优势。目前，RAD测序技术在建立文库时使用的主要是NotI、EcoRI以及SbfI等酶。

已报道的RAD测序技术的研究对象大多数都是基因组构成较为简单的生物。某些高等开花植物含有复杂的基因组，例如玉米基因组中80％以上是重复序列(Schnable等，2009)。重复序列区的大多数CG序列的胞嘧啶出现甲基化现象(Methylation)，表示为5mC。而在基因区中的CG序列的胞嘧啶很少发生甲基化(Gruenbaum等，1981；Vanyushin 等，2011)。在研究这些复杂基因组时，常规的RAD建库方法得到的基因组文库中含有大量的重复序列，不能起到富集基因组基因区的作用。

虽然现有技术中已经有对高等植物基因组基因区富集的方法，例如过滤掉甲基化序列的MF(Methylated Filtration)(Palmer等，2003)、过滤掉高拷贝序列的HC(High-Cot)(Yuan等，2003)、亚甲基部分限制HMPR(Hypomethylated Partial Restriction)等，但是Emberton 等(2005)的结果表明，上述三种方法构建的文库基因序列分别仅可以达到总序列的33.8％、23.4％、25.8％。本领域仍然需要一种适用于具有复杂基因组的高等植物的基因区建库方法。

发明内容

鉴于在研究某些含有复杂基因组的高等开花植物时，常规的RAD建库方法得到的基因组文库中含有大量重复序列，给后续的信息分析造成干扰的事实，本发明提供了一种新的建库方法。在本发明的方法中，使用甲基化敏感酶替代常规的非甲基化敏感酶对基因组进行酶切，之后进行建库。

在一方面中，本发明提供了一种适合含有复杂基因组的高等开花植物的建库方法，包括如下步骤：

1)用甲基化敏感酶对从一个或多个样本提取的基因组DNA进行酶切，获得DNA片段；

2)对所述DNA片段进行第一接头连接，获得具有第一接头的连接产物，其中在多个样本基因组DNA的情况下，每种样品的DNA片段连接的第一接头带有不同标签序列，并将连接第一接头后的连接产物混合；

3)对所述具有第一接头连接产物进行打断及片段回收，获得回收产物；

4)对所述回收产物进行末端修复，获得经过末端修复的DNA片段；

5)对所述经过末端修复的DNA片段的3′端加碱基A，获得具有粘性末端A的DNA片段；

6)对所述具有粘性末端A的片段进行第二接头连接，获得具有第二接头的连接产物；

7)对所述具有第二接头连接产物进行PCR扩增，获得扩增产物，所述扩增产物构成所述基因组富集基因区测序文库。

本发明还提供了一种适合含有复杂基因组的高等开花植物的寻找 SNP的方法，包括

1)对本发明的建库方法第7)步的扩增片段进行测序；

2)将上述测序序列与参考序列做比对分析，寻找SNP。

本发明是对常规RAD方法的改进，能够较大程度地使得基因富集，并且富集效率要高于前人所用的MF、HC、HMPR方法。所以本发明所提供的技术是一种快速有效的对基因组，特别是对某些高等开花植物复杂基因组，基因富集的建库方法。本发明的方法特别可以应用于对含有复杂基因组的高等开花植物进行生物信息学分析，例如可以用于快速寻找有参考基因组序列的SNP和无参考基因组序列的基因区酶切位点附近区域的SNP。

附图说明

图1DNA检测结果。MI是λ-Hind III digest(Takara)；M2是D2000 (Tiangen)。

图2玉米四个品种的HpaII、MspI的酶切效果。M1是λ-Hind III digest(Takara)；M2是D2000(Tiangen)。

图3打断产物的胶回收。M是100bp DNA ladder(Tiangen)。

图4PCR产物的切胶回收。M是100bp DNA ladder(Tiangen)。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在本发明的方法中，使用甲基化敏感酶替代常规的非甲基化敏感酶对基因组进行酶切，之后进行建库，建库步骤可以参考例如Baird开发的方法。

在本发明中，可以使用例如soap(version 2.21，获自 http://soap.genomics.org.cn/)将测序序列与参考基因组序列进行比对分析。

在本发明实施例中，以玉米基因组为例，但本发明的方法不局限于玉米基因组，而是适用于任何高等开花植物复杂基因组以及其他基因组，特别是含有复杂的基因组的某些高等开花植物，例如基因组中80％以上是重复序列的高等开花植物。

参考序列是所研究物种的基因序列，可以来自公共数据库，或者来自商业数据库。所述参考序列也可以来自测序所得的短片短序列(读段)，基因组测序技术已经被市场化应用。

本发明中，建库初始的DNA总量优选高于普通RAD建库所要求的 DNA的量。若按常规RAD要求的DNA的量来建库，可能导致最后DNA 的量不够。经测试，本方法初始DNA用1.5μg为佳。

在本发明中，甲基化敏感酶可以是HpaII、AclI、HpvCH4IV等，但是在内切酶的识别序列中必须出现CG序列。在使用甲基化敏感酶进行酶切时，酶切时间优选为1.5h。更优选达到以下酶切效果，即出现弥散条带。

在本发明中，所述打断片段优选为500bp左右，例如400-600bp。该片段大小是指打断后进行电泳主带的位置，并不要求所有序列都是该片段大小。在本发明的一个实施方案中，可以对打断后的DNA片段进行回收，例如切胶。在本发明的一个实施方案中，回收的DNA片段大小可以为300-700bp，或者可以为300-500bp，又或者可以为500-700bp。

在本发明中，加上P1接头和P2接头是为了进行扩增和方便后续测序。P1接头和P2接头一般可以从测序平台提供商获得，并按照其说明使用，例如来自illumina solexa、ABI SOLiD、Roche 454等平台。

在本发明中，标签序列是为了在多个样品的情况下区分不同样品，根据样品多少标签序列长度可以为2-10bp，也可以更长。接头的标签部分可以由本领域技术人员根据常理设计。

在本发明中，因为每个P1接头都可以连接有不同的标签序列，所以不同样品混合在一起在测序时也可以区分开。

在本发明中，测序可以在高通量测序平台上进行，如Illumina Solexa、 ABI SOLiD或Roche 454等。

在本发明中，测序可以是Solexa测序，深度优选为0.4×的单向50 循环测序。

在本发明中，可以使用soap2.21将测序序列与参考基因组序列做比对分析，品种间SNP的寻找。

在本发明中，为了评估本发明的方法的优势，可以统计基因富集效率和基因覆盖效率。例如，基因富集效率和基因覆盖效率按照如下公式进行计算：

基因富集率＝基因reads数/总reads数

基因覆盖度＝文库基因数/玉米总基因数

其中，基因富集率表示的是基因富集的效果。基因覆盖度表示的是能够覆盖到的基因数。

例如，玉米有32000个基因，而在本发明的实施例中，使用的建库结果中得到了其中26119个基因，则基因覆盖度为26119/32000，结果为 80.27％。在基因富集率高的情况下也要兼顾基因覆盖度。80.27％这样的基因覆盖程度完全可满足后续分析的要求。

实施例

材料：包括四个品种的玉米，分别是B73、农科白、郑58、7922。每个品种种植一株。

本实施例中所用试剂及仪器请见表1、表2、表3、表4。

表1

以上试剂均-20℃保存。

表2

以上试剂均常温保存。

表3

以上试剂均4℃保存。

表4常用仪器列表

步骤如下：

1.在玉米生长一月时取其叶片，用Doyle JJ与Doyle JL(1987)提出的CTAB提取法提取玉米DNA。步骤简述如下：1)取2×CTAB和β- 巯基乙醇25∶1(体积)于离心管中，预热；2)玉米叶片1-2g，放入经液氮预冷的研钵中，加入液氮研磨至粉末状，转移粉末到预热的离心管中，置65℃水浴中保温；3)加等体积的氯仿/异戊醇，颠倒混匀，离心弃沉淀；4)加入2倍体积的100％乙醇或0.7倍体积异丙醇，离心回收 DNA沉淀。

2.使用Quant-iT ds kit检测DNA浓度，之后取100ng经1％琼脂糖电泳检测DNA质量。主带清晰、无降解或少量降解的DNA即可(图 1)。然后将DNA浓度稀释至50ng/μL。

3.使用HpaII、MspI这两种酶对玉米DNA进行酶切反应。其中，用HpaII酶切的DNA取1.5μg，用MspI的取1μg。两种酶的详细信息见表5，酶切反应体系见表6。HpaII与MspI为同尾酶，但是MspI是非甲基化敏感酶。这样设计是为了对比在同样的酶切位点情况下，甲基化敏感酶与非敏感酶的酶切效果。在37℃下酶切1.5h，之后取5μL，用琼脂糖凝胶电泳检测酶切效果，以出现弥散条带为准(图2)。检测完之后 65℃条件30min下将酶失活。

表5内切酶

表6酶切反应体系

4.使用PCR仪将P1接头的两条单链退火为双链。退火程序为： 95℃10min，、70℃10min、65℃10min、60℃10min、55℃10min、50℃10min、 45℃10min、40℃10min、35℃10min、30℃10min、25℃10min。两条单链序列如下：

top，

5′-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACAC GACGCTCTTCCGATCTxxxxx-3′(SEQ ID NO.1)

bottom，

5′-Phos-CGxxxxxAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG TAGATCTCGGTGGTCGCCGTATCATT-3′(SEQ ID NO.2)

将酶切好的片段与P1接头进行连接，连接反应体系见表7。HpaII 的酶切产物使用缓冲液3，MspI使用缓冲液4。使用Thermomixer 20℃ 孵育30min，之后65℃孵育25min失活T4DNA ligase。在上述序列中， xxxxx是用来区分品种的标签序列。四个品种所带标签序列信息如下：

B73：5′-TCAC-3′ 农科白：5′-CATCT-3′

郑58：5′-CGCGGT-3′ 7922：5′-GTTGAA-3′

表7P1连接反应体系

5.将同种酶酶切好的DNA，每个品种取22.5μL，混合在一个管子中。按表8配制打断体系。

表8打断体系的配制

使用Covaris S1将DNA Mixtrue打断成主带在500bp的片段。

Covaris S1参数设置为：

Duty cycle(负载比)调为10％，Intensity(强度)调为10，Cycles/Burst (循环/脉冲)调为1000，Time调为45S，cycle调为2。打断后，使用 QIAquick PCR Purification Kit纯化，32μL EB溶解。

使用2％的琼脂糖凝胶电泳，切胶得到300-500bp，以及500-700bp的 DNA片段(图3)。500-700bp的片段放入-20℃冰箱备用。使用QIAquick Gel Extraction Kit对300-500bp的片段进行溶胶回收，产物溶于30μL EB。

6.对回收片段进行末端修复，反应体系见表9。Thermomixer 20℃孵育30min，QIAquick PCR Purification Kit纯化，34μL EB溶解。

表9末端修复反应体系

对上步所得片段的3′端进行加A操作，反应体系见表10。 Thermomixer 37℃孵育30min，QIAquick PCR Purification Kit纯化， 23.5μL EB溶解。

表103′端加A操作

对P2接头进行退火操作。退火程序设置与P1相同。P2接头两条单链序列为：

top，

5′-Phos-CTCAGGCATCACTCGATTCCTCCGAGAACAA-3′(SEQ ID NO.3)；

bottom，

5′-CAAGCAGAAGACGGCATACGACGGAGGAATCGAGTGAT GCCTGAGT-3′(SEQ ID NO.4)

反应体系见表11。Thermomixer 20℃孵育30min，QIAquick PCR Purification Kit纯化，27μL EB溶解。

表11 P2接头连接反应体系

7.最后对上步所得片段进行PCR扩增。反应体系见表12。反应条件设置为：1循环，98℃30sec；12循环，包括98℃10sec，65℃30sec， 72℃30sec；1循环72℃5min；4℃保存。反应引物序列为：

P1-正向引物，5′-AATGATACGGCGACCACCGA-3′(SEQ ID NO.5)；

P2-反向引物，5′-CAAGCAGAAGACGGCATACGA-3′(SEQ ID NO.6)。

表12PCR扩增体系

扩增产物使用2％的琼脂糖凝胶电泳，切胶得到350-550bp的片段(图 4)。使用QIAquick Gel Extraction Kit进行溶胶回收，回收产物溶于27μL EB solution。

8.回收产物进行Solexa测序，深度为0.4×，单向50循环测序。在网站http://www.maizesequence.org/index.html上下载玉米B73的基因组序列，作为参考序列。使用soap2.21对将本实验的测序序列与玉米 B73的参考序列进行比对分析，统计基因富集效果(表9)。按照如下公式进行统计：

基因富集率＝基因reads数/总reads数

基因覆盖度＝文库基因数/玉米总基因数

表9统计结果

注：玉米总基因数为32000

从均值来看，甲基化敏感酶HpaII得到的基因富集率是非甲基化敏感酶MspI的3.24倍(40.42％/12.44％＝3.24)，而二者得到的基因覆盖率相差不大，都比较高，在80％左右。另外，HpaII得到的基因富集率也高于前人所用MF、HC、HMPR法得到的结果。因此，本发明利用 HpaII酶切建库是一种基因富集的好方法。

参考文献

1.Baird NA，Etter PD，Atwood TS，Currey MC，Shiver AL，Lewis ZA，Selker EU，Cresko WA，Johnson EA.Rapid SNP Discovery and Genetic Mapping Using Sequenced RAD Markers.Plos One，2008，3： e3376.

2.Chutimanitsakun Y，Nipper RW，Cuesta-Marcos A，CistuéL， Corey A，Filichkina T，Johnson EA，Hayes PM.Construction and application for QTL analysis of a Restriction Site Associated DNA(RAD) linkage map in barley.BMC Genomics，2011，12：4.

3.Doyle JJ，and Doyle JL.A rapid DNA isolation procedure for small quantities of fresh leaf tissue.Phytochemical bulletin，1987，19(1)： 11-15

4.Emberton J，Ma J，Yuan Y，SanMiguel P，Bennetzen JL.Gene enrichment in maize with hypomethylated partial restriction(HMPR) libraries.Genome Res，2005，15：1441-1446.

5.Gruenbaum Y，Naveh-Many T，Cedar H，Razin A.Sequence specificity of methylation in higher plant DNA.Nature，1981，292： 860-862.

6.Hohenlohe PA，Bassham S，Etter PD，Stiffler N，Johnson EA， Cresko WA.Population Genomics of Parallel Adaptation in Threespine Stickleback using Sequenced RAD Tags.P1os Genet，2010，6：e1000862.

7.Lewis ZA，Shiver AL，Stiffler N，Miller MR，Johnson EA，Selker EU.High-Density Detection of Restriction-Site-Associated DNA Markers for Rapid Mapping of Mutated Loci in Neurospora.Genetics，2007，177： 1163-1171.

8.Miller MR，Atwood TS，Eames BF，Eberhart JK，Yan YL， Postlethwait JH，Johnson EA.RAD marker microarrays enable rapid mapping of zebrafish mutations.Genome Biology，2007，8：R105.

9.Miller MR，Dunham JP，Amores A，Cresko WA，Johnson EA. Rapid and cost-effective polymorphism identification and genotyping using restriction site associated DNA(RAD)markers.Genome Research， 2007，17：240-248.

10.Palmer LE，Rabinowicz PD，O′Shaughnessy A，Balija V， Nascimento L，Dike S，de la Bastide M，Martienssen RA，McCombie WR. Maize genome sequencing by methylation filtration.Science，2003，302： 2115-2117.

11.Pfender WF，Saha MC，Johnson EA，Slabaugh MB.Mapping with RAD(restriction-site associated DNA)markers to rapidly identify QTL for stem rust resistance in Lolium perenne.Theor Appl Genet，2011， 122：1467-1480.

12.Schnable P，Ware D，et al.The B73Maize Genome：Complexity， Diversity，and Dynamics.Science，2009，326：1112-1115

13.Vanyushin BF，Ashapkin VA.DNA methylation in higher plants： Past，present and future.Biochim Biophys Acta，2011，1809：360-368.

14.Yuan Y，SanMigue PJ，Bennetzen JL.High-Cot sequence ahalysis ofthe maize genome.The Plant Journal，2003，34：249-255.

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 对高等植物复杂基因组基因进行富集建库和SNP分析的方法 [P] . 中国专利： CN103160937B . 2015.02.18
2. 对高等植物复杂基因组基因进行富集建库和SNP分析的方法 [P] . 中国专利： CN103160937A . 2013-06-19
3. METHOD FOR ENRICHMENT, LIBRARY CONSTRUCTION AND SNP ANALYSIS OF GENE REGIONS IN COMPLEX GENOME OF HIGHER PLANT [P] . 世界知识产权组织专利： WO2013086964A1 . 2013-06-20

机译：高等植物复杂基因组基因区的富集，文库构建和SNP分析方法
4. SNP A system and apparatus for disease-related genomic analysis using SNP [P] . 韩国专利： KR101991007B1 . 2019-06-20

机译： SNP使用SNP进行疾病相关基因组分析的系统和设备
5. SNP A system and apparatus for disease-related genomic analysis using SNP [P] . 韩国专利： KR20190080832A . 2019-07-08

机译： SNP使用SNP进行疾病相关基因组分析的系统和设备