首页> 中国专利> 一种开发沙冬青植物基因组简单重复序列分子标记的方法

一种开发沙冬青植物基因组简单重复序列分子标记的方法

摘要

本发明涉及一种开发沙冬青植物基因组简单重复序列SSRs分子标记的方法,包括如下步骤:(1)对采样自第一产地的物种样品的基因组DNA建立初级测序文库,进行高通量测序,获得Short Reads(短序列)测序数据;(2)对测序下机的Reads过滤之后进行序列组装得到Contigs;(3)对Contigs序列进行SSRs识别;(4)将上述SSRs在来自第二产地的同一物种的Unigene序列中进行验证,筛选到具有多态性的SSRs。本发明是一种高通量发现SSRs分子标记的方法,可以应用在该物种植物的遗传图谱构建、QTL定位和遗传多样性分析等研究中。

著录项

  • 公开/公告号CN106282330A

    专利类型发明专利

  • 公开/公告日2017-01-04

    原文格式PDF

  • 申请/专利权人 香港中文大学深圳研究院;

    申请/专利号CN201510875507.6

  • 发明设计人 何军贤;高志强;

    申请日2015-12-02

  • 分类号C12Q1/68;

  • 代理机构深圳新创友知识产权代理有限公司;

  • 代理人江耀纯

  • 地址 518057 广东省深圳市南山区虚拟大学园区粤兴二道10号

  • 入库时间 2023-06-19 01:16:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-09-06

    授权

    授权

  • 2017-07-14

    著录事项变更 IPC(主分类):C12Q1/68 变更前: 变更后: 申请日:20151202

    著录事项变更

  • 2017-02-01

    实质审查的生效 IPC(主分类):C12Q1/68 申请日:20151202

    实质审查的生效

  • 2017-01-04

    公开

    公开

说明书

技术领域

本发明涉及一种开发沙冬青植物基因组简单重复序列(下称SSR或SSRs,SimpleSequence Repeats,由1-6个核苷酸不断重复构成,又称之为微卫星DNA)分子标记方法,尤其是蒙古沙冬青基因组分子标记的方法。

背景技术

DNA分子标记是遗传标记的一种,是在基因组水平上的标记,能反映生物个体或种群间基因组中某种差异的特异性DNA片段。DNA分子标记数量多、遍及整个基因组、多态性高、遗传稳定,并且不受环境及基因表达与否的限制。它包括RFLP、RAPD、AFLP、SSRs和ISSR等。

SSRs(Simple Sequence Repeats)即简单重复序列,又称之为微卫星DNA,由1-6个核苷酸不断重复构成,同一类SSRs可分布于整个基因组的不同位置上,每个座位上重复单位的数目存在差异,因而造成了每个座位上的多态性。SSRs在植物基因组中非常丰富,因此被广泛应用在基因定位、亲缘分析、遗传图谱构建等,被认为是目前最好的分子标记之一。

蒙古沙冬青[Ammopiptanthus mongolicus(Maxim.)Chengf.]系豆科蝶形花亚科。沙冬青属超旱生常绿灌木,在中国主要分布于西北(新疆、宁夏、甘肃)及内蒙古(阿拉善戈壁区东南端),属国家重点保护植物。沙冬青具有很强的抗旱、抗寒及耐盐碱特性,也具有药用价值。沙冬青抗逆性的分子机制研究成为近年来的研究热点,目前已有将蒙古沙冬青抗旱基因转入甜菜植株的报道,转基因甜菜的抗旱性要高于非转基因甜菜植株,体现了沙冬青的应用价值。但是,目前人们对沙冬青的基因组水平认识有限,限制了沙冬青这一优良种质资源的进一步应用。

与水稻、小麦等常规植物相比,现有沙冬青SSRs标记的数量很少,不能满足研究需要,因此批量开发沙冬青的SSRs序列,有利于沙冬青遗传图谱构建、重要性状基因定位等研究。

发明内容

本发明的目的在于提供一种开发沙冬青植物基因组SSRs分子标记的方法, 提高标记开发效率,增加标记数量。

为此,本发明提出一种开发沙冬青植物基因组简单重复序列分子标记的方法,其特征在于包括下列步骤:S1、来自第一产地的蒙古沙冬青的基因组测序:对采样自第一产地的物种样品的基因组DNA建立初级测序文库,构建好基因组文库之后,使用测序仪进行高通量测序,获得Short Reads短序列测序数据;S2、对测序下机的基因组测序数据进行过滤,过滤之后进行序列组装得到Contigs;S3、SSRs的识别:对上述Contigs序列中的SSRs序列进行识别。

进一步地,还包括如下步骤:S4、利用NCBI公开的来自第二产地的蒙古沙冬青的转录组测序数据;S5、进行SSRs的验证,通过上述两个产地的同一物种的SSRs相互比较,即:将上述SSRs在来自第二产地的蒙古沙冬青的Unigene序列中进行验证,筛选具有多态性的SSRs。

本发明具有下列优点和积极效果:

相比之前已经报道的开发蒙古沙冬青SSRs的方法,我们的方法更先进,结果更全面,而且所得数据通量高。例如,我们通过蒙古沙冬青全基因组DNA的高通量测序组装Contigs并进行SSRs识别,最终找到274790个SSRs,不仅包括基因编码区的SSRs,也包括了非编码区的SSRs。

进一步地,本发明使用生物信息学的分析方法,直接比较不同地区的蒙古沙冬青的基因组SSRs的多态性,效率高,节约时间和资金。

附图说明

图1是本发明实施例SSRs识别流程图。

图2是本发明实施例多态性的SSRs筛选流程图。

具体实施方式

名词解释

为了便于理解,现将下文中出现的一些名词解释如下:

bp:DNA分子片段大小单位,bp:base pair,碱基对;kb:kilo-base pair千碱基对,即1000碱基对;mb:mega-base pair百万碱基对。

SOAP denovo软件:基于Illumina二代测序的短序列拼接软件。

Contigs:即“序列重叠群”,指彼此可以通过末端的重叠序列相互连接形成大片段的一组DNA短序列。高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据;有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig,即序列重叠群。多个contigs通过片段重叠,组成一个更长的scaffold;一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton;多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene。

MISA软件:一种批量开发SSRs标记软件。

QTL:quantitative trait locus,数量性状基因座,指控制数量性状的基因在基因组中的位置。

K-mer:将一条read,连续切割,挨个碱基划动得到的一系列长度为K的核苷酸序列。

FASTA格式:又称为Pearson格式,是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。

Trinity:是由Broad Institute开发的转录组denovo组装软件,由三个独立的软件模块组成:Inchworm,Chrysalis和Butterfly。

本实施例阐述了一种开发蒙古沙冬青基因组SSRs分子标记的方法,概括来说,该方法包括如下步骤:

(1)对采样自甘肃武威市的蒙古沙冬青样品的基因组DNA建立了180bp的初级测序文库;使用Illumina HiSeq 2000测序仪的100PE模式进行高通量测序,获得了60Gb的ShortReads(短序列)测序数据;

(2)对测序下机的Reads过滤之后使用SOAP denovo软件进行序列组装得到Contigs;

(3)对Contigs序列使用MISA软件进行SSRs识别;

(4)将上述SSRs在来自宁夏中卫市的蒙古沙冬青Unigene序列中进行验证,筛选到具有多态性的SSRs。

本方法是一种高通量发现沙冬青植物SSRs分子标记的方法,可以应用在沙冬青植物遗传图谱构建、QTL定位和遗传多样性分析等研究中。

更具体地说,本方法包括下列步骤:

(1)蒙古沙冬青(甘肃武威市)的基因组测序:对采样自甘肃武威市的蒙古沙冬青样品进行DNA提取之后,通过CovarisTM超声波破碎仪将基因组DNA随机打断成为180bp的片段,经末端修复、加A尾、加测序接头、纯化、PCR扩增等步骤完成整个文库制备;构建好的文库使用Illumina>

(2)对测序下机的数据进行过滤和组装:由于高通量测序得到的原始数据存在一定的错误率,同时DNA上含有人工接头,过滤就是去掉那些有测序错误产生的数据,以及过滤掉含有测序接头的Reads。过滤之后使用SOAP denovo(http://soap.genomics.org.cn/soapdenovo.html)软件进行序列组装,参数设定为Kmer=41。得到名为Contigs.fasta的蒙古沙冬青基因组Contigs序列,保存格式是FASTA格式的文本文件。一般而言Kmer越小则组装结果准确性越好,但是Contig越短;Kmer越大则Contig可能越长,但是错误率也更高。为了平衡准确度和Contig长度,我们选择了较居中的参数Kmer=41。

(3)SSRs的识别:使用MISA软件(http://pgrc.ipk-gatersleben.de/misa/)对蒙古沙冬青Contigs序列中包含的SSRs序列进行识别,程序命令为:perl>

表1.蒙古沙冬青的SSRs类型及数目统计

(4)蒙古沙冬青(宁夏中卫市)的转录组序列组装:从NCBI网站的SRA数据库下载蒙古沙冬青转录组测序原始数据集SRR1035932,该数据集是对采集自宁夏中卫市的蒙古沙冬青的叶片提取RNA之后,富集mRNA并且建立180bp的文库,使用Illumina HiSeq 2000的90PE模式得到的5.6Gb测序数据。对原始数据进行数据过滤之后,使用Trinity软件(Trinity是专门针对转录组数据特点而设计的一种组装方法)进行序列组装,使用Trinity的默认参数运行,结果共得到92222条Unigene序列,总长度64Mb,以FASTA格式存储在Trinity.fasta文件中。使用与步骤(3)中同样的MISA软件和参数在Trinity.fasta中识别SSRs,结果存储在Trinity.fasta.misa。

上述步骤(4)中蒙古沙冬青转录组测序原始数据集SRR1035932下载地址是:http://www.ncbi.nlm.nih.gov/sra/?term=SRR1035932

上述步骤(4)中对原始数据进行数据过滤的命令是:iTools Fqtools filterV2-InFq1 raw.1.fq-InFq2 raw.2.fq-OutFq1 1.fq.gz-OutFq2 2.fq.gz-OffN 0.02-LowQ5-OffLowQ 0.4-MinBaseQ@,其中iTools软件(深圳华大基因研究院开发的一款分析工具,AToolkit for analyzing next-generation DNARe-Sequencing data)的下载地址是https://github.com/BGI-shenzhen/Reseqtools,其中raw.1.fq和raw.2.fq分别是Illumina>

上述步骤(4)中使用Trinity软件在Linux平台进行Unigene序列组装的命令是:Trinity.pl--seqType fq--JM 40G--left 1.fq.gz--right 2.fq.gz--CPU 8 --no_cleanup,其中Trinity软件的下载地址是http://trinityrnaseq.github.io/

(5)SSRs的验证:将步骤(4)得到的SSRs在来自甘肃武威市的蒙古沙冬青基因组Contigs序列中进行验证,筛选到具有多态性的SSRs。具体的验证方法是,取步骤(4)中的SSRs的二侧各20bp的序列作为待验证序列,使用BLAST比对法将该序列比对到步骤(2)中的Contigs,如果SSRs重复单元的重复次数不同,则说明二者具有多态性。比如在宁夏中卫市的蒙古沙冬青中一个SSR序列(TAA)及其侧翼序列是:

AAATTACATCAAGTTGATGG-(TAA)5-ACCACCCGAGCATCAACCA,在甘肃武威市的蒙古沙冬青中对应的序列是:

AAATTACATCAAGTTGATGG-(TAA)7-ACCACCCGAGCATCAACCA,数字下标表示SSR序列(TAA)的重复次数,分别为5次和7次重复,证明本发明得到的SSRs在不同地区的蒙古沙冬青植株中具有多态性(见表2),表中一共列出20对具有多态性的SSRs。

表2.具有多态性的蒙古沙冬青SSRs

工作原理:

在对蒙古沙冬青(甘肃武威市)的基因组测序中,Illumina HiSeq 2000的高通量测序技术一次实验产生的60Gb数据相当于覆盖沙冬青的基因组60倍。SOAP denovo的原理是把测序得到的大量Reads数据分成Kmer=41bp的均一序列,依据Kmer序列之间的Overlap(两组或多组特征数据同时覆盖到的序列长度)关系构建De Bruijn图(一种基因拼接算法),进一步消除图中的Bubble(De Bruijn图中存在的错误路径的一种)从而得到基因组Contigs序列。在对蒙古沙冬青(宁夏中卫市)的转录组数据分析中,Trinity软件进行组装的原理是,首先把测序得到的大量Reads数据分成Kmer=25bp的均一序列,然后依据Kmer序列之间的Overlap关系组装基因的序列。得到两个采集自不同地点的蒙古沙冬青序列之后,分别使用MISA软件进行SSRs识别,并在二者之间进行比较,验证具有多态性的SSRs分子标记。

与现有技术相比,本发明具有下列优点和积极效果:

(1)在目前公开的资料中,研究人员一般是采用蒙古沙冬青的ESTs(表达序列标签)或者转录组的测序数据,来寻找SSRs,例如通过ESTs测序共找到155个SSRs(Liu etal.2013)和通过转录组测序共找到1827个SSRs(Zhou et al.2012),这些方法中使用的技术较为常规,需时比较长,而且只能鉴定到位于基因编码区的SSRs,因此鉴定到的蒙古沙冬青SSRs数目有限。我们通过蒙古沙冬青全基因组DNA的高通量测序组装Contigs并进行SSRs识别,最终找到274790个SSRs,不仅包括基因编码区的SSRs,也包括了非编码区的SSRs,相比之前已经报道的蒙古沙冬青SSRs,我们的方法更先进,结果更全面,而且所得数据通量高。

(2)传统方法验证SSRs多态性是在基因组的SSRs位置两侧设计PCR引物,如果该物种不同种群相应SSRs重复单位数目不一样,经过PCR扩增会得到不同长度的PCR产物,将扩增产物进行凝胶电泳,就能够呈现出差异性。而我们使用生物信息学的分析方法,直接比较甘肃武威市和宁夏中卫市两个地区的蒙古沙冬青的基因组SSRs的多态性,效率高,节约时间和资金。

本发明的潜在市场和用途:

首先,本发明中使用的方法思路可以运用在其他物种的SSRs识别与鉴定之中。例如,本发明中使用的方法可以直接用于蒙古沙冬青的近缘种——新疆沙冬青的SSRs识别与鉴定。其次,本发明所得SSRs可以应用在蒙古沙冬青和新疆沙冬青遗传图谱构建、QTL定位和遗传多样性分析等研究中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号