首页> 中国专利> 一种高效快速测定BAC末端序列的方法

一种高效快速测定BAC末端序列的方法

摘要

本发明提供了一种高效快速测定BAC末端序列的方法,所述方法包括如下步骤:(1)以超级池为单位,富集每个超级池中的行池、列池和板池中所有BAC末端序列,制备成适合新一代测序平台所需的文库;(2)在新一代测序平台上进行测序;(3)通过生物信息学的方法将混合的BAC末端序列回归到单个克隆:利用序列比对,确定每个BAC末端序列所在的行池、列池和板池信息,定位出每个克隆的BAC末端序列。本发明所述方法不仅能快速得到全BAC文库中所有单个克隆的BAC末端序列,而且极大程度降低了BAC末端测序的成本和时间。

著录项

  • 公开/公告号CN104073549A

    专利类型发明专利

  • 公开/公告日2014-10-01

    原文格式PDF

  • 申请/专利权人 中国农业大学;

    申请/专利号CN201310108959.2

  • 发明设计人 胡晓湘;谈成;李宁;

    申请日2013-03-29

  • 分类号C12Q1/68;

  • 代理机构北京路浩知识产权代理有限公司;

  • 代理人王朋飞

  • 地址 100193 北京市海淀区圆明园西路2号

  • 入库时间 2023-12-17 01:19:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-31

    授权

    授权

  • 2014-10-29

    实质审查的生效 IPC(主分类):C12Q1/68 申请日:20130329

    实质审查的生效

  • 2014-10-01

    公开

    公开

说明书

技术领域

本发明涉及生物技术领域,特别涉及一种高效快速测定BAC末端 序列的方法。

背景技术

基因组BAC(Bacterial Artificial Chromosome,细菌人工染色体) 文库是含有某种生物体基因组随机片段的重组DNA克隆群体,它在 构建物理图谱、基因图位克隆、基因结构分析等研究中具有重要作 用。目前许多生物都有高覆盖度的BAC文库。为了方便管理,BAC 文库被划分为多个超级池来储存,每个超级池由一定数目的96孔或 384孔板组成;在每个超级池中,再将行向、列向和板面的BAC克 隆混合,即得到行池、列池和板池。筛选克隆常用3D-PCR筛选系 统,第一步是对超级池的DNA进行PCR扩增,找出含有阳性克隆 的超级池;接下来对行池、列池和板池的DNA进行PCR扩增,得 到克隆所在的行、列、板三个方向信息。由此,两步PCR就可以找 到含有目的片段的BAC克隆。

BAC末端序列是指BAC克隆中插入片段的两端序列,能够迅 速而精确的定位BAC在基因组上位置。BAC末端测序技术在全基 因组测序中有着举足轻重的作用,它能够迅速而精确地进行序列拼 装,也可以用来确定基因组序列结构的多态性,如倒置和易位。在 许多基于新一代测序的动植物de novo基因组拼接中利用了BAC末 端序列的长程(约100-150kb)的位置关系,辅助基因组的拼接。在 白菜基因组的de novo测序中,研究者利用BAC末端序列的信息将 Scaffold N50从500kb提高到2Mb,显示了这一应用的潜力。

目前BAC末端测序都是基于Sanger技术的,与质粒或PCR产 物的测序步骤相近,但成功率却比它们低得多,主要是由于难以获 得大量高纯度的BAC DNA(500ng以上),而且操作复杂、通量低、 成本高。若以一个含10万个克隆的大基因组的BAC文库计算,每 对BAC末端测序需要50元,则测出所有BAC末端序列需要10万 ×50元/克隆=500万元,更别说所需要的时间。因此,发明一种快 速低成本地测序BAC文库中所有BAC末端序列的方法是非常有必 要的和有市场前景的。

除此之外,高效快速测定BAC末端序列的方法可以用于全基因 组测序的组装工作中。近些年来,基于各种新一代测序平台的de novo基因组测序为我们提供了成千上万个物种的参考基因组序列, 但短的序列读长增加了de novo数据的组装难度,拼接后的contig N50一般在15-40kb。为此,开发一种高效利用已有BAC文库中所 有BAC末端序列来辅助基因组组装的方法,是非常有意义的。

发明内容

本发明的目的是提供一种高效快速测定BAC末端序列的方法, 所述方法通过新一代测序平台大规模平行测定BAC文库中行池、列 池和板池中所有的BAC末端序列,再通过生物信息学的方法将BAC 末端序列回归到单个克隆。

本发明所述的高效快速测定BAC末端序列的方法包括如下步 骤:

(1)以超级池为单位,富集每个超级池中的行池、列池和板池 中所有BAC末端序列,制备成适合新一代测序平台所需的文库;

(2)在新一代测序平台上进行测序;

(3)通过生物信息学的方法将混合的BAC末端序列回归到单 个克隆:利用序列比对,确定每个BAC末端序列所在的行池、列池 和板池信息,定位出每个克隆的BAC末端序列。

其中,步骤(1)的方法为:用Covaris S220超声破碎系统将超 级池的行池、列池和板池中BAC DNA分别打断成400-500bp,经 过末端修复后,在DNA两端连接上特定接头,再通过特异的PCR 引物扩增含BAC末端序列的区域,纯化并胶回收300-350bp扩增产 物,即制成含所有BAC末端序列的测序文库。

具体地,步骤(1)中制备上述含所有BAC末端序列的测序文 库的方法包括如下步骤:

(A1)将BAC DNA打断:在1.5ml离心管中加入5μg BAC DNA,用TE溶液稀释将其体积补充至130μL,把稀释好的DNA 缓慢注入Covaris microTube,注意不要引入气泡;设置Covaris S220 参数,将DNA打断成400-500bp;

(A2)末端修复:配制末端修复反应的体系,混匀,室温放置 20min,反应结束后,用1.8×AMPure XP Beads纯化,50μL TE溶 液洗脱;

(A3)连接接头:配制连接接头反应的体系,混匀,室温放置 30min;反应结束后,用1.8×AMPure XP Beads纯化,30μL TE溶 液洗脱;

(A4)特异性PCR富集BAC末端序列:配制PCR反应的体系, 设置好程序进行PCR扩增反应;反应结束后,用1.5×AMPure XP Beads纯化,30ul TE溶液洗脱,胶回收300-350bp扩增产物。

优选地,步骤(A1)中设置的Covaris S220参数为:

优选地,步骤(A2)中配制的末端修复反应体系如下:

优选地,步骤(A3)中配制的连接接头反应体系如下:

其中,步骤(A3)中所述接头为:核苷酸序列为SEQ ID NO.1 和SEQ ID NO.2所示的两条序列,将它们等摩尔混合,退火形成双 链,即制成接头。

优选地,步骤(A4)中配制的PCR反应体系如下:

引物1的核苷酸序列如SEQ ID NO.3或SEQ ID NO.4所示,两 个引物需单独使用,分别扩增插入片段其中一端的BAC末端序列; 引物2的核苷酸序列如SEQ ID NO.5所示。

其中,步骤(A4)中PCR反应程序如下:先95℃预变性5min; 然后95℃30s,60℃30s,72℃1min,30个循环;再72℃延伸 10min;4℃保存。

其中,所述方法中使用的新一代测序平台可以为Ion Torrent PGM测序仪、Ion Torren Proton测序仪、Illumina公司的HiSeq、GA、 MiSeq测序仪或Roche公司的454测序仪中的一种,但在不同平台 上应用时接头和PCR引物有一些变化。

本发明还提供了一种将混合的BAC末端序列回归到单个克隆的 生物信息学分析方法,所述方法为:利用序列比对,确定每个BAC 末端序列所在的行池、列池和板池信息,从而得到这一三维信息所定 位的克隆的BAC末端序列。

本发明还提供了特定的接头序列和PCR引物。

其中,接头序列为核苷酸序列如SEQ ID NO.1和SEQ ID NO.2 所示的两条核苷酸序列,将它们等摩尔混合,退火形成双链,即制成 接头,这一接头适合所有物种,但只能在Ion Torrent PGM测序仪, Ion Torren Proton测序仪及454测序仪上进行测序,在其它新一代测 序平台上实现需要稍微修改。

PCR引物的核苷酸如SEQ ID NO.3、SEQ ID NO.4、SEQ ID NO.5 所示,适合载体为pIndigo BAC-5的基因组文库,用其它载体构建的 BAC文库需要稍微修改序列。

本发明的高效快速测定BAC末端序列的方法不仅能快速得到全 BAC文库中所有单个克隆的BAC末端序列,而且极大程度降低了BAC 末端测序的成本和时间。

附图说明

图1为用本发明方法测序得到的某个克隆的BAC末端序列(277 bp)与用Sanger测序法得到的BAC末端序列(853bp)的比对结果;

图2为本发明方法测序得到的序列(Query)与Ensembl上鸭基因 组序列(Sbjct)的比对结果。

具体实施方式

以下实施例用于说明本发明,但不用来限制本发明的范围。在 不背离本发明精神和实质的情况下,对本发明方法、步骤或条件所 作的修改或替换,均属于本发明的范围。

若未特别指明,本发明实施例中所用的实验材料、生化试剂和 仪器等均可市售获得;若无具体说明,实施例中所用的技术手段均 为本领域技术人员所熟知的常规手段。

DNA End Repair Mix(货号:A14321)购自invitrogen公司;

ExpressLink T4DNA Ligase(货号:A13726)购自invitrogen公 司;

Platinum PCR SuperMix High Fidelity(货号:12532-016)购自 invitrogen公司;

Agencourt AMPure XP磁珠购自BECKMAN COULTER公司;

鸭基因组BAC文库:构建方法参见(原晓俐,鸭细菌人工染色 体文库的构建及连锁群的FISH定位,2007年,中国农业大学博士 论文),基因组来源于一只北京鸭,载体是pIndigo BAC-5,基因组 片段插入处的酶切位点为Hind III(384bp,切割位点是:A|AGCTT)。 包括16个超级池,每个超级池由8块384(16×24)孔板组成,分 别将16个行向、24个列向以及8个板面的BAC混合,形成16个 行池、24个列池和8个板池。

鸭de novo基因组:鸭de novo基因组序列已在在Pre Ensemble (http://pre.ensembl.org/index.html)上公布。

本发明实施例以鸭基因组BAC文库来说明本发明的高效快速 测定BAC末端序列的方法。

实施例1制备含所有BAC末端序列的二代测序文库

选取鸭基因组BAC文库的10号超级池DHS10的16个二级池 (包括3个板池、5个行池、8个列池),这16个二级池在空间位置 上有3×5×8=120个交点。用Covaris S220超声破碎系统将BAC DNA 打断成400-500bp,经过末端修复后,在两端连接上特定接头,再通 过特异的PCR引物扩增,纯化并胶回收300-350bp的扩增产物,即 制成含二级池所有BAC末端序列的测序文库。

具体地,制备上述含二级池所有BAC末端序列的测序文库的方 法包括如下步骤:

(1)将BAC DNA打断

在1.5ml离心管中加入5μg DNA,用TE溶液稀释将其体积补 充至130μL,把稀释好的DNA缓慢注入Covaris microTube,注意 不要引入气泡;设置好Covaris S220参数,将DNA打断成约400-500 bp的范围,Covaris S220参数如下:

(2)末端修复

配制末端修复反应体系如下:

用枪上下吹吸数次,混匀后室温放置20min;反应结束后,用 1.8×AMPure XP Beads纯化,50μL TE溶液洗脱。

(3)连接接头

配制连接接头反应体系如下:

用枪上下吸打混匀,室温放置30min;反应结束后,用 1.8×AMPure XP Beads纯化,30μL TE溶液洗脱。

其中,所述接头为:核苷酸序列为SEQ ID NO.1和SEQ ID NO.2 所示的两条序列,将它们等摩尔混合,退火形成双链,即制成接头。

(4)特异性PCR富集BAC末端序列

配制PCR反应体系如下:

引物1的核苷酸序列如SEQ ID NO.3或SEQ ID NO.4所示,两 个引物需单独使用,分别扩增插入片段其中一端的BAC末端序列; 引物2的核苷酸序列如SEQ ID NO.5所示。

PCR程序为:先95℃预变性5min;然后95℃30s,60℃30s, 72℃1min,30个循环;再72℃延伸10min;4℃保存。

反应结束后,用1.5×AMPure XP Beads纯化,30ul TE溶液洗 脱,胶回收300-350bp扩增产物。

实施例2利用Ion Torrent PGM测序

经过文库质控,油包水PCR反应,按Ion Torrent PGM标准流 程进行上机测序,得到格式为fastq原始数据文件。

实施例3将混合的BAC末端序列回归到单个克隆

通过将行池中得到的BAC末端序列与列池、板池中的BAC末 端序列比对,得到每条BAC末端序列出现的列池和板池号,除去重 复的BAC末端序列,得到每个BAC末端序列所属的克隆,即得到 每个克隆的BAC末端序列。理论上应该能够得到120个克隆的两侧 末端序列,即240个BAC末端序列,实际分析结果也证明了本发明 的预测。

同时,利用基于Sanger测序的BAC末端测序方法,对结果进 行验证,证明两者得到的序列一致,证明了本发明的可靠性。

图1为用本发明方法测序得到的某个克隆的BAC末端序列(277 bp)与用Sanger测序法得到的BAC末端序列(853bp)的比对结果, 结果显示,除了起始的50bp序列有差异外,用本发明方法得到的 BAC末端序列有200bp以上与Sanger测序的序列一致(黑色方框 表示序列一致),足以证明本实验的可靠性。另外,起始50bp区域 不一致是由于测序引物的起点不同导致的,而一致序列中出现的一 些错配是由于Ion Torrent PGM测序仪对多聚核苷酸的检测能力有限 导致的。

实施例4利用BAC末端序列的位置信息辅助基因组拼接

根据每对BAC末端序列处于相邻位置的原则,将每个BAC末 端序列与鸭基因组序列进行比对,得到每个BAC末端序列的位置, 将一些scafford拼接在一起。

如图2所示,Query是本发明方法测序得到的序列,Sbjct为 Ensembl上鸭基因组序列,可以看出该BAC末端序列位于鸭 scaffold884上。

结果显示,在120对测出的BAC末端序列中,有33对BAC末 端序列在同一个scaffold上,有86对在不同scaffold上;另外1对 BAC末端序列一侧定位上,一侧由于被测到的读长太短无法定位。

表1为定位到同一个scaffold上的BAC的位置和长度,其列出 了测序读长与鸭的基因组匹配达90%以上,且长度大于80bp的分布 在同一条Scafford上的BAC克隆信息。

表1定位到同一个Scafford上的BAC的位置和长度

表2为定位到不同scaffold上的BAC信息,其列出了测序读长 与鸭的基因组匹配达90%以上,且长度大于80bp的分布在不同 Scafford上的BAC克隆信息,这些BAC末端信息可以用来辅助基 因组的拼接,本研究结果也从一定程度对鸭的部分基因组gap进行 了补充。

表2定位到不同Scafford上的BAC信息

本发明实施例仅以鸭基因组BAC文库来说明本发明的高效快 速测定BAC末端序列的方法,本发明的高效快速测定BAC末端序 列的方法同样适用于其他生物的基因组BAC文库。

虽然,上文中已经用一般性说明、具体实施方式及试验,对本发 明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进, 这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神 的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号