首页> 中国专利> 利用密码子随机化和诱变来合成基因文库的方法

利用密码子随机化和诱变来合成基因文库的方法

摘要

本发明提出了一种通过使用翻译成相同蛋白的三碱基核酸序列(密码子)的组合,在合成基因文库之后容易地找到在分析核酸碱基序列的各种文库序列的过程中产生的错误的方法。这表明可以产生具有相同蛋白序列但具有不同的核酸碱基序列的基因文库。本公开提供了一种新颖的实验方法,通过改变针对体内特定基因的表达而优化的密码子使用,该方法能够测量基因表达与密码子变化的相关性。此外,本公开提供了一种同时合成和分析其中蛋白序列被转化为一些相似的蛋白序列的基因文库的方法,由此能够鉴定所表达的基因的部分蛋白序列的变化对相应基因的功能有何影响。

著录项

  • 公开/公告号CN104955961A

    专利类型发明专利

  • 公开/公告日2015-09-30

    原文格式PDF

  • 申请/专利权人 塞勒密斯株式会社;

    申请/专利号CN201380064845.0

  • 发明设计人 方斗熹;朴相彦;李俊九;李智元;

    申请日2013-12-11

  • 分类号C12Q1/68(20060101);C40B40/08(20060101);C12N15/11(20060101);

  • 代理机构11127 北京三友知识产权代理有限公司;

  • 代理人庞东成;李栋修

  • 地址 韩国首尔

  • 入库时间 2023-12-18 11:14:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-08

    授权

    授权

  • 2015-11-04

    实质审查的生效 IPC(主分类):C12Q1/68 申请日:20131211

    实质审查的生效

  • 2015-09-30

    公开

    公开

说明书

技术领域

本公开涉及一种容易地合成并分析具有蛋白遗传突变的基因文库和序列文库的 方法。

背景技术

通常,基因合成是指合成长核酸片段的技术,其长度为200碱基对(bp)以上,包 含来自作为短核酸片段的寡核苷酸的遗传信息。为此,用于基因合成、寡核苷酸合成 和使用寡核苷酸的基因组装技术中的寡核苷酸的设计软件是必要的。作为常见的寡核 苷酸合成方法,有固相寡核苷酸合成法和使用DNA微阵列的寡核苷酸合成法。组装 寡核苷酸的方法可以大体分为三类方法,即,组装PCR,融合PCR,和连接酶链式 反应(LCR)及随后的融合PCR。合成的基因必须经过序列验证,以发现由寡核苷酸的 合成和组装引起的错误,从而仅选择出具有正确遗传信息的核酸片段。

常规的基因合成一直是通过以下方式进行:将基因的正确核酸碱基序列分割为多 个短寡核苷酸以合成该基因,在将分割的寡核苷酸组装后,通过Sanger测序进行评 估,从而选择性地获取具有正确的核酸碱基序列的基因(Mol Biosyst.2009年7 月;5(7):714-22.doi:10.1039/b822268c.Epub 2009年4月6日)。然而,尽管开发了多 种组装技术,这种方法因缺乏适当的测序技术而具有局限性。近来,由于开发出了多 种下一代测序技术(例如,诸如Illumina技术或Ion Torrent技术以及454技术等多种 技术),所处理的序列信息量呈指数增长,而分析成本也在逐渐降低(Carr,P.A.和 Church,G.M.(2009)Genome engineering.Nat.Biotechnol.,27,1151-1162)。虽然短寡核 苷酸的高通量验证因下一代测序(NGS)方法的开发而变得可能,但是在合成完成后的 最终评估步骤中的有效应用却不可能,这是因为下一代测序所固有的阅读长度短的局 限性。由于下一代测序具有单批次中能够分析的核酸碱基序列的阅读长度短的缺点, 所以合成的基因要经历随机片段化或随机剪切过程,在该过程中,合成的基因再次被 分割为短片段,并使用下一代测序仪来启动对所得基因的分析。随后,分析来自下一 代测序仪的序列,而后通过计算机软件利用该分析结果将DNA片段组装成整个基因 序列。这种过程的局限性在于,难以判断在基因合成和核酸测序过程中出现的错误来 自那些片段。此外,当所合成的基因的长度并不长且所分析的基因文库种类较小时, 使用下一代测序来分析所合成的基因的方法并不是经济的方法。因此,下一代测序在 基因合成中的应用极其有限。

在蛋白工程或生物合成途径工程中,大致理解蛋白的表型与基因型之间的关联是 非常重要的研究课题。实际上,在构建了启动子(Patwardhan RP,Lee C,Litvin O,Young  DL,Pe'er D,Shendure J.Nature Biotechnology,27,1173-1175(2009))、短肽(Whitehead  TA,Chevalier A,Song Y,Dreyfus C,Fleishman SJ,De Mattos C,Myers CA,Kamisetty H, Blair P,Wilson IA,Baker D.Nature Biotechnology,30,543-548(2012))、单链抗体的互补 决定区(DeKosky BJ,Ippolito GC,Deschner RP,Lavinder JJ,Wine Y,Rawlings BM, Varadarajan N,Giesecke C,Dorner T,Andrews SF,Wilson PC,Hunicke-Smith SP,Willson  CG,Ellington AD,Georgiou G.Nature Biotechnology,31,166-169(2013),Larman HB, Xu GJ,Pavlova NN,Elledge SJ.PNAS,109,18523-18528(2012))之后,一直在持续进行 研究以确定这些构建的序列中表型与基因型之间的关联。然而,由于下一代测序中的 阅读长度短,这些研究通常并不以蛋白的完整区域为目标,而是会构建比阅读长度短 的结构域区域。为了构建蛋白的完整区域,必须通过Sanger测序来对文库进行测序, 或者必须重新组装下一代测序信息(短的读出序列)。前一种情况效率很低,因为其耗 时且费力,还需要较高的成本。后一种情况受到目前已知的方法的阻碍。

发明内容

[技术问题]

因此,本公开针对上述问题而完成,本公开的目的是提供一种通过解决下一代测 序的局限性而合成基因并构建蛋白的完整区域的方法。

[技术方案]

根据本公开的第一方面,上述目的和其他目的可以通过提供一种合成第二基因文 库的方法来实现,所述方法包括:(a)提供包含随机化的密码子的第一基因文库,其编 码特定蛋白序列但具有不同的核酸碱基序列;(b)将第一基因文库片段化为核酸片段; (c)确认所述核酸片段的碱基序列;和(d)使用密码子随机化的碱基序列,将碱基序列 经确认的核酸片段重新组装成片段化前的基因序列。

根据本公开的另一方面,提供了一种用上述方法制造的无错的基因文库,其包含 编码相同蛋白但具有不同碱基序列的基因。

根据本公开的另一方面,提供了一种合成突变基因的文库的方法,所述方法包括: (a)提供包含随机化的密码子的基因文库,其编码特定蛋白序列但具有不同的核酸碱基 序列;(b)诱导所述基因文库发生突变;(c)将突变基因的文库片段化为核酸片段;(d) 确认所述核酸片段的碱基序列;和(e)使用密码子随机化的碱基序列,将碱基序列经确 认的核酸片段重新组装成片段化前的基因序列。

根据本公开的另一方面,提供了一种用上述合成突变基因文库的方法制造的突变 基因文库。

根据本公开的另一方面,提供了一种从上述突变基因文库中选择性地扩增所需的 基因序列的方法。

[有益效果]

根据本公开内容,当通过基因片段化来进行下一代测序时,原始基因序列可以通 过用重叠共有序列法组装NGS读出序列而得到正确复原。由此,下一代测序在应用 于基因合成时的局限性(阅读长度短)可以得到解决。此外,可以在单批中制造包含相 同蛋白信息和不同DNA序列的数百至数千种不同的基因文库(同义基因文库),且所 有的基因序列都可以通过一次测序来得到确认。当将这种基因文库合成和分析方法与 蛋白工程法组合时,构建蛋白的完整区域(这在常规方法中是不可能的)变得可能。

附图说明

通过下文结合附图的详细描述,本发明的上述的和其他的目标、特征和优点将得 到更加清楚的理解,在附图中:

图1是说明本公开的一个实施方式的合成基因文库的方法的流程图;

图2是说明本公开的一个实施方式的利用目标基因的蛋白序列推导出具有随机 化密码子的DNA序列的过程的图;

图3是说明本公开的一个实施方式的用来合成基因文库的寡核苷酸设计的图;

图4是说明按照本公开的一个实施方式用限制性酶除去质粒主干并进行下一代 测序的示意图;

图5是说明本公开的一个实施方式的重新组装通过下一代测序测得的核酸片段 的方法的示意图;

图6是说明本公开的一个实施方式的kanR基因文库的合成结果的图;

图7是说明本公开的一个实施方式的在使用大肠杆菌进行转化时控制基因文库 大小的示意图;

图8是说明本公开的一个实施方式的使用超声发生器进行随机片段化的条件和 结果的图;

图9是说明本公开的一个实施方式的在片段化后为下一代测序做准备的过程的 图;

图10是说明本公开的一个实施方式的kanR基因文库的分析结果的图;

图11是说明本公开的一个实施方式的针对kanR基因文库的选择性复原实验的结 果的图;

图12是说明按照本公开的一个实施方式使用pUC19质粒制备pUCN质粒的图;

图13是说明本公开的一个实施方式的tolC基因文库的合成结果的图;

图14是说明本公开的一个实施方式的使用Npu内含肽的初步实验过程的图;

图15是说明本公开的一个实施方式的对使用Npu内含肽的实验的分析结果的 图;

图16是说明本公开的一个实施方式的对使用Npu内含肽的实验数据的模拟结果 的图;

图17是说明本公开的一个实施方式的用于分析突变Npu内含肽文库的信息汇总 的图;

图18是说明本公开的一个实施方式的Npu内含肽的高度保守的位置的示意图;

图19是呈现了本公开的一个实施方式的通过趋势检验而计算出的优选突变的 图;

图20是说明本公开的一个实施方式的CysErr1000库的基因型的图;

图21是说明本公开的一个实施方式的内含肽突变序列根据外显肽的类型对卡那 霉素的耐受程度的图;

图22是说明本公开的一个实施方式的在CysErr库和SerErr库中外显肽残基趋势 的图;和

图23是说明本公开的一个实施方式的Npu内含肽的选择性复原实验的结果的 图。

具体实施方式

本说明书中使用的术语“核苷酸”是指单链或双链的脱氧核糖核酸(DNA)或核糖 核酸(RNA),除非另有定义,该术语可以包括核苷酸的类似物。

本公开中所用的术语“扩增”是指扩增目标核酸碱基序列的反应,可以使用聚合酶 链式反应(PCR)来进行。PCR包括但不限于逆转录聚合酶链式反应(RT-PCR)、多重 PCR、实时PCR、组装PCR、融合PCR和连接酶链式反应(LCR)。

本说明书中使用的术语“引物”是指寡核苷酸。引物是单链的,可以包括核糖核酸, 优选是脱氧核糖核酸。引物与模板的一条链杂交或退火,由此形成双链结构。引物可 以与本公开的侧翼序列杂交或退火。术语“退火(annealing)”是指寡核苷酸或核酸与模 板核酸匹配结合(juxtapose),通过该匹配结合,核苷酸通过聚合酶而聚合,因此,形 成了与模板核酸或其一部分互补的核酸分子。术语“杂交”是指两条单链核酸通过互补 序列的配对而形成双链结构。在诱导合成与模板互补的引物的延伸产物时,引物可以 起到合成引发剂的作用。

在本公开中,存在于寡核苷酸末端的5'末端侧翼序列和3'末端侧翼序列是增加寡 核苷酸的量的引发位置,可以用作引物组的退火位点来产生足量的寡核苷酸,两端的 侧翼序列均可以存在于限制性酶的识别序列末端,或可以包含限制性酶的识别序列。 在本公开的一个实施方式中,本公开的侧翼序列可用于扩增反应中。

本公开所用的术语“互补”是指具有在特定的杂交或退火条件下可以与上述核苷 酸序列选择性地杂交的互补性。

本公开中所用的术语“组装”是指利用互补序列将核酸片段对齐并合并,从而连接 成更长的核酸片段。

本公开中所用的术语“蛋白工程”是指:在合成具有所需的与野生型蛋白不同的氨 基酸序列的新蛋白后,通过翻译出各蛋白来研究各蛋白的多种性质,例如结构、功能、 互补性或稳定性。蛋白工程是通过人工控制蛋白的结构来制备有用的新蛋白,且包括 设计蛋白。

本公开中所用的术语“克隆”是指:通过基因操纵技术将特定基因连接至载体,从 而将该特定基因导入宿主细胞,并利用细胞的复制机制进行大量增殖。作为增殖方法, 可以用使用源自多种质粒或噬菌体的载体DNA的方法。

本公开中所用的术语“质粒”是指与细菌的细胞内染色体分离的DNA,质粒可以 自发地进行增殖。质粒运输被克隆的基因。

本公开中所用的术语“载体”是指可以被复制并可以将外源DNA(例如基因)转移 至受体细胞的DNA分子。载体的实例包括质粒、噬菌体和人造染色体等。在本说明 书中,“质粒”、“载体”和“质粒载体”可以以相同的含义使用。

本说明书中使用的术语“测序”是指确定DNA分子的碱基序列顺序。在本说明书 中,“测序”、“序列确认”、“序列验证”、“序列确证”和“碱基序列分析”可以以相同的 含义使用。

本说明书中使用的术语“读出序列(read)”是指通过下一代测序而分析的一个核酸 片段。此外,术语“阅读长度”是指通过下一代测序可以在单批中分析的核酸片段长度。

本说明书中使用的术语“深度”是指在测序过程中在一个位置对一个核苷酸的读 出频率。例如,“100x”是指同一位置的一个核苷酸被重复确认了100次。

在下文中将对本公开内容进行更详细的描述。提供以下实施方式是为了将本公开 内容的主旨充分地传达给本领域普通技术人员。因此,本公开内容不限于下文所述的 实施方式,并且可以以其他形式实施。

为了克服下一代测序在基因合成中的技术局限并使用该方法构建蛋白的整个区 域,本发明人开发了称作“拼图组装(Jigsaw assembly)”的新颖的基因文库合成和分析 方法。拼图组装包括:使用随机化密码子的目标基因的密码子组合文库的合成过程, 针对下一代测序的准备过程,和对下一代测序数据的计算分析过程。当使用目标基因 的蛋白序列推导出密码子随机化的DNA序列并随后将其合成为文库类型时,该文库 中的所有基因序列都具有相同的蛋白信息,但各DNA序列并非同源。即,通过密码 子随机化来降低同源基因文库的DNA序列的同源性,由此可以重新组装片段化的序 列信息。这意味着可以使每个基因序列自身都带有条码。因此,即使将所合成的整个 文库片段化成短核酸片段并最后对其进行下一代测序,也可以通过收集并连接具备相 同DNA序列的核酸片段而正确地复原片段化前的基因序列。

这使得能够通过进行一次下一代测序而在单批次中对数千个或更多个完整(全长) 的基因序列进行分析。因此,本公开的方法可以用作基因合成法和无错基因的选择性 复原法,并使得能够利用下一代测序来构建全长蛋白序列。本公开内容包括:利用拼 图组装进行基因文库合成,通过下一代测序进行分析,和开发与随机诱变技术组合来 构建全长蛋白序列的方法。

图1是说明本公开的一个实施方式的合成基因文库的方法的流程图。

参照图1,步骤S1提供了编码特定蛋白序列但具有不同核酸碱基序列的随机化 密码子的第一基因文库。

天然存在20种氨基酸类型,但翻译成这些氨基酸的密码子的数量为64种。因此, 理论上讲,一个蛋白序列可以被逆翻译成形成多种密码子组合的相似基因的文库。该 相似基因的文库可以通过在寡核苷酸的体外合成过程中插入简并核苷酸来合成。所合 成的文库中的基因会翻译成相同的蛋白序列,但其DNA序列并不相同。因此,当将 相应的文库片段化为短核酸片段并测序时,可以通过比较核酸片段的重叠区域的核酸 碱基序列来重新组装出片段化前的基因序列。这看上去像是可组装的拼图谜题,因此 称之为拼图组装。

在本公开的一个实施方式中,密码子随机化可以是通过将简并密码子插入编码特 定蛋白序列的基因序列中来制备编码同一氨基酸但具有不同核酸碱基序列的多种组 合方式。参照图2,通过重建天然使用的密码子列表,可以在合成具有一部分编码特 定蛋白序列的基因序列的寡核苷酸的过程中将诸如N(A、T、C和G的组合)、R(A 和G的组合)、Y(T和C的组合)等简并序列插入翻译特定氨基酸的密码子中。例如, 在编码同一氨基酸的密码子中,可以用N来表示可存在腺嘌呤(A)、胸腺嘧啶(T)、胞 嘧啶(C)和鸟嘌呤(G)的碱基位置,可以用R来表示可存在腺嘌呤或鸟嘌呤的碱基位 置,可以用Y来表示可存在胸腺嘧啶或胞嘧啶的情况。例如,可以翻译成丙氨酸的 密码子有GCA、GCT、GCC和GCG,这些密码子可以用GCN来表示。为了表示可 存在的核苷酸,可以使用N、R、Y以外的其他字母。为了表示可存在的核苷酸,可 以使用字母以外的任何其他标记。通过此方法,特定的蛋白序列可以被逆向翻译成简 并的核酸碱基序列。

在本公开的一个实施方式中,第一文库可以通过组装基于核酸碱基序列的简并而 设计的寡核苷酸来合成。作为组装寡核苷酸的方法,可以使用选自由组装PCR、融 合PCR和连接酶链式反应(LCR)组成的组的任一种,但本发明不限于此。作为组装寡 核苷酸的方法,可以使用常规的寡核苷酸组装方法。在多种基因组装方法中,可以使 用LCR法。在本公开的一个实施方式中,在第一基因文库的寡核苷酸之间不能存在 中间空位。

在本公开的一个实施方式中,第一基因文库中的密码子随机化基因序列的两个末 端均可以包含选自由条码标签序列、限制性酶识别序列和侧翼序列组成的组的至少一 种(见图3)。

在本公开的一个实施方式中,用第一基因文库中的寡核苷酸组装成的密码子随机 化基因序列的两个末端均可以包含条码标签序列。条码标签序列可以在序列验证后的 选择性复原中使用。使用条码标签序列作为引物来复原基因的方法在已有的专利中有 所公开:Duhee Bang,Hwangbeom Kim,Hyojun Han,2011,10-2011-0076408,"针对高通 量构建大DNA分子的鸟枪DNA合成"。

在本公开的一个实施方式中,用第一基因文库中的寡核苷酸组装成的密码子随机 化基因序列的两个末端均可以包含限制性酶识别序列。限制性酶识别序列可以用来克 隆至质粒载体中。限制性酶识别序列可以相同或不同。识别限制性酶识别序列的限制 性酶可以是例如EcoR I或Hind III,但本发明并不限于此。限制性酶识别序列依赖于 克隆时所用的载体类型。

在本公开的一个实施方式中,用第一基因文库中的寡核苷酸组装成的密码子随机 化基因序列的两个末端均可以包含侧翼序列。引物可以在PCR扩增过程中与侧翼序 列退火。

在本公开的一个实施方式中,在提供密码子随机化的基因文库的步骤中,可以基 于目标基因的双链DNA序列的上部序列设计有义寡核苷酸,并基于目标基因的双链 DNA序列的下部序列设计无义寡核苷酸。合成可以以使得有义寡核苷酸与无义寡核 苷酸的末端部分重叠的方式进行。有义寡核苷酸与无义寡核苷酸相互重叠的部分可以 具有互补序列。在本公开的一个实施方式中,有义寡核苷酸和无义寡核苷酸的长度可 以是100~200bp。在本公开的一个实施方式中,重叠部分的长度可以是50~150bp。

在本公开的一个实施方式中,有义寡核苷酸和无义寡核苷酸可以利用这些寡核苷 酸末端部分的重叠互补序列来退火。当将寡核苷酸的温度升至95℃并随后缓慢下降 时,互补的有义寡核苷酸和无义寡核苷酸彼此退火。此时,寡核苷酸之间的空隙可以 被连接酶填充。连接酶可以是热稳定的连接酶。由此可以完成PCR的模板形式。

在本公开的一个实施方式中,密码子随机化的第一基因文库可以通过扩增对齐的 寡核苷酸来提供。该扩增可以是以下方法:使用共有的侧翼序列进行PCR,所述侧 翼序列在设计寡核苷酸时就作为引物序列包括在两个末端。

在本公开的一个实施方式中,在提供密码子随机化的第一基因文库的步骤之后, 还可以包括:将第一基因文库中的密码子随机化基因序列的数量控制在通过下一代测 序能够验证的数量。在下一代测序的单个批次中可获得的数据量是数百亿个碱基对, 但是,为了通过高深度进行正确分析以发挥下一代测序的优势,适当地限制所合成的 基因文库的大小是必要的。在本公开的一个实施方式中,为了限制基因序列的数量, 可以使用质粒进行克隆并使用大肠杆菌进行转化。

密码子随机化的基因序列的两个末端均可以包含限制性酶识别序列。当使用限制 性酶将密码子随机化的第一基因文库和质粒载体基本上同时双酶切并连接时,可以制 得质粒文库,其中在一个质粒中仅插入了一种密码子随机化基因序列类型。当将该质 粒文库转化到大肠杆菌中时,一个细胞在概率上摄取一种质粒类型。因此,当限制大 肠杆菌细胞的数量时,也限制了密码子随机化基因序列的数量。通过限制在固体培养 基上培养经转化的大肠杆菌后的菌落数量,可以限制密码子随机化基因序列的数量, 并可以减小第一基因文库的整体大小。

在图1的步骤S2中,将第一基因文库片段化成核酸片段。

在从大肠杆菌中纯化出数量受限的质粒后,将它们随机片段化,并可以进行下一 代测序。在本公开的一个实施方式中,所述片段化可以是将包含密码子随机化基因序 列的整个质粒载体随机地片段化的方法。当将整个载体片段化时,可以消除PCR扩 增过程中产生的偏差,因此,可以获得比常规方法更均匀的数据。

在本公开的另一个实施方式中,所述片段化可以是在除去质粒载体的主干部分后 仅将密码子随机化的基因序列随机地片段化的方法。例如,参见图4,在使用大肠杆 菌进行转化后将提取出的质粒载体片段化之前,可以在除去质粒载体的主干部分后使 用限制性酶仅选择性地纯化基因区域。当通过随机地片段化整个质粒来确认序列时, 约2/3的测序信息可以是质粒的主干序列。因此,为解决这个问题,可以使用限制性 酶通过预先切割质粒载体而仅纯化出密码子随机化基因序列部分。

在本公开的一个实施方式中,为了容易进行分析,片段的尺寸可以确定为100~ 1,000bp。

在图1的步骤S3中,片段化的核酸片段的序列得到确认。

在本公开的一个实施方式中,可以使用Sanger法或大规模平行方式进行序列验 证。在本发明的理想的实施方式中,序列验证可以利用下一代测序(NGS)来进行。当 使用Illumina HiSeq 2500平台作为下一代测序时,可以准备1.5亿个长度为150bp的 读出序列。下一代测序可以包括但不限于诸如Illumina、Roche 454、SOLid、Helicos、 PacBio和Ion Torrent等方法。

在本公开的一个实施方式中,在测序前,还可以包括:在片段化的核酸片段的末 端连接接头序列(adaptor sequence)和索引序列(index sequence)。在下一代测序中可以 使用接头序列和索引序列。

在图1的步骤S4中,使用密码子随机化的碱基序列,将经序列确认的核酸片段 重新组装成片段化前的原始基因序列。

参照图5,可以从测序信息中复原片段化前的各基因的原始序列,所述测序信息 曾被随机片段化并通过使用组装程序的计算分析验证过。在本公开的一个实施方式 中,重新组装可以包括从碱基序列经确认的核酸中排除低品质的序列信息。在本公开 的一个实施方式中,低品质序列信息可以根据Phred品质评分来弃去或除去,Phred 品质评分代表了测序信息中每个bp的可靠性。在一般的下一代测序信息中,两个末 端的序列的品质可以低于中部序列的品质。因此,当核酸片段的两个末端的序列的 Phred评分低于30(准确率为99.9%)时,可以除去这些序列的信息。当在序列中部中 存在30以下的Phred评分时,可以除去整个核酸片段。因此,在该步骤后,会留下 序列准确率为99.9%以上的核酸片段。

在本公开的一个实施方式中,重新组装可以包括:使用密码子随机化的碱基序列 来搜索碱基序列经确认的核酸片段的定位位置(mapping location),并按照定位的位置 连接具有重叠序列的核酸片段。

在本公开的一个实施方式中,在搜索核酸片段的定位位置的步骤中,可以使用 NovoAlign。NovoAlign是在基因组研究中常用的程序,并可以用来通过将核酸片段 与参比序列进行比对来确认参比序列和序列经确认的核酸碱基序列之间的一致程度 以及定位位置。在本公开的一个实施方式中,可以使用密码子随机化的序列(包括简 并的核苷酸,例如N、R、Y等)作为NovoAlign的参比信息来鉴定每个核酸片段的定 位位置。

在本公开的一个实施方式中,重新组装可以包括:将已定位的核酸片段中的具有 重叠序列的核酸片段再归类至小的局部簇。该步骤可以是:基于已定位的位置,将具 有重叠序列的核酸片段再归类至源自相同的密码子随机化基因序列的核酸片段簇。当 通过NovoAlign比对的各核酸片段定位至同一位置、但片段化步骤前的最初密码子随 机化基因序列不同时,它们并不共享相同的序列。这意味着仅有从最初的相同的密码 子随机化基因序列片段化出的核酸片段会共享相同的序列。因此,当对不同的核酸片 段基于定位位置而重叠的部分的序列同一性进行比较时,源自相同来源的所有核酸片 段可以再次聚集。在本公开的一个实施方式中,重叠序列的长度可以是20~80bp, 优选40~60bp。为了准确分类,有必要设定所要比较的重叠序列的最佳长度。极短 的重叠序列长度是不足的,因为源自密码子随机化基因序列的两个核酸片段在对应长 度内随机共享相同序列的几率会增加。另一方面,当重叠序列的长度过长时,共享较 短的重复序列的核酸片段不会被用到,因此,组装深度降低,由此难以得到正确的全 序列。

在本公开的一个实施方式中,重新组装可以包括基于最频繁读出的序列来得到共 有的主要序列。在本公开的一个实施方式中,密码子随机化基因的主要序列可以以下 述方式得到:将基于参比序列和定位位置在一个位置最频繁读出的序列确定为对应位 置上的共有序列。当在再归类后将所有核酸片段都再归类至小的局部簇时,仅有从一 个密码子随机化基因序列类型中片段化出的核酸片段会保留在一个簇中。因此,在得 到核酸片段的共有序列时,可以复原片段化前的原始基因序列。尽管基于30的Phred 评分在第一步中去除了低品质分析信息,但一些核酸片段可能具有测序错误,其几率 为1/1000。为了校正这些错误,可以采用高深度,这是下一代测序的最大优势。即, 可以将基于参比序列和定位位置在一个位置上最频繁读出的序列确定为对应位置的 共有序列。同一DNA序列在相同位置重复出现同一错误的概率较低,尽管这种重复 出现会发生,但在对应位置不具有错误的其他读出序列的数量要高得多,因此可以通 过高深度来进行错误校正。因此,最终的共有基因序列可以通过确定在基因的每个位 置上最占优势的序列来得到。由此,可以最终合成密码子随机化的第二基因文库。在 本公开的一个实施方式中,提供了一种用上述方法制造的无错基因文库,其编码相同 的蛋白但具有不同的碱基序列。

在本公开的一个实施方式中,在重新组装的第二文库或无错基因文库中,可以选 择性地扩增所需的基因序列。

在本公开的一个实施方式中,为了进行选择性扩增,可以采用条码标签序列。密 码子随机化基因文库的两个末端都可以包含在第一个设计步骤中所包括的条码标签 序列,各个密码子随机化基因序列的条码标签序列表现出独立的形式。此外,通过对 下一代测序信息进行计算分析,可以鉴定出基因序列和条码标签序列。因此,当使用 对应的条码标签序列作为引物的退火位点进行PCR时,仅会选择性地扩增整个文库 中的一种所需的基因序列类型。

在本公开的另一个实施方式中,为了进行选择性扩增,可以采用源自载体的条码 序列。如果不包含在用于选择性复原的基因的两端的条码标签序列,可以使用在克隆 过程中源自载体的序列作为条码序列来选择性地扩增仅一种所需的基因序列类型。在 本公开的一个实施方式中,载体可以是pUCN载体。pUCN载体是本发明人通过修改 pUC19载体而制造的载体文库,其可以通过在用限制性酶切割pUC19的多克隆位点 (MCS)后克隆102bp的新片段而制得。所插入的序列包括新的限制性酶识别序列,并 可以在所述识别序列的两端均包括20bp的"N"序列。因此,在克隆特定核酸片段时 可以自动地包括独立的条码序列,但这些条码序列并不包括在合成过程中。

在本公开的另一个实施方式中,为了进行选择性扩增,可以采用随机化序列本身。 为了选择性地扩增基因文库中的一种基因序列类型,所有的基因序列都需要标签序列 来充当不同的条码。然而,因为所合成的文库的所有基因序列本身可以通过密码子随 机化来充当条码,所以可以在无单独标签的情况下选择性地扩增仅一种所需的基因序 列类型。

作为选择性地扩增所需的基因序列的方法,可以使用选择性地复原或扩增特定基 因序列的常规方法。

在本公开的另一个实施方式中,提供了一种合成突变基因文库的方法,所述方法 包括:提供包含随机化的密码子的基因文库,其编码特定蛋白序列但具有不同的核酸 碱基序列;诱导所述基因文库发生突变;将突变的基因文库片段化为核酸片段;确认 所述核酸片段的碱基序列;和使用密码子随机化的碱基序列,将碱基序列经确认的核 酸片段重新组装成片段化前的基因序列。

根据图1的步骤S1中的相同方法,提供了编码特定蛋白序列但具有不同核酸碱 基序列的包含随机化密码子的基因文库。

在图1的步骤S11中,在基因文库中出现突变。本公开的拼图组装的优势在于, 数百至数千或更多个基因文库的所有序列都可以使用下一代测序在单批次中平行确 认。因此,当将通常作为常规蛋白工程化方法使用的随机诱变方法与拼图组装组合起 来时,可以获得一种新的蛋白工程化方法,其可以在构建目标蛋白的完整区域后确认 具有所需表型的大量基因型。

在本公开的一个实施方式中,诱变可以是随机诱变。在本公开的一个实施方式中, 诱变可以使用诱变扩增。通过在密码子随机化的基因文库的合成过程中在随机位置修 改碱基序列,可以合成非同义文库。

在本公开的一个实施方式中,在诱变扩增中可以使用易错PCR。在密码子随机 化的基因文库的合成过程中,在连接后的PCR过程中,可以进行易错PCR代替常规 PCR。

在与图1的步骤S2相同的方法中,可以将突变的基因文库片段化成核酸片段, 并且可以按照与图1的步骤S3相同的方式确认片段化的核酸片段的序列。

在与图1的步骤S4相同的方法中,可以通过以下方式合成突变基因的文库:使 用密码子随机化的碱基序列,将碱基序列经确认的核酸片段重新组装成片段化前的原 始基因序列。

在本公开的一个实施方式中,突变基因的文库可以是具有不同的碱基序列的基因 序列的簇,其编码在特定位置具有突变氨基酸的蛋白。在本公开的另一个实施方式中, 突变基因的文库可以是不同的碱基序列的簇,其编码在蛋白的整个区域中具有随机突 变的蛋白。

在本公开的一个实施方式中,提供了一种用上述方法制造的突变基因的文库。

在本公开的一个实施方式中,在突变基因的文库中,可以选择性地扩增所需的基 因序列。作为选择性地扩增所需的基因序列的方法,可以使用与上文所述相同的方法。

在本公开中,基于所要合成的基因的蛋白序列而使用翻译成相同蛋白的不同的密 码子组合,从而产生了最终翻译成相同蛋白序列但具有多种核酸碱基序列的核酸组合 文库。作为另一选择,由于合成过程中出现的错误,产生了蛋白序列组合文库,其中 一些蛋白序列变成了相似蛋白序列。

提供了一种新颖的实验方法,通过使用如上获得的基因的核酸碱基序列组合和相 似蛋白序列的组合,该方法允许对该基因的表达和功能进行定量研究。密码子随机化 的核酸碱基序列文库提供了一种新颖的实验方法,该方法通过改变针对特定基因的体 内表达而优化了的密码子用法,可以测量基因表达与密码子变化的相关性。例如,可 以通过以下方法间接地测量对应基因文库的表达水平:在合成基因文库时,将报道基 因,例如绿色荧光蛋白(GFP),连接至每个核酸碱基序列组合的下游区域,而后测量 基本上同时表达的GPF的量。

编码具有突变的蛋白的基因的一些相似蛋白的组合文库提供了一种确认特定基 因的一些蛋白序列的变化对相应基因的功能的影响的新实验方法。例如,因为作为参 与蛋白剪接的基因的内含肽的一些蛋白序列(基序)的变化对相应的内含肽功能具有 重要影响,因此,在使用蛋白序列文库时可以发现未知的优化的新内含肽。

下文将使用以下实施例来描述本公开的实施方式。

实施例1.密码子随机化的kanR基因文库的合成

通常称作卡那霉素抗性基因(kanR)的氨基葡糖苷转移酶基因(816bp)赋予对抗生 素卡那霉素的抗性,并作为标志基因在合成生物学中广泛使用,这是因为细胞在含卡 那霉素的培养基中的存活率取决于对应基因的存在或缺失。在本实施例中,使用kanR 基因作为目标基因来合成密码子随机化基因文库。

为了使用KanR蛋白序列推导出包含简并核苷酸的密码子随机化核酸碱基序列, 以Phython编程语言开发出了称作“密码子随机化器(Codon Randomizer)”的程序。该 程序将诸如N(A、T、C和G的组合)、R(A和G的组合)、Y(T和C的组合)等简并 序列插入翻译成特定氨基酸的密码子中。通过此方法,KanR蛋白序列可以被逆翻译 成简并的核酸碱基序列。

基于简并的核酸碱基序列,设计了文库合成所必需的寡核苷酸。在多种基因合成 方法中,使用LCR方法作为寡核苷酸组装方法,除去了寡核苷酸之间的中间空隙 (gap),并且基因的两个末端均包含条码标签序列(25bp)、限制性酶识别序列(EcoR I 和Hind III)和侧翼序列(20bp)。

寡核苷酸分为五条有义寡核苷酸和四条无义寡核苷酸,并如下表1所总结的那样 进行命名。寡核苷酸的长度为125bp~199bp,在有义寡核苷酸和无义寡核苷酸之间 存在99bp的重叠区。

[表1]

(GAATTC:EcoR I位点,AAGCTT:Hind III位点)

寡核苷酸由Intergrated DNA Technology(IDT)(美国)制造和合成。所合成的寡核 苷酸在5'末端具有OH官能团。因此,为了进行连接,使用称作激酶的酶将该OH官 能团磷酸化。使用无核酸酶的水将所有寡核苷酸的浓度稀释至100μM,随后将3μL 的每种有义寡核苷酸、6μL 10xPNK缓冲液和3μL T4 PNK混合。随后,用无核酸酶 的水填充剩余体积,从而将最终反应体积调至60μL,而后在37℃下使反应过夜进行。 使用同样的方法处理了无义寡核苷酸。

而后,通过将温度升至95℃并随后缓慢降温而使互补的有义寡核苷酸和无义寡 核苷酸退火,在此状态下,使用热稳定的连接酶来填补寡核苷酸之间的空隙,由此完 成了用于聚合酶链式反应(PCR)的模板。将5'磷酸化的有义寡核苷酸和无义寡核苷酸 各自的20μl池混合,而后向其中加入5μl 10xAmpligase缓冲液和2.5μl Ampligase。 而后,向其中额外添加2.5μl无核酸酶的水以将总反应体积调至50μl,并如下表2 中所总结的那样进行反应。

[表2]

在第一次95℃下,所有寡核苷酸都变性为单链,并且通过缓慢降温,具有互补 序列的有义寡核苷酸和无义寡核苷酸进行退火。随后,在70℃下,用连接酶连接了 寡核苷酸之间的空隙。

最后,使用在寡核苷酸设计过程中作为引物序列而包括的两端的共有侧翼序列, 在表3和表4所总结的条件下进行PCR,由此合成密码子随机化的kanR基因文库。

[表3]

无核酸酶的水 模板(连接反应产物) 2x KAPA聚合酶混合物 正向引物 反向引物 7μl 1μl 10μl 1μl 1μl

[表4]

在表4中,延伸时间可以根据所要扩增的核酸片段的长度而变化(1分钟/kb)。PCR 反应的反应产物通过凝胶电泳得到确认并纯化。图6图示了所合成的kanR基因文库 的琼脂糖凝胶电泳结果和所合成的尺寸(911bp)的正确共有序列。

实施例2.通过克隆和转化限制基因序列的数量

在实施例1中,所合成的密码子随机化的kanR基因文库的两个末端各自都包含 两种酶识别序列类型(EcoR I和Hind III)。此外,在本实验中作为主干质粒使用的 pUC19的多克隆位点(MCS)也包含同样的序列。因此,使用EcoR I和Hind III酶将质 粒和基因文库基本上同时双酶切,且仅有一种基因序列类型通过连接被单独地插入一 个质粒中,由此完成了质粒文库的制造。参见图7,将上述制造的质粒文库转化到大 肠杆菌中。由于一个细胞在概率上仅摄取一种质粒类型,因此,通过限制大肠杆菌细 胞的数量,可以限制密码子随机化的基因序列的数量。在本实验中,将在包含氨苄青 霉素(用作pUC19质粒的标志)的固体培养基中培养已转化有文库质粒的细胞后的菌 落数限制到约2000个,从而将密码子随机化的基因序列的数量限制到最多2000个。

实施例3.随机片段化和接头序列连接

将实施例2中限制的所有2000个菌落收集在一个池中培养,随后基本上同时提 取出全部质粒。使用由Covaris(美国)制造的M220Focused-ultrasonicator将提取出的 质粒随机地片段化成约300bp,随后通过凝胶电泳仅选择性地纯化200bp~400bp 的片段。图8图示了片段化条件和凝胶电泳结果。

当将DNA片段随机片段化时,在DNA片段的两个末端产生了悬突(overhang), 位于5'末端处的连接时所需的磷酸基团受到破坏。参见图9,对于受破坏的磷酸基团, 进行了末端修复程序。如下表5中所总结的,将作为起始材料的1~5μl片段化的DNA 混合。可以改变片段化的DNA和无菌水的体积,将总反应体积调至100μl。随后, 在20℃下使反应进行30分钟,随后仅纯化DNA。

[表5]

片段化的DNA 1~5μl NEBNext末端修复反应缓冲液(10X) 10μl NEBNext末端修复酶混合物 5μl 无菌水 可变 总体积 100μl

此外,通过dA加尾和接头连接,连接Illumina测序(其为下一代测序)中所需的 接头环。如下表6中所总结的,将作为起始材料的1~5μl末端经修复的DNA混合。 可以改变末端经修复的DNA和无菌水的体积,将其总反应体积调至50μl。随后,在 37℃下使反应进行30分钟,随后仅纯化DNA。

[表6]

末端修复的DNA 1~5μl NEBNext dA加尾反应缓冲液(10X) 5μl Klenow片段(3'→5'外-) 3μl 无菌水 可变 总体积 50μl

而后,通过USER酶进行环切割,并通过PCR来连接索引序列。如下表7中所 总结的,将作为起始材料的完成了dA加尾的DNA混合。随后,在20℃下使反应进 行15分钟,向其中添加3μl USER酶混合物并混匀。随后,在37℃下使反应再进行 15分钟。当反应终止时,仅纯化DNA。

[表7]

dA加尾的DNA 10μl Quick Ligation反应缓冲液(2X) 25μl NEBNext接头物(15μM) 10μl Quick T4DNA连接酶 5μl 总体积 50μl

如下表8中所总结的,将完成了接头连接的DNA混合,并在如下表9所示的条 件下进行PCR。当反应终止时,仅纯化DNA。

[表8]

连接了接头物的DNA 20μl 通用PCR引物(25μM) 2.5μl 索引引物(25μM) 2.5μl 2x KAPA Hifi聚合酶混合物 25μl 总体积 50μl

[表9]

通过这些反应,结果将克隆有基因文库的质粒库片段化成200bp~400bp的核酸 片段,由此完成了Illumina测序的准备。使用Illumina Hiseq 2500平台(其中在单批中 可准备1.5亿个150bp长的读出序列)分析对应样品的序列。

实施例4.重新组装成片段化前的基因序列

为了使用在实施例3中经过随机片段化和序列验证后的下一代测序信息来复原 片段化前的原始基因序列,使用Phython编程语言开发了组装器程序。使用该程序, 对下一代测序信息(NGS数据)进行了计算分析。对应的程序在根本上是基于以重叠区 为基础的序列组装概念,大致由以下四个步骤组成。

(1)通过品质评分排除低品质读出序列

基于Phred品质评分30(准确率为99.9%),当核酸片段两端的Phred品质评分均 低于30时,切下该核酸片段;当核酸片段中部的Phred评分为30以下时,除去整个 读出序列。因此,在进行该步骤后,仅会留下碱基序列分析准确率为99.9%以上的读 出序列。

(2)NovoAlign

在本研究中,为了搜索每个核酸片段的定位位置,使用了密码子随机化的基因序 列(包括简并序列,例如N、R、Y等)作为NovoAlign的参比信息。

(3)通过序列同一性比较将核酸片段进行小分类

基于已定位的位置对不同的读出序列的重叠的部分的序列同一性进行比较,从而 再次收集源自同一来源(即,相同的密码子随机化基因序列)的所有核酸片段。将具有 重叠序列的核酸片段再归类至源自相同的密码子随机化基因序列的核酸片段簇。由于 将所有核酸片段都再归类至小的局部簇,一个簇具有从一个密码子随机化基因序列类 型中片段化出的核酸片段。

(4)从小分类的核酸片段中提出共有序列

基于参比序列和已定位的位置,将在一个位置最频繁读出的序列确定为对应位置 的共有序列。通过逐个确定基因的每个位置上的最占优势的核苷酸,得到最终的共有 基因序列。因此,成功地将经序列验证的核酸片段重新组装成了片段化前的基因序列。 结果,鉴定出了73条无错基因序列,并确认了全部这些基因序列是具有多种不同的 密码子组合的密码子变形文库类型。图10图示了对kanR基因文库的分析结果。在图 10中,第一行(Ref)示出了源自KanR蛋白的密码子随机化序列,第二行及其他行示 出了通过计算分析而重新组装的73条kanR基因的无错序列。

实施例5.使用条码标签进行选择性复原

kanR基因文库的两个末端中的每一个都包含25bp的条码标签序列,该条码标签 序列包括在最初的设计过程中。通过使用条码标签序列作为引物的退火位点进行PCR 扩增,选择性地扩增了整个文库中的仅一种所需的基因序列类型。在实施例4中重新 组装的73条无错序列中,对28条序列独立进行了PCR。下表10显示了在该实验中 使用的引物序列和PCR中的退火温度(Tm)。

[表10]

通过PCR,所有28条基因序列都成功扩增,并且,当将通过Sanger测序测得的 基因序列与通过对下一代测序进行计算分析而复原的基因序列比较时,所有28条基 因序列都100%匹配。这些结果示于图11中。这证明了拼图组装的准确性。

实施例6.密码子随机化的tolC基因文库的合成与分析

实施例6中所用的tolC(1482bp)基因是编码作为外膜蛋白TolC蛋白的基因。由 于TolC蛋白通过与内膜泵或转位酶相互作用而参与溶血素分泌、蛋白导入、抗生素 释放等,tolC基因是合成生物学中使用的一种标志基因。特别而言,因为使用tolC 基因可以通过大肠菌素E1进行阴性筛选和通过十二烷基磺酸钠(SDS)进行阳性筛选, 所以,与常见的抗生素抗性基因不同,tolC基因的应用更受关注。根据与实施例1中 相同的方法,制造了密码子随机化的tolC基因文库。

实施例6中用来克隆密码子随机化的tolC基因文库的pUCN载体是本发明人通 过修改pUC19载体而制造的载体文库。参照图12,使用限制性酶EcoR I和Pst I切 割pUC19的MCS,而后通过克隆制造102bp的新核酸片段。插入的核酸片段序列包 含Bgl II和Not I的识别序列作为新的限制性酶,而且这些识别序列两端各自包含20 bp的"N"序列。因此,在克隆特定的DNA片段时,该特定的DNA片段自动具有独 立的条码序列,但这些条码序列并不包括在合成过程中。插入的序列如下: '5-GAATTCCCTGNNNNNNNNNNNNNNNNNNNNcagcagCTGAAGAGATCTggatccG  CGGCCGCCTTCAGctgctgNNNNNNNNNNNNNNNNNNNNTTCTGCAG-3'(序列编 号:66)。使用与实施例2中相同的方法将该密码子随机化的tolC基因文库克隆至 pUCN质粒载体中,并转化到大肠杆菌中。

在将使用大肠杆菌转化并随后提取的载体库片段化之前,使用限制性酶除去该载 体的主干部分,随后仅选择性地纯化基因区域。使用限制性酶切割pUCN质粒的EcoR  I和Pst I位点,并且仅纯化密码子随机化基因序列部分。

随后,以与实施例3和4中相同的方式进行序列验证和重新组装工序,结果从共 1000个菌落中选出了17条无错的密码子随机化tolC基因序列。tolC基因文库的合成 结果示于图13中。

实施例7.通过Npu基因文库的合成来评估拼图组装的准确率和效率

在本实施例中,使用易错PCR作为代表性随机诱变方法合成了基因文库,随后 通过下一代测序分析该合成的基因文库。作为目标基因,选择了由点形念珠藻(Nostoc  punctiforme)产生的Npu-pcc73102-DnaE(Npu),已知其在已知的内含肽中具有最优异 的功能。Npu基因是参与内含肽蛋白剪接的基因,用于多个领域中,例如化学、生物 学、生物技术等。

首先,为了研究通过拼图组装进行蛋白工程的可能性并更准确地评估拼图组装的 效率,进行了先导研究。

首先,使用与实施例1中相同的方法,使用Npu的蛋白序列推导出简并氨基酸 序列。参照图14A,包含了C端外显肽+1、+2和+3残基(已知其对内含肽的功能有 重要影响),高度保守的+1残基固定为半胱氨酸,并且将"NNN"序列插入+2残基和+3 残基以使得所有20种氨基酸类型都可以得到翻译。简并氨基酸序列的两个末端的每 一个都用约20bp的断裂kanR基因延长。这使得能够使用卡那霉素来选择内含肽的 功能性表型,并且,当插入的内含肽具有活性时,KanR蛋白得到剪接,由此可以在 含卡那霉素的培养基中的存活。以与实施例1中相同的方式合成密码子随机化文库。

作为用于克隆密码子随机化的内含肽基因文库的载体,使用了pBR322-du1。该 载体通过将由Muir小组于2009年发表的使用kanR的内含肽选择系统应用至pBR322 载体而制造。由于断裂成87bp的无功能的垃圾序列 ('TACAAATCCGCCTAGAGCGGATTTGAACGTTGCTGAAGCAACGGCCCGGAGG  GTGGCCAGGACGGCCATTGACTGCCAGGAATTAAC'(序列编号:67))的kanR基因 被插入pBR332-du1中,因此当用内含肽置换这些垃圾序列时,可以产生KanR蛋白。 使用与实施例2中相同的方法,用对应的载体进行克隆,并用大肠杆菌进行转化。随 后,在含卡那霉素的培养基中进行培养,从而将所有没有活性的非功能表型除去。

接下来,参照图14B,当选择96个菌落并对其进行Sanger测序时,最终检测到 95种独特的基因序列。将这95个序列经验证的菌落收集到一个管中,随后提取质粒。 参照图14C,以与实施例3中相同的方式进行其他工序,并使用Illumina Hiseq 2500 平台进行下一代测序。

通过与实施例4中相同的计算分析,将下一代测序信息重新组装,并将其结果与 Sanger测序结果比较。结果示于图15中。结果可以再次确认,所有95个基因序列都 100%相同,由此再次确认了拼图组装的准确性。

实施例8.设定最佳重叠长度的测试

进行了模拟以研究更高效的计算分析所需的序列信息量以及重新组装过程中理 想的重叠序列长度(bp)。

该模拟以下述方式进行:比较在各条件下重新组装的基因的数量及其准确性, 将通过初次下一代测序获得的分析信息量随机减少至1/2、1/4、1/8、1/16和1/32, 并以20bp的单位间隔将重叠长度从20bp变为140bp。

参照图16,可以确认,基于NovoAlign数据,所需数据的整个大小的约99%都 可以以约100x以上的深度得到复原,并且最佳重叠长度为约40bp。此外可以确认, 实际的组装深度比测序深度低约70%。这在文库的确切大小未知时为在后续实验中利 用组装深度来预测整个大小提供了基础。

实施例9.使用拼图组装和随机诱变合成Npu蛋白的非同义文库

以与实施例7中的先导研究中相同的方式设计了Npu基因的寡核苷酸,最后的 无义寡核苷酸还包括+1残基固定(半胱氨酸(TGC)和丝氨酸(TCG))的寡核苷酸,由此 合成了两个文库。这些寡核苷酸的序列总结于于下表11中。

[表11]

(ATGCAT:Nsi l位点,CCATGG:Nco l位点)

以与实施例7的先导研究相似的方式进行合成,并进行了易错PCR以代替常规 PCR来在连接后的PCR过程中于随机位置修饰氨基酸,由此合成两个非同义基因文 库类型。方便起见,将包含固定有半胱氨酸(Cys)的C端外显肽+1残基的文库称作 CysErr库,将包含固定为丝氨酸(Ser)的C端外显肽+1残基的文库称作SerErr库。

在此方面,术语“Err”是指易错PCR,对应的常规PCR称作“Nor”。

以与实施例7中相同的方式将所合成的两个密码子随机化的Npu基因文库类型 克隆至pBR322-du1载体中,并转化到大肠杆菌中。随后,在用卡那霉素进行选择前, 通过在仅含氨苄青霉素的固体培养基中进行培养,将包含非功能性表型的基础群体的 数量限制在约3亿个。

随后,在具有不同浓度的卡那霉素(0μM,100μM,250μM,500μM和1000μM) 的五种培养基中培养所述群体,从而根据选择压力的增加来确认表型变化。方便起见, 将每个库的名称命名为CysErr100等。“Cys”指外显肽+1残基,“Err”指易错PCR,“100” 指用于进行选择的卡那霉素浓度。

以与实施例3和4中相同的方法进行后续工序。

实施例10.对重新组装的Npu突变文库的分析

通过实施例9重新组装的Npu密码子随机化基因序列的数量为2,393。其中,424 条序列不包含经修饰的氨基酸,1969条序列包含一个或多个经修饰的氨基酸。在 SerErr1000库中,不存在重新组装的基因序列。参照图17,可以预见,在除了计算为 相对低深度的CysErr0(5x)和SerErr0(8x)以外的其他七个库的情况下,代表深度为 32x的CysErr100包含整个文库的96%以上,而其他六个库包含整个文库的99%以上。

此外,当对在每个库中重新组装的基因序列的数量及其表型进行比较时,可以确 认,耐受压力的表型的数量随着卡那霉素浓度的升高而下降。此外,耐受高浓度的表 型的基因型主要在低浓度库中观察到。由此可以确认,所有条件下的所有菌落都源自 同一基础群体,具有优异活性的基因型在这些菌落中显著存在。

为了基于此结果确认Npu变体基因型的哪种差异引起了不同的活性,进行了7 个深入分析。通过这些分析,确认了几个有趣的事实。

首先,发现Npu内含肽的数个位置不能突变成任何氨基酸。图18图示了各浓度 条件下内含肽位置中的突变的存在或不存在。在该图中,横轴表示内含肽蛋白的位置, 纵轴表示用于进行选择的卡那霉素的浓度。

在CysErr和SerErr的所有库中,在浓度为0μM(此时不存在选择压力且包含非 功能性表型)时,观察到了所有位置上的多种氨基酸突变;但在100μM以上的浓度下, 在位置1、2、19、30、42、81、118~120、126、132、136和137没有观察到变体。 这些位置的73.7%存在于已知对内含肽的功能有重要影响的剪接基序(A:1和2,B: 68和72,F:118、119、120和126,G:132、136和137),由此可以认为,这些位 置对于保持Npu内含肽的剪接功能而言是关键残基。特别而言,作为该内含肽蛋白 的最先位置的1号和2号和作为最后位置的137号在基础群体中呈现了相对高的错误 率(CysErr0和SerErr0);而当提供选择压力时,其错误率迅速下降到0%,由此可以 确认,N端和C端残基对内含肽的功能具有更重要的影响。此外,在G区段的情况 下,G区段的长度小于其他基序,但却观察到整个区域的42.9%是保守的。相对于基 序长度的保守率如下:A:15.4%,B:14.3%,F:28.6%,G:42.9%。这可以通过以下 事实来解释:G区段与外显肽+1残基引起的亲核攻击高度相关,该亲核攻击是内含 肽的剪接过程的第一步。

其次,可以确认,内含肽和外显肽区域中的氨基酸突变可以引起功能改进,但此 类功能改进更多地依赖于外显肽残基。通过在卡那霉素压力的增加下对所有区域中的 氨基酸突变进行趋势检验而确认了这些事实。参照图19,为了确认在包含内含肽区 域和外显肽+1、+2和+3残基的整个区域中特定位置的特定氨基酸的突变是否随着卡 那霉素压力的增加而变得优选,进行了Cochran-Armitage检验。通过实施Bonferroni 校正(n=20,alpha=0.05/20),确认了CysErr库中的16个突变和SerErr库中的14个突 变是优选的。随后,聚焦于耐受最高压力的CysErr1000和SerErr500库的基因型。

首先,参看图20的CysErr1000库的基因型,可以确认,外显肽+3残基突变成 谷氨酸(Glu)或天冬氨酸(Asp)是该趋势检验中最优选的突变,其占据了整个突变的约 95%(Glu:34个突变中的19个(48.7%),Asp:34个突变中的18个(46.2%),Ser:一 个突变,Val:一个突变)。因此,观察到了依照含CYD/CYE(其看似是最优选的外显 肽)的突变序列和含CTS/CSV(其并非优选但耐受了最高压力)作为外显肽的突变序列 的浓度的分布。结果,参照图21,大多数具有CYD/CYE作为外显肽的突变序列都 耐受了100μM~1000μM的卡那霉素压力,且基本上无视在内含肽内产生的突变类 型和这些突变类型的位置;但是,在具有CTS/CSV的突变序列中,在100μM以上 的压力下仅有具有特定突变的突变序列能存活至最终浓度。特别而言,虽然在具有 CTS的突变序列中存在不具有突变的野生型Npu内含肽,但耐受了最终浓度的基因 型是具有N38S、Q53L、R123H和F127I的突变序列。其中,根据趋势检验,在内含 肽区域内产生的突变中,R123H是第四优选的突变。此外,在具有CSV的突变序列 的情况下,未观察到野生型Npu,最后存活的是具有E54D和E91V的一个突变序列。 根据趋势检验,在内含肽区域中,E54D和E91V分别是第一和第二优选的突变。

SerErr库也显示出了相似的趋势。在SerErr500中确认的18个突变序列中,有 77.8%包含140D、139F、139M和139Y(它们在趋势检验中是优选的外显肽突变)中的 一个或多个,其余22.2%则极其依赖于内含肽中产生的突变。

为了更独立地研究C-外显肽的影响和内含肽中的突变的影响,还合成了同义文 库,其中通过常规PCR(而不是易错PCR)仅使C-外显肽区域发生突变。随后,选择 了100μM和500μM的卡那霉素浓度,并额外分析了CysNor100和CysNor500库。 参照图22,当将分析结果与CysErr库的C-外显肽区域进行比较时,对C-外显肽残基 的优选是相似的。此外,具有CTS的野生型Npu仅在100μM的浓度下观察的到, 且未观察到具有CSV的野生型Npu。

这些结果可以证实:C-外显肽和内含肽中产生的所有突变都引起内含肽的功能改 进,但此功能改进在C-外显肽中更显著。

实施例11.使用密码子随机化序列本身进行选择性恢复测试

已证明,当通过密码子随机化来合成基因文库时,在不插入单独的标签序列(如 kanR基因文库和tolC基因文库的合成)的情况下,可以使用随机化的序列本身来进行 选择性恢复。在实施例10中,随机选择了CysNor100库中的28个基因序列,并使用 密码子随机化区域两端各自的30bp作为引物来将这些基因序列PCR扩增。随后, 通过Sanger测序确认反应产物。结果,确认了在所有28个突变中,仅有所需的序列 可以正确地被选择性扩增。结果示于图23中。

尽管出于说明性目的公开了本公开的优选实施方式,但本领域技术人员将知晓可 以在不脱离所附权利要求中公开的本发明的范围和主旨的情况下进行各种修改、增加 和替换。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号