首页> 中国专利> 在两个功能性亚结构域中具有突变的LAGLIDADG归巢核酸内切酶变体及其用途

在两个功能性亚结构域中具有突变的LAGLIDADG归巢核酸内切酶变体及其用途

摘要

LAGLIDADG归巢核酸内切酶变体,其在两个单独的亚结构域中具有突变,其中每个亚结构域与经修饰的DNA靶标半位点的不同部分结合,所述LAGLIDADG归巢核酸内切酶变体能够切割包含与每个亚结构域结合的核苷酸的嵌合DNA靶序列。所述异源二聚大范围核酸酶及其衍生产物用于遗传工程、基因组治疗和抗病毒治疗的用途。

著录项

  • 公开/公告号CN101310015A

    专利类型发明专利

  • 公开/公告日2008-11-19

    原文格式PDF

  • 申请/专利权人 赛莱克蒂斯公司;

    申请/专利号CN200680039566.9

  • 发明设计人 弗雷德里克·帕克;

    申请日2006-10-03

  • 分类号C12N9/22(20060101);C12N15/55(20060101);C12N15/64(20060101);C12N15/10(20060101);C12N15/79(20060101);C12N15/82(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人刘晓东;顾晋伟

  • 地址 法国罗曼维尔

  • 入库时间 2023-12-17 21:06:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-12-04

    授权

    授权

  • 2009-01-14

    实质审查的生效

    实质审查的生效

  • 2008-11-19

    公开

    公开

说明书

本发明涉及用于改造出在两个功能性亚结构域中具有突变的 LAGLIDADG归巢核酸内切酶变体的方法,其中每个亚结构域与经修饰的 DNA靶标半位点的不同部分结合,所述LAGLIDADG归巢核酸内切酶变 体能够切割包含与每个亚结构域结合的核苷酸的嵌合DNA靶序列。

本发明还涉及可通过所述方法获得的LAGLIDADG归巢核酸内切酶 变体,编码所述变体的载体,经所述载体修饰的细胞、动物或植物,以及 所述I-CreI核酸内切酶变体和衍生产物用于遗传工程、基因组治疗和抗病 毒治疗的用途。

大范围核酸酶的定义是:具有大的(>14bp)切割位点的序列特异性 核酸内切酶,其可以在活细胞中特定基因座引起DNA双链断裂 (double-strand break,DSB)(Thierry和Dujon,Nucleic Acids Res.,1992, 20,5625-5631)。大范围核酸酶已用于在培养细胞和植物中在其靶序列附 近引发同源重组(Rouet等,Mol.Cell.Biol.,1994,14,8096-106;Choulika 等,Mol.Cell.Biol.,1995,15,1968-73;Donoho等,Mol.Cell.Biol,1998,18, 4070-8;Elliott等,Mol.Cell.Biol.,1998,18,93-101;Sargent等,Mol.Cell. Biol.,1997,17,267-77;Puchta等,Proc.Natl.Acad.Sci.USA,1996,93, 5055-60;Chiurazzi等,Plant Cell,1996,8,2057-2066),这使得大范围核 酸酶诱导的重组成为基因组工程有效且有力的方法。长久以来,应用大范 围核酸酶诱导的重组受到天然大范围核酸酶组成成员的限制,当前技术的 主要限制是需要在目的基因座中预先引入大范围核酸酶切割位点。因此, 制备具有特定的底物特异性的人工大范围核酸酶正在深入研究中。这样的 蛋白质可用于切割天然染色体序列,并为基因组工程的广泛应用开劈了新 的前景。例如,大范围核酸酶可用于诱导纠正与单基因遗传病相关的突变, 并避免了由于当前基因治疗方法中使用的随机插入转基因所导致的风险 (Hacein-Bey-Abina等,Science,2003,302,415-419)。

最近,可以将Cys2-His2型锌指蛋白(ZFP)的锌指DNA结合结构域 与FokI核酸内切酶的催化结构域融合,从而诱导多种细胞类型中的重组, 包括人淋巴样细胞(Smith等,Nucleic Acids Res,1999,27,674-81;Pabo 等,Annu.Rev.Biochem,2001,70,313-40;Porteus和Baltimore,Science, 2003,300,763;Urnov等,Nature,2005,435,646-651;Bibikova等, Science,2003,300,764)。ZFP的结合特异性相对易于操作,现在可得到 能结合许多(g/a)nn(g/a)nn(g/a)nn序列的多种新人工ZFP(Pabo等,前文引 用;Segal和Barbas,Curr.Opin.Biotechnol.,2001,12,632-7;Isalan等, Nat.Biotechnol.,2001,19,656-60)。然而,基因组工程应用的一个主要问 题是保留非常窄的特异性,而目前尚不清楚ZFP是否满足治疗性应用的非 常严格的要求。另外,这些融合蛋白已在细胞中表现出高毒性(Porteus 和Baltimore,前文引用;Bibikova等,Genetics,2002,161,1169-1175), 这可能是由于特异性水平低所致。

在自然界中,大范围核酸酶基本上以归巢核酸内切酶(homing endonuclease,HE)为代表,所述归巢核酸内切酶是由可移动遗传元件编 码的核酸内切酶家族,其功能是在称作“归巢”的过程中起始DNA双链断 裂(DSB)诱导的重组事件(Chevalier和Stoddard,Nucleic Acids Res.,2001, 29,3757-74;Kostriken等,Cell;1983,35,167-74;Jacquier和Dujon,Cell, 1985,41,383-94)。已在细菌、真核生物和古细菌中鉴定出几百种HE (Chevalier和Stoddard,前文引用);然而在所选基因中发现HE切割位 点的概率却极低。

由于HE的生物学功能以及就效率和特异性而言出色的切割性质,HE 提供了衍生出用于基因组工程的新核酸内切酶的理想平台。过去十年已经 积累了表征四个HE家族中最大的LAGLIDADG家族的数据(Chevalier 和Stoddard,前文引用)。LAGLIDADG是指在整个家族中事实上保守的 唯一序列,并发现其在蛋白质中以一个或(更经常)两个拷贝存在。具有 单个基序的蛋白质(如I-CreI)形成同源二聚体并切割回文或假回文DNA 序列,而较大的双基序蛋白质(如I-SceI)是单体,并切割非回文靶标。 已将七种不同的LAGLIDADG蛋白结晶,它们的核心结构表现出非常明 显的保守性,这与其在一级序列水平缺少相似性相反(Jurica等,Mol.Cell., 1998,2,469-76;Chevalier等,Nat.Struct.Biol.,2001,8,312-6;Chevalier 等J.Mol.Biol.,2003,329,253-69;Moure等,J.Mol.Biol,2003,334, 685-95;Moure等,Nat.Struct.Biol.,2002,9,764-70;Ichiyanagi等,J. Mol.Biol.,2000,300,889-901;Duan等,Cell,1997,89,555-64;Bolduc等, Genes Dev.,2003,17,2875-88;Silva等,J.Mol.Biol.,1999,286,1123-36)。 在此核心结构中,由两个单体或者由两个LAGLIDAG蛋白的两个结构域 中的两个特征性αββαββα折叠(也叫做LAGLIDADG归巢核酸内切酶核 心结构域)彼此相对并具有双重对称性(two-fold symmetry)。DNA结合 依赖于每个结构域中的4条β链,该β链折叠成反向平行β片层,并于DNA 螺旋大沟上形成鞍部(saddle)(图1A)。对与其天然靶标结合的I-CreI 结构的分析表明:在每个单体中,8个残基(Y33、Q38、N30、K28、Q26、 Q44、R68和R70)与±3、4、5、6、7、9和10位的7个碱基建立直接相 互作用(Jurica等,1998,前文引用;图2)。另外,某些残基与若干碱基 建立了水介导的接触;例如S40、K28和N30与8和-8位的碱基对(Chevalier 等,2003,前文引用)。催化核心位于中央,由两个对称的单体/结构域构 成。除了此核心结构,可存在其它结构域:例如,PI-SceI(一种内含肽) 具有蛋白质剪接结构域以及另外的DNA结合结构域(Moure等,2002,前 文引用;Grindl等,Nucleic Acids Res.,1998,26,1857-62)。

用于从归巢核酸内切酶产生新核酸内切酶的两种方法正在研究中:

-蛋白质变体

通过诱变和筛选/选择来改变DNA结合蛋白的底物特异性常被证明是 困难的(Lanio等,Protein Eng.,2000,13,275-281;Voziyanov等,J.Mol. Biol.,2003,326,65-76;Santoro等,P.N.A.S.,2002,99,4185-4190; Buchholz和Stewart,Nat.Biotechnol.,2001,19,1047-1052),更具体地, 长久以来认为改造HE的DNA结合结构域是一项难以完成的任务 (Ashworth等,Nature 2006,441,656-659;Gimble等,J.Mol.Biol.,2003, 334,993-1008;Arnould等,J.Mol.Biol.,2006,355,443-458;Doyon等,J. Am.Chem.Soc.,2006,128,2477-2484;Steuer等,前文引用;Seligman等, Nucleic Acids Res.,2002,30,3870-3879)。

对I-CreI/DNA晶体结构的分析表明,9个氨基酸与归巢位点直接接触 (Chevalier等,2003;Jurica等,前文引用),其随机化导致出现209种组 合,该数目超出任何当前的筛选能力。

为此,几个实验室已依靠半推理性方法(semi-rational approach) (Chica等,Curr.Opin.Biotechnol.,2005,16,378-384)来限制待处理的突 变体文库的多样性:根据结构数据选择少数相关残基。尽管如此,这仍不 足以获得切割所选序列的重新设计的核酸内切酶:

-Seligman和同事使用推理方法(rational approach)来替换I-CreI αββαββα折叠中特定的单个残基(Sussman等,J.Mol.Biol.,2004,342, 31-41;Seligman等,Nucleic Acids Res.,2002,前文引用;Seligman等, Genetics,1997,147,1653-64);只有极少数I-CreI变体(Y33C、Y33H、 Y33R、Y33L、Y33S、Y33T、S32K、S32R)并且仅在±10位被修饰的靶 标中观察到显著切割。

-以类似的方式,Gimble等(前文引用)对PI-SceI的另外的DNA 结合结构域进行修饰;他们获得了结合特异性改变但特异性未改变的蛋白 质变体,并且大多数变体保持对野生型靶序列的大部分亲合力。

-杂合或嵌合的单链蛋白质

新的大范围核酸酶可以通过交换LAGLIDADG归巢核酸内切酶不同 单体的核心结构域而获得(Epinat等,Nucleic Acids Res.,2003,31, 2952-62;Chevalier等,Mol.Cell.,2002,10,895-905;Steuer等, Chembiochem.,2004,5,206-13;国际PCT申请WO 03/078619和WO 2004/031346)。这些单链嵌合的大范围核酸酶能够切割杂合靶标(对应于 两个半个亲本DNA靶序列的融合物),其中来自不同的大范围核酸酶的 两个LAGLIDADG归巢核酸内切酶核心结构域通过间隔区连接。

构建嵌合和单链的人工HE已表明,组合法可用于获得切割新(非回 文)靶序列的新的大范围核酸酶:不同的单体或核心结构域可融合在单一 蛋白质中以实现新的特异性。这些结果意味着I-CreI二聚体的两个DNA 结合结构域独立地起作用;每个DNA结合结构域结合DNA靶位点中不同 的一本(图1A)。新的大范围核酸酶集合的生成以及通过组装两个不同的 单体/核心结构域对其进行组合的能力大大提高了可作为靶标的DNA序列 的数目,但还不能覆盖所有潜在的序列。

为了达到更高的序列数,能鉴定可被组合的较小的独立亚结构域是非 常有价值的(图1B)。

然而,与单体之间相比,在单个单体或结构域内部应用组合法要困难 得多,这是因为结合界面的结构非常紧凑并且两个不同的ββ发夹(其负责 基本上所有碱基特异性的相互作用)不构成单独的亚结构域,而是单个折 叠的一部分。例如,在I-CreI的DNA结合区内部,gtc核苷酸三联体与第 一个发夹的一个残基(Q44)以及第二个发夹的两个残基(R68和R70) 结合(参见Chevalier等,2003的图1B,前文引用)。另外,一系列突变 的累加影响最终可能破坏正确的折叠。

尽管其在结构水平上缺乏明显的模块性,但发明人已鉴定出可分离的 功能性亚结构域,其能够结合归巢核酸内切酶半位点的不同部分(图2)。 通过组装来自不同单体或同一单体内核心结构域中的两个亚结构域,发明 人已改造出了功能性归巢核酸内切酶(同源二聚的)变体,其能够切割回 文的嵌合靶标(图3a)。另外,较大组合的方法通过组装4个不同的亚结 构域(图3a)从而形成新的异源二聚分子,其能够切割非回文的嵌合靶标。

可以对所述不同的亚结构域分别进行修饰以改造出新的切割特异性, 并且一种大范围核酸酶(同源二聚体、异源二聚体、单链嵌合分子)中不 同亚结构域的组合大大增加了可被大范围核酸酶所切割的DNA靶标的数 目。因此,鉴定少数新的切割酶的每个亚结构域使得可以设计大量具有新 特异性的新核酸内切酶。

使用该方法将4组突变组装为具有完全改造的特异性的异源二聚归巢 核酸内切酶,以切割模式靶标(COMB1)或来自人类RAG1基因的序列。 这是第一次完全重新设计归巢核酸内切酶以切割天然存在的序列。

另外,在先前的研究中,经改造的蛋白质的靶标与初始的野生型底物 相比每个位点有1至6个碱基对不同,而22bp的COMB1和RAG1序列 与I-CreI切割位点(C1221)分别有9bp和16bp不同。

这种新的组合法可用于任何归巢核酸内切酶(具有两个结构域的单体 或者同源二聚体),其大大增加了可作为靶标的DNA序列的数目,这导 致生成能切割来自许多目的基因的序列的专用大范围核酸酶。I-CreI衍生 物集合的产生以及对它们进行分子内和分子间组合的能力使得可得到的 22-mer靶标的数目增加到至少1.57×107((64×62)2)。

另外,对于基因组工程应用,HE家族的主要优势是其精确的特异性, 在治疗应用中该特征变得十分重要。

因此,本方法提供了产生切割所选序列的新核酸内切酶的一般方法。 潜在的应用包括特异性切割病毒基因组或者通过双链断裂诱导的重组修 正遗传缺陷,这二者均可用于治疗。

本发明涉及通过突变核心结构域的两个功能性亚结构域来改造亲本 LAGLIDADG归巢核酸内切酶得到LAGLIDADG归巢核酸内切酶变体的 方法,其至少包括以下步骤:

(a)构建第一变体,其在所述核心结构域的第一功能性亚结构域中具有突 变,所述第一功能性亚结构域与所述亲本LAGLIDADG归巢核酸内切酶 切割位点的一半的第一部分相互作用,所述构建通过以下步骤实现:

(a1)用不同的氨基酸替换第一亚结构域的至少一个氨基酸,所述第一亚 结构域对应位于I-CreI中26至40位的亚结构域,

(a2)通过用不同的核苷酸替换所述半位点第一部分的至少一个核苷酸, 从而选择和/或筛选步骤(a1)的第一变体,其能够切割来源于所述亲本 LAGLIDADG归巢核酸内切酶半位点的第一DNA靶序列,

(b)构建第二变体,其在所述核心结构域的第二功能性亚结构域中具有 突变,所述第二功能性亚结构域与所述亲本LAGLIDADG归巢核酸内切 酶半位点的第二部分相互作用,所述构建通过以下步骤实现:

(b1)用不同的氨基酸替换第二亚结构域的至少一个氨基酸,所述第二亚 结构域对应位于I-CreI中44至77位的亚结构域,

(b2)通过用不同的核苷酸替换所述半位点第二部分的至少一个核苷酸, 从而选择和/或筛选步骤(b1)的第二变体,其能够切割来源于所述亲本 LAGLIDADG归巢核酸内切酶半位点的第二DNA靶序列,

(c)构建第三变体,其在所述亲本LAGLIDADG归巢核酸内切酶的所述 第一和第二功能性亚结构域中具有突变,所述构建通过以下步骤实现:

(c1)将步骤(a1)和步骤(b1)的两个变体的突变组合在一个变体中,以 及

(c2)选择和/或筛选能切割嵌合DNA靶序列的步骤(c1)的变体,所述嵌 合DNA靶序列包含所述第一变体DNA靶标半位点的第一部分和所述第二 变体DNA靶标半位点的第二部分。

定义

-在本文中,多肽序列中的氨基酸残基根据单字母代码指定,其中, 例如,Q表示Gln或谷氨酰胺残基,R表示Arg或精氨酸残基,D表示 Asp或天冬氨酸残基。

-核苷酸以如下方式表示:单字母代码用于指代核苷的碱基:a是 腺嘌呤,t是胸腺嘧啶,c是胞嘧啶,g是鸟嘌呤。对于简并核苷酸而言, r代表g或a(嘌呤核苷酸),k代表g或t,s代表g或c,w代表a或 t,m代表a或c,y代表t或c(嘧啶核苷酸),d代表g、a或t,v代 表g、a或c,b代表g、t或c,h代表a、t或c,以及n代表g、a、t 或c。

-“亲本LAGLIDADG归巢核酸内切酶”意指野生型LAGLIDADG归 巢核酸内切酶或其功能性变体。该亲本LAGLIDADG归巢核酸内切酶可 以是单体、在一个功能性核酸内切酶中包含相结合的两个LAGLIDADG 归巢核酸内切酶核心结构域的二聚体(同源二聚体或异源二聚体),所述 功能性核酸内切酶能够切割22~24bp的双链DNA靶标。

-“LAGLIDADG归巢核酸内切酶变体”或“变体”意指通过用不同的 氨基酸替换LAGLIDADG归巢核酸内切酶序列的至少一个氨基酸而获得 的蛋白质。

-“功能性变体”意指能够切割DNA靶标的LAGLIDADG归巢核酸内 切酶变体,所述DNA靶标优选为不被野生型LAGLIDADG归巢核酸内切 酶所切割的新DNA靶标。例如,这些变体在其与DNA靶序列接触或者与 所述DNA靶标直接或间接相互作用的位置具有氨基酸变化。

-“具有新的特异性的归巢核酸内切酶变体”意指具有不同于亲本归巢 核酸内切酶的切割靶标模式的变体。术语“新特异性”、“经修饰的特异性”、 “新切割特异性”、“新底物特异性”是指所述变体针对DNA靶序列核苷酸 的特异性,它们是等同的并且不加区别地使用。

-“I-CreI”意指具有序列SWISSPROT P05725或pdb登录号1g9y 的野生型I-CreI。

-“结构域”或“核心结构域”意指“LAGLIDADG归巢核酸内切酶核心 结构域”,其为LAGLIDADG家族归巢核酸内切酶的特征性α1β1β2α2β3β4α3折叠,对应于约一百个氨基酸残基的序列。该结构域包含折叠成反向平行 β片层的4个β链(β1、β2、β3、β4),所述β片层与DNA靶标的一半相互 作用。该结构域能够与跟DNA靶标的另一半相互作用的另一 LAGLIDADG归巢核酸内切酶核心结构域相关联,以形成能够切割所述 DNA靶标的功能性核酸内切酶。例如,在所述二聚体核酸内切酶I-CreI (163个氨基酸)的情形中,所述LAGLIDADG归巢核酸内切酶核心结构 域对应于6至94位残基。在单体归巢核酸内切酶的情形中,在核酸内切酶 序列中存在两个这样的结构域;例如在I-DmoI(194个氨基酸)中,第一 结构域(7至99位残基)和第二结构域(104至194位残基)被短的连接 子(linker)(100至103位残基)所分隔。

-“亚结构域”意指LAGLIDADG归巢核酸内切酶核心结构域中与归 巢核酸内切酶DNA靶标半位点的独特部分相互作用的区域。两个不同的 亚结构域独立地起作用,并且在一个亚结构域中的突变不改变另一亚结构 域的结合和切割特性。因此,两个亚结构域各自结合归巢核酸内切酶DNA 靶标半位点的不同部分。

-“β-发夹”意指LAGLIDADG归巢核酸内切酶核心结构域的反向平 行β片层的两个连续的β链(β1β2或者β3β4),其通过环或者转角相连。

-“DNA靶标”、“DNA靶序列”、“靶序列”、“靶位点”、“靶标”、“位 点”、“识别位点”、“识别序列”、“归巢识别位点”、“归巢位点”、“切割位 点”意指22~24bp的双链回文、部分回文(假回文)或者非回文多核苷酸 序列,其被LAGLIDADG归巢核酸内切酶识别并切割。这些术语均指独 特的DNA位置,优选基因组位置,在该位置所述核酸内切酶将诱导双链 断裂(切割)。通过双链多核苷酸的一条链的5’至3’序列来定义所述DNA 靶标。例如,图2所示的被野生型I-CreI切割的回文DNA靶序列定义为 以下序列:

5’t-12c-11a-10a-9a-8a-7c-6g-5t-4c-3g-2t-1a+1c+2g+3a+4c+5g+6t+7t+8t+9t+10g+11a+12(SEQ ID NO:1)。

-“DNA靶标半位点”、“半切割位点”或“半位点”意指DNA靶标中结 合每个LAGLIDADG归巢核酸内切酶核心结构域的部分。

-“嵌合DNA靶标”、“组合DNA靶标”或“杂合DNA靶标”指DNA 靶标,其中所述靶标的至少一半包含与至少两个独立的亚结构域结合的核 苷酸组合。

-“载体”意指能够运送与其相连的另一核酸的核酸分子。

-“同源的”意指序列与另一序列具有足以使序列之间发生同源重组的 同一性,更具体地具有至少95%同一性,优选97%同一性以及更优选99%。

-“同一性”是指两个核酸分子或多肽之间的序列同一性。可通过比较 每个序列中的位置来确定同一性,所述序列可为了比较的目的而进行比 对。当被比较序列中的位置由相同的碱基所占据时,则所述分子在该位置 是一致的。核酸或氨基酸序列之间的相似性或同一性程度是在核酸序列共 有位置上一致或匹配的核苷酸数目的函数。多种比对算法和/或程序可用于 计算两个序列之间的同一性,包括作为GCG序列分析软件包(University of Wisconsin,Madison,Wis.)之一部分的FASTA或BLAST,其可使用例 如默认设置。

-“个体”包括哺乳动物以及其它脊椎动物(例如,鸟类、鱼类和爬行类)。 本文使用的术语“哺乳动物”是指任何哺乳喂养其幼仔的胎生(真兽亚纲 (eutharian)或有胎盘哺乳类)或者卵生(后兽亚纲(metatharian)或无 胎盘哺乳类)脊椎动物,包括单孔目动物、有袋动物类和胎盘动物。哺乳 动物种类的实例包括人类及其它灵长类(例如,猴子、黑猩猩)、啮齿动 物(例如,大鼠、小鼠、豚鼠)和反刍动物(例如,牛、猪、马)。

-“遗传病”是指部分或完全、直接或间接地由于一个或几个基因中的 异常所致的任何疾病。所述异常可以是突变、插入或缺失。所述突变可以 是点突变。所述异常可影响该基因的编码序列或其调节序列。该异常可影 响基因组序列的结构或者所编码mRNA的结构或稳定性。所述遗传病可以 是隐性的或显性的。这些遗传病可以是但不限于囊性纤维化、亨廷顿舞蹈 症、家族性高胆固醇血症(LDL受体缺陷)、肝母细胞瘤、威尔逊病、先 天性肝卟啉症、肝代谢遗传性疾病、莱-尼综合征、镰状细胞贫血、地中 海贫血、着色性干皮病、范科尼贫血、视网膜色素变性、毛细血管扩张性 共济失调、布卢姆综合征、视网膜母细胞瘤、杜兴氏肌营养不良症以及泰 -萨病。

根据本发明的方法,每个替换均位于与DNA靶标半位点相互作用的 氨基酸残基位置。LAGLIDADG归巢核酸内切酶与DNA相互作用的残基 是本领域公知的。被突变的残基可以与DNA主链或核苷酸碱基直接地或 通过水分子相互作用。

根据所述方法的一个有利的实施方案,用选自A、C、D、E、G、H、 K、N、P、Q、R、S、T、L、V、W和Y的氨基酸替换步骤a1)或b1) 中的氨基酸。

根据所述方法的另一有利的实施方案,步骤a1)中被替换的氨基酸位 于I-CreI中28至40位。

根据所述方法的另一有利的实施方案,步骤b1)中被替换的氨基酸位 于I-CreI中44至70位。

根据本发明的方法,DNA靶标半位点的每个部分包含至少两个连续的 核苷酸,优选三个连续的核苷酸,并且所述第一和第二部分被至少一个核 苷酸(优选至少两个核苷酸)所分隔。

根据所述方法的另一有利的实施方案,所述半位点的第一和第二部分 分别位于所述半位点的外四分之一和内四分之一。

根据本发明的方法,所述亲本DNA靶标可以是回文、非回文或假回 文的。

根据本发明,所述亚结构域的位置通过参考I-CreI的结构(pdb登录 号1g9y)来定义。由于已知I-CreI中亚结构域的位置,本领域的技术人员 可使用公知的蛋白质结构分析软件(如Pymol)容易地推导出另一种 LAGLIDADG归巢核酸内切酶中相应的位置。例如,对于I-MsoI,两个 功能性亚结构域分别位于30至43位以及47至75位。

根据本发明的方法,将步骤a1)或b1)中的氨基酸突变引入野生型 LAGLIDADG归巢核酸内切酶或其功能性变体中。

所述亲本LAGLIDADG归巢核酸内切酶可选自:

I-SceI,I-ChuI,I-CreI,I-CsmI,PI-SceI,PI-TliI,PI-MtuI,

I-CeuI,I-SceII,I-Sce III,HO,PI-CivI,PI-CtrI,PI-AaeI,PI-BsuI,PI-DhaI,PI-DraI,

PI-MavI,PI-MchI,PI-MfuI,PI-MflI,PI-MgaI,PI-MgoI,PI-MinI,PI-MkaI,PI-MleI,

PI-MmaI,PI-MshI,PI-MsmI,PI-MthI,PI-MtuI,PI-MxeI,PI-NpuI,PI-PfuI,PI-RmaI,

PI-SpbI,PI-SspI,PI-FacI,PI-MjaI,PI-PhoI,PI-TagI,PI-ThyI,PI-TkI,PI-TspI,I-MsoI,

和I-AniI;优选I-CreI,I-SceI,I-ChuI,I-DmoI,I-CsmI,PI-SceI,PI-PfuI,

PI-TliI,PI-MtuI,I-MsoI,I-AniI和I-CeuI;更优选I-CreI,I-MsoI,I-SceI,

I-AniI,I-DmoI,PI-SceI,和PI-PfuI;更优选I-CreI。

功能性变体包含不影响该蛋白质结构的突变。例如,所述亲本归巢核 酸内切酶可以是包含选自以下一个或多个突变的I-CreI变体:

24位的异亮氨酸突变为缬氨酸(I24V),

70位的精氨酸突变为丝氨酸(R70S),以及

75位的天冬氨酸突变为不带电荷的氨基酸,优选天冬酰胺(D75N)或缬 氨酸(D75V)。

步骤a1)或b1)可包括引入另外的突变,特别的,在接触DNA靶序 列或者直接或间接地与DNA靶标相互作用的其它位置引入。

可通过如国际PCT申请WO 2004/067736所述产生变体文库来进行该 步骤。

可根据公知的重叠PCR技术,通过扩增包含两个亚结构域之每一个的 重叠片段来对步骤c1)中的突变进行组合。

可通过使用体外或体内切割测定来进行步骤a2)、b2)或c2)中的选 择和/或筛选,如国际PCT申请WO 2004/067736所述。

根据所述方法的另一有利的实施方案,步骤a2)、b2)和/或c2)在某 条件下体内进行,在此条件下,所述变体产生的突变DNA靶序列中的双 链断裂,通过所述DNA双链断裂的重组介导修复而导致正选择标记或报 告基因的活化,或者负选择标记或报告基因失活。

例如,本发明变体的切割活性可在酵母或哺乳动物细胞中使用报告载 体通过正向重复重组测定进行测量,如PCT申请WO 2004/067736所述。 所述报告载体包含报告基因的两个截短的无功能拷贝(正向重复)以及在 间插序列(intervening sequence)内的嵌合DNA靶序列,将它们克隆至 酵母或哺乳动物表达载体中。所述嵌合DNA靶序列由每个初始变体半位 点的不同部分组合而成。所述变体的表达产生能够切割所述嵌合DNA靶 序列的功能性核酸内切酶。这样的切割诱导同向重复之间的同源重组,得 到功能性报告基因,其表达可通过适当的测定进行监测。

根据所述方法的另一有利的实施方案,它包括表达步骤c2)中获得的 一个变体的另外步骤d1),从而允许形成同源二聚体。所述同源二聚体能 够切割回文的或假回文的嵌合靶序列,该靶序列包含两个不同的部分,每 个部分来自两个初始的变体半位点之一(图3a)。

根据所述方法的另一有利的实施方案,它包括另外的步骤d’1),其共 表达步骤c2)中获得的一个变体和野生型LAGLIDADG归巢核酸内切酶 或其功能性变体,从而允许形成异源二聚体。优选地,共表达步骤c2)中 获得的两个不同的变体。所述异源二聚体能够切割非回文的嵌合靶序列, 该靶序列包含4个不同的部分(A、B、C’、D’;图3a),每个部分来自4 个初始变体的半位点(两个不同单体中的每一个对应两个初始变体;图3a) 之一。

例如,宿主细胞可被一种或两种编码所述变体的重组表达载体修饰。然 后,在允许所述变体表达的条件下培养所述细胞,然后从细胞培养物中回 收形成的同源二聚体/异源二聚体。

根据本发明的方法,可通过将步骤c2)中获得的一个变体与归巢核酸 内切酶结构域/单体融合来构建单链嵌合核酸内切酶。所述结构域/单体可 以来自野生型归巢核酸内切酶或其功能性变体。

构建来源于归巢核酸内切酶的单链嵌合分子的方法在本领域是公知的 (Epinat等,Nucleic Acids Res.,2003,31,2952-62;Chevalier等,Mol. Cell.,2002,10,895-905;Steuer等,Chembiochem.,2004,5,206-13;国际 PCT申请WO 03/078619和WO 2004/031346)。可以使用这些方法的任 一种来构建来源于本发明所定义变体的单链嵌合核酸内切酶。

本发明的主题还包括可通过上述方法获得的LAGLIDADG归巢核酸 内切酶变体。

在所述变体的一个优选实施方案中,它是具有至少两个替换的I-CreI 变体,其中每个替换分别位于I-CreI的26至40位以及44至77位的两个 亚结构域的一个之中。

在一个更优选的实施方案中,在位于I-CreI的44至77位的亚结构域 中的所述替换在44、68、70、75和/或77位。

在另一更优选的实施方案中,在位于I-CreI的26至40位的功能性亚 结构域中的所述替换在I-CreI的26、28、30、32、33、38和/或40位。

在所述变体的另一更优选的实施方案中,它至少具有一个在I-CreI的 28至40位中的第一替换和一个在I-CreI的44至70位中的第二替换。

优选地,所述变体在44、68和70位具有选自以下的氨基酸残基:

A44/A68/A70,

A44/A68/G70,  A44/A68/H70,  A44/A68/K70,  A44/A6g/N70,  A44/A68/Q70,

A44/A68/R70,  A44/A68/S70,  A44/A6g/T70,  A44/D68/H70,  A44/D68/K70,

A44/D68/R70,  A44/G68/H70,  A44/G68/K70,  A44/G68/N70,  A44/G68/P70,

A44/G68/R70,  A44/H68/A70,  A44/H68/G70,  A44/H68/H70,  A44/H68/K70,

A44/H68/N70,  A44/H68/Q70,  A44/H68/R70,  A44/H68/S70,  A44/H68/T70,

A44/K68/A70,  A44/K6g/G70,  A44/K68/H70,  A44/K68/K70,  A44/K6g/N70,

A44/K68/Q70,  A44/K68/R70,  A44/K68/S70,  A44/K68/T70,  A44/N68/A70,

A44/N68/E70,  A44/N68/G70,  A44/N68/H70,  A44/N68/K70,  A44/N68/N70,

A44/N68/Q70,  A44/N68/R70,  A44/N68/S70,  A44/N68/T70,  A44/Q68/A70,

A44/Q68/D70,  A44/Q68/G70,  A44/Q68/H70,  A44/Q68/N70,  A44/Q68/R70,

A44/Q68/S70,  A44/R68/A70,  A44/R6g/D70,  A44/R68/E70,  A44/R68/G70,

A44/R68/H70,  A44/R68/K70,  A44/R68/L70,  A44/R68/N70,  A44/R68/R70,

A44/R68/S70,  A44/R68/T70,  A44/S68/A70,  A44/S68/G70,  A44/S68/K70,

A44/S68/N70,  A44/S68/Q70,  A44/S68/R70,  A44/S68/S70,  A44/S68/T70,

A44/T68/A70,  A44/T68/G70,  A44/T68/H70,  A44/T68/K70,  A44/T68/N70,

A44/T68/Q70,  A44/T68/R70,  A44/T68/S70,  A44/T68/T70,  D44/D68/H70,

D44/N68/S70,  D44/R68/A70,  D44/R68/K70,  D44/R68/N70,  D44/R68/Q70,

D44/R68/R70,  D44/R68/S70,  D44/R68/T70,  E44/H68/H70,  E44/R68/A70,

E44/R68/H70,  E44/R68/N70,  E44/R68/S70,  E44/R68/T70,  E44/S68/T70,

G44/H68/K70,  G44/Q68/H70,  G44/R68/Q70,  G44/R68/R70,  G44/T68/D70,

G44/T68/P70,  G44/T68/R70,  H44/A68/S70,  H44/A68/T70,  H44/R68/A70,

H44/R68/D70,  H44/R68/E70,  H44/R68/G70,  H44/R68/N70,  H44/R68/R70,

H44/R68/S70,  H44/R68/T70,  H44/S68/G70,  H44/S68/S70,  H44/S68/T70,

H44/T68/S70,  H44/T68/T70,  K44/A68/A70,  K44/A68/D70,  K44/A68/E70,

K44/A68/G70,  K44/A68/H70,  K44/A68/N70,  K44/A68/Q70,  K44/A68/S70,

K44/A68/T70,  K44/D68/A70,  K44/D68/T70,  K44/E68/G70,  K44/E68/N70,

K44/E68/S70,  K44/G68/A70,  K44/G68/G70,  K44/G68/N70,  K44/G68/S70,

K44/G68/T70,  K44/H68/D70,  K44/H68/E70,  K44/H68/G70,  K44/H68/N70,

K44/H68/S70,  K44/H68/T70,  K44/K68/A70,  K44/K68/D70,  K44/K68/H70,

K44/K68/T70,  K44/N68/A70,  K44/N68/D70,  K44/N68/E70,  K44/N68/G70,

K44/N68/H70,  K44/N68/N70,  K44/N68/Q70,  K44/N68/S70,  K44/N68/T70,

K44/P68/H70,  K44/Q68/A70,  K44/Q68/D70,  K44/Q68/E70,  K44/Q68/S70,

K44/Q68/T70,  K44/R68/A70,  K44/R68/D70,  K44/R68/E70,  K44/R68/G70,

K44/R68/H70,  K44/R68/N70,  K44/R68/Q70,  K44/R68/S70,  K44/R68/T70,

K44/S68/A70,  K44/S68/D70,  K44/S68/H70,  K44/S68/N70,  K44/S68/S70,

K44/S68/T70,  K44/T68/A70,  K44/T68/D70,  K44/T68/E70,  K44/T68/G70,

K44/T68/H70,  K44/T68/N70,  K44/T68/Q70,  K44/T68/S70,  K44/T68/T70,

N44/A68/H70,  N44/A68/R70,  N44/H68/N70,  N44/H68/R70,  N44/K68/G70,

N44/K68/H70,  N44/K68/R70,  N44/K68/S70,  N44/N68/R70,  N44/P68/D70,

N44/Q68/H70,  N44/Q68/R70,  N44/R68/A70,  N44/R68/D70,  N44/R68/E70,

N44/R68/G70,  N44/R68/H70,  N44/R68/K70,  N44/R68/N70,  N44/R68/R70,

N44/R68/S70,  N44/R68/T70,  N44/S68/G70,  N44/S68/H70,  N44/S68/K70,

N44/S68/R70,  N44/T68/H70,  N44/T68/K70,  N44/T68/Q70,  N44/T68/R70,

N44/T68/S70,  P44/N68/D70,  P44/T68/T70,  Q44/A68/A70,  Q44/A68/H70,

Q44/A68/R70,  Q44/G68/K70,  Q44/G68/R70,  Q44/K68/G70,  Q44/N68/A70,

Q44/N68/H70,  Q44/N68/S70,  Q44/P68/P70,  Q44/Q68/G70,  Q44/R68/A70,

Q44/R68/D70,  Q44/R68/E70,  Q44/R68/G70,  Q44/R68/H70,  Q44/R68/N70,

Q44/R68/Q70,  Q44/R68/S70,  Q44/S68/H70,  Q44/S68/R70,  Q44/S68/S70,

Q44/T68/A70,  Q44/T68/G70,  Q44/T68/H70,  Q44/T68/R70,  R44/A68/G70,

R44/A68/T70,  R44/G68/T70,  R44/H68/D70,  R44/H68/T70,  R44/N68/T70,

R44/R68/A70,  R44/R68/D70,  R44/R68/E70,  R44/R68/G70,  R44/R68/N70,

R44/R68/Q70,  R44/R68/S70,  R44/R68/T70,  R44/S68/G70,  R44/S68/N70,

R44/S68/S70,  R44/S68/T70,  S44/D68/K70,  S44/H68/R70,  S44/R68/G70,

S44/R68/N70,  S44/R68/R70,  S44/R68/S70,  T44/A68/K70,  T44/A68/R70,

T44/H68/R70,  T44/K68/R70,  T44/N68/P70,  T44/N68/R70,  T44/Q68/K70,

T44/Q68/R70,  T44/R68/A70,  T44/R68/D70,  T44/R68/E70,  T44/R68/G70,

T44/R68/H70,  T44/R68/K70,  T44/R68/N70,  T44/R68/Q70,  T44/R68/R70,

T44/R68/S70,  T44/R68/T70,  T44/S68/K70,  T44/S68/R70,  T44/T68/K70,

和T44/T68/R70。

优选地,所述变体在28、30、33、38和40位分别具有选自以下的氨 基酸:QNYKR,RNKRQ,

QNRRR,QNYKK,QNTQK,QNRRK,KNTQR,SNRSR,NNYQR,KNTRQ,

KNSRE,QNNQK,SNYRK,KNSRD,KNRER,KNSRS,RNRDR,ANSQR,

QNYRK,QNKRT,RNAYQ,KNRQE,NNSRK,NNSRR,QNYQK,QNYQR,

SNRQR,QNRQK,ENRRK,KNNQA,SNYQK,TNRQR,QNTQR,KNRTQ,

KNRTR,QNEDH,RNYNA,QNYTR,RNTRA,HNYDS,QNYRA,QNYAR,

SNQAA,QNYEK,TNNQR,QNYRS,KNRQR,QNRAR,QNNQR,RNRER,

KNRAR,KNTAA,KNRKA,RNAKS,KNRNA,TNESD,RNNQD,RNRYQ,

KNYQN,KNRSS,KNRYA,ANNRK,KNRAT,KNRNQ,TNTQR,KNRQY,

QNSRK,RNYQS,QNRQR,KNRAQ,ANRQR,KNRQQ,KNRQA,KNTAS,

KAHRS,KHHRS,KDNHS,KESRS,KHTPS,KGHYS,KARQS,KSRGS,KSHHS,

KNHRS,KRRES,KDGHS,KRHGS,KANQS,KDHKS,KKHRS,KQNQS,

KQTQS,KGRQS,KRPGS,KRGNS,KNAQS,KNHNS,KHHAS,KRGSS,KSRQS,

KTDHS,KHHQS,KADHS,KSHRS,KNRAS,KSHQS,KDAHS,KNHES,KDRTS,

KDRSS,KAHQS,KRGTS,KNHSS,KQHQS,KNHGS,KNNQS,KNDQS,KDRGS,

KNHAS,KHMAS,KSSHS,KGVAS,KSVQS,KDVHS,RDVQS,KGVQS,

KGVTS,KGVHS,KGVRS,KGVGS,RAVGS,RDVRS,RNVQS和NTVDS。

在另一更优选的实施方案中,所述变体切割包含下式序列的嵌合DNA 靶标:c-11n-10n-9n-8m-7y-6n-5n-4n-3k-2y-1r+1m+2n+3n+4n+5r+6k+7n+8n+9n+10g+11(I),其中n 是a、t、c或g,m是a或c,y是c或t,k是g或t,r是a或g(SEQ ID NO:2),当n-10n-9n-8是aaa以及n-5n-4n-3是gtc时,则n+8n+9n+10不是ttt 并且n+3n+4n+5不是gac,当n+8n+9n+10是ttt以及n+3n+4n+5是gac时,则 n-10n-9n-8不是aaa并且n-5n-4n-3不是gtc。

根据本发明,所述嵌合的DNA靶标可以是回文的、假回文的或非回 文的。优选地,-11至-8位和+8至+11位的核苷酸序列和/或-5至-3位和/ 或+3至+5位的核苷酸序列是回文的。

更优选地,对于切割n-4是t或n+4是a的嵌合DNA靶标而言,所述变 体在44位是谷氨酰胺(Q)。

更优选地,对于切割n-4是a或n+4是t的嵌合DNA靶标而言,所述变 体在44位是丙氨酸(A)或天冬酰胺;这类变体的实例是包含A44、R68、 S70或A44、R68、S70、N75的I-CreI变体。

更优选地,对于切割n-4是c或者n+4是g的嵌合DNA靶标而言,所 述变体在44位是赖氨酸(K);这类变体的实例是包含K44、R68、E70 或者K44、R68、E70、N75的I-CreI变体。

更优选地,对于切割n-9是g或者n+9是c的嵌合DNA靶标而言,所 述变体在38位是精氨酸(R)或赖氨酸(K)。这类变体的实例是在28、 30、33、38和40位分别具有以下氨基酸残基的I-CreI变体:

Q28/N30/Y33/K38/R40,

R28/N30/K33/R38/Q40,    Q28/N30/R33/R38/R40,    Q28/N30/Y33/K38/K40,

K28/N30/T33/R38/Q40,    K28/N30/S33/R38/E40,    S28/N30/Y33/R38/K40,

K28/N30/S33/R38/D40,    K28/N30/S33/R38/S40,    Q28/N30/Y33/R38/K40,

Q28/N30/K33/R38/T40,    N28/N30/S33/R38/K40,    N28/N30/S33/R38/R40,

E28/N30/R33/R38/K40,    R28/N30/T33/R38/A40,    Q28/N30/Y33/R38/A40,

Q28/N30/Y33/R38/S40,    K28/N30/R33/K38/A40,    R28/N30/A33/K38/S40,

A28/N30/N33/R38/K40,    Q28/N30/S33/R38/K40,    K28/A30/H33/R38/S40,

K28/H30/H33/R38/S40,    K28/E30/S33/R38/S40,    K28/N30/H33/R38/S40,

K28/D30/H33/K38/840,    K28/K30/H33/R38/S40,    K28/S30/H33/R38/S40

如K28/G30/V33/R38/S40。

更优选地,所述DNA靶标在-10至-8位包含选自以下的核苷酸三联体:

aac,aag,aat,acc,

acg,act,aga,agc,agg,agt,ata,atg,cag,cga,cgg,ctg,gac,gag,gat,gaa,gcc,gga, ggc,ggg,ggt,gta,gtg,gtt,tac,tag,tat,taa,tcc,tga,tgc,tgg,tgt 或ttg,和/或包含是所述-10至-8位核苷酸三联体反向互补序列的+8至+10 位核苷酸三联体。

在所述变体的另一优选的实施方案中,它是具有至少两个替换的 I-MsoI变体,其中每个替换分别位于I-MsoI的30至43位和47至75位的 两个亚结构域的一个之中。

另外,可诱变亲本LAGLIDADG归巢核酸内切酶整个序列上特别是 在所述序列的C端一半的其它残基。例如,替换I-CreI C端一半(80至 163位)的如下位置是优选的:I-CreI的80、82、85、86、87、94、96、 100、103、114、115、117、125、129、131、132、147、151、153、154、 155、157、159和160位。

本发明的变体可包含插入亲本LAGLIDADG归巢核酸内切酶序列的 NH2端和/或COOH端的一个或多个残基。例如,将甲硫氨酸残基引入NH2端,将标签(表位或多组氨酸序列)引入NH2末端和/或COOH末端;所 述标签用于检测和/或纯化所述多肽。

本发明的变体可以是在一个多肽中包含两个LAGLIDADG归巢核酸 内切酶结构域的单体或单链嵌合核酸内切酶,或者是在两个独立的多肽中 包含两个这样结构域的同源二聚体或异源二聚体。根据本发明,可以对一 个或两个单体/结构域中如上定义的两个亚结构域进行诱变。一个单体/结 构域可以来自亲本LAGLIDADG归巢核酸内切酶或其功能性变体。

根据本发明的另一优选实施方案,所述变体是单体、单链嵌合分子或 者异源二聚体,其中两个LAGLIDADG归巢核酸内切酶结构域都在至少 两个独立的亚结构域中包含突变,如上所定义的,一个结构域中的突变不 同于另一结构域中的突变。

本发明的主题还包括编码如上所定义的变体或其突变结构域的多核苷 酸片段;所述多核苷酸可编码单体的一个结构域、同源二聚体或异源二聚 体的一个单体或者单体或单链分子的两个结构域,如上所定义的。

本发明的主题还包括包含至少一个编码如上所定义变体的多核苷酸片 段的重组载体。所述载体可包含编码异源二聚变体的单体,或者单体变体 的两个结构域,或者单链分子的多核苷酸片段。或者,所述载体可包含两 个不同的多核苷酸片段,每个片段编码异源二聚变体的一个单体。

一种优选的载体类型是附加体,即能够在染色体外进行复制的核酸。 优选的载体是能够自主复制和/或表达与其相连的核酸的载体。在本文中, 将能够指导与其可操作连接的基因表达的载体称为“表达载体”。

根据本发明的载体包括但不局限于YAC(酵母人工染色体)、BAC (细菌人工染色体)、杆状病毒载体、噬菌体、噬菌粒、粘粒、病毒载体、 质粒、RNA载体或者线性或环状的DNA或RNA分子,其可由染色体的、 非染色体的、半合成的或者合成的DNA组成。通常,用于重组DNA技术 的表达载体常常是“质粒”形式,其通常指其载体形式不与染色体结合的环 状双链DNA环。大量的合适载体对于本领域的技术人员来说是已知的。

病毒载体包括逆转录病毒、腺病毒、细小病毒(例如腺相关病毒)、 冠状病毒、负链RNA病毒如正黏病毒(例如流感病毒)、弹状病毒(例 如狂犬病毒和疱疹性口腔炎病毒)、副黏病毒(例如麻疹病毒和仙台病毒)、 正链RNA病毒如小RNA病毒和甲病毒,以及双链DNA病毒包括腺病毒、 疱疹病毒(例如1型和2型单纯疱疹病毒、EB病毒、巨细胞病毒),以 及痘病毒(例如痘苗病毒、禽痘病毒和金丝雀痘病毒)。其它病毒包括例 如诺沃克病毒、披膜病毒、黄病毒、呼肠孤病毒、乳多空病毒、嗜肝DNA 病毒和肝炎病毒。

载体可包含选择标记,例如:用于真核细胞培养的新霉素磷酸转移酶、 组氨醇脱氢酶、二氢叶酸还原酶、潮霉素磷酸转移酶、单纯疱疹病毒胸苷 激酶、腺苷脱氨酶、谷氨酰胺合成酶以及次黄嘌呤-鸟嘌呤转磷酸核糖基酶; 用于酿酒酵母(S.cerevisiae)的TRP1;用于大肠杆菌(E.coli)的四环素、 利福平或氨苄青霉素抗性。

优选地,所述载体是表达载体,其中编码本发明所述变体的序列置于 适当的转录和翻译控制元件的控制下,从而允许产生或合成所述变体。因 此,所述多核苷酸包含在表达盒内。更具体地,所述载体包含复制起点、 与所述编码的多核苷酸可操作地连接的启动子、核糖体结合位点、RNA剪 接位点(当使用基因组DNA时)、多腺苷化位点以及转录终止位点。它 还可包含增强子。启动子的选择将取决于表达该多肽的细胞。优选地,当 所述变体为异源二聚体时,编码每个单体的两个多核苷酸包含在一个载体 中,该载体能够驱动两个多核苷酸同时表达。

根据所述载体的另一有利的实施方案,它包含靶向构建体,所述靶向 构建体包含与上述嵌合DNA靶序列附近的区域具有同源性的序列。

更优选地,所述靶向DNA构建体包含:

a)与上述嵌合DNA靶序列附近的区域具有同源性的序列,以及 b)其侧翼为a)中序列的待引入序列。

本发明还涉及被上述多核苷酸或载体(优选为表达载体)所修饰的原 核或真核宿主细胞。

本发明还涉及非人转基因动物或转基因植物,其特征在于其所有或者 部分细胞被上述多核苷酸或载体所修饰。

如本文所使用的,细胞是指原核细胞(如细菌细胞)或真核细胞(如 动物、植物或酵母细胞)。

编码本发明中所定义变体的多核苷酸序列可以利用本领域技术人员已 知的任何方法进行制备。例如,使用特异性引物利用聚合酶链式反应从 cDNA模板扩增所述多核苷酸序列。优选地,选择有利于所述蛋白质在预 期表达系统中表达的所述cDNA的密码子。

可利用公知的重组DNA和遗传工程技术获得包含所述多核苷酸的重 组载体以及将其引入宿主细胞。

通过表达上述多肽得到本发明的变体;优选地,在适合所述多肽表达 或共表达的条件下,在被一种或两种表达载体修饰的宿主细胞中表达或者 共表达所述多肽,并从宿主细胞培养物中回收所述变体。

本发明的主题还包括以下各项以非治疗性目的用于分子生物学、体内 或体外遗传工程以及体内或体外基因组工程的用途:如前定义的变体、一 种或两种多核苷酸(优选包含在表达载体中)、细胞、转基因植物、非人 类转基因哺乳动物。

非治疗性目的包括例如(i)在包装细胞系中特定基因座的基因靶向, 用于生产蛋白质,(ii)在农作物中特定基因座的基因靶向,用于品种改 良和代谢工程,(iii)靶向重组,用于除去经遗传修饰的农作物中的标记 物,(iv)靶向重组,用于除去经遗传修饰的微生物菌株(例如用于生产 抗生素的菌株)中的标记物。

根据所述用途的一个有利的实施方案,它用于在包含嵌合DNA靶序 列的目的位点诱导双链断裂,从而诱导DNA重组事件、DNA丢失或细胞 死亡。

根据本发明,所述双链断裂用于:修复特定的序列、修饰特定的序 列、恢复突变基因位置处的功能基因、削弱或激活目的内源基因、将突变 引入目的位点、引入外源基因或其部分、失活或检测内源基因或其部分、 使染色体臂易位或者使DNA不被修复并被降解。

根据所述用途另一有利的实施方案,所述变体、多核苷酸、载体、 细胞、转基因植物或者非人转基因哺乳动物与如前定义的靶标DNA构建 体相关联。

本发明的主题还包括遗传工程方法,其特征在于它包括以下步骤: 通过将包含如上文所述嵌合DNA靶标的载体与如前定义的变体接触而在 所述载体上目的位点断裂双链核酸,从而诱导与另一载体的同源重组,所 述另一载体与所述变体的切割位点附近序列具有同源性。

本发明的主题还包括基因组工程方法,其特征在于它包括以下步骤: 1)通过将靶标与所述变体接触使基因座发生双链断裂,该基因座包含如前 定义的变体的至少一个嵌合DNA靶标;2)在适于与靶向DNA构建体发 生同源重组的条件下维持所述断裂的基因座,所述靶向DNA构建体包含 待引入所述基因座的序列,所述序列的侧翼是与靶标具有同源性的序列。

本发明的主题还包括基因组工程方法,其特征在于它包括以下步骤: 1)通过将所述切割位点与所述变体接触,从而使基因座发生双链断裂,该 基因座包含如前定义的变体的至少一个嵌合DNA靶标;2)在适于与染色 体DNA构建体发生同源重组的条件下维持所述断裂的基因座,所述染色 体DNA构建体与该切割位点附近区域具有同源性。

本发明的主题还包括组合物,其特征在于包含至少如前定义的一种 变体、一种或两种多核苷酸(优选包含在表达载体中)。

在所述组合物的优选实施方案中,它包含靶向DNA构建体,其包含 修复目的位点的序列,所述序列的侧翼是与靶标基因座具有同源性的序 列。

本发明的主题还包括至少如前定义的一种变体、一种或两种多核苷 酸(优选包含在表达载体中)用于制备在有此需要的个体中预防、改善或 治疗遗传病的药剂上的用途,所述药剂以任意方式施用给所述个体。

本发明的主题还包括用于在有此需要的个体中预防、改善或治疗遗 传病的方法,所述方法至少包括以任意方式向所述个体施用上述组合物的 步骤。

本发明的主题还包括至少如前定义的一种变体、一种或两种多核苷 酸(优选包含在表达载体中)用于制备药剂的用途,所述药剂用于在有此 需要的个体中预防、改善或治疗由带有DNA中介物(intermediate)的传 染原引起的疾病,所述药剂以任意方式施用给所述个体。

本发明的主题还包括用于在有此需要的个体中预防、改善或治疗由 带有DNA中介物的传染原引起的疾病的方法,所述方法至少包括以任意 方式向所述个体施用上述组合物的步骤。

本发明的主题还包括至少如前定义的一种变体、一种或两种多核苷 酸(优选包含在表达载体中)于体外在生物来源的产品或者在用于生物学 用途的产品中,用于抑制带有DNA中介物的传染原增殖、使其失活或消 除的用途,或者用于对物体消毒的用途。

本发明的主题还包括用于消除产品或物质中带有DNA中介物的传 染原污染的方法,所述方法至少包括将生物来源的产品、意在用于生物学 用途的产品或物体与上述组合物接触一段时间的步骤,所述时间足以抑制 所述传染原增殖、失活或消除传染原。

在一个具体的实施方案中,所述传染原是病毒。例如所述病毒是腺 病毒(Ad11、Ad21)、疱疹病毒(HSV、VZV、EBV、CMV、疱疹病毒 6、7或8)、嗜肝DNA病毒(HBV)、乳多空病毒(HPV)、痘病毒或 者逆转录病毒(HTLV、HIV)。

本发明的主题还包括至少一种如前定义的归巢核酸内切酶变体作为 用于制备其它大范围核酸酶的平台的用途。例如,为了产生新的第三代归 巢核酸内切酶,可以对所述变体进行第三轮诱变以及选择/筛选。

根据所述用途的另一有利的实施方案,所述归巢核酸内切酶变体与 如前定义的靶向DNA构建体相关联。

根据本发明,所述归巢核酸内切酶变体的用途以及使用所述归巢核 酸内切酶变体的方法还包括使用源自所述变体的单链嵌合核酸内切酶、编 码所述变体或单链嵌合核酸内切酶的多核苷酸、载体、细胞、转基因植物 或非人转基因哺乳动物,如前定义。

除了前述特征,本发明还包括从以下说明以及附图中得出的其它特 征,所述以下说明指说明了本发明的I-CreI大范围核酸酶变体及其用途的 实施例以及附图,其中:

-图1举例说明本发明的原理。A:与其靶标结合的I-CreI的结构。 实验数据显示,可以在DNA结合结构域中鉴定出两个独立的亚结构域(方 框);核心结构域的每个亚结构域结合DNA靶标不同的一半。B.欲鉴定 更小的独立亚结构域(方框),每个亚结构域结合DNA靶标的一半的特 定部分。然而,尚无有利于该假说的结构数据或实验数据。

-图2显示I-CreI与其DNA靶标的碱基特异性相互作用图谱,其 根据Chevalier和Stoddard,Nucleic Acids Res.,2001,29,3757-74; Chevalier等J.Mol.Biol.,2003,329,253-69。本发明人已鉴定出新的衍生 自I-CreI的核酸内切酶,其能够结合在-10至-8位和8至10位或者-5至-3 位和3至5位区域被修饰的DNA靶标。这些DNA区域示于灰色框中。

-图3举例说明产生重新设计的归巢核酸内切酶的策略。a.常规方 案。产生大的具有局部特异性改变的I-CreI衍生物集合。然后,使用组合 法将这些突变体组装为同源二聚蛋白质,然后形成异源二聚体,得到具有 完全重新设计的特异性的大范围核酸酶。b.产生切割COMB1靶标(SEQ ID NO:53)的组合突变体:工作流程。两个回文靶标(COMB2(SEQ ID NO:39)和COMB3(SEQ ID NO:46))来源于COMB1靶标,设计同 源二聚组合突变体以切割这两个靶标。然后,将阳性产物共表达以切割 COMB1靶标。c.RAG1系列的靶标。两个回文靶标(RAG1.2(SEQ ID NO: 55)和RAG1.3(SEQ ID NO:56))来源于RAG1.1(SEQ ID NO:54)。 然后,可应用类似于针对COMB系列靶标时所描述的工作流程。

-图4举例说明筛选变体。(a)酵母筛选测定的原理。将用LEU2 基因标记的表达待测定大范围核酸酶的菌株(MEGA)与用TRP1基因标 记的包含报告质粒的菌株接合,所述报告质粒含有所选的靶标。所述靶标 的侧翼为重叠的截短的LacZ基因(LAC和ACZ)。在二倍体(LEU2、 TRP1)中,大范围核酸酶对所述靶标位点的切割诱导两个LacZ重复之间 的同源重组,得到功能性β-半乳糖苷酶基因,其可以通过X-gal染色进行 监测。(b)实验图解。使用PCR构建I-CreI变体的文库,将其克隆至复 制型酵母表达载体中并转化至酿酒酵母菌株FYC2-6A(MATα,trp1Δ63, leu2Δ1,his3Δ200)中。在基于LacZ的酵母报告载体中克隆了64个回文 靶标,将得到的克隆转化至FYBL2-7B菌株(MATα,ura3Δ851,trp1Δ63, leu2Δ1,lys2Δ202)中。使用机器人辅助在滤膜上划网格进行表达大范围 核酸酶变体的单克隆与包含报告质粒的单克隆之间的接合。在初次高通量 筛选后,利用PCR扩增阳性克隆的ORF并测序。在2100个阳性克隆中 鉴定出衍生自I-CreI N75平台蛋白的410种在44、68和70位不同的变体, 并在低密度下进行检测以建立完整的模式,确认了350个克隆。同样,将 294种突变体重克隆至酵母载体中,并在第二次筛选中进行检测,结果确 认了那些获得的未重克隆的变体。然后,在类似的基于CHO的测定中检 测所选克隆的切割活性,并最终在体外测定。

-图5举例说明一系列变体的切割模式。用三个字母表示突变体, 其对应于44、68和70位的残基。针对来自被I-CreI所切割的C1221回文 靶标的64个靶标(替换了±3至5位的核苷酸)以及一系列对照靶标,检 测每种突变体。靶标图在右上图中标明。在酵母(左)和哺乳动物细胞(右) 中I-CreI蛋白和8种衍生物的切割模式。对于酵母而言,显示最初的原始 数据(滤膜)。对于CHO细胞而言,显示定量的原始数据(ONPG测量), 高于0.25的值加方框,高于0.5的值用中灰色高亮显示,高于1的值用深 灰色。LacZ:阳性对照。0:无靶标。U1、U2和U3:三个不同的未切割 对照。

-图6表示统计学分析。(a)被切割的靶标:被I-CreI变体切割的 靶标用灰色表示。切割每个靶标的蛋白质数显示于下方,灰色着色程度与 这些切割蛋白在酵母中获得的平均信号强度成正比。(b)对7个聚类中 的3个进行分析。对于每个突变体聚类(聚类1、3和7),计算每个靶标 的累计强度,柱状图(左侧柱图)以降序显示经归一化的强度。对于每个 聚类而言,在每个位置(44、68和70位)上每种类型氨基酸数目在右栏 中显示为带编码柱状图。氨基酸颜色代码的图例位于图底部。(c)酵母中 突变体和靶标数据的层级聚类。使用Euclidean距离和Ward’s法(Ward, J.H.,American statist.Assoc.,1963,58,236-244)用层级聚类分析将突变体 和靶标进行聚类。使用R软件包的hclust进行聚类分析。将突变体和靶标 的树状图重新排序以优化聚类的位置,并根据推导出的聚类将突变体树状 图在高度为8处切断。QRR突变体和GTC靶标用箭头标注。灰度反映了 信号的强度。

-图7举例说明杂合或嵌合位点的实例:gtt(SEQ ID NO:3)和 cct(SEQ ID NO:4)是两个来源于I-CreI位点的回文位点。gtt/cct杂合 位点(SEQ ID NO:5)显示顶部链上-5、-4、-3位的gtt序列以及底部链 上5、4、3位的cct序列。

-图8举例说明异源二聚变体的切割活性。用KTG和QAN变体共 同转化酵母。靶标组成显示于顶部图中:具有单个gtt、cct或gcc半位点 的靶标用粗体显示;具有两个这样的半位点的靶标用粗体并用灰色高亮显 示,该靶标预期会被同源和/或异源二聚体切割;0:无靶标。结果显示于 下方的三个图中。仅对于分别被KTG和QAN所切割的gtc/cct和gtt/gtc 观察到出乎意料的微弱信号。

-图9表示对异源二聚变体的切割活性的定量分析。(a)将所选突 变体共同转化进酵母。为清楚起见,只显示了相关的杂合靶标的结果。 aac/acc靶标总作为无关靶标的实例显示。对于KTG×AGR杂交,回文的 tac和tct靶标(尽管未显示)分别被AGR和KTG所切割。RRN突变体 切割cat靶标的效率非常低,并且不能在酵母中进行定量。(b)在CHO 细胞中瞬时共转染。对于(a)和(b)而言,黑色柱:仅第一个突变体的 信号;灰色柱:仅第二个突变体的信号;条纹柱:通过共表达或共转染得 到的信号。

-图10表示I-CreI N75平台蛋白的序列以及用于构建Ulib4和Ulib5 文库的简并引物的序列。A.所述平台(SEQ ID NO:6)是包括D75N密 码子替换和3’端的3个另外的密码子(AAD)的I-CreI ORF。B.引物(SEQ ID NO:7、8、9)。

-图11举例说明切割每个靶标的突变体的模式和数目的实例。A. 模式实例。在酵母中针对一系列64个回文靶标(如图11B中所排列的) 检测每种新核酸内切酶的切割模式,所述回文靶标在±8、±9和±10位不同 于图2中所示的序列。每个靶序列根据-10、-9、-8位核苷酸三联体(10NNN) 命名。例如,GGG对应于tcgggacgtcgtacgacgtcccga靶标(SEQ ID NO:17; 图14B)。针对所述64个靶标检测大范围核酸酶4次。被I-CreI(D75)、 I-CreI N75或10种衍生变体所切割的靶标显示为黑色或灰色的点。B.切 割每个靶标的突变体的数目,以及切割的平均强度。每个序列以-10、-9、 -8位核苷酸三联体(10NNN)命名。切割每个靶标的蛋白质的数目显示如 下,灰色着色程度与酵母中的这些切割蛋白获得的平均信号强度成正比。

-图12表示I-CreI在28、30、33、38和/或40位的变体的切割模式。 对于筛选后获得的141种I-CreI变体之每一种(其用28、30、33、38、40、 70和75位的残基定义),在酵母中用所述64个靶标(来源于被I-CreI 切割的C1221回文靶标,其替换了位置±8至10的核苷酸)来监测切割。 靶标用3个字母表示,对应于-10、-9和-8位的核苷酸。例如GGG对应于 tcgggacgtcgtacgacgtcccga靶标(SEQ ID NO:17)。数值(方框中)对应 于切割强度,其在对滤膜扫描后使用合适的软件进行评估,而(0)表明无 切割。

-图13表示在结合其靶标的I-CreI同源二聚体上,突变在蛋白质和 DNA靶标中的定位。两组突变(44、68和70位残基;30、33和38位残 基)在左侧单体上显示为黑色。所述两组突变在空间上是明显区分开的。 然而,尚无结构证据表明其为独立的亚结构域。DNA靶标位点中的相关区 域(-5至-3位区域;-10至-8位区域)在一个半位点上显示为灰色。

-图14:I-CreI衍生物的靶标定义(A和B)和切割模式(C和D)。 所有的靶标均来源于被野生型I-CreI所切割的回文靶标C1221,显示于A 和B的顶部。A.通过对±5至±3位置(在灰色框中)的诱变衍生出第一系 列64个靶标。若干实例显示如下。显示了与I-CreI 44、68、70位残基的 相互作用。B.通过对±10至±8位置(在灰色框中)的诱变衍生出第二系 列64个靶标。若干实例显示如下。位置±8、±9和±10不与44、68和70 位残基接触。C.图14D中靶标的组成。对于左图,表格中的3个字母表 明±3、±4和±5位的碱基(例如,GGG指tcaaaacggggtaccccgttttga(SEQ ID NO:10))。对于右图,3个字母表明±8、±9和±10位的碱基(例如,GGG 指tcgggacgtcgtacgacgtcccga(SEQ ID NO:17))。D.模式。用两组64 个靶标(左侧±5至±3位,右侧±10到至±8位)测定10种切割C1221靶标 的I-CreI变体(包括I-CreI N75(QRR))的模式。靶标如图14C中的排 列。在两组中均存在C1221靶标(正方形中)。用3个字母表示突变体, 其对应于44、68和70位的残基(实例:QRR为Q44、R68、R70),并 且它们全部都具有另外的D75N突变。

-图15表示,在结合其靶标的I-CreI同源二聚体上,突变在蛋白质 和DNA靶标中的定位。两组突变(44、68和70位残基;28、30、33、 38和40位残基)在左侧单体上显示为黑色。两组突变在空间上是明显区 分开的。然而,尚无结构证据表明其为独立的亚结构域。DNA靶标位点中 的相关区域(-5至-3位区域;-10至-8位区域)在一个半位点上显示为灰 色。

-图16举例说明组合44、68、70位和28、30、33、38、40位的突 变,以切割嵌合靶标COMB2(tctggacgacgtacgtcgtcctga:SEQ ID NO:39)。上图: 以下各图的突变体特征图。如文中所述,突变体组合用8个字母代码命名, 其根据28、30、33、38、40、44、68和70位的残基,亲本对照用5个字 母和3个字母代码命名,其根据28、30、33、38和40位或者44、68和 70位的残基。在酵母中针对COMB2以及10TGC和5GAC(两个亲本靶 标)筛选突变体。

-图17举例说明组合44、68、70位和28、30、33、38、40位的突 变,以切割嵌合的tcaacaccctgtacagggtgttga靶标(SEQ ID NO:49)。A.针 对嵌合靶标,测定在44、68和70位中或者在28、30、33、38和40位中 具有突变的蛋白质。在44、68和70位具有突变的蛋白质用3个字母代码 命名,表明44、68和70位的氨基酸残基(实例:AAK指A44、A68、K70)。 在28、30、33、38和40位具有突变的蛋白质用5个字母代码命名,表明 28、30、33、38和40位的氨基酸残基(实例:KNRQQ指K28、N30、 R33、Q38、Q40)。B.针对嵌合DNA靶标测定嵌合蛋白质。蛋白质用 28、30、33、38、40位的突变来定义,其在图的左侧标出,用44、68和 70位的突变来定义,其通过图上的3字母代码表示。并圈出切割嵌合DNA 靶标的嵌合蛋白质。

-图18举例说明组合44、68、70位和28、30、33、38、40位的突 变,以切割嵌合的tcaacactttgtacaaagtgttga靶标(SEQ ID NO:52)。A.针 对嵌合靶标测定在44、68和70位或在28、30、33、38和40位具有突变 的蛋白质。在44、68和70位具有突变的蛋白质用3个字母代码命名,表 明44、68和70位的氨基酸残基(实例:AAR指A44、A68、R70)。在 28、30、33、38和40位具有突变的蛋白质用5字母代码命名,表明28、 30、33、38和40位的氨基酸残基(实例:KNRQE指K28、N30、R33、 Q38、E40)。B.针对嵌合DNA靶标测定嵌合蛋白质。蛋白质用28、30、 33、38、40位的突变来定义,在图的左侧标出,并用44、68和70位的突 变定义,其通过图上的3字母代码表示。

-图19举例说明在生物化学和生物物理学上表征组合突变体。a.体 外切割的原始数据的实例。测定不同浓度的蛋白质。泳道1至15:蛋白质 浓度(nM)为250、189.4、126.3、84.2、63.2、42.1、21.1、15.8、10.5、 7.4、4.2、2.1、1.0、0.5和0。b.组合突变体切割COMB2。c.组合突变 体切割COMB3。d.利用CD测量相同蛋白质的热变性。粗体线对应于 I-CreI N75,中点变性温度为65℃。其它蛋白质:KNHQS/KEG(中点变 性温度:65.3℃)、KNHQS/KAS(64.9℃)、KEG(63.1℃)、KNHQS (62.2℃)、NNSRQ(61.2℃)、KAS(61.2℃)、KAS(61.2℃)、ARR (57.3℃)、ASR(57.1℃)、NNSRK/ARR(55.8℃)、NNSRK/ASR(55.8℃)。

关于蛋白质的命名参见图16。

-图20举例说明重新设计的异源二聚体切割非回文靶标。a.异源 二聚体切割COMB1(右下图)。亲本同源二聚体对COMB2和COMB3 回文靶标的切割在上图和左图中表示。对于组合突变体,与图16和文中的 命名法相同。b.异源二聚体切割RAG1.1靶标。如文中所述,组合突变体 根据10个残基而非8个残基命名,对应于28、30、33、38、40、44、68、 70、75和77位。

实施例1:筛选新的功能性核酸内切酶:改造出针对±3至±5位核苷酸 (5NNN)具有新特异性的I-CreI变体

用于生产大范围核酸酶变体的方法以及在哺乳动物或酵母细胞中 基于切割诱导重组的测定在国际PCT申请WO 2004/067736和Epinat 等,Nucleic Acids Res.,2003,31,2952-2962中已描述。该方法和测定用于 筛选特异性改变的变体。这些测定均获得功能性LacZ报告基因,该报 告基因可以通过标准方法进行监测(图4a)。

A)材料和方法

a)构建突变体文库

如前所述(Epinat等,N.A.R.,2003,31,2952-2962),合成I-CreI 平台蛋白的开放读码框。I-CreI平台蛋白包括野生型I-CreI、I-CreI D75N (I-CreI N75),I-CreI R70S、D75N(I-CreI S70 N75),I-CreI I24V、R70S、 D75N(I-CreI V24 S70 N75)以及I-CreI I24V、R70S(I-CreI V24 S70)。 组合文库通过替换不同的残基组合来源于I-CreI平台蛋白,所述残基可 能参与与一个DNA靶标半位点的±3至5位碱基的相互作用(Q44、R68、 R70、D75和I77)。通过使用在每处所选位置具有独特简并密码子的简 并引物进行PCR来产生大范围核酸酶文库的多样性。例如,通过用aac 替换75位密码子引入D75N突变。然后,使用来自Sigma的在44、68 和70位含有密码子VVK(18个密码子,氨基酸ADEGHKNPQRST)的 引物对I-CreI N75 cDNA模板PCR。用特异性的限制性酶消化PCR终 产物,并将其克隆回pCLS0542上用同样的限制性酶消化的的I-CreI ORF中。在该基于2μ的带有LEU2基因标记的复制型载体中,I-CreI变 体处于半乳糖诱导型启动子的控制之下(Epinat等,前文引用)。在大肠 杆菌中进行电穿孔后,获得7×104个克隆,其表示12倍于DNA水平的理 论多样性(183=5832)。

b)构建靶标克隆

C1221的24bp回文序列(tcaaaacgtcgtacgacgttttga,SEQ ID NO:1)是近 乎回文的天然I-CreI靶标(tcaaaacgtcgtgagacagtttgg,SEQ ID NO:24)的半位点的 重复。C1221在酵母和哺乳动物细胞中体外和离体都如I-CreI天然靶标 一样被高效切割。按照如下从C1221产生64个回文靶标:从Sigma定 购64对寡核苷酸(ggcatacaagtttcaaaacnnngtacnnngttttgacaatcgtctgtca(SEQ ID NO:25) 及其反向互补序列),退火并以同样的取向克隆至pGEM-T Easy (PROMEGA)中。然后,切出400bp的PvuII片段,并克隆至前述酵 母载体pFL39-ADH-LACURAZ中,该载体也叫pCLS0042,也克隆至 哺乳动物载体pcDNA3.1-LACURAZ-ΔURA中,两种载体均在前有所描 述(Epinat等,2003,前文引用),得到64种酵母报告载体(靶标载体)。

或者,使用Gateway方案(INVITROGEN)将通过PCR扩增单链 寡聚核苷酸产生的双链靶标DNA克隆至酵母和哺乳动物报告载体中。

c)酵母菌株

将大范围核酸酶表达变体文库转化入leu2突变体单倍体酵母菌株 FYC2-6A:alpha、trp1Δ63、leu2Δ1、his3Δ200。对于转化而言,可以 使用源自(Gietz和Woods,Methods Enzymol.,2002,350,87-96)的经典 的化学/热激方案,通常每μg DNA产生106个独立转化子。将单独的转 化子(Leu+)克隆分别挑入96孔微量培养板。使用菌落挑取工具(QpixII, GENETIX)挑出13824个菌落,并培养在144个微量滴定板中。

使用同样的方案将所述64个靶标质粒转化入单倍体酵母菌株 FYBL2-7B:a、ura3Δ851、trp1Δ63、leu2Δ1、lys2Δ202,得到64个测 试菌株。

d)酵母中表达大范围核酸酶克隆的接合和筛选

将表达大范围核酸酶的克隆与64个靶标菌株的每一株进行接合,并 使用图4所示的筛选测定检测二倍体的β-半乳糖苷酶活性。将I-CreI变体 克隆以及酵母报告菌株保存在甘油(20%)中,并复制(replicate)到新 的微量培养板中。使用菌落网格(QpixII,GENETIX)进行接合。将突变 体在覆盖有尼龙滤膜的YPD培养板上划格,其使用高网格密度(大约 20个点/cm2)。在同样的滤膜上进行第二次划格过程,以点样第二层, 其是由64或75个不同的针对每个变体的带有报告基因的酵母菌株组成 的。将膜放在固体琼脂YPD丰富培养基上,并在30℃孵育过夜,使之 发生接合。然后,将滤膜转移至缺乏亮氨酸和色氨酸并以半乳糖(2%) 作为碳源(并含有G418用于共表达实验)的合成培养基,在37℃孵育 5天,以选择携带表达和靶标载体的二倍体。5天后,将滤膜放在固体 琼脂糖培养基上,该培养基带有在0.5M磷酸钠缓冲液(pH 7.0)、 0.1%SDS、6%二甲基甲酰胺(dimethyl formamide,DMF)、7mM β- 巯基乙醇、1%琼脂糖中的0.02%X-Gal,并在37℃孵育,以监测β-半乳 糖苷酶活性。在孵育2天后通过扫描鉴定阳性克隆。使用适当的软件对 所述克隆的β-半乳糖苷酶活性进行定量。

分离出针对至少一个靶标表现出活性的克隆(初次筛选)。然后将 点样密度降低为4个点/cm2,针对64个报告菌株一式四份地检测每个阳性 克隆,从而得到完整的模式(二次筛选)。

e)测序

使用以下来自PROLIGO的引物对,通过对酵母菌落进行PCR,扩 增在酵母中初次和/或二次筛选中所鉴定的阳性克隆的开放读码框(ORF): ggggacaagtttgtacaaaaaagcaggcttcgaaggagatagaaccatggccaataccaaatataacaaagagttcc(SEQ ID NO:26) 和ggggaccactttgtacaagaaagctgggtttagtcggccgccggggaggatttcttcttctcgc(SEQ ID NO:27)。简言之, 挑取酵母菌落并重悬于100μl L Glu液体培养基中,并培养过夜。离心之 后,将酵母沉淀重悬于10μl无菌水中并用于PCR反应(终体积50μl,含 有1.5μl各种特异性的引物(100pmol/μl))。PCR条件为:1个循环的 94℃变性10分钟,35个循环的94℃变性30s、55℃退火1min、72℃延伸 1.5min,以及最终延伸5min。然后对得到的PCR产物进行测序。

f)初步筛选结果的再克隆

使用Gateway方案(Invitrogen),将在初次筛选期间鉴定的阳性 克隆的开放读码框(ORF)再次克隆。如e)所述,通过对酵母菌落的PCR 扩增ORF。然后将PCR产物克隆入:(i)酵母gateway表达载体,其带 有半乳糖诱导型启动子、作为选择标记的LEU2或KanR和2μ复制起点, 以及(ii)来自NOVAGEN的pET 24d(+)载体。通过测序(MILLEGEN) 验证得到的克隆。

B)结果

I-CreI是切割22bp假回文靶标的二聚体归巢核酸内切酶。对与其天 然靶标结合的I-CreI的结构分析已显示,8个残基与7个碱基建立了直接 相互作用(Jurica等,1998,前文引用)。残基Q44、R68、R70接触3至 5位(以及-3至-5位,图2)的3个连续碱基对。使用完全蛋白质文库与 靶标文库方法,局部地改造DNA结合界面的该部分。

在第一文库中,在I-CreI平台中引入D75N突变,从而降低文库中 由碱性残基R68和R70的替换引起的可能的能量限制,这些碱性残基满足 I-CreI结构中深埋的D75作为氢受体的潜能。然后,对44、68和70位进 行随机化。

在第二文库中,I-CreI平台的R70突变为S并且I24突变为V(I-CreI V24、S70),这些突变不影响该蛋白的结构。然后,对44、68、75和77 位进行随机化。

产生64个回文靶标,其是I-CreI所切割的回文靶标的±3、±4和±5 位的替换而得到的(Chevalier等,2003,前文引用),如图13A所述。

使用机器人辅助的接合方案从我们的文库中筛选大量的大范围核酸 酶。通常的筛选策略描述于图4b中。

下文详述具有44、68和70位改变的I-CreI N75突变体文库的结果。 将13,824个表达大范围核酸酶的克隆(约2.3倍于理论多样性)以高密度 (20个点/cm2)点样于尼龙滤膜上,其针对64种靶标菌株的每一种(884,608 个点)进行各个测试。分离出至少针对一个靶标表现出活性的2100个克隆 (图4b),通过PCR扩增编码大范围核酸酶的ORF并测序。鉴定了410 个不同的序列,选择相似数目的相应克隆用于进一步的分析。将点样密度 降低为4个点/cm2,针对64个报告菌株一式四份地检测每个克隆,从而得 到完整的模式(如图5)。350个阳性克隆可被确认。然后,为了避免菌株 包含超过一个克隆的可能性,利用PCR对突变体ORF进行扩增,并再克 隆入酵母载体中。将得到的质粒分别转化回酵母中。获得294个这样的克 隆,并在低密度(4个点/cm2)下进行检测。观察到与初次筛选的差异主 要由弱信号所致,28个弱的切割酶作为阴性克隆。只有一个阳性克隆表现 出不同于初次筛选模式中所观察到的模式。

350个被确认的克隆表现出各异的模式。这些新的模式中某些与野 生型平台蛋白具有一定相似性,而其它许多模式则是完全不同的。图5中 显示了多个实例。归巢核酸内切酶通常可以接受它们靶序列中的一定简并 性,第一个被发现的是初始I-CreI蛋白自身切割酵母中7个不同的靶标。 许多突变体也遵循该规则,所切割的序列数目为1~21,平均为5.0个切割 序列(标准差=3.6)。令人感兴趣的是,在50种突变体(14%)中,特 异性发生改变使得它们仅切割一个靶标。37种(11%)切割两个靶标,61 种(17%)切割3个靶标,以及58种(17%)切割4个靶标。对于5个靶 标以及以上的,百分比低于10%。总的来说,38个靶标被突变体切割(图 6a)。值得注意的是,几乎未观察到±3位置为A的靶标被切割,并且从 未观察到±5、±4、±3位置为TGN(tgn)和CGN(cgn)的靶标被切割。

实施例2:对44、68和/或70位的变体进行的层级聚类定义7个I-CreI变 体家族。

使用R软件包的hclust以及来自初始的低密度筛选得到的定量数 据进行聚类分析。使用Euclidean距离和Ward方法的标准层级聚类分 析法(Ward,J.H.,American Stat.Assoc.,1963,58,236-244)对变体和 靶标均进行聚类分析。重新排序突变体和靶标的聚类图从而优化聚类的 位置,在高度为8处切断突变体聚类图以定义聚类。

B)结果

然后,使用层级聚类分析来确定是否可以在众多且多样的变体切 割模式中定义家族。因为初次和第二次筛得到一致的结果,所以使用来 自第一轮酵母低密度筛选的定量数据进行分析,以满足较大的样品规 模。使用Euclidean距离和Ward方法的标准层级聚类分析法(Ward, J.H.,先前引用过)对变体和靶标均进行聚类分析,并定义了7个聚类 (图6c)。显示了对其中3个的详细分析(图6b),结果总结于表I中。

表I:聚类分析

1根据切割指数的频率,如图6b所述

2显示在每个位置上在该聚类超过1/3的蛋白质中存在的残基

对于每个聚类而言,可以基于信号的频率和强度来鉴定一组优选 的靶标(图6b)。每个聚类的三个优选靶标以及它们的切割频率标于表 I中。这些频率的总和是该聚类之特异性的量度。例如,在聚类1中, 三个优选靶标(gtt/c/g),占所观察切割的78.1%,其中gtt单独占46.2%, 显示出非常窄的特异性。实际上,该聚类包括几种主要切割gtt的蛋白 质,如QAN(图5)。相反地,在聚类2中三个优选靶标仅占所有观察 信号的36.6%。与在该聚类中观察到的相对较广且多样的模式一致, QRR切割5个靶标(图5),而其它聚类成员的活性不限于这5个靶标。

对每个聚类中所存在残基进行分析显示出对44位的强烈偏好:在 聚类1和2中Q以绝对优势存在,而A和N在聚类3和4中更常出现, 在聚类6和7中K更常出现。同时,这些偏好性与±4位DNA的强烈的 碱基偏好有关,在聚类1和2中大多为t:a碱基对,在聚类3、4和5 中为a:t,在聚类6和7中为c:g(参见表I)。与其靶标结合的I-CreI 的结构显示出Q44残基与底部链的-4位(以及顶部链+4位,参见图2) 相互作用。这些结果提示,在我们的突变体中该相互作用在很大程度上 是保守的,并且显示出“密码(code)”,即Q44会与腺嘌呤建立接触, A44(或较少出现的N44)与胸腺嘧啶接触,以及K44与鸟嘌呤接触。 这样的相关性在68位和70位没有观察到。

实施例3:可以将变体组装成功能性异源二聚体以切割新的DNA靶序 列

A)材料和方法

将75个杂合靶序列按照如下进行克隆:设计寡核苷酸使之含有每 个突变体回文序列的两个不同的半位点(PROLIGO)。使用Gateway 方案(INVITROGEN),将利用PCR扩增单链寡核苷酸获得的双链靶 DNA克隆到酵母和哺乳动物报告载体中。将酵母报告载体转化到酿酒 酵母菌株FYBL2-7B(MATα、ura3Δ851、trp1Δ63、leu2Δ1、lys2Δ202) 中。

B)结果

变体是能够切割回文位点的同源二聚体。为了检测可切割靶标列 表是否可以通过产生可切割杂合切割位点(如图7所述)的异源二聚体 而得以扩展,选择具有不同模式的I-CreI变体子集并将其克隆到两个以 LEU2或KAN基因为标记的不同的酵母载体中。然后,将具有44、68 和/或70位突变并且75位为N的突变体的组合与一组回文和非回文的 嵌合DNA靶标共表达在酵母中。图8中出示了一个例子:将K44、T68、 G70、N75(KTG)和Q44、A68、N70、N75(QAN)突变体共表达, 导致两个嵌合靶标gtt/gcc和gtt/cct的切割,所述嵌合靶标不被任一单 独突变体所切割。回文序列gtt、cct和gcc靶标(以及KTG和QAN的 其它靶标)也被切割,这可能是由于同源二聚体的形成所致,但是无关 的靶标不被切割。另外,gtt、cct或gcc半位点不足以发生切割,因为 这些靶标是完全抗性的(参见图8中ggg/gcc、gat/gcc、gcc/tac,以及 许多其它的)。对于KTG和QAN同源二聚体分别仅在gtc/cct和gtt/gtc 中观察到意外的切割,但是信号非常弱。因此,有效的切割需要两个突 变体单体的协同结合。这些结果表明异源二聚体的良好特异性水平。

总之,共在酵母中检测了14个不同蛋白质的共112种组合,37.5% 的组合(42/112)显示出对其预期的嵌合靶标的阳性信号。在图9a中显 示了6个实例的定量数据,对于同样的6种组合,在CHO细胞的瞬时 共转染实验中确认了相关靶标的结果(图9b)。作为一般规则,当异源 二聚体的两个表达蛋白之一给出像同源二聚体那样的强信号时,则总能 得到功能性异源二聚体。例如,两种低活性突变体DRN和RRN,与强 的切割蛋白如KTG或QRR形成功能性异源二聚体(图9a和9b),而 将同样弱的突变体共表达则不能检测到嵌合靶标的切割。

实施例4:对核苷酸±8至±10(10NNN)具有新特异性的功能性核酸内切 酶

根据描述于实施例1中的实验步骤得到变体。

A)材料和方法

a)构建突变体文库

如前所述(Epinat等,N.A.R.,2003,31,2952-2962),合成I-CreI wt(I-CreI D75)、I-CreI D75N(I-CreI N75)和I-CreI S70 N75开放读码 框。组合文库通过替换不同的残基组合来源于I-CreI N75、I-CreI D75 和I-CreI S70 N75平台蛋白,所述残基可能参与与一个DNA靶标半位点 的±8至10位碱基的相互作用(Q26、K28、N30、S32、Y33、Q38和S40)。 通过使用在每处所选位置具有独特简并密码子的简并引物进行PCR来 产生大范围核酸酶文库的多样性。

用aac替换密码子75引入D75N突变。然后,将N30、Y33和Q38 位(Ulib4文库)或者K28、N30和Q38位(Ulib5文库)的3个密码子用 简并密码子VVK(18个密码子,编码12个不同的氨基酸:A、D、E、G、 H、K、N、P、Q、R、S、T)进行替换。结果,这些蛋白质文库的最大 (理论上)多样性为123或1728。然而,对于核酸而言,多样性为183或 5832。

在从BIOMETHODES定购的Lib4中,首先用丝氨酸替换I-CreI N75平台蛋白70位的精氨酸(R70S)。然后,将28、33、38和40位进 行随机化。用10种氨基酸(A、D、E、K、N、Q、R、S、T、Y)之一 替换原有氨基酸(K28、Y33、Q38和S40)。对于蛋白质而言,得到的文 库的理论复杂性为10000。

另外,仅随机改变I-CreI N75或I-CreI D75平台蛋白中两个位置来 构建复杂性为225(152)的小文库,其中使用NVK简并密码子(24个密 码子,氨基酸ACDEGHKNPQRSTWY)。

通过PCR获得携带所期望的突变组合的片段,其中使用一对编码 10、12或15种不同的氨基酸的简并引物,并以I-CreI N75(图10A)、I-CreI D75或I-CreI S70 N75开放读码框(ORF)为模板。例如,图10B举例说 明分别用于产生Ulib4和Ulib5文库的两对引物(Ulib456for和Ulib4rev; Ulib456for和Ulib5rev)。将相应PCR产物克隆回酵母复制型表达载体 pCLS0542(Epinat等,前文引用)中的I-CreI N75、I-CreI D75或I-CreI S70 N75 ORF中,该载体携带LEU2营养缺陷型标记基因。在该基于2μ 的复制型载体中,I-CreI变体受到半乳糖诱导型启动子的控制。

b)构建靶标克隆

使用64对寡聚核苷酸

(ggcatacaagtttcnnnacgtcgtacgacgtnnngacaatcgtctgtca(SEQ ID NO:28)及其反向互 补序列),如实施例1所述构建来源于C1221的64个回文靶标。

c)测序

使用以下引物,利用对酵母菌落的PCR扩增在酵母中初次和/或第 二次筛选期间鉴定的阳性克隆的开放读码框(ORF),: PCR-Gal10-F(gcaactttagtgctgacacatacagg,SEQ ID NO:29)和 PCR-Gal10-R(acaaccttgattgcagacttgacc,SEQ ID NO:30)。

d)结构分析

使用Pymol实现对蛋白质结构的所有分析。I-CreI的结构对应于pdb 登录号1g9y。本文中残基的编号总是参照这些结构,仅在同源二聚体I-CreI 蛋白的第二个结构域中的残基除外,其中残基根据第一结构域进行编号。

B)结果

I-CreI是切割22bp假回文靶标的二聚体归巢核酸内切酶。对与其天 然靶标结合的I-CreI的结构分析已显示,在每个单体中8个残基与7个碱 基建立直接的相互作用(Jurica等,1998,前文引用)。根据这些结构数据, 在±8至10位的核苷酸碱基与I-CreI的氨基酸N30、Y33、Q38建立直接 接触并与I-CreI氨基酸K28和S40建立间接接触(图2)。因此,在30、 33和38位突变的新蛋白质可表现出对于64个靶标的新的切割模式,所述 靶标由I-CreI所切割的回文靶标的±8、±9和±10位发生替换而得到(10NNN 靶标)。另外,突变可以改变参与与DNA碱基直接接触的残基的数目和 位置。更具体地,除了30、33、38位以外,在折叠蛋白质上定位非常邻近 的位置可参与与相同碱基对的相互作用。

使用完全蛋白质文库与靶标文库方法以局部地改造DNA结合界面 的该部分。5个氨基酸位置的随机改变将导致理论多样性为205=3.2×106。 另外,分别随机化2、3或4个残基产生具有较低多样性的文库,得到的多 样性为225(152)、1728(123)或者10,000(104)。这一策略使对这些 文库的每一个的针对64个回文的10NNN DNA靶标的广泛筛选得以实现, 其中使用先前描述的基于酵母的测定(Epinat等,2003,前文引用,以及 国际PCT申请WO 2004/067736),其原理描述于图4中。

首先,将I-CreI平台的D75突变为N。D75N突变不影响该蛋白的 结构,然而降低过表达实验中I-CreI的毒性。

然后,构建Ulib4文库:随机改变残基30、33和38,并用12种氨 基酸(A、D、E、G、H、K、N、P、Q、R、S、T)之一替换原有氨基酸 (N30、Y33和Q38)。对于蛋白质而言,得到的文库的复杂性为1728(对 于核酸而言为5832)。

然后,构建两个其它的文库:Ulib5和Lib4。在Ulib5中,随机改变 残基28、30和38,并用12种氨基酸(ADEGHKNPQRST)之一替换原 有氨基酸(K28、N30和Q38)。对蛋白质而言,得到的文库的复杂性为 1728(对核酸而言为5832)。在Lib4中,首先用丝氨酸替换70位的精氨 酸。然后,随机改变28、33、38和40位,并用10种氨基酸(A、D、E、 K、N、Q、R、S、T、Y)之一替换原有氨基酸(K28、Y33、Q38和S40)。 对蛋白质而言,得到的文库的复杂性为10000。

在初次筛选实验中,将来自Ulib4的20000个克隆、来自Ulib5的 10000个克隆以及来自Lib4的20000个克隆与64个杂交菌株的每一种进 行接合,测试二倍体的β-半乳糖苷酶活性。在第二次筛选中,针对所述64 个靶标一式四份地检测所有表现出对64个靶标之至少一个具有切割活性 的克隆,并建立每个切割模式,如图11所示。然后,利用PCR扩增来自 每个菌株的大范围核酸酶ORF并测序。

在对整个编码区域中对阳性克隆进行第二次筛选和测序之后,分离 出总共1484个针对至少一个靶标表现出切割活性的独特突变体。可以观察 到不同的模式。图12举例说明被141种变体所切割的37个新靶标,包括 不被I-CreI所切割的34个靶标和被I-CreI所切割的3个靶标(aag、aat 和aac)。模式的12个实例,包括I-CreI N75和I-CreI D75,显示于图11A。 这些新的模式中的某些与野生型平台具有一定相似性,而许多其它的模式 则完全不同。归巢核酸内切酶通常可以接受其靶序列中一定的简并性, I-CreI和I-CreI N75蛋白质本身分别切割一系列16个和3个靶标。发现许 多新核酸内切酶具有切割简并性,平均每个突变体具有9.9个切割靶标(标 准差:11)。但是,在鉴定的1484个突变体中,发现219个(15%)仅切 割一个DNA靶标,179个(12%)切割两个靶标,169个(11%)和120 个(8%)分别能切割3个和4个靶标。因此,不管它们的优选靶标,很多 I-CreI衍生物表现出与I-CreI N75突变体(切割3个10NNN靶序列)或 者I-CreI(切割16个10NNN靶序列)相似(或比其更高)的特异性程度。 同时,分离出的针对10NNN序列的特异性改变的大部分突变体不再切割 图2所述的初始C1221靶序列(分别为61%和59%)。

总之,如此大数量的突变体使得在±10、±9和±8位不同的所有64 个可能的DNA序列成为靶标(图11B)。然而,切割每个靶标的突变体数 目有很大不同(图11B),这些数目的范围从3至936,平均为228.5(标 准差:201.5)。经常观察到±8为鸟嘌呤或±9为腺嘌呤的靶标被切割,而±10 或±8为胞嘧啶与切割酶少有关。另外,所有靶标的切割效率不都相同。因 为可对同一靶标观察到信号的显著变化,其取决于突变体(例如,比较图 11B中野生型10AAA靶标的切割效率),如先前报道测量每个靶标的平均 切割效率(Arnould等,J.Mol.Biol.,2006,355,443-458)。这些平均效率 表示为图11B的灰度。对结果的分析表明,该平均效率和切割酶的数目之 间有明显的相关性,最常被切割的靶标也是最有效率的切割(例如,比较 图11B中的10TCN、10CTN和10CCN靶标与10GAN、10AAN和10TAN)。

因此,获得数百种新的变体,包括具有新的底物特异性的突变体; 这些变体可以保持高水平的活性,并且新蛋白质的特异性甚至可以比野 生型蛋白对其靶标的特异性更窄。

实施例5:28、30、33、38和40位的I-CreI变体与其靶标间相互作用的 统计学分析

A)材料和方法

如前所述,层级聚类用于建立特定蛋白质残基和靶标碱基之间的 可能的联系(Arnould等,J.Mol.Biol.,2006,355,443-458)。使用R软件 包的hclust,对第二次筛选的定量数据进行聚类分析。使用Euclidean 距离和Ward’s法的标准层级聚类分析(Ward,J.H.,American Statist. Assoc.,1963,58,236-244)对变体进行聚类分析。在高度为17时切断突 变体聚类图以定义聚类。对于分析而言,将聚类内靶标的累计切割强度 计算为所有聚类的突变体对该靶标的切割强度的总和,对所有聚类的突 变体对所有靶标的切割强度的总和进行归一化。

B)结果

鉴定出10个不同的突变体聚类(表II)。

表II:聚类分析

1靶标和碱基频率对应于累计的切割强度,如材料和方法中所述。

2显示在每个位置上在该聚类超过15%的氨基酸中存在的残基。

对在每个聚类中发现的残基进行的分析显示出对所有随机化位置的 强烈偏好。本研究中使用的所有文库均没有残基发生突变,在I-CreI平台 蛋白中存在的残基预期是过度出现的(overrepresented)。实际上,在所 有10个聚类中,K28、N30和S40是最常出现的残基,然而不能得出DNA/ 蛋白质相互作用的确切结论。然而,Y33仅在聚类7、8和10中是最常出 现的残基,而在另外7个聚类中观察到其它残基的频繁出现,如H、R、 G、T、C、P或S。野生型Q38残基大量出现在除一个聚类之外的所有聚 类中,R和K在聚类4中更常见。

同时,在残基33和38的性质与对靶标±10和±9位底物选择之间观 察到强相关性。

Y33的普遍性与腺嘌呤的高出现率(在聚类7和10中分别为74.9% 和64.3%)有关,并且在聚类4、5和8中也观察到这种相关性(尽管程度 较低)。H33或R33与鸟嘌呤(在聚类1、4和5中分别为63.0%、56.3% 和58.5%)有关,T33、C33或S33与胸腺嘧啶(在聚类3和9中分别为 45.6%和56.3%)有关。G33在聚类2中相对常见,该聚类在±10位具有 最平均的碱基分布。这些结果与Seligman和同事的观察(Nucleic Acids Res.,2002,30,3870-3879)相一致,他们之前显示,Y33R或Y33H突变改 变了I-CreI对鸟嘌呤的特异性以及Y33C、Y33T、Y33S(以及Y33L)改 变了对±10位胸腺嘧啶的特异性。

另外,R38和K38与聚类4中鸟嘌呤的特别高的出现率有关,而在 所有其它的聚类中,野生型Q38残基以及靶标±9位的腺嘌呤是过度出现 的。

与其靶标结合的I-CreI的结构(Chevalier等,2003,前文引用; Jurica等,1998,前文引用)已显示,Y33和Q38接触-10和-9位的两个腺 嘌呤(图2),所述结果提示这些相互作用可能在许多突变体中存在。对 于残基44和±4位,类似的结果已在先前描述过(Arnould等,前文引用)。 然而,比较33/±10、38/±9和44/±4组合得到的结果,显示给定的碱基可以 与不同的氨基酸残基相关联,其取决于位置。对于鸟嘌呤而言,发现的残 基大多数是33位的R和H、38位的R或K以及44位的K。对于腺嘌呤 而言是33位的Y以及38和44位的Q,对于胸腺嘧啶而言是33位的S、 C或T以及44位的A。在所述三种情形中,未观察到关于胞嘧啶的明确 模式。因此,不存在通用的“编码”,而是存在一系列对接触每个碱基的解 决方案,最佳方式取决于更一般的环境,非常类似于所观察到的锌指蛋白 质(Pabo等,前文引用)。

实施例6:两个I-CreI功能性亚结构域在与DNA结合方面可独立作用。

该实施例显示I-CreI靶标可被分为两部分,分别与不同的亚结构域 结合,并独立起作用。在I-CreI DNA靶标中,±5、±4和±3位结合残基44、 68和70(图2)。如实施例1所述获得的几种I-CreI变体(在44、68、 70和75位突变)表现出对C1221(被I-CreI野生型切割的回文靶标 (Chevalier,等,2003))的可检测的活性,但是以各种效率切割其它靶标。 在结合位点的外部,±9和±8位接触残基30、33和38(图2)。图13显 示,两组残基在蛋白的不同部分中。不存在与碱基±8的直接相互作用。如 果±5至±3位和±10至±8位结合两个不同的独立的功能性亚结构域,改造 一个亚结构域不应影响其它结构域的结合特性。

为了确定±5至±3位和±9至±8位是否结合两个不同的独立的功能性 亚结构域,测定±5至±3区域特异性发生了改变的突变体(但仍然结合 C1221)在±10至±8区域的切割性质。

A)材料和方法

a)结构分析

使用Pymol实现所有的蛋白质结构分析。I-CreI的结构对应于pdb 登录号1g9y。本文中的残基编号总是参照这些结构,除了在同源二聚体 I-CreI蛋白的第二个结构域中的残基之外,其残基根据第一个结构域进行 编号。

b)表达I-CreI变体的酵母菌株

如实施例1所述通过突变44、68、70和75位,并筛选能切割C1221 衍生靶标的克隆来得到突变体。将表达突变体的质粒转化至酿酒酵母菌株 FYC2-6A(MATα,trp1Δ63,leu2Δ1,his3Δ200)中。

c)构建靶标克隆

如实施例1所述,使用64对寡聚核苷酸

(ggcatacaagtttcaaaacnnngtacnnngttttgacaatcgtctgtca(SEQ ID NO:31)及其反向互补序列) 构建64个源自C1221的±5至±3位中发生突变的回文靶标。

d)酵母中表达大范围核酸酶克隆的接合以及筛选

如实施例1所述进行接合,使用低网格密度(约4个点/cm2)。

B)结果

通过诱变±10至±8位的碱基,构建源自C1221的对应于所有可能的 回文靶标的64个靶标,如图14B所示。建立I-CreI N75切割模式,显示 对aaa和aat靶标的强信号,以及对aag靶标的较弱信号。

如图14C所示,具有明显不同的±5至±3位切割模式的蛋白质(如 QAR、QNR、TRR、NRR、ERR和DRR)却具有相似的±10至±8位模 式。在±10至±8位的aaa序列对应于C1221靶标,并且必然被所有切割 C1221的变体切割。aat也在大多数突变体中(90%)被切割,而aag常 观察不到切割,这可能因为弱切割酶中的信号低于检测水平。其它靶标均 没有被切割。这些结果表明±5至±3位以及±10至±8位区域结合两个不同 的、在很大程度上是独立的结合单位。

实施例7:两组突变可以分子内组合以获得新的可预测的靶标特异性,如 组合的靶标COMB2所示

A)产生在10NNN和5NNN位同时发生改变的能够切割组合靶标的组合 突变体的一般策略

此实施例的目的是确定是否可能对I-CreI DNA-结合界面中的可分 离功能性亚结构域进行组合,从而切割新的DNA靶标。

鉴定I-CreI编码序列中的不同突变组,其提高了对这两组突变体进 行分子内组合以产生能够切割在10NNN和5NNN位同时发生改变的靶序 列的组合突变体的可能性,所述突变改变了对C1221靶序列的两个不同区 域(10NNN(-10至-8位和+8至+10位:±8至10位或±10至8位;实施 例4)和5NNN(-5至-3位和+3至+5位:±3至5位或±5至3位;实施例 1)的切割特异性(图3a)。

一侧的28、30、33、38和40位,以及另一侧的44、68和70位, 处于同一个DNA结合折叠上,没有结构证据表明它们独立地起作用。然 而,两组突变明显地位于该折叠的两个空间上不同的区域(图13和15), 所述区域位于DNA靶标不同区域附近。另外,一系列突变的累积影响可 最终破坏折叠。为了检验它们是否为两个独立的功能性亚基的一部分,对 来自这两个系列的突变体的突变进行组合,测定所得变体切割所述的组合 靶序列的能力(图3b)。

因此,设计了模型非回文靶序列,其为4个被切割的5NNN和10NNN 靶标的拼接物。该靶标COMB1在±3、±4、±5、±8、±9和±10位不同于 C1221共有序列(图3b)。另外,设计了两个衍生的靶序列,其代表回文 形式中的左半边(COMB2)和右半边(COMB3)(图3b)。为了产生能 够靶向所述回文靶标的适当的I-CreI组合突变体,选择有效切割每个回文 序列的10NNN和5NNN部分的突变体(表III(本实施例)以及表IV(实 施例8)),并通过在酵母中体内克隆将它们的特征性突变并入相同的编 码序列中(图3b)。

全部正文和附图中,针对COMB序列的组合突变体用8字母代码命 名,其根据28、30、33、38、40、44、68和70位残基(例如,NNSRK/AAR 表示I-CreI 28N30N33S38R40K44A68A70R75N)。亲本对照用5字母或3字母代 码命名,其根据28、30、33、38和40位残基(NNSRK表示 I-CreI 28N30N33S38R40K70S75N)或者44、68和70位残基(AAR表示I-CreI 44AQ68A70R75N)。

在这些实施例中描述的所有的靶序列均为22bp或24bp回文序列。 因此,仅通过前11或12个核苷酸和其后的仅用于指明这一点的后缀P对 它们进行描述(例如,被I-CreI蛋白切割的靶标5’ tcaaaacgtcgtacgacgttttga 3’(SEQ ID NO:1)称作tcaaaacgtcgt_P)。

基本上,如实施例1和4所述分别获得I-CreI单体中4个系列的突 变。在第一步中,引入I-CreI平台的D75N突变,从而降低文库中由碱性 残基R68和R70的替换引起的可能的能量限制,所述碱性残基满足了 I-CreI结构中深埋的D75作为氢受体的潜能。

在该实施例中,通过诱变28、30、33位或者28、33、38和40位获 得能够切割COMB2的10NNN部分(tctggacgtcgt_P target(SEQ ID NO:37))的突 变体(表III),通过诱变44、68和70位获得能够切割COMB2的5NNN 部分(tcaaaacgacgt_P(SEQ ID NO:38))的突变体(表III)。

在实施例8中,通过诱变28、30、33位或者28、33、38和40位获 得能切割COMB3的10NNN部分(tcgatacgtcgt_P(SEQ ID NO:44))的突变 体(表IV),通过诱变44、68和70位获得能切割COMB3的5NNN部 分(tcaaaaccctgt_P(SEQ ID NO:45))的突变体(表IV)。

然后,对于每个组合靶标(COMB2或COMB3),将切割10NNN 靶标的突变体的28、30、33、38和40位的突变与切割5NNN靶标的突变 体的44、68和70位的突变进行组合,并且测定所得组合突变体切割适当 靶序列COMB2(tctggacgacgt_P(SEQ ID NO:39);本实施例)或者COMB3 (tcaaaaccctgt_P(SEQ ID NO:45);实施例8)的能力。

B)材料和方法:

a)构建组合突变体

为了产生包含源自不同文库的突变(28、30、33、38、40位和44、 68、70位或者44、68、70、75、77位氨基酸)的I-CreI编码序列,分别 进行扩增I-CreI编码序列的5’端(1-43位氨基酸)或3’端(39-167位)的 重叠PCR反应(图10)。对于5’和3’端,均使用载体(pCLS0542)特异 性的引物(Gal10F 5’-gcaactttagtgctgacacatacagg-3’(SEQ ID NO:40)或 Gal10R 5’-acaaccttgattggagacttgacc-3’(SEQ ID NO:41)),以及I-CreI编码序列 (39-43位氨基酸)特异性的引物(assF 5’-ctaxxxttgaccttt-3’(SEQ ID NO:42)或 assR5’-aaaggtcaaxxxtag-3’(SEQ ID NO:43))进行PCR扩增,其中xxx编码针对40 位残基。所得PCR产物彼此之间包含15bp的同源性,与基于2μ的复制 型载体pCLS0542(带有LEU2基因为标记)和pCLS1107(含有卡那霉素 抗性基因)具有约100-200bp的同源性。因此,为了通过体内同源重组产 生同时包含两组突变的完整的编码序列,使用约25ng两种重叠PCR片段 之每一种以及25ng用NcoI和EagI消化使之线性化的pCLS0542载体DNA 或者25ng用DraIII和NgoMIV消化使之线性化的pCLS1107载体DNA 使用高效LiAc转化方案转化酿酒酵母菌株FYC2-6A(MATα,trp1Δ63, leu2Δ1,his3Δ200)(Gietz和Woods,Methods Enzymol.,2002,350, 87-96)。分别产生组合的突变体。将PCR反应以等摩尔量合并并与线性 化质粒一起转化入酵母。在缺乏亮氨酸的合成培养基上(pCLS0542)或者 含有G418的丰富培养基上(pCLS1107)选择转化子。

b)构建靶标克隆

如实施例1所述克隆靶标。

c)酵母中表达归巢核酸内切酶克隆的接合和筛选

如实施例1所述进行表达归巢核酸内切酶的克隆接合并在酵母中进 行筛选,使用高网格密度(约20个点/cm2)。

C)结果

如实施例1和4中所述鉴定切割tctggacgtcgt_P(SEQ ID NO:37)和 tcaaaacgacgt_P(SEQ ID NO:38)的I-CreI突变体。在30、33、38、40和70位发 生突变的能够切割序列tctggacgtcgt_P(SEQ ID NO:37;表III)的3种变体与在 44、68和70位发生突变的能够切割序列tcaaaacgacgt_P(SEQ ID NO:38;表III) 的31种不同的变体进行组合。两组蛋白质均在70位具有突变。然而,两 个可分离的功能性亚结构域的假说暗示该位置对于±10至±8的特异性几乎 没有影响。因此,在组合蛋白质中,仅使用来自第一组蛋白质的30、33、 38和40位残基,70位残基选自第二组蛋白质。

在酵母中测定得到的93种突变体的切割,包括用组合靶序列 COMB2(tctggacgacgt_P:SEQ ID NO:39)进行LacZ测定。32种组合突变 体能够切割该靶标(表III和图16)。组合靶序列的切割是组合突变体特 异性的,因为每种亲本突变体均不能切割该组合的序列(图16)。另外, 虽然亲本突变体对5NNN和10NNN靶序列表现出有效切割,然而除了一 种以外的所有其它组合突变体未表现出对于这些序列(图16)或者对于原 始C1221序列的显著活性。唯一的例外是NNSRR/ARS,发现其微弱地切 割5GAC靶标(图16)。

这些结果表明,组合28、30、33、38、40和44、68、70位的突变 可产生具有预期特异性的功能性核酸内切酶,约占被测试组合的30%。本 研究鉴定出作为两个可分离DNA结合亚结构域一部分的一侧的28-40位残 基和另一侧的44-70位残基(图15)。

表III:针对COMB2靶标检测组合突变体

通过组装I-CreI N75平台中28、30、33、38、40、44、68和70位的突变得到组合突变 体。切割COMB2的组合突变体标为+。

1切割所选5GAC靶标的I-CreI N75变体中鉴定的突变

2切割所选10TGG靶标的1-CreI S70 N75变体中鉴定的突变

实施例8:两组突变可以分子内组合以获得新的可预测的靶标特异性,如 组合靶标COMB3所示

A)材料和方法:

实验方案如实施例7所述。

B)结果

将28、33、38、40和70位发生突变并能够切割序列 tcgatacgtcgt_P(SEQ ID NO:44,表IV)的7种变体与44、68和70位发生突变并 能够切割序列tcaaaaccctgt_P(SEQ ID NO:45,表IV)的30种不同的变体进行组 合。两组蛋白质在70位均具有突变。然而,两个可分离功能性亚结构域的 假说暗示该位置对于±10至±8位的特异性几乎没有影响。因此,在组合蛋 白质中,仅使用来自第一组蛋白质的30、33、38和40位残基,70位残基 选自第二组蛋白质。

在酵母中测定得到的210种突变体的切割,所述测定包括用组合靶 序列COMB3(tcgataccctgt_P(SEQ ID NO:46))进行LacZ测定。77种组合 突变体能够切割该靶标(表IV)。组合靶序列的切割是组合突变体特异性 的,因为每种亲本突变体均不能切割该组合序列。另外,虽然亲本突变体 对5NNN和10NNN靶序列表现出有效切割,但是所有组合突变体未表现 出对于这些序列或者对于原始的C1221序列的显著活性。

这些结果表明,在28、30、33、38、40位和44、68、70位的组合 突变可产生具有预期特异性的功能性核酸内切酶,约占被测试组合的 30%。本研究鉴定了作为两个可分离DNA结合亚结构域一部分的一侧的 28-40位残基以及另一侧的44-70位残基(图15)。

表IV:针对COMB3靶标检测组合突变体

通过组装I-CreI N75平台中28、30、33、38、40、44、68和70位的突变得到组合突变 体。切割COMB3的组合突变体标为+。

1切割所选5CCT靶标的I-CreI N75变体中鉴定的突变

2切割所选10GAT靶标的I-CreI S70 N75变体中鉴定的突变

3切割所选10GAT靶标的I-CreI N75变体中鉴定的突变

实施例9:两组突变可以分子内组合以获得新的可预测的靶标特异性,如 组合靶标SEQ ID NO:49所示

本实施例的目的是确定是否有可能鉴定并组合I-CreI DNA结合界 面中的可分离功能性亚结构域,从而切割新的DNA靶标。本实施例描述 的所有的靶序列均是24bp回文序列。因此,仅通过前12个核苷酸和其后 仅用于指明这一点的后缀P对它们进行描述(例如,被I-CreI蛋白切割的 靶标5’tcaaaacgtcgtacgacgttttga 3’(SEQ ID NO:1),将被称作tcaaaacgtcgt_P)。

如实施例1和4所述获得I-CreI单体中的两组突变。在第一步中, 在I-CreI平台中引入D75N突变,从而降低文库中由碱性残基R68和R70 的替换引起的可能的能量限制,所述碱性残基满足了I-CreI结构中深埋的 D75作为氢受体的潜能。然后,通过诱变28、30、33位或者28、33、38 和40位获得能够切割tcaacacgtcgt_P(SEQ ID NO:47)靶标的突变体(表V), 并通过诱变44、68和70位获得能切割tcaaaaccctgt_P(SEQ ID NO:48)的突变体 (表V)。

一侧的28、30、33、38和40位和另一侧的44、68和70位位于同 一个DNA结合折叠上,没有结构证据表明它们应该独立地作用。然而, 两组突变明显处于该折叠的两个空间上不同的区域(图15),所述折叠位 于DNA靶标不同区域的周围。为了检测它们是否是两个独立的功能性亚 基的一部分,我们将来自这两组突变体的突变进行组合,检测它们是否可 以切割tcaacaccctgt_P(SEQ ID NO:49)嵌合靶标。

A)材料和方法:

实验步骤描述于实施例7。

B)结果

将28、30、33、38、40和70位具有突变并能够切割序列 tcaacacgtcgt_P(SEQ ID NO:47,表V)的5种变体与44、68和70位具有突变并 能够切割序列tcaaaaccctg_P(SEQ ID NO:48,表V)的34种不同的变体进行组合。 两组蛋白质在70位均具有突变。然而,两个可分离功能性亚结构域的假说 暗示该位置对于±10至±8的特异性几乎没有影响。因此,在组合蛋白质中, 仅使用来自第一组蛋白质的30、33、38和40位残基,70位残基选自第二 组蛋白质。在酵母中测定得到的170种突变体的切割,包括用组合的靶序 列tcaacaccctgt_P(SEQ ID NO:49)进行LacZ测定。37种组合突变体能够切 割所述靶标(图17B),而仅有一个非组合突变体(I-CreI K44、R68、D70、 N75)能够切割组合序列(图17A)。本研究鉴定了一侧的28-40位残基 和另一侧的44-70位残基是两个可分离DNA结合亚结构域的一部分(图 15)。

表V:本研究中使用的变体°

°I-CreI和I-CreI N75作为参照。仅当氨基酸残基不同于I-CreI时给予标明。

实施例10:两组突变可以分子内组合以获得新的可预测的靶标特异性,如 组合靶标SEQ ID NO:52所示

本实施例的目的是确定是否有可能鉴定出I-CreI DNA结合界面中 的可分离功能性亚结构域并对其进行组合,从而切割新的DNA靶标。本 实施例描述的所有的靶序列均是24bp回文序列。因此,仅通过前12个核 苷酸和其后仅用于指明这一点的后缀_P对它们进行描述(例如,被I-CreI 蛋白切割的靶标5’tcaaaacgtcgtacgacgttttga 3’(SEQ ID NO:1)将被称作 tcaaaacgtcgt_P)。

如实施例1和4所述获得I-CreI单体中的两组突变。在第一步中, 在I-CreI平台中引入D75N突变,从而降低文库中由碱性残基R68和R70 的替换引起的可能的能量限制,所述碱性残基满足I-CreI结构中深埋的 D75作为氢受体的潜能。然后,通过诱变28、30、33位或者28、33、38 和40位获得能够切割tcaacacgtcgt_P target(SEQ ID NO:50)靶标的突变体(表VI), 并通过诱变44、68和70位获得能切割tcaaaactttgt_P(SEQ ID NO:51)的突 变体(表VI)。

一侧的28、30、33、38和40位和另一侧的44、68和70位在同一 个DNA结合折叠上,没有结构证据表明它们应该独立地作用。然而,两 组突变明显地在该折叠的两个空间上不同的区域(图15),所述折叠位于 DNA靶标不同区域的周围。为了检测它们是否是两个独立的功能性亚基的 一部分,我们将来自这两组突变体的突变进行组合,检测它们是否可以切 割tcaacactttgt_P嵌合靶标(SEQ ID NO:52)。

A)材料和方法:

实验步骤描述于实施例7。

B)结果

将28、30、33、40和70位具有突变并能够切割序列 tcaacacgtcgt_P(SEQ ID NO:50)的5种变体与44、68和70位具有突变并能够切 割序列tcaaaactttgt_P(SEQ ID NO:51)的29种不同的变体进行组合。两组蛋白 质在70位均具有突变。然而,两个可分离功能性亚结构域的假说暗示该位 置对于±10至±8位的特异性几乎没有影响。因此,在组合蛋白质中,仅使 用来自第一组蛋白质的30、33、38和40位残基,70位残基选自第二组蛋 白质。在酵母中测定得到的145种突变体的切割,包括用组合靶序列 tcaacactttgt_P(SEQ ID NO:52)进行LacZ测定。鉴定出23种活性的组合突变体。 然而,对于它们所有来说,一个亲本的突变体也切割所述靶标。尽管如此, 这表明在两组突变之间存在很大的自由度。能够切割所述靶标的组合突变 体能像非组合突变体那样切割组合序列(图18A和B)。

表VI:本研究中使用的变体°

°I-CreI和I-CreI N75作为参照。仅当氨基酸残基不同于I-CreI时给予标明。

实施例11:同源二聚组合突变体的生物化学和生物物理学分析

A)材料和方法

如先前所报道的(Arnould等,前文引用),表达、纯化新的I-CreI 变体并分析其体外切割。使用0.2cm路径长度的石英杯在Jasco J-810旋 光分光计上进行圆二色性(circular dichroism,CD)测量。以1℃/min的 速率提高温度以诱导平衡态去折叠(equilibrium unfolding)(使用可编程 的Peltier热电设备)。在20μM的蛋白质浓度下,通过用25mM磷酸钾 缓冲液(pH 7.5)透析来制备样品。

B)结果

对切割COMB2或COMB3的4种组合突变体及其相应亲本突变体 进行体外分析,以比较它们的相对切割效率。如图19a-c中可观察到的, 对组合回文靶序列(COMB2或COMB3)的切割是组合突变体特异性的, 因为两个亲本突变体不能切割这些序列。另外,尽管亲本突变体显示出对 5NNN和10NNN靶序列的有效切割,但是4种组合突变体中只有一种 (NNSRK/ARR)表现出对这些靶标的微弱活性,其它则完全无活性。因 此,来自酵母测定的结果在体外得到验证。重要地,突变体之间活性水平 的差异也与酵母中观察到的差异相一致,并且这种一致性进一步由4种另 外的切割COMB3的突变体的体外研究所证实。因此,酵母中观察到的信 号的不同并非由于表达水平差异所致,而是事实上反映了结合和/或切割性 质的差异。

最后,使用远紫外CD(图19d)、1H-NMR和分析型超速离心分析 这组组合突变体的结构和稳定性。所有的突变体均为二聚体,并且它们的 二级和三级结构以及热变性曲线(图19d)与原始的I-CreI N75蛋白相似, 表明所述改造未导致这些蛋白的结构、折叠或稳定性发生显著改变。因此, 经突变的两组残基,一侧的K28、N30、Y33、Q38和S40,另一侧的Q44、 R68和R70,定义了两个相对独立的DNA结合亚结构域。

实施例12:组合突变体的共表达导致嵌合靶位点的切割

A)材料和方法:

实验步骤描述于实施例3。

B)结果

为了确定组合突变体是否可以作为异源二聚体有效地发挥作用,将 能够切割回文位点COMB2和COMB3的一个突变体亚群在酵母中共表 达,并测定其切割嵌合位点COMB1的能力,所述COMB1对应于原始靶 标的两个半位点的融合(图20a)。如图20a中可观察到的,所有被测异 源二聚体的共表达均导致嵌合序列COMB1的切割。该活性似乎是异源二 聚体特异性的,因为每种单独表达的突变体未表现出对嵌合靶位点(图 20a)的可检测活性。通常,与对COMB2和/或COMB3表现出弱活性的 两种突变体的共表达相比,表现出强活性的两种突变体的共表达将导致对 嵌合位点更高水平的活性(例如,比较图20a中的KNHQS/KEG x NNSRK/ARR和 QNRQR/KEG x NNSRK/ASR)。

当在我们的条件下将KNHQS/KAS和NNSRK/ARR纯化蛋白与 COMB1靶标一起孵育时,在体外也检测到COMB1靶标的切割,而仅孵 育一种蛋白质不产生任何可检测的切割活性。然而,切割效率非常低,其 可能由于体外异源二聚体形成缓慢所致。实际上,Silva等可表明,来自 I-DmoI的经改造的衍生物必须在大肠杆菌中共表达以形成活性异源二聚 体(Nucleic Acids Res.,2004,32,3156-3168),还不清楚I-CreI同源二聚 体是否可以容易地交换亚基。实际上,不能排除低水平的切割可由替代途 径所引起,如随后的两个同源二聚体在溶液中的切割,目前我们正在研究 这个课题。

总之,这些结果表明组合法可以产生能够有效切割嵌合靶位点的人 工HE,所述嵌合靶位点在10NNN和5NNN位发生改变。I-CreI衍生物集 合的产生目前允许切割所有64个10NNN靶标和64个5NNN靶标中的62 个(我们的未发表的数据)。它们进行分子内以及分子间组合的能力将可 得到的22-mer的数目提高至至少1.57×107((64×62)2)。

实施例13:重新设计的归巢核酸内切酶切割RAG1基因中的天然靶序列。

A)材料和方法

实验步骤如实施例3和7所述,只是针对RAG靶标的组合突变体 以文库形式产生除外,这与针对COMB靶标(实施例7)的组合突变体单 独产生不同。

B)结果

为了分析组合法对于设计针对天然靶标位点的HE的有效性,分析 人的RAG1基因中与存在于10NNN和5NNN文库中的突变体相匹配的潜 在位点。已表明RAG1与RAG2形成复合物,所述复合物负责起始V(D)J 重组,免疫球蛋白和T淋巴细胞受体成熟过程中的必需步骤(Oettinger等, Science,1990,248,1517-1523;Schatz等,Cell,1989,59,1035-1048)。携带 RAG1突变的患者由于缺乏T和B淋巴细胞表现出严重联合免疫缺陷 (severe combined immune deficiency,SCID)。可以通过移植来自家族内 供体的同种异体造血干细胞来治疗SCID,最近某些类型的SCID已成为 基因治疗试验的对象(Fischer等,Immunol.Rev.,2005,203,98-109)。

对RAG1的基因座的分析显示了存在位于RAG1的编码外显子上游 11bp的潜在的靶标位点,称为RAG1.1(图3c)。与COMB序列不同, RAG1.1位点与C1221位点的不同不仅在10NNN和5NNN位,而且在11N (11t取代了11c)和7NN(7ct取代了7ac)位。I-CreI D75N容许这些变 化,推测组合突变体也容许这些位置的变化。对于5NNN区域来说,使用 的突变体来自先前报道的44、68、70位突变的文库(Arnould等,前文引 用),以及44、68、75和77位突变的另一文库,在70位具有丝氨酸残基。 由于另外的残基被突变,因此组合突变体根据10个残基而非8个残基进行 命名,最后的两个字母对应于75和77位的残基(例如,KNTAK/NYSYN 代表I-CreI 28K30N33T38A40K44N68Y70S75Y77N)。

与分别产生用于COMB靶标的突变体不同,用于RAG靶标的突变 体以文库形式产生。对于RAG1.2靶序列来说,产生推定复杂度为1300 个突变体的文库。筛选2256个克隆得到64个阳性克隆(2.8%),在测序 之后,其对应于49种不同的核酸内切酶。对于RAG1.3来说,筛选了2280 个克隆,并鉴定出88个阳性克隆(3.8%),其对应于59种不同的核酸内 切酶。在两种情形中,组合突变体均不能切割5NNN和10NNN靶序列以 及原始的C1221。与分别产生和测试的COMB突变体不同,RAG突变体 以文库形式产生。然而,在这些文库中没有检测到明显的偏好,这些频率 应该代表了功能性阳性产物的真实频率。与用COMB靶标筛选相比,此 低成功率可能是由在75和77位的另外的突变所致,或者来自这些靶标中 ±6、±7和±11位的另外的变化。

然后,如同对于COMB1的,将一组能够切割回文靶标的突变体在 酵母中共表达以检测RAG1.1靶标的切割。图20b显示,共表达导致天然 靶标的切割。RAG1.1靶标切割是由共表达形成的异源二聚体所致,因为 这些突变体在单独表达时均不能切割RAG1.1(图20b)。这是第一次完 全重新设计归巢核酸内切酶以切割天然存在的序列。这些组合突变体的制 得产生了大量的可能性,因为它是全面改造LAGLIDADG蛋白的DNA结 合界面的关键步骤。

序列表

<110>赛莱克蒂斯公司

法国罗曼维尔

<120>在两个功能性亚结构域中具有突变的LAGLIDADG归巢核酸内切酶变体及其用途

<130>1546PCT7EXT

<160>56

<170>PatentIn version 3.3

<210>1

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>1

tcaaaacgtc gtacgacgtt ttga    24

<210>2

<211>22

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<220>

<221>misc_feature

<222>(2)..(4)

<223>n是a,c,g,或t

<220>

<221>misc_feature

<222>(7)..(9)

<223>n是a,c,g,或t

<220>

<221>misc_feature

<222>(14)..(16)

<223>n是a,c,g,或t

<220>

<221>misc_feature

<222>(19)..(21)

<223>n是a,c,g,或t

<400>2

cnnnmynnnk yrmnnnrknn ng    22

<210>3

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>3

tcaaaacgtt  gtacaacgtt ttga                                       24

<210>4

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>4

tcaaaaccct gtacagggtt ttga                                         24

<210>5

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>5

tcaaaaccct gtacagggtt ttga                                          24

<210>6

<211>501

<212>DNA

<213>人工序列

<220>

<223>I-CreI N75 cDNA

<400>6

atggccaata ccaaatataa caaagagttc ctgctgtacc tggccggctt tgtggacggt    60

gacggtagca tcatcgctca gattaaacca aaccagtctt ataagtttaa acatcagcta    120

agcttgacct ttcaggtgac tcaaaagacc cagcgccgtt ggtttctgga caaactagtg    180

gatgaaattg gcgttggtta cgtacgtgat cgcggatccg tttccaacta catcttaagc    240

gaaatcaagc cgctgcacaa cttcctgact caactgcagc cgtttctgaa actgaaacag    300

aaacaggcaa acctggttct gaaaattatc gaacagctgc cgtctgcaaa agaatccccg    360

gacaaattcc tggaagtttg tacctgggtg gatcagattg cagctctgaa cgattctaag    420

acgcgtaaaa ccacttctga aaccgttcgt gctgtgctgg acagcctgag cgagaagaag    480

aaatcctccc  cggcggccga c                                             501

<210>7

<211>68

<212>DNA

<213>人工序列

<220>

<223>引物

<400>7

ctgaaaggtc aagcttagmb batgtttaaa cttmbbagac tgmbbtggtt taatctgagc    60

gatgatgc                                                             68

<210>8

<211>68

<212>DNA

<213>人工序列

<220>

<223>引物

<400>8

ctgaaaggtc aagcttagmb batgtttaaa cttataagac tgmbbtggmb baatctgagc    60

gatgatgc                                                             68

<210>9

<211>18

<212>DNA

<213>人工序列

<220>

<223>引物

<400>9

ctaagcttga cctttcag                                                  18

<210>10

<211>24

<212>DNA

<213>人工序列

<2Z0>

<223>DNA靶标

<400>10

tcaaaacggg gtaccccgtt ttga                                            24

<210>11

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>11

tcaaaacgga gtactccgtt ttga                                            24

<210>12

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>12

tcaaaacggt gtacaccgtt ttga                                            24

<210>13

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>13

tcaaaacggc gtacgccgtt ttga    24

<210>14

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>14

tcaaaacgag gtacctcgtt ttga    24

<210>15

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>15

tcaaaacgaa  gtacttcgtt ttga    24

<210>16

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>16

tcaaaacgat gtacatcgtt ttga    24

<210>17

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>17

tcgggacgtc gtacgacgtc ccga    24

<210>18

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>18

tcggaacgtc gtacgacgtt ccga    24

<210>19

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>19

tcggtacgtc gtacgacgta  ccga    24

<210>20

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>20

tcggcacgtc gtacgacgtg ccga    24

<210>21

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>21

tcgagacgtc gtacgacgtc tcga    24

<210>22

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>22

tcgaaacgtc gtacgacgtt tcga    24

<210>23

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>23

tcgatacgtc gtacgacgta tcga    24

<210>24

<211>24

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>24

tcaaaacgtc gtgagacagt ttgg                                      24

<210>25

<211>49

<212>DNA

<213>人工序列

<220>

<223>寡核苷酸

<220>

<221>misc_feature

<222>(20)..(22)

<223>n是a,c,g,或t

<220>

<221>misc_feature

<222>(27)..(29)

<223>n是a,c,g,或t

<400>25

ggcatacaag tttcaaaacn nngtacnnng ttttgacaat cgtctgtca               49

<210>26

<211>77

<212>DNA

<213>人工序列

<220>

<223>引物

<400>26

ggggacaagt ttgtacaaaa aagcaggctt cgaaggagat agaaccatgg ccaataccaa     60

atataacaaa gagttcc                                                    77

<210>27

<211>64

<212>DNA

<213>人工序列

<220>

<223>引物

<400>27

ggggaccact ttgtacaaga aagctgggtt tagtcggccg ccggggagga tttcttcttc    60

tcgc                                                                 64

<210>28

<211>49

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<220>

<221>misc_feature

<222>(15)..(17)

<223>n是a,c,g,或t

<220>

<221>misc_feature

<222>(32)..(34)

<223>n是a,c,g,或t

<400>28

ggcatacaag tttcnnnacg tcgtacgacg tnnngacaat cgtctgtca    49

<210>29

<211>26

<212>DNA

<213>人工序列

<220>

<223>引物

<400>29

gcaactttag tgctgacaca tacagg                              26

<210>30

<211>24

<212>DNA

<213>人工序列

<220>

<223>引物

<400>30

acaaccttga ttgcagactt gacc                                24

<210>31

<211>49

<212>DNA

<213>人工序列

<220>

<223>寡核苷酸

<220>

<221>misc_feature

<222>(20)..(22)

<223>n是a,c,g,或t

<220>

<221>misc_feature

<222>(27)..(29)

<223>n是a,c,g,或t

<400>31

ggcatacaag tttcaaaacn nngtacnnng ttttgacaat cgtctgtca      49

<210>32

<400>32

000

<210>33

<400>33

000

<210>34

<400>34

000

<210>35

<400>35

000

<210>36

<400>36

000

<210>37

<211>12

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>37

tctggacgtc gt                12

<210>38

<211>12

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>38

tcaaaacgac gt                12

<210>39

<211>12

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>39

tctggacgac gt                 12

<210>40

<211>26

<212>DNA

<213>人工序列

<220>

<223>引物

<400>40

gcaactttag tgctgacaca tacagg    26

<210>41

<211>24

<212>DNA

<213>人工序列

<220>

<223>引物

<400>41

acaaccttga ttggagactt gacc       24

<210>42

<211>15

<212>DNA

<213>人工序列

<220>

<223>引物

<220>

<221>misc_feature

<222>(4)..(6)

<223>n是a,c,g,或t

<400>42

ctannnttga ccttt    15

<210>43

<211>15

<212>DNA

<213>人工序列

<220>

<223>引物

<220>

<221>misc_feature

<222>(10)..(12)

<223>n是a,c,g,或t

<400>43

aaaggtcaan nntag     15

<210>44

<211>12

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>44

tcgatacgtc gt         12

<210>45

<211>12

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>45

tcaaaaccct gt         12

<210>46

<211>12

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>46

tcgataccct gt    12

<210>47

<211>12

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>47

tcaacacgtc gt    12

<210>48

<211>12

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>48

tcaaaaccct gt    12

<210>49

<211>12

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>49

tcaacaccct gt    12

<210>50

<211>12

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>50

tcaacacgtc gt    12

<210>51

<211>12

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>51

tcaaaacttt gt    12

<210>52

<211>12

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>52

tcaacacttt gt           12

<210>53

<211>22

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>53

ctggacgacg tacagggtat cg   22

<210>54

<211>22

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>54

tgttctcagg tacctcagcc ag    22

<210>55

<211>22

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>55

tgttctcagg tacctgagaa ca    22

<210>56

<211>22

<212>DNA

<213>人工序列

<220>

<223>DNA靶标

<400>56

ctggctgaggtacctcagcc ag     22

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号