首页> 中国专利> 使用可编程碱基编辑器系統遏止病原性突变的方法

使用可编程碱基编辑器系統遏止病原性突变的方法

摘要

本文提供包含多核苷酸可编程核苷酸结合域及核苷碱基编辑域连同导引多核苷酸的碱基编辑器的组合物,及使用碱基编辑器的方法。本文也提供用于编辑标靶核苷酸序列的核苷碱基的碱基编辑器系統。

著录项

  • 公开/公告号CN112601816A

    专利类型发明专利

  • 公开/公告日2021-04-02

    原文格式PDF

  • 申请/专利权人 比姆医疗股份有限公司;

    申请/专利号CN201980046522.6

  • 发明设计人 J·埃文斯;Y·付;M·帕克;

    申请日2019-05-11

  • 分类号C12N9/22(20060101);C12N15/10(20060101);C12N15/113(20060101);C07K19/00(20060101);

  • 代理机构11314 北京戈程知识产权代理有限公司;

  • 代理人程伟

  • 地址 美国马萨诸塞州

  • 入库时间 2023-06-19 10:27:30

说明书

相关申请

本申请主张申请日为2018年5月11日的美国临时申请U.S.Serial No.62/670,498及申请日为2018年12月17日的U.S.Serial No.62/780,864的权益,如上申请各自的揭示全文是以引用方式纳入本说明书的揭示。

背景技术

对最为人知的遗传疾病而言,需要校正标靶基因座的点突变,而非随机破坏基因,以研究或解决疾病的潜在起因。目前运用成簇规律间隔的短回文重复序列(CRISPR)系統的基因体编辑技术在标靶基因座导入双股DNA断裂,作为基因校正的第一步骤。回应于双股DNA断裂,细胞DNA修复过程大半通过非同源端接合,导致在DNA分裂的位点的随机插入或缺失(indel)。虽然大部分遗传病起源于点突变,但目前点突变的校正办法无效,典型地诱使因对dsDNA断裂的细胞反应所致的在标靶位点富含随机插入或缺失(indel)。因此,需要有改良型基因体编辑,其是更有效且具有远更少的非期望的产物,诸如随机插入或缺失(indel)或转位。

α-1抗胰蛋白酶缺乏症(A1AD)乃遗传病,于其中编码α-1抗胰蛋白酶(A1AT)蛋白质的SERPINA1基因中的病原性突变,导致患有该病的个体的蛋白质产量减少。A1AT为嗜中性细胞弹性蛋白酶的特佳抑制剂,且保护组织及器官诸如肺脏免于弹性蛋白酶降解。结果,患有A1AD的病人肺中的弹性蛋白较易被嗜中性细胞弹性蛋白酶降解,及随时间的推移,肺弹性的丧失发展成慢性阻塞性肺疾(COPD)。于健康个体中,A1AT是由肝脏内的肝细胞制造,及分泌入系統性循环,于其中该蛋白质作为蛋白酶抑制剂。

最常见的病原性A1AT变异体为SERPINA1基因的鸟嘌呤至腺嘌呤(G→A)突变,其导致在A1AT蛋白质的氨基酸位置342的麸氨酸至赖氨酸取代。此取代造成蛋白质的错误折迭,及在肝细胞内部聚合,及最终,毒性聚积体导致肝损伤与肝硬化。虽然肝毒性可能藉基因剔除(CRISPR/ZFN/TALEN)或基因敲落(siRNA)加以解决,但此等办法皆未能解决肺病理。虽然肺病理可以蛋白质补充疗法解决,但此疗法未能解决肝毒性。基因疗法也不足以解决A1AT遗传缺陷。因患有A1AD的病人肝脏已处在因内生性A1AT聚积所造成的重度疾病负荷的下,增加肝脏A1AT的基因疗法将产生反效果。因此,需要有患A1AD病人的治疗方法,其解决伴随该病的肺病理与肝毒性两者。

以引用方式纳入

此说明书中述及的全部公开文献、专利案、及专利申请皆是全文以引用方式纳入本说明书的揭示,彷佛各个公开文献、专利案、及专利申请是特定地且个别地指出为融入本说明书的揭示。若无任何另行指示,则此说明书中述及的全部公开文献、专利、及专利申请皆是全文爰以引用方式纳入本说明书的揭示。

发明内容

发明概要

本文提供一种于一个体治疗遗传病症的方法,于其中该方法包含对有需要的个体投予碱基编辑器、或编码该碱基编辑器的多核苷酸,其中该碱基编辑器包含多核苷酸可编程DNA结合域及胞苷脱氨酶域;对该个体投予导引多核苷酸,其中该导引多核苷酸将该碱基编辑器靶定到该个体的标靶核苷酸序列;及当该碱基编辑器靶定到该标靶核苷酸序列时,通过将该标靶核苷酸序列的核苷碱基脱氨而编辑该核苷碱基,因而通过改变该核苷碱基成另一个核苷碱基来治疗该遗传病症;其中该核苷碱基是在该多核苷酸的蛋白质写码区;及其中该核苷碱基并非该遗传病症的起因(亦即,该核苷碱基并未写码造成该遗传病的突变)。

本揭示也提供一种制造用于一个体治疗遗传病症的细胞、组织、或器官的方法,于其中该方法包含让该细胞、组织、或器官与碱基编辑器、或编码该碱基编辑器的多核苷酸接触,其中该碱基编辑器包含多核苷酸可编程DNA结合域及脱氨酶域;让该细胞、组织、或器官与导引多核苷酸接触,其中该导引多核苷酸将该碱基编辑器靶定到该细胞、组织、或器官的标靶核苷酸序列;及当该碱基编辑器靶定到该标靶核苷酸序列时,通过将该标靶核苷酸序列的核苷碱基脱氨而编辑该核苷碱基,因而制造用于通过改变该核苷碱基成另一个核苷碱基来治疗该遗传病症的该细胞、组织、或器官;其中该核苷碱基是在该多核苷酸的蛋白质写码区;及其中该核苷碱基并非该遗传病症的起因。于若干实施方案中,该方法进一步包含将该细胞、组织、或器官投予该个体。于若干实施方案中,该细胞、组织、或器官对该个体为自体的。于若干实施方案中,该细胞、组织、或器官对该个体为同种异体的。于若干实施方案中,该细胞、组织、或器官对该个体为异种的。

于若干实施方案中,该核苷碱基改变成另一个核苷碱基的结果导致由该多核苷酸所编码的蛋白质的活性增加。于若干实施方案中,该核苷碱基改变成另一个核苷碱基的结果导致由该多核苷酸所编码的蛋白质的折迭改良及/或稳定性增加。于若干实施方案中,该核苷碱基改变成另一个核苷碱基的结果导致由该多核苷酸所编码的蛋白质的表达增加。于若干实施方案中,该蛋白质的表达增加是因蛋白质的翻译速率改良。于若干实施方案中,该蛋白质的表达增加是因自含有该蛋白质的胞器或细胞区室的释放速率增加。于若干实施方案中,该蛋白质的表达增加是因该蛋白质的信号肽的处理速率改良。于若干实施方案中,该蛋白质的表达增加是因该蛋白质与另一蛋白质的交互作用变更。

于若干实施方案中,该核苷碱基是位在该遗传病症起因的基因。于若干实施方案中,该编辑包含编辑位在该基因的复数个核苷碱基,其中该复数个核苷碱基并非该遗传病症的起因。于若干实施方案中,该编辑进一步包含编辑位在至少另一个基因的一个或多个额外核苷碱基。于若干实施方案中,该基因及该至少另一个基因编码该蛋白质的一个或多个亚单位。于若干实施方案中,该核苷碱基是在表3A或表3B所列举的基因中,及其中该编辑结果导致由表3A或表3B中指出的基因所编码的蛋白质中的氨基酸改变。

于若干实施方案中,该遗传病症为色素性视网膜炎、尤塞氏症候群、镰状细胞症、β-地中海型贫血、α-1抗胰蛋白酶缺乏症(A1AD)、肝性吡咯紫质沈着症、中链酰基-CoA脱氢酶(MCAD)缺乏症、溶小体酸性脂肪酶(LAL)缺乏症、苯酮尿症、血色素沈着病、冯基尔克氏症候群、庞贝氏症候群、高雪氏症候群、贺勒氏症候群、囊性纤维化、或慢性疼痛。于若干实施方案中,该遗传病症为α-1抗胰蛋白酶缺乏症(A1AD)。于若干实施方案中,该编辑结果导致选自于由F51L、M374I、A348V、A347V、K387R、T59A、及T68A所组成的组群中的α-1抗胰蛋白酶(A1AT)蛋白质中的氨基酸改变。于若干实施方案中,该编辑结果导致A1AT蛋白质中的M374I氨基酸改变。

于若干实施方案中,该遗传病症为镰状细胞症。于若干实施方案中,该编辑结果导致氨基酸改变,其减低HbA/HbS四聚体的聚合潜力。于若干实施方案中,该核苷碱基是位在编码血色素的β亚单位(HbB)的HBB基因。于若干实施方案中,该HBB基因为镰状血色素等位基因(HbS)。于若干实施方案中,该编辑结果导致血色素的β亚单位中的氨基酸改变。于若干实施方案中,该血色素的β亚单位中的氨基酸改变包含A70T、A70V、L88P、F85L、F85P、E22G、G16D、G16N、或其任何组合。于若干实施方案中,该核苷碱基是位在编码血色素的α亚单位(HbA)的HBA1或HBA2基因。于若干实施方案中,该编辑结果导致血色素的α亚单位中的氨基酸改变。于若干实施方案中,该α亚单位的氨基酸改变是位在镰状血色素的α亚单位与β亚单位的聚合交界面。于若干实施方案中,该血色素的α亚单位中的氨基酸改变包含K11E、D47G、Q54R、N68D、E116K、H20Y、H50Y、或其任何组合。

于一态样中,提供使用可编程核苷碱基编辑器遏止病原性突变的组合物及方法。本发明提供一种使用碱基编辑器(例如,BE4)以诱导内生性SERPINA1基因的变更来治疗A1AD的方法。已变更的SERPINA1基因编码M374I突变,其稳定化α-1抗胰蛋白酶蛋白质中的E342K。使用BE4导入M374I可同时改进肝毒性且增加A1AT循环到肺,通过此补偿有害的M374I突变的存在。此策略同时减少肝脏的病原性蛋白质负荷,且恢复功能性蛋白质给肺。

于另一态样中,本发明提供一种编辑包含与α-1抗胰蛋白酶缺乏症(A1AD)相关联的单核苷酸多形性(SNP)的SERPINA1多核苷酸的方法,该方法涉及让SERPINA1多核苷酸接触与一个或多个导引多核苷酸复合的碱基编辑器,于其中该碱基编辑器包含多核苷酸可编程DNA结合域及胞苷脱氨酶域,及于其中该一个或多个导引多核苷酸靶定该碱基编辑器以达成与A1AD相关联的单核苷酸多形性(SNP)的变化。于一个实施方案中,该接触是在细胞、真核细胞、哺乳类细胞、或人类细胞中。于另一个实施方案中,该细胞是在活体内或在活体外。

于另一态样中,本发明提供一种通过将碱基编辑器、或编码该碱基编辑器的多核苷酸导引入细胞内部所制造的细胞,或其祖细胞,于其中该碱基编辑器包含多核苷酸可编程DNA结合域及胞苷脱氨酶域;及靶定该碱基编辑器的一个或多个导引多核苷酸以将在该SERPINA1多核苷酸的核酸位置1455的胞苷脱氨。于一个实施方案中,该所制造的细胞为肝细胞。于另一个实施方案中,该细胞或其祖细胞为胚始细胞、诱导性多功能干细胞或肝细胞。于另一个实施方案中,该肝细胞表达A1AT多肽。于另一个实施方案中,该细胞是来自患有A1AD的个体。于另一个实施方案中,该细胞为哺乳类细胞或人类细胞。

于另一态样中,本发明提供一种于个体治疗A1AD的方法,其包含对该个体投予任何先前态样的细胞。于一个实施方案中,该细胞对该个体为自体的。于另一个实施方案中,该细胞对该个体为同种异体的。

于另一态样中,本发明提供一种从任何先前态样的细胞增殖或扩增的经分离的细胞或细胞族群。

于另一态样中,本发明提供一种于一个体治疗A1AD的方法,其中该方法包含对该个体投予:

碱基编辑器、或编码该碱基编辑器的多核苷酸,于其中该碱基编辑器含有多核苷酸可编程DNA结合域及胞苷脱氨酶域;及

靶定该碱基编辑器的一个或多个导引多核苷酸,以达成在该SERPINA1多核苷酸的核酸位置1455的胞苷的变更。

于前文阐明态样的一实施方案中,该个体为哺乳类或人类。于另一个实施方案中,该方法涉及将该碱基编辑器、或编码该碱基编辑器的多核苷酸,及该一个或多个导引多核苷酸递送到该个体的细胞。于另一个实施方案中,该细胞为肝细胞。于另一个实施方案中,该细胞为肝细胞的祖细胞。于另一个实施方案中,该肝细胞表达A1AT蛋白质。

于另一态样中,一种制造肝细胞或其祖细胞的方法,其包含:

在含有与A1AD相关联的SNP的肝细胞祖细胞中导入碱基编辑器、或编码该碱基编辑器的多核苷酸,其中该碱基编辑器包含多核苷酸可编程DNA结合域及胞苷脱氨酶域;及一个或多个导引多核苷酸,其中该一个或多个导引多核苷酸靶定该碱基编辑器,以将在该SERPINA1多核苷酸的核酸位置1455的胞苷脱氨,及

(b)将该肝细胞祖细胞分化成肝细胞。于一个实施方案中,该方法涉及将肝细胞祖细胞分化成肝细胞。于另一个实施方案中,该肝细胞祖细胞表达A1AT多肽。于另一个实施方案中,该肝细胞祖细胞是得自患有A1AD的个体。于另一个实施方案中,该肝细胞祖细胞为哺乳类细胞或人类细胞。

于另一态样中,本发明提供一种导引RNA,其含有选自于以下各项中的核酸序列:

5’-CAAUCAUUAAGAAGACAAAGGGUUU-3’

5’-UCAAUCAUUAAGAAGACAAAGGGUUU-3’

5’-UUCAAUCAUUAAGAAGACAAAGGGUUU-3’

5’-GUUCAAUCAUUAAGAAGACAAAGGGUUU-3’

5’-UGUUCAAUCAUUAAGAAGACAAAGGGUUU-3’

5’-UUGUUCAAUCAUUAAGAAGACAAAGGGUU-3’

5’-UUCAAUCAUUAAGAAGACAAAG-3’

5’-UUCAAUCAUUAAGAAGACAAAGG-3’

5’-UCAAUCAUUAAGAAGACAAAGGG-3’

5’-AAUCAUUAAGAAGACAAAGGGU-3’。

于另一态样中,本发明提供一种导引RNA,其含有本揭示中阐明的或以其它方式描述的态样的导引RNA的18、19、20、21、或22核苷酸。

于另一态样中,本发明提供一种蛋白质核酸复合物,其含有本揭示阐明的态样的碱基编辑器及如本文描述的导引RNA。

于本揭示阐明的发明的任何如上态样或任何其它态样中,该碱基编辑器将在位置1455的SERPINA1多核苷酸胞苷予以脱氨,因而诱使在A1AT蛋白质的氨基酸位置374的蛋氨酸至异白氨酸突变。于本揭示阐明的发明的任何如上态样或任何其它态样中,该A1AT多肽含有在氨基酸位置342的赖氨酸及/或含有在氨基酸位置376的赖氨酸。于本揭示阐明的发明的任何如上态样或任何其它态样中,该多核苷酸可编程DNA结合域为化脓性链球菌(Streptococcus pyogenes)Cas9(SpCas9)或其变异体。于本揭示阐明的发明的任何如上态样或任何其它态样中,该SpCas9具有针对选自于5’-NGG-3’或5’-GGG-3’的PAM序列的特异性。

于本揭示阐明的发明的任何如上态样或任何其它态样中,该多核苷酸可编程DNA结合域为核酸酶失活性或切口酶变异体。于本揭示阐明的发明的任何如上态样或任何其它态样中,该切口酶变异体包含氨基酸取代D10A或其相对应的氨基酸取代。于本揭示阐明的发明的任何如上态样或任何其它态样中,该胞苷脱氨酶域能将去氧核糖核酸(DNA)中的胞苷脱氨。于本揭示阐明的发明的任何如上态样或任何其它态样中,该胞苷脱氨酶域为自然界中不会出现的修饰的胞苷脱氨酶域。于本揭示阐明的发明的任何如上态样或任何其它态样中,该胞苷脱氨酶域为APOBEC脱氨酶域。于本揭示阐明的发明的任何如上态样或任何其它态样中,该碱基编辑器为BE4。于本揭示阐明的发明的任何如上态样或任何其它态样中,该一个或多个导引多核苷酸含有CRISPR RNA(crRNA)及反式小分子RNA(tracrRNA),于其中该crRNA包含与SERPINA1核酸序列互补的核酸序列,该SERPINA1核酸序列其包含与A1AD相关联的SNP。于本揭示阐明的发明的任何如上态样或任何其它态样中,该碱基编辑器是与单导引RNA(sgRNA)复合,该sgRNA包含与编码蛋氨酸374的SERPINA1核酸序列互补的核酸序列。

于若干实施方案中,本文提供的任何方法进一步包含额外核苷碱基的第二编辑。于某些情况下,该额外核苷碱基并非该遗传病症的起因。于某些情况下,该额外核苷碱基是该遗传病症的起因。

于若干实施方案中,该脱氨酶域为胞苷脱氨酶域或腺苷脱氨酶域。于若干实施方案中,该脱氨酶域为胞苷脱氨酶域。于若干实施方案中,该脱氨酶域为腺苷脱氨酶域。于若干实施方案中,该腺苷脱氨酶域能将去氧核糖核酸(DNA)中的腺嘌呤脱氨。于若干实施方案中,该导引多核苷酸包含核糖核酸(RNA)或去氧核糖核酸(DNA)。于若干实施方案中,该导引多核苷酸包含CRISPR RNA(crRNA)序列、反式活化RNA(tracrRNA)序列、或其组合。

于若干实施方案中,本文提供的任何方法进一步包含第二导引多核苷酸。于若干实施方案中,该第二导引多核苷酸包含核糖核酸(RNA)或去氧核糖核酸(DNA)。于若干实施方案中,该第二导引多核苷酸包含CRISPR RNA(crRNA)序列、反式活化RNA(tracrRNA)序列、或其组合。于若干实施方案中,该第二导引多核苷酸将该碱基编辑器靶定到第二标靶核苷酸序列。于若干实施方案中,该多核苷酸可编程DNA结合域包含Cas9结构域、Cpf1结构域、CasX结构域、CasY结构域、Cas12b/C2c1结构域、或Cas12c/C2c3结构域。于若干实施方案中,该多核苷酸可编程DNA结合域为核酸酶死亡。于若干实施方案中,该多核苷酸可编程DNA结合域为切口酶。于若干实施方案中,该多核苷酸可编程DNA结合域包含Cas9结构域。于若干实施方案中,该Cas9结构域包含核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)、或核酸酶活性Cas9。于若干实施方案中,该Cas9结构域包含Cas9切口酶。于若干实施方案中,该多核苷酸可编程DNA结合域为经工程改造的或修饰的多核苷酸可编程DNA结合域。

于若干实施方案中,本文提供的任何方法进一步包含第二碱基编辑器。于若干实施方案中,该第二碱基编辑器包含与该碱基编辑器不同的脱氨酶域。

于若干实施方案中,该编辑结果导致少于20%的插入或缺失(indel)形成。于若干实施方案中,该编辑结果导致少于15%的插入或缺失形成。于若干实施方案中,该编辑结果导致少于10%的插入或缺失形成。于若干实施方案中,该编辑结果导致少于5%的插入或缺失形成。于若干实施方案中,该编辑结果导致少于4%的插入或缺失形成。于若干实施方案中,该编辑结果导致少于3%的插入或缺失形成。于若干实施方案中,该编辑结果导致少于2%的插入或缺失形成。于若干实施方案中,该编辑结果导致少于1%的插入或缺失形成。于若干实施方案中,该编辑结果导致少于0.5%的插入或缺失形成。于若干实施方案中,该编辑结果导致少于0.1%的插入或缺失形成。于若干实施方案中,该编辑不会导致转位。

附图说明

本揭示的特征是以特定细节陈述于随附的申请专利范围。通过参考如下详细说明部分将对本揭示的特征及优点获得更多了解,详细说明部分中陈述具体实施例,于其中运用本揭示的原理,及阐明附图:

图1为示意图,其比较健康个体与患有抗胰蛋白酶缺乏症(A1AD)的病人。于健康个体,α-1抗胰蛋白酶(A1AT)保护肺免于蛋白酶伤害,肝释放α-1抗胰蛋白酶入血中。于患有A1AD的病人,正常功能A1AT蛋白质缺乏,导致肺组织损伤。此外,异常A1AT累积在肝细胞,导致肝硬化。

图2为图解,其显示针对不同基因型(正常(MM)、α-1抗胰蛋白酶缺乏症的杂合子载体(MZ、SZ)、及纯合子缺乏症(SS、ZZ))的血清α-1抗胰蛋白酶(A1AT)含量的典型范围。血清α-1抗胰蛋白酶(AAT)浓度以μM表示于左Y轴,其乃常见于参考文献。右Y轴显示血清AAT浓度的近似换算成mg/dL单位,如临床实验室及不同测量技术(浊度测定法或放射状免疫扩散)所常见报告。

图3描绘用于将阻遏子突变M374I导入SERPINA1的标靶位点序列。强调的部分为典范spCas9 NGG PAM,以及标靶C,针对其编辑将导致期望的密码子改变M374I。也标示者为非标靶C,其若被编辑将导致非期望的密码子改变E376K。

图4为柱状图,其显示以编码A1AT蛋白质不同变异体的质体暂时性转染的HEK293T的培养上清液中所分泌的蛋白质含量。A1AT浓度是通过ELISA测定,如公开于Borel,Florie&Mueller,Christian.(2017).α-1抗胰蛋白酶缺乏症:方法与作业程序。(Alpha-1Antitrypsin Deficiency:Methods and Protocols.)10.1007/978-1-4939-7163-3,其内容全文是全文以引用方式纳入本说明书的揭示。A1AT的两种最常见的变异体(例如,病原性突变)为E264V(PiS等位基因)及E342K(PiZ等位基因)。PiS及PiZ蛋白质产量的丰富程度比野生型蛋白质低。添加M374I阻遏子突变(图4中定名为「补偿突变」)显然提升所分泌的PiS及PiZ A1AT蛋白质含量。因此吾等作假说:使用如本文描述的碱基编辑器及碱基编辑方法导入M374I突变,能增加自肝细胞分泌A1AT,且能同时减少肝毒性,与增加A1AT循环到肺。A1AT:α-1抗胰蛋白酶;A1AD:α-1抗胰蛋白酶缺乏症;「Z突变」为E342K(PiZ等位基因)突变;「S突变」为E264V(PiS等位基因)突变。

图5为柱状图,其显示HEK293T中的M374I突变的碱基编辑效率。使用bpNLS是优于SV40核定位信号。比较起始的密码子使用,当递送为质体及为mRNA+gRNA两者时,密码子优化2获得较高编辑效率。

图6为示意图,其显示始于TadA,DNA去氧腺苷脱氨酶的演化策略。大肠杆菌(E.coli)存库包含突变体ecTadA(TadA*)基因融合到dCas9的质体存库,及要求靶定A·T至G·C突变的质体,以修复抗生素抗药性基因。来自幸存TadA*变异体的突变进入人的ABE碱基编辑架构。

图7呈现曲线图,其演示预测已经碱基编辑的A1AT变异体的功能性弹性蛋白酶活性。曲线图中显示具有E342K(PiZ)突变的A1AT变异体;具有E342K(PiZ)突变的A1AT变异体;具有E342K突变及补偿M374I突变的A1AT变异体;具有E342K(PiZ)突变的A1AT变异体;具有E264V(PiS)突变的A1AT变异体;具有E264V突变及补偿M374I突变的A1AT变异体,相较于野生型(WT)A1AT的弹性蛋白酶活性的蛋白酶活性百分比。

图8A至8C提供三幅图,其显示于HEK293细胞(图8A)及诱导性多功能干细胞(iPSC)(图8B)观察得的碱基编辑百分比,其各自皆以碱基编辑器BE4转染。图8C显示当野生型初级肝细胞被转染时达成的编辑百分比。

图9显示于BE4经编辑IPSC衍生肝细胞中达成的碱基编辑百分比及A1AT分泌。

具体实施方式

[较佳实施例的详细说明]

后文描述及实施例以细节例示说明本揭示的实施方案。须了解此揭示非仅限于本文描述的特定实施方案,因而可加以改变。熟谙技艺人士将了解本揭示有无数变化及修改,其是涵盖于本发明的范围。

须了解全部术语预期如业界熟谙技艺人士所了解。除非另行界定,否则文中使用的全部技术术语及科学术语皆具有与本揭示相关业界熟谙技艺人士一般了解的相同定义。

除非另行指示,否则文中揭示的若干实施方案采用落入于业界的技巧范围内的免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因体学、及重组DNA的习知技术。例如,参考Sambrook and Green,分子克隆化(Molecular Cloning):A LaboratoryManual,4th Edition(2012);分子生物学现行规范系列(the series Current Protocolsin Molecular Biology)(F.M.Ausubel,et al.eds.);酶学方法系列(the series MethodsIn Enzymology)(Academic Press,Inc.),PCR2:实用办法(PCR 2:A Practical Approach)(M.J.MacPherson,B.D.Hames and G.R.Taylor eds.(1995));Harlow and Lane,eds.(1988)抗体,实验室手册(Antibodies,A Laboratory Manual);及动物细胞培养:基础技术与特化应用手册(Culture of Animal Cells:A Manual of Basic Technique andSpecialized Applications),6th Edition(R.I.Freshney,ed.(2010))。

文中使用的区段标是仅是为了组织化目的,而非解译为限制描述的主旨。

虽然本揭示的各项特征可以单一实施方案的内文描述,但该特征也可分开提供或以任何合宜组合提供。相反地,虽然本揭示于文中是以分开实施方案的内文描述以求清晰,但本揭示也可以单一实施方案实施。

[定义]

以下定义补充业界的定义且是针对本案,但非指任何相关或非相关案例,例如意指任何共通拥有的专利案或专利申请案。虽然本文描述的相似的或相当的任何方法及材料皆可用于本揭示的测试实务,但本文描述较佳材料及方法。因此,文中使用的术语仅是为了描述特定实施方案,而非意图为限制性。

除非另行界定,否则文中使用的全部技术术语及科学术语皆具有与本发明所属业界熟谙技艺人士一般了解的相同定义。以下各项参考文献对熟谙技艺人士提供本发明使用的许多术语的通用定义:Singleton et al.,微生物学及分子生物学词典(Dictionary ofMicrobiology and Molecular Biology)(2nd ed.1994);剑桥科技词典(The CambridgeDictionary of Science and Technology)(Walker ed.,1988);遗传学词汇(TheGlossary of Genetics),5th Ed.,R.Rieger et al.(eds.),Springer Verlag(1991);及Hale&Marham,Harper Collins生物学词典(The Harper Collins Dictionary ofBiology)(1991)。

除非另行特定陈明,否则于本案中,单数的使用包括多数。须注意,除非上下文另行明白规定,否则如于说明书中使用,单数型「一(a)」、「一(an)」及「该」包括复数型。再者,术语「包括」以及其它形式诸如“包括(include)”、“包括(includes)”及“包括(included)”的使用并非限制性。

如于说明书及申请专利范围中使用,措词「包含」(及任何的包含形式,诸如“包含(comprise)”及“包含(comprises)”)、「具有」(及任何的具有形式,诸如“具有(have)”及“具有(has)”)、「包括」(及任何的包括形式,诸如“包括(includes)”及“包括(include)”)、或「含有」(及任何的含有形式,诸如“含有(contains)”及“含有(contain)”)皆为涵括式或开放式,而不排除额外未引述的元件或方法步骤。预期本说明书中讨论的任何实施方案就本揭示的任何方法或组合物而言皆可实施,反之亦然。再者,本揭示的组合物可运用来达成本揭示的方法。

术语「约」或「约略」表示如由业界熟谙技艺人士判定,在特定数值的可接受的误差范围内,其将部分取决于该数值的量测或测定方式,亦即,量测系統的极限。举例言的,根据业界实务,「约」可表示落入1或大于1标准差以内。另外,「约」可表示一给定值的高达20%、高达10%、高达5%、或高达1%范围。另外,特别就生物系統或制程而言,该术语可表示落入某值的一个数量级以内,较佳地在5倍以内,及更佳地在2倍以内。当特定值是于说明书及申请专利范围中描述时,除非另行陈明,否则须推定术语「约」表示落入特定数值的可接受的误差范围内。

说明书中述及「若干实施方案」、「一实施方案」、「一个实施方案」、或「其它实施方案」表示连结该实施方案描述的特定特征、结构、或特性是涵括于本揭示的至少若干实施方案中,但非必要全部实施方案。

文中「投予」是指提供本文描述的一个或多个组合物给病人或个体。举例言的但非限制性,组合物投予(例如,注射)可通过静脉(i.v.)注射、皮下(s.c.)注射、皮内(i.d.)注射、腹内(i.p.)注射、或肌肉(i.m.)注射进行。可采用一个或多个此等途径。肠道外投予可通过大剂量注射或随时间的推移通过徐缓输注。另外地或同时地,可借口服途径投予。

「腺苷脱氨酶」表示一种脱氨酶,其催化腺嘌呤(A)至肌苷(I)的水解脱氨。于若干实施方案中,脱氨酶或脱氨酶域为腺苷脱氨酶,其分别地催化腺苷或去氧腺苷的水解脱氨成肌苷或去氧肌苷。于若干实施方案中,腺苷脱氨酶催化去氧核糖核酸(DNA)中的腺苷的水解脱氨。文中提供的腺苷脱氨酶(例如,基因改造的腺苷脱氨酶、演化的腺苷脱氨酶)可来自任何有机体,诸如细菌。于若干实施方案中,腺苷脱氨酶是来自细菌,诸如大肠杆菌(E.coli)、金黄色葡萄球菌(S.aureus)、伤寒杆菌(S.typhi)、腐败希瓦氏菌(S.putrefaciens)、流感嗜血杆菌(H.influenzae)、或新月柄杆菌(C.crescentus)。于若干实施方案中,腺苷脱氨酶为TadA脱氨酶。于若干实施方案中,TadA脱氨酶为大肠杆菌TadA(ecTadA)脱氨酶或其片段。

举例言的,截短的ecTadA相较于全长ecTadA,可能缺失一个或多个N端氨基酸。于若干实施方案中,截短的ecTadA相较于全长ecTadA,可能缺失1、2、3、4、5,6、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个N端氨基酸残基。于若干实施方案中,截短的ecTadA相较于全长ecTadA,可能缺失1、2、3、4、5,6、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个C端氨基酸残基。于若干实施方案中,ecTadA脱氨酶不包含N端蛋氨酸。于若干实施方案中,ecTadA脱氨酶为N端截短的TadA。于特定实施方案中,TadA可以是PCT/US2017/045381中描述的TadA中的任一者,该案全文以引用方式纳入本说明书的揭示。

「作用剂」是表示任何小分子化学化合物、抗体、核酸分子、或多肽、或其片段。

「改善」表示减少、遏止、削弱、缩小、中止、或稳定疾病的发展或进行。

「变更」表示表示通过标准业界已知方法(诸如本文描述者)检测得基因或多肽的表达程度或活性改变(增减)。如于本揭示中使用,变更包括表达程度的10%改变,较佳地25%改变,更佳地40%改变,及最佳地表达程度50%或以上的改变。

「类似物」表示并非完全相同但具有类似的功能特征或结构特征的分子。举例言的,多肽类似物保有相应的天然多肽的生物活性,同时相较于天然多肽,具有增强类似物功能的某些生化修饰。此等生化修饰能增加类似物的蛋白酶抗性、膜通透性、或半生期,而不会变更例如配体接合。类似物可包括非天然氨基酸。

「α-1抗胰蛋白酶(A1AT)蛋白质」表示具有与UniProt Accession No.P01009至少约95%氨基酸序列相同度的多肽或其片段。于特定实施方案中,A1AT蛋白质包含相较于以下各项参考序列的一个或多个变更。于一个特定实施方案中,与A1AD相关联的A1AT蛋白质包含E342K突变。A1AT氨基酸序列的实施例提供如下。

>spP01009|A1AT_HUAANAlpha-1-antitrypsin OS=Homo sapiens OX=9606

GN=SERPINA1 PE=1 SV=3:

术语「碱基编辑器(BE)」表示包含能对核酸序列(例如,DNA或RNA)内部的核苷碱基(例如,A、T、C、G、或U)做修饰的多肽的作用剂。于若干实施方案中,碱基编辑器为融合蛋白,其包含多核苷酸可编程核苷酸结合域及核苷碱基编辑域(例如,胞苷脱氨酶域或腺苷脱氨酶域)连同导引多核苷酸(例如,导引RNA)。于若干实施方案中,碱基编辑器为胞苷碱基编辑器(CBE)。于若干实施方案中,碱基编辑器为腺苷碱基编辑器(ABE)。于若干实施方案中,多核苷酸可编程DNA结合域是融合到或链接到脱氨酶域。于若干实施方案中,碱基编辑器包含多核苷酸可编程DNA结合域及脱氨酶域连同导引多核苷酸(例如,导引RNA)。于若干实施方案中,多核苷酸可编程DNA结合域为CRISPR相关联(例如,Cas或Cpf1)酶。于若干实施方案中,碱基编辑器为融合到脱氨酶域(例如,腺苷脱氨酶或胞苷脱氨酶)的Cas9蛋白。于若干实施方案中,碱基编辑器为融合到脱氨酶域的催化死亡Cas9(dCas9)。于若干实施方案中,碱基编辑器为融合到脱氨酶域的Cas9切口酶(nCas9)。于若干实施方案中,碱基编辑器是融合到碱基切除修复(BER)抑制剂。于若干实施方案中,碱基切除修复抑制剂为尿嘧啶DNA糖基化抑制剂(UGI)。于若干实施方案中,碱基切除修复抑制剂为肌苷碱基切除修复抑制剂。于若干实施方案中,碱基编辑器能将核酸内部的碱基脱氨。于若干实施方案中,碱基编辑器能将DNA分子内部的碱基脱氨。于若干实施方案中,碱基编辑器能将RNA分子内部的碱基脱氨。于若干实施方案中,碱基编辑器能将腺嘌呤(A)脱氨。于若干实施方案中,腺苷脱氨酶是演化自TadA。于若干实施方案中,碱基编辑器能将鸟嘌呤(G)脱氨。于若干实施方案中,碱基编辑器能将腺嘌呤(A)脱氨。于若干实施方案中,碱基编辑器能将胞嘧啶(C)脱氨。碱基编辑器的细节是描述于国际PCT申请案Nos.PCT/2017/045381(WO2018/027078)及PCT/US2016/058344(WO2017/070632),其各自全文以引用方式纳入本说明书的揭示。也请参考Komor,A.C.,et al.,「不含双股DNA分裂的基因体DNA中的标靶碱基的可编程编辑」(“Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage”)Nature 533,420-424(2016);Gaudelli,N.M.,et al.,「不含DNA分裂的基因体DNA中的A·T至G·C的可编程碱基编辑」(“Programmable base editing ofA·T to G·C in genomic DNA without DNA cleavage”)Nature 551,464-471(2017);及Komor,A.C.,et al.,「改良碱基切除修复抑制及有较高效率与产物纯度的噬菌体μGam蛋白质获得C:G-to-T:A碱基编辑器」(“Improved base excision repair inhibition andbacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”)Science Advances 3:eaao4774(2017),其全文内容以引用方式纳入本说明书的揭示。

于若干实施方案中,如使用于本文描述的碱基编辑组合物、系統及方法中的胞苷碱基编辑器BE4具有如下核酸序列(8877碱基对),(Addgene,Watertown,MA.;Komor AC,etal.,2017,Sci Adv.,30;3(8):eaao4774.doi:10.1126/sciadv.aao4774)提供如下。也涵盖与BE4核酸序列具有至少95%或以上相同度的多核苷酸序列。

于若干实施方案中,胞苷碱基编辑器具有如下序列:

于若干实施方案中,胞苷碱基编辑器具有如下序列:

「碱基编辑活性」表示作用来化学变更多核苷酸内部的碱基。于一个实施方案中,第一碱基被转换成第二碱基。于一个实施方案中,碱基编辑活性为胞苷脱氨酶活性,例如将标靶C·G转换成T·A。于另一个实施方案中,碱基编辑活性为腺苷脱氨酶活性,例如将标靶A·T转换成G·C。

术语「碱基编辑器系統」是指编辑标靶核苷酸序列的核苷碱基的系統。于若干实施方案中,碱基编辑器系統包含(1)碱基编辑器(BE),其包含多核苷酸可编程核苷酸结合域及用于将核苷碱基脱氨的脱氨酶域;及(2)导引多核苷酸(例如,导引RNA)连同多核苷酸可编程核苷酸结合域。于若干实施方案中,多核苷酸可编程核苷酸结合域为多核苷酸可编程DNA结合域。于若干实施方案中,碱基编辑器为胞苷碱基编辑器(CBE)。于若干实施方案中,碱基编辑器为腺苷碱基编辑器(ABE)。

于若干实施方案中,核苷碱基编辑器系統可包含多于一个碱基编辑组件。举例言的,核苷碱基编辑器系統可包含多于一个脱氨酶。于若干实施方案中,核酸酶碱基编辑器系統可包括一个或多个胞苷脱氨酶及/或一个或多个腺苷脱氨酶。于若干实施方案中,可利用单导引多核苷酸以将不同的脱氨酶靶定到标靶核酸序列。于若干实施方案中,可利用单一对导引多核苷酸以将不同的脱氨酶靶定到标靶核酸序列。

碱基编辑器系統的核苷碱基组件及多核苷酸可编程核苷酸结合组件可共价地或非共价地或共价地彼此相关联。举例言的,于若干实施方案中,脱氨酶域可通过多核苷酸可编程核苷酸结合域而靶定到标靶核苷酸序列。于若干实施方案中,多核苷酸可编程核苷酸结合域可融合或链接到脱氨酶域。于若干实施方案中,多核苷酸可编程核苷酸结合域可通过与脱氨酶域非共价地交互作用或相关联而将脱氨酶域靶定到标靶核苷酸序列。举例言的,于若干实施方案中,核苷碱基编辑组件,例如脱氨酶组件,可包含额外异源部分或域,其能与属于多核苷酸可编程核苷酸结合域的一部分的额外异源部分或域交互作用、相关联、或能与其生成复合物。于若干实施方案中,额外异源部分能与多肽结合、交互作用、相关联、或能与其生成复合物。于若干实施方案中,额外异源部分能与多核苷酸结合、交互作用、相关联、或能与其生成复合物。于若干实施方案中,额外异源部分能结合至导引多核苷酸。于若干实施方案中,额外异源部分能结合至多肽链接基。于若干实施方案中,额外异源部分能结合至多核苷酸链接基。额外异源部分可以是蛋白质域。于若干实施方案中,额外异源部分可以是K同源(KH)域、MS2外壳蛋白质域、PP7外壳蛋白质域、SfMu Com外壳蛋白质域、无菌α基元、端粒酶Ku结合基元与Ku蛋白质、端粒酶Sm7结合基元与Sm7蛋白质、或RNA辨识基元。

碱基编辑器系統可进一步包含导引多核苷酸组件。须了解碱基编辑器系統的组件可通过共价键、非共价交互作用、或其关联与交互作用的任何组合而彼此相关联。于若干实施方案中,脱氨酶域可通过导引多核苷酸靶定到标靶核苷酸序列。举例言的,于若干实施方案中,碱基编辑器系統的核苷碱基编辑组件,例如脱氨酶组件,可包含额外异源部分或域(例如,多核苷酸结合域,诸如RNA或DNA结合蛋白),其能与导引多核苷酸的一部分或一节段(例如,多核苷酸基元)交互作用、相关联、或能与其生成复合物。于若干实施方案中,额外异源部分或域(例如,多核苷酸结合域,诸如RNA或DNA结合蛋白)能融合或链接到脱氨酶域。于若干实施方案中,额外异源部分能与多肽结合、交互作用、相关联、或能与其生成复合物。于若干实施方案中,额外异源部分能与多核苷酸结合、交互作用、相关联、或能与其生成复合物。于若干实施方案中,额外异源部分能结合至导引多核苷酸。于若干实施方案中,额外异源部分能结合至多肽链接基。于若干实施方案中,额外异源部分能结合至多核苷酸链接基。额外异源部分可以是蛋白质域。于若干实施方案中,额外异源部分可以是K同源(KH)域、MS2外壳蛋白质域、PP7外壳蛋白质域、SfMu Com外壳蛋白质域、无菌(steril)α基元、端粒酶Ku结合基元与Ku蛋白质、端粒酶Sm7结合基元与Sm7蛋白质、或RNA辨识基元。

于若干实施方案中,碱基编辑器系統可进一步包含碱基切除修复(BER)抑制剂组件。须了解碱基编辑器系統的组件可通过共价键、非共价交互作用、或其关联与交互作用的任何组合而彼此相关联。BER抑制剂组件可包含碱基切除修复抑制剂。于若干实施方案中,碱基切除修复抑制剂可以是尿嘧啶DNA糖基化抑制剂(UGI)。于若干实施方案中,碱基切除修复抑制剂可以是肌苷碱基切除修复抑制剂。于若干实施方案中,碱基切除修复抑制剂能通过多核苷酸可编程核苷酸结合域靶定到标靶核苷酸序列。于若干实施方案中,多核苷酸可编程核苷酸结合域能融合或链接到碱基切除修复抑制剂。于若干实施方案中,多核苷酸可编程核苷酸结合域能融合或链接到脱氨酶域及碱基切除修复抑制剂。于若干实施方案中,多核苷酸可编程核苷酸结合域能通过与碱基切除修复抑制剂非共价地交互作用或相关联,而将碱基切除修复抑制剂靶定到标靶核苷酸序列。举例言的,于若干实施方案中,碱基切除修复抑制剂可包含额外异源部分或域,其能与属于多核苷酸可编程核苷酸结合域的一部分的额外异源部分或域交互作用、相关联、或能与其生成复合物。于若干实施方案中,碱基切除修复抑制剂能通过导引多核苷酸靶定到标靶核苷酸序列。举例言的,于若干实施方案中,碱基切除修复抑制剂可包含额外异源部分或域(例如,多核苷酸结合域,诸如RNA或DNA结合蛋白),其能与导引多核苷酸的一部分或一节段(例如,多核苷酸基元)交互作用、相关联、或能与其生成复合物。于若干实施方案中,该导引多核苷酸的额外异源部分或域(例如,多核苷酸结合域,诸如RNA或DNA结合蛋白)能融合或链接到碱基切除修复抑制剂。于若干实施方案中,额外异源部分能与多核苷酸结合、交互作用、相关联、或能与其生成复合物。于若干实施方案中,额外异源部分能结合至导引多核苷酸与多核苷酸结合、交互作用、相关联、或能与其生成复合物。于若干实施方案中,额外异源部分能结合至导引多核苷酸。于若干实施方案中,额外异源部分能结合至多肽链接基。于若干实施方案中,额外异源部分能结合至多核苷酸链接基。额外异源部分可以是蛋白质域。于若干实施方案中,额外异源部分可以是K同源(KH)域、MS2外壳蛋白质域、PP7外壳蛋白质域、SfMu Com外壳蛋白质域、无菌(steril)α基元、端粒酶Ku结合基元与Ku蛋白质、端粒酶Sm7结合基元与Sm7蛋白质、或RNA辨识基元。

术语「Cas9」或「Cas9结构域」是指由RNA所导引的核酸酶,其包含Cas9蛋白或其片段(例如,蛋白质其包含Cas9的活性、失活性、或部分活性DNA分裂域,及/或Cas9的gRNA结合域)。Cas9核酸酶偶尔也称作casnl核酸酶或CRISPR(成簇规律间隔的短回文重复序列)相关联核酸酶。Cas9的实施例为化脓性链球菌(Streptococcus pyogenes)Cas9,其氨基酸序列提供如下

术语「保守性氨基酸取代」或「保守性突变」是指一个氨基酸由具有共通性质的另一氨基酸置换。界定个别氨基酸间的共通性质的功能性方式是分析同源有机体的相应蛋白质间的氨基酸变化的标准化频率(Schulz,G.E.and Schirmer,R.H.,蛋白质结构原理(Principles of Protein Structur)e,Springer-Verlag,New York(1979))。根据此等分析,可界定氨基酸群组,于其中在一群组内部的氨基酸偏好彼此交换,因此对总体蛋白质结构的影响彼此最相似(Schulz,G.E.and Schirmer,R.H.,supra)。保守性突变的非限制性实施例包括氨基酸的氨基酸取代,举例言的,赖氨酸取代精氨酸,及反之亦然,以致于能维持正电荷;麸氨酸取代天冬酸,及反之亦然,以致于能维持负电荷;丝氨酸取代苏氨酸,使得能维持自由态-OH;及麸酰氨酸取代天冬酰氨,使得能维持自由态-NH

术语「Cas9」或「Cas9结构域」是指由RNA所导引的核酸酶,其包含Cas9蛋白或其片段(例如,蛋白质其包含Cas9的活性、失活性、或部分活性DNA分裂域,及/或Cas9的gRNA结合域)。Cas9核酸酶偶尔也称作casnl核酸酶或CRISPR(成簇规律间隔的短回文重复序列)相关联核酸酶。Cas9的实施例为化脓性链球菌Cas9,其氨基酸序列提供如下

术语「写码序列」或「蛋白质写码序列」于本揭示中互换使用,及是指针对蛋白质写码的多核苷酸节段。区或序列的边界以起始密码子而较接近5’端,及以中止密码子而较接近3’端。写码序列又称作开放读码框。

术语「保守性氨基酸取代」或「保守性突变」是指一个氨基酸由具有共通性质的另一氨基酸置换。界定个别氨基酸间的共通性质的功能性方式是分析同源有机体的相应蛋白质间的氨基酸变化的标准化频率(Schulz,G.E.and Schirmer,R.H.,蛋白质结构原理(Principles of Protein Structur)e,Springer-Verlag,New York(1979))。根据此等分析,可界定氨基酸群组,于其中在一群组内部的氨基酸偏好彼此交换,因此对总体蛋白质结构的影响彼此最相似(Schulz,G.E.and Schirmer,R.H.,supra)。保守性突变的非限制性实施例包括氨基酸的氨基酸取代,举例言的,赖氨酸取代精氨酸,及反之亦然,以致于能维持正电荷;麸氨酸取代天冬酸,及反之亦然,以致于能维持负电荷;丝氨酸取代苏氨酸,使得能维持自由态-OH;及麸酰氨酸取代天冬酰氨,使得能维持自由态-NH

「胞苷脱氨酶」表示能催化脱氨反应而将氨基转换成羰基的多肽或其片段。于一个实施方案中,胞苷脱氨酶将胞嘧啶转换成尿嘧啶,或将5-甲基胞嘧啶转换成胸腺嘧啶。PmCDA1,其是衍生自八目鳗(Petromyzon marinus)(八目鳗胞苷脱氨酶1,「PmCDA1」);AID(活化诱导胞苷脱氨酶,AICDA),其是衍生自哺乳类(例如,人、猪、牛、马、猴等);及APOBEC乃胞苷脱氨酶的实施例。

如于本揭示中使用,术语「脱氨酶」或「脱氨酶域」是指催化脱氨反应的蛋白质或酶。于若干实施方案中,脱氨酶或脱氨酶域为胞苷脱氨酶,其分别地催化胞苷或去氧胞苷的水解脱氨成尿苷或去氧尿苷。于若干实施方案中,脱氨酶或脱氨酶域为胞苷脱氨酶,其催化胞嘧啶的水解脱氨成尿嘧啶。于若干实施方案中,脱氨酶为腺苷脱氨酶,其催化腺嘌呤的水解脱氨成次黄嘌呤。

于若干实施方案中,脱氨酶或脱氨酶域为得自有机体,诸如人、黑猩猩、猩猩、猴、牛、犬、大鼠、或小鼠的天然脱氨酶的变异体。于若干实施方案中,脱氨酶或脱氨酶域不会出现于自然界。举例言的,于若干实施方案中,脱氨酶或脱氨酶域与天然出现的脱氨酶至少50%,至少55%,至少60%,至少65%,至少70%,至少75%,至少80%,至少85%,至少90%,至少91%,至少92%,至少93%,至少94%,至少95%,至少96%,至少97%,至少98%,至少99%,至少99.1%,至少99.2%,至少99.3%,至少99.4%,至少99.5%,至少99.6%,至少99.7%,至少99.8%,或至少99.9%相同。举例言的,脱氨酶域是描述于国际PCT申请案Nos.PCT/2017/045381(WO2018/027078)及PCT/US2016/058344(WO2017/070632),其各自全文以引用方式纳入本说明书的揭示。也请参考Komor,A.C.,et al.,「不含双股DNA分裂的基因体DNA中的标靶碱基的可编程编辑」Nature 533,420-424(2016);Gaudelli,N.M.,etal.,「不含DNA分裂的基因体DNA中的A·T至G·C的可编程碱基编辑」Nature 551,464-471(2017);及Komor,A.C.,et al.,「改良碱基切除修复抑制及有较高效率与产物纯度的噬菌体μGam蛋白质获得C:G-to-T:A碱基编辑器」,Science Advances 3:eaao4774(2017);及Rees,H.A.,et al.,「碱基编辑:活细胞的基因体及转录体上的精准化学」(“Base editing:precision chemistry on the genome and transcriptome of living cells.”)Nat RevGenet.2018Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其全文内容以引用方式纳入本说明书的揭示。

「可检测标记」表示一种组合物,其当链接至关注分子时,使得后者能通过光谱学、光化学、生物化学、免疫化学、或化学手段加以检测。举例言的,有用的标记包括放射性同位素、磁珠、金属珠、胶体粒子、萤光染料、电子密集试剂、酶(例如,常用在ELISA)、生物素、地高辛(digoxigenin)、或半抗原。

「疾病」表示伤害或干扰细胞、组织、或器官的正常功能的任何病况或病症。疾病的实施例包括色素性视网膜炎、尤塞氏症候群、镰状细胞症、β-地中海型贫血、α-1抗胰蛋白酶缺乏症(A1AD)、肝性吡咯紫质沈着症、中链酰基-CoA脱氢酶(MCAD)缺乏症、溶小体酸性脂肪酶(LAL)缺乏症、苯酮尿症、血色素沈着病、冯基尔克氏症候群、庞贝氏症候群、高雪氏症候群、贺勒氏症候群、囊性纤维化、或慢性疼痛。于特定实施方案中,疾病为A1AD。

「有效量」表示相较于未经治疗的病人,改善疾病症状需要的作用剂或活性化合物(例如,如本文描述的碱基编辑器)的用量。本发明实务中使用来治疗性处理疾病的有效量的活性化合物的有效量因投予方式、个体年龄、体重、及一般健康状况而异。最终,临床医师或兽医师将判定适当用法用量。此用量称作「有效」用量。于一个实施方案中,有效量为足够于细胞(例如,细胞活体外或活体内)中导入基因的变更的本发明碱基编辑器的用量。于一个实施方案中,有效量为达成疗效(例如,减轻或控制色素性视网膜炎、尤塞氏症候群、镰状细胞症、β-地中海型贫血、α-1抗胰蛋白酶缺乏症(A1AD)、肝性吡咯紫质沈着症、中链酰基-CoA脱氢酶(MCAD)缺乏症、溶小体酸性脂肪酶(LAL)缺乏症、苯酮尿症、血色素沈着病、冯基尔克氏症候群、庞贝氏症候群、高雪氏症候群、贺勒氏症候群、囊性纤维化、或慢性疼痛)要求的碱基编辑器用量。此疗效无需足够变更个体、组织、或器官的全部细胞中的病原性基因,而只变更存在个体、组织、或器官的约1%、5%、10%、25%、50%、75%或以上细胞中的病原性基因。于一个实施方案中,有效量为足够改善疾病(例如,色素性视网膜炎、尤塞氏症候群、镰状细胞症、β-地中海型贫血、α-1抗胰蛋白酶缺乏症(A1AD)、肝性吡咯紫质沈着症、中链酰基-CoA脱氢酶(MCAD)缺乏症、溶小体酸性脂肪酶(LAL)缺乏症、苯酮尿症、血色素沈着病、冯基尔克氏症候群、庞贝氏症候群、高雪氏症候群、贺勒氏症候群、囊性纤维化、或慢性疼痛)的一个或多个症状。

「片段」表示多肽或核酸分子的一部分。此部分含有较佳地参考核酸分子或多肽全长的至少10%、20%、30%、40%、50%、60%、70%、80%、或90%。一片段可含有10、20、30、40、50、60、70、80、90、或100、200、300、400、500、600、700、800、900、或1000个核苷酸或氨基酸。

「杂交」表示互补核苷碱基间的氢键结,其可以是华生-克里克、胡斯坦、或反胡斯坦氢键结。举例言的,腺嘌呤与胸腺嘧啶为通过氢键结的生成配对的互补核苷碱基。

术语「碱基修复的抑制剂」、「碱基修复抑制剂」、或其文法同义词是指能抑制核酸修复酶(例如碱基切除修复酶)活性的蛋白质。碱基修复抑制剂的非限制性实施例包括APE1、Endo III、Endo IV、Endo V、Endo VIII、Fpg、hOGGl、hNEILl、T7 Endol、T4PDG、UDG、hSMUGl、及hAAG的抑制剂。于若干实施方案中,碱基修复抑制剂为Endo V或hAAG的抑制剂。于若干实施方案中,碱基修复抑制剂为催化失活性Endo V或催化失活性hAAG。于若干实施方案中,碱基修复抑制剂为尿嘧啶糖基化酶抑制剂(UGI)。UGI是指能抑制尿嘧啶DNA糖基化酶碱基切除修复酶的蛋白质。于若干实施方案中,UGI域包含野生型UGI或野生型UGI片段。于若干实施方案中,文中提供的UGI蛋白质包括UGI片段及UGI或UGI片段同源的蛋白质。于若干实施方案中,碱基修复抑制剂为肌苷碱基切除修复抑制剂。于若干实施方案中,碱基修复抑制剂为「催化失活性肌苷特异性核酸酶」或「死肌苷特异性核酸酶」。

不欲受任何特定理论所限,催化失活性肌苷糖基化酶(例如,烷基腺嘌呤糖基化酶(AAG))能结合肌苷,但无法生成脱碱基位点,或去除肌苷,通过此立体阻断新生成的肌苷部分免于DNA损伤/修复机转。于若干实施方案中,催化失活性肌苷特异性核酸酶能结合核酸中的肌苷,但不会劈裂核酸。催化失活性肌苷特异性核酸酶的非限制性实施例包括例如,来自人的催化失活性烷基腺苷糖基化酶(AAG核酸酶),及例如来自大肠杆菌的催化失活性核酸内切酶V(EndoV核酸酶)。于若干实施方案中,催化失活性AAG核酸酶包含E125Q突变或在另一AAG核酸酶中的相应突变。

术语「经分离的」、「纯化的」、或「生物纯质」是指不含于天然状态所见正常伴随存在的组分至各种程度的材料。「分离」指示自原先来源或周围环境分开的程度。「纯化」指示比分离更高的分开程度。「纯化的」或「生物纯质」蛋白质是充分不含其它材料,使得任何杂质不会实质上影响蛋白质的生物性质,或引发其它不良后果。换言的,若本发明的核酸或肽,当通过重组DNA技术生产时,实质上不含细胞物质、病毒物质、或培养基,或当化学合成时实质上不含化学前驱物或其它化学品,则已经纯化。纯度及均质度典型地是使用分析化学技术测定,例如,聚丙烯酰氨凝胶电泳或高效液相层析术。术语「纯化的」指示核酸或蛋白质在电泳凝胶中基本上形成一带。针对能接受修饰的蛋白质,例如磷酸化或糖基化,不同的修饰可产生不同的分离蛋白质,其能被分开纯化。

「分离多核苷酸」表示一种核酸(例如,DNA),其在本发明的核酸分子衍生自其中的该有机体的天然基因体中,不含旁出该基因的基因。因此,该术语包括例如重组DNA,其是结合入载体;结合入自生复制质体或病毒;或结合入原核生物或真核生物的基因体DNA;或其是呈与其它序列独立无关的分开分子存在(例如,通过PCR或限剪核酸内切酶消化所产生的cDNA或基因体或cDNA片段)。此外,该术语包括从DNA分子转录的RNA分子,以及属于编码额外多肽序列的融合基因的一部分的重组DNA。

「分离多肽」表示已与天然伴随组分分开的本发明的多肽。典型地,当多肽至少60%重量比不含其天然相关的蛋白质及天然出现的有机分子时,该多肽为经分离者。较佳地,该制备为至少75%,更佳至少90%,及最佳至少99%重量比本发明的多肽。本发明的分离多肽例如,可通过萃取自天然来源,或通过编码此多肽的重组核酸的表达,或通过化学合成该蛋白质获得。纯度可通过任何适当方法测量,例如,管柱层析术、聚丙烯酰氨凝胶电泳、或通过HPLC分析测量。

如于本揭示中使用,术语「链接基」可指共价链接基(例如,共价键)、非共价链接基、化学基团、或链接两个分子或部分的分子,例如蛋白质复合物或核糖核苷复合物的两个组分、或融合蛋白的两个域,诸如,多核苷酸可编程DNA结合域(例如,dCas9)及脱氨酶域(例如,腺苷脱氨酶或胞苷脱氨酶)。链接基能接合碱基编辑器系統的不同组件或组件的不同部分。举例言的,于若干实施方案中,链接基能接合多核苷酸可编程核苷酸结合域的导引多核苷酸结合域与脱氨酶的催化域。于若干实施方案中,链接基能接合CRISPR多肽与脱氨酶。于若干实施方案中,链接基能接合Cas9与脱氨酶。于若干实施方案中,链接基能接合dCas9与脱氨酶。于若干实施方案中,链接基能接合nCas9与脱氨酶。于若干实施方案中,链接基能接合碱基编辑器系統的脱氨组件与多核苷酸可编程核苷酸结合组件。于若干实施方案中,链接基能接合碱基编辑器系統的脱氨组件的RNA结合部分与多核苷酸可编程核苷酸结合组件。于若干实施方案中,链接基能接合碱基编辑器系統的脱氨组件的RNA结合部分与多核苷酸可编程核苷酸结合组件的RNA结合部分。链接基可位在两个基团、分子、或其它部分间,或旁出有两个基团、分子、或其它部分,且通过共价键或非共价交互作用彼此连结,因而连结二者。于若干实施方案中,链接基可以是有机分子、基团、聚合物、或化学部分。于若干实施方案中,链接基可以是多核苷酸。于若干实施方案中,链接基可以是DNA链接基。于若干实施方案中,链接基可以是RNA链接基。于若干实施方案中,链接基可包含能结合到配体的核酸适体。于若干实施方案中,链接基可以是碳水化合物、肽、蛋白质、或核酸。于若干实施方案中,链接基可包含衍生自核糖开关的核酸适体。核酸适体衍生自其中的核糖开关可选自于:茶碱核糖开关、焦磷酸硫氨素(TPP)核糖开关、腺苷钴氨素(AdoCbl)核糖开关、S-腺苷蛋氨酸(SAM)核糖开关、SAH核糖开关、核黄素一核苷酸(FMN)核糖开关、四氢叶酸核糖开关、赖氨酸核糖开关、甘氨酸核糖开关、嘌呤核糖开关、GlmS核糖开关、或前-Q核苷1(PreQ1)核糖开关。于若干实施方案中,链接基可包含能结合到多肽或蛋白质域的核酸适体,诸如多肽链接基。于若干实施方案中,链接基可以是K同源(KH)域、MS2外壳蛋白质域、PP7外壳蛋白质域、SfMu Com外壳蛋白质域、无菌α基元、端粒酶Ku结合基元与Ku蛋白质、端粒酶Sm7结合基元与Sm7蛋白质、或RNA辨识基元。于若干实施方案中,多肽链接基可以是碱基编辑器系統组件的一部分。举例言的,核苷碱基编辑组件可包含脱氨酶域及RNA辨识基元。

于若干实施方案中,链接基可以是氨基酸或复数氨基酸(例如,肽或蛋白质)。于若干实施方案中,链接基可以是长度约5-100个氨基酸,例如,长度约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、20-30、30-40、40-50、50-60、60-70、70-80、80-90、或90-100个氨基酸。于若干实施方案中,链接基可以是长度约100-150、150-200、200-250、250-300、300-350、350-400、400-450、或450-500个氨基酸。预期也涵盖更长的或更短的链接基。

于若干实施方案中,链接基接合RNA可编程核酸酶的gRNA结合域(包括Cas9核酸酶域),与核酸编辑蛋白的催化域(例如,胞苷脱氨酶或腺苷脱氨酶)。于若干实施方案中,链接基接合dCas9与核酸编辑蛋白。举例言的,链接基是位在两个基团、分子、或其它部分间,或旁出有两个基团、分子、或其它部分,且通过共价键彼此连结,因而连结二者。于若干实施方案中,链接基为氨基酸或复数氨基酸(例如,肽或蛋白质)。于若干实施方案中,链接基为有机分子、基团、聚合物、或化学部分。于若干实施方案中,链接基长5-200个氨基酸,例如,长5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、35、45、50、55、60、60、65、70、70、75、80、85、90、90、95、100、101、102、103、104、105、110、120、130、140、150、160、175、180、190、或200个氨基酸。预期也涵盖更长的或更短的链接基。于若干实施方案中,链接基包含氨基酸序列SGSETPGTSESATPES,其也可称作XTEN链接基。于若干实施方案中,链接基包含氨基酸序列SGGS。于若干实施方案中,链接基包含(SGGS)

于若干实施方案中,碱基编辑器的各域是通过链接基融合,链接基包含SGGSSGSETPGTSESATPESSGGS、SGGSSGGSSGSETPGTSESATPESSGGSSGGS、或GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGS的氨基酸序列。于若干实施方案中,碱基编辑器的各域是通过包含氨基酸序列SGSETPGTSESATPES的链接基融合,其也称作XTEN链接基。于若干实施方案中,链接基长24个氨基酸。于若干实施方案中,链接基包含氨基酸序列SGGSSGGSSGSETPGTSESATPES。于若干实施方案中,链接基长40个氨基酸。于若干实施方案中,链接基包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGS。于若干实施方案中,链接基长64个氨基酸。于若干实施方案中,链接基包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGSSGGS。于若干实施方案中,链接基长92个氨基酸。于若干实施方案中,链接基包含氨基酸序列

如于本揭示中使用,术语「突变」是指序列,例如核酸序列或氨基酸序列内部的一个残基以另一个残基取代,或序列内部的一个或多个残基的缺失或插入。典型地,本揭示中突变是通过识别原先残基,接着为该序列内部的残基位置,及通过新取代残基的身分加以描述。做出本文提供的氨基酸取代(突变)的各种方法乃业界众所周知,及由例如Green andSambrook,分子克隆化:实验室手册(Molecular Cloning:A Laboratory Manual)(4thed.,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.(2012))所提供。于若干实施方案中,本揭示碱基编辑器能在核酸(例如,个体的基因体内部的核酸)有效地生成「计画中的突变」,诸如点突变,而不会生成显著数目的非计画中的突变,诸如非计画中的点突变。于若干实施方案中,计画中的突变为由结合至导引多核苷酸(例如,gRNA)(其是特别设计以生成计画中的突变)的特定碱基编辑器(例如,胞苷碱基编辑器或腺苷碱基编辑器)生成的突变。通常,于序列(例如,如本文描述的氨基酸序列)中制作或识别的突变是相对于参考(或野生型)序列(亦即,不含突变的序列)加以编号。业界熟谙技艺人士容易了解如何相对于参考序列,决定氨基酸序列及核酸序列中的突变位置。

术语「非保守性突变」涉及不同基团的氨基酸取代,例如,赖氨酸取代色氨酸,或苯丙氨酸取代丝氨酸等。此种情况下,较佳为非保守性氨基酸取代,俾便不干扰或抑制功能变异体的生物活性。非保守性氨基酸取代能提升功能变异体的生物活性,使得功能变异体的生物活性比较野生型蛋白质增高。

术语「核定位序列」、「核定位信号」、或「NLS」是指促进蛋白质输入细胞核的氨基酸序列。核定位序列为业界已知,且描述于例如,Plank等人国际PCT申请案PCT/EP2000/011690,提申日期2000年11月23日,2001年5月31日公告为WO/2001/038547,其内容爰引于此以供参考有关核定位序列的揭示实施例。于其它实施方案中,NLS为例如由Koblan etal.,Nature Biotech.2018doi:10.1038/nbt.4172描述的优化NLS。于若干实施方案中,NLS包含氨基酸序列KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRK、PKKKRKV、或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC。

如于本揭示中使用,术语「核酸」及「核酸分子」是指化合物,其包含核苷碱基及酸性部分,例如核苷、核苷酸、或核苷酸的聚合物。典型地,聚合核酸,例如,包含三个或以上核苷酸的核酸分子为线性分子,于其中,相邻核苷酸通过磷酸二酯链接而彼此链接。于若干实施方案中,「核酸」是指个别核酸残基(例如,核苷酸及/或核苷)。于若干实施方案中,「核酸」是指包含三个或以上个别核苷酸残基的寡核苷酸链。如于本揭示中使用,术语「寡核苷酸」、「多核苷酸」、及「多核酸」可互换使用来指称核苷酸的聚合物(例如,一串至少三个核苷酸)。于若干实施方案中,「核酸」涵盖RNA以及单股DNA及/或双股DNA。核酸可天然出现于例如,基因体、转录体、mRNA、tRNA、rRNA、siRNA、snRNA、质体、黏接质体、染色体、染色单体、或其它天然出现的核酸分子。另一方面,核酸分子可以是非天然分子,例如,重组DNA或RNA、人造染色体、基因改造基因体、或其片段、或合成DNA、RNA、DNA/RNA杂交体、或包括非天然核苷酸或核苷。又复,术语「核酸」、「DNA」、「RNA」及/或相似术语包括核酸类似物,例如,具有非为磷酸二酯主干的类似物。核酸可纯化自天然来源,使用重组表达系統制造及任选地,经纯化、经化学合成等。当适当时,例如,以化学合成分子为例,核酸可包含核苷类似物,诸如具有化学修饰碱基或糖及主干修饰的类似物。除非另行指示,否则核酸分子是以5’至3’方向呈示。于若干实施方案中,核酸为或包含天然核苷(例如,腺苷、胸腺苷、鸟苷、胞苷、尿苷、去氧腺苷、去氧胸腺苷、去氧鸟苷、及去氧胞苷);核苷类似物(例如,2-氨基腺苷、2-硫杂胸腺苷、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基尿苷、C5-丙炔基胞苷、C5-甲基胞苷、2-氨基腺苷、7-去吖腺苷、7-去吖鸟苷、8-侧氧基腺苷、8-侧氧基鸟苷、O

术语「核苷碱基」、「含氮碱基」、或「碱基」于本揭示文中互换使用,指示含氮生物化合物,其生成核苷,其又转而为核苷酸的组成分。核苷碱基有能力生成碱基对,及彼此堆迭,直接导致长链螺旋状结构,诸如核糖核酸(RNA)及去氧核糖核酸(DNA)。五种核苷碱基,亦即腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)、及尿嘧啶(U),称作一次的或典范的。腺嘌呤及鸟嘌呤是衍生自嘌呤;胞嘧啶、尿嘧啶、及胸腺嘧啶是衍生自嘧啶。DNA及RNA也可含有其它(非初始)已修饰的碱基。已修饰的碱基的非限制性实施例包括次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞苷(m5C)、及5-氢甲基胞苷。次黄嘌呤及黄嘌呤可经由突变原的存在生成,两者皆是通过脱氨(以羰基置换氨基)。次黄嘌呤可修饰自腺嘌呤。黄嘌呤可修饰自鸟嘌呤。尿嘧啶可得自胞嘧啶的脱氨。「核苷」由核苷碱基与五碳糖(核糖或去氧核糖)组成。核苷的实施例包括腺苷、鸟苷、尿苷、胞苷、5-甲基尿苷(m5U)、去氧腺苷、去氧鸟苷、胸腺苷、去氧尿苷、及去氧胞苷。具有修饰核苷碱基的核苷的实施例包括肌苷(I)、黄苷(X)、7-甲基鸟苷(m7G)、二氢尿苷(D)、5-甲基胞苷(m5C)、及假尿苷(Ψ)。「核苷酸」由核苷碱基、五碳糖(核糖或去氧核糖)、及至少一个磷酸基组成。

术语「核酸可编程DNA结合蛋白」或「napDNAbp」可与「多核苷酸可编程核苷酸结合域」互换使用,来指称与核酸(例如,DNA或RNA)相关联的蛋白质,诸如导引核酸,其导引napDNAbp到特定核酸序列。举例言的,Cas9蛋白可与导引RNA相关联,后者导引该Cas9蛋白到与该导引RNA互补的特定DNA序列。于若干实施方案中,napDNAbp为Cas9结构域,例如,核酸酶活性Cas9、Cas9切口酶(nCas9)、或核酸酶失活性Cas9(dCas9)。核酸可编程DNA结合蛋白的实施例包括,但非限制性,Cas9(例如,dCas9及nCas9)、Cas12a/Cpf1、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、及Cas12i。其它核酸可编程DNA结合蛋白也落入本揭示的范围内,但可能并未特别列举于本揭示中。例如,参考Makarovaet al.「CRISPR-Cas系統的分类与命名:带向何方?」(“Classification and Nomenclatureof CRISPR-Cas Systems:Where from Here?”)CRISPR J.2018Oct;1:325-336.doi:10.1089/crispr.2018.0033;Yan et al.,「功能多样化的V型CRISPR-Cas系統」(“Functionally diverse type V CRISPR-Cas systems”)Science.2019Jan 4;363(6422):88-91.doi:10.1126/science.aav7271,其各自全文以引用方式纳入本说明书的揭示。

如于本揭示中使用,术语「核苷碱基编辑域」或「核苷碱基编辑蛋白」是指能催化RNA或DNA中的核苷碱基修饰的蛋白质或酶,诸如,胞嘧啶(或胞苷)至尿嘧啶(或尿苷)或胸腺嘧啶(或胸腺苷)、或腺嘌呤(或腺苷)至次黄嘌呤(或肌苷)脱氨,以及非样板的核苷酸添加与插入。于若干实施方案中,核苷碱基编辑域为脱氨酶域(例如,胞苷脱氨酶、胞嘧啶脱氨酶、腺嘌呤脱氨酶、或腺苷脱氨酶)。于若干实施方案中,核苷碱基编辑域可以是天然核苷碱基编辑域。于若干实施方案中,核苷碱基编辑域可以是自天然核苷碱基编辑域基因改造或演化的核苷碱基编辑域。核苷碱基编辑域可得自任何有机体,诸如细菌、人、黑猩猩、猩猩、猴、牛、犬、大鼠、或小鼠。举例言的,核苷碱基编辑蛋白描述于国际PCT申请案Nos.PCT/2017/045381(WO2018/027078)及PCT/US2016/058344(WO2017/070632),其各自全文以引用方式纳入本说明书的揭示。也请参考Komor,A.C.,et al.,「不含双股DNA分裂的基因体DNA中的标靶碱基的可编程编辑」Nature 533,420-424(2016);Gaudelli,N.M.,et al.,「不含DNA分裂的基因体DNA中的A·T至G·C的可编程碱基编辑」Nature 551,464-471(2017);及Komor,A.C.,et al.,「改良碱基切除修复抑制及有较高效率与产物纯度的噬菌体μGam蛋白质获得C:G-to-T:A碱基编辑器」,Science Advances 3:eaao4774(2017),其全文内容以引用方式纳入本说明书的揭示。

如于本揭示中使用,如于「获得作用剂」中的「获得」包括合成、购买、或以其它方式获得该作用剂。

如于本揭示中使用,「病人」或「个体」是指被确诊患有、带有罹患或发展出疾病或病症的风险、或怀疑罹患或发展出疾病或病症的哺乳类个体或个人。于若干实施方案中,术语「病人」表示带有比发展出疾病或病症的平均机率更高机率的哺乳类个体。病人的实施例可以是人、非人灵长类、猫、犬、猪、牛、猫、马、骆驼、羊驼、山羊、绵羊、啮齿类(例如,小鼠、兔、大鼠、或天竺鼠)及能从本文揭示的疗法获益的其它哺乳类。人类病人的实施例可以是男人及/或女人。

「有需要的病人」或「有需要的个体」于本揭示中是指被确诊患有或怀疑罹患疾病或病症例如,但非仅限于α-1抗胰蛋白酶缺乏症(A1AD)的病人。

术语「病原性突变」、「病原性变异体」、「致病突变」、「致病变异体」、「有害突变」、或「易感染突变」是指基因变更或突变,其增加个人对某个疾病或病症的敏感度或容易感染。于若干实施方案中,病原性突变包含在由基因编码的蛋白质中,至少一个野生型氨基酸由至少一个病原性氨基酸取代。

术语「肽」、「多肽」、「蛋白质」、及其文法同义词于本文揭中中互换使用,及指称通过肽(酰氨)键链接在一起的氨基酸残基的聚合物。该术语指称任何大小、结构、或功能的蛋白质、肽、或多肽。典型地,蛋白质、肽、或多肽至少长三个氨基酸。蛋白质、肽、或多肽可指个别蛋白质或蛋白质集合。蛋白质、肽、或多肽中的一个或多个氨基酸例如可通过添加化学实体加以修饰,诸如碳水化合物基、羟基、磷酸基、法尼基、异法尼基、脂肪酸基、用于接合的链接基、功能化、或其它修饰等。蛋白质、肽、或多肽也可以是单分子,或可以是多分子复合物。蛋白质、肽、或多肽可以只是天然蛋白质或肽的片段。蛋白质、肽、或多肽可以是天然的、重组的、或合成的、或其任何组合。如于本揭示中使用,术语「融合蛋白」是指包含来自至少两个不同蛋白质的蛋白质域的杂交多肽。一个蛋白质可位在融合蛋白的氨基端(N端)部或在羧基端(C端)部,因而分别生成氨基端融合蛋白或羧基端融合蛋白。蛋白质可包含不同域,例如,核酸结合域(例如,导向蛋白质结合到标靶位点的Cas9的gRNA结合域)及核酸分裂域,或核酸编辑蛋白的催化域。于若干实施方案中,蛋白质包含含蛋白质部分,例如,组成核酸结合域的氨基酸序列,及有机化合物,例如能作为核酸分裂剂的化合物。于若干实施方案中,蛋白质是与核酸例如RNA或DNA复合或相关联。本揭示中提供的任何蛋白质可通过业界已知的任何方法制造。举例言的,本揭示中提供的蛋白质可通过重组蛋白质表达与纯化制造,其是特别适用于包含肽链接基的融合蛋白。重组蛋白质表达与纯化方法为众所周知,包括由Green and Sambrook,分子克隆化:实验室手册(4th ed.,Cold Spring HarborLaboratory Press,Cold Spring Harbor,N.Y.(2012))描述者,全文以引用方式纳入本说明书的揭示。

文中揭示的多肽及蛋白质(包括其功能蛋白质及功能变异体)可包含合成氨基酸置换一个或多个天然氨基酸。此等氨基酸为业界已知,包括同型丝氨酸、S-乙酰基氨基甲基-半胱氨酸、反-3-及反-4-羟基脯氨酸、4-氨基苯丙氨酸、4-硝基苯丙氨酸、4-氯苯丙氨酸、4-羧基苯丙氨酸、β-苯基丝氨酸、β-羟基苯丙氨酸、苯基甘氨酸、α-萘基丙氨酸、环己基丙氨酸、环己基甘氨酸、吲哚啉-2-羧酸、1,2,3,4-四氢异喹啉-3-羧酸、氨基丙二酸、氨基丙二酸一酰氨、N’-苄基-N’-甲基-赖氨酸、N’,N’-二苄基-赖氨酸、6-羟基赖氨酸、鸟氨酸、α-氨基环戊烷羧酸、α-氨基环己烷羧酸、α-氨基环庚烷羧酸、α-(2-氨基-2-降冰片烷)-羧酸、α,γ-二氨基丁酸、α,β-二氨基丙酸、同型苯丙氨酸、及α-第三丁基甘氨酸。多肽及蛋白质可与多肽建构体的一个或多个氨基酸的翻译后修饰相关联。翻译后修饰的非限制性实施例包括磷酸化、酰基化包括乙酰基化及甲酰基化、糖基化(包括N-链接及O-链接)、酰氨化、羟基基化、烷基化包括甲基化及乙基化、泛素化、添加吡咯啶酮羧酸、生成双硫桥、硫酸化、肉豆蔻酰化、棕榈酰化、异戊二烯基化、法尼基化、香叶草基化、糖基磷脂酰肌醇化、脂化、及碘化。

术语「多核苷酸可编程核苷酸结合域」是指与核酸(例如,DNA或RNA)相关联的蛋白质,诸如导引多核苷酸(例如,导引RNA),其导引多核苷酸可编程DNA结合域到特定核酸序列。于若干实施方案中,多核苷酸可编程核苷酸结合域为多核苷酸可编程DNA结合域。于若干实施方案中,多核苷酸可编程核苷酸结合域为多核苷酸可编程RNA结合域。于若干实施方案中,多核苷酸可编程核苷酸结合域为Cas9蛋白。Cas9蛋白能与导引RNA相关联,导引RNA导引该Cas9蛋白到具有与该导引RNA互补的特定DNA序列。于若干实施方案中,多核苷酸可编程核苷酸结合域具有Cas9结构域,例如,核酸酶活性Cas9、Cas9切口酶(nCas9)、或核酸酶失活性Cas9(dCas9)。核酸可编程DNA结合蛋白的非限制性实施例包括Cas9(例如,dCas9及nCas9)、Cas12a/Cpf1、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、及Cas12i。Cas的非限制性实施例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(又名Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpf1、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、II型Cas效应物蛋白质、V型Cas效应物蛋白质、VI型Cas效应物蛋白质、CARF、DinG、其同是物、或其已修饰的或经改造的版本。其它核酸可编程DNA结合蛋白也落入本揭示的范围内,但未特定列举于本揭示中。

如于本揭示中使用于蛋白质或核酸上下文,术语「重组」是指不出现在自然界,但属人类工程处理产物的蛋白质或核酸。举例言的,于若干实施方案中,重组蛋白质或核酸分子包含,比较任何天然序列,含有至少一个、至少两个、至少三个、至少四个、至少五个、至少六个、或至少七个突变的氨基酸或核苷酸序列。

「减少」表示至少10%、25%、50%、75%、或100%负向变更。

「参考」表示标准或控制条件。于一个实施方案中,参考为野生型或健康细胞。

「参考序列」表示用作为序列比较基础的已界定的序列。参考序列可以是特定序列的子集或全部,例如,全长cDNA或基因序列的一节段、或完整cDNA或基因序列。针对多肽,参考多肽序列的长度通常为至少约16氨基酸,较佳至少约20氨基酸,更佳至少约25氨基酸,及甚至更佳约35氨基酸,约50氨基酸,或约100氨基酸。针对核酸,参考核酸序列的长度通常为至少约50核苷酸,较佳至少约60核苷酸,更佳至少约75核苷酸,及甚至更佳约100核苷酸,或约300核苷酸,或其附近周围或其间的任何整数。

术语「RNA可编程核酸酶」及「RNA导引核酸酶」是与非为分裂标靶的一个或多个RNA一起使用(例如,结合或相关联)。于若干实施方案中,RNA可编程核酸酶当与RNA复合时,可称作核酸酶:RNA复合物。典型地,结合的RNA被称作导引RNA(gRNA)。gRNA可呈二或多个RNA的复合物存在,或呈单一RNA分子存在。呈单一RNA分子存在的gRNA可称作单导引RNA(RNA),但「gRNA」被互换使用来指称呈单分子或呈二或多个RNA的复合物存在的导引RNA。典型地,呈单一RNA存在的gRNA包含两个域:(1)与标靶核酸分享同源性的域(例如,及导引Cas9复合物结合至标靶);及(2)结合Cas9蛋白的域。于若干实施方案中,域(2)对应到称作tracrRNA的序列,及包含茎环结构。举例言的,于若干实施方案中,域(2)是与tracrRNA相同或同源,如提供于Jinek et ah,Science 337:816-821(2012),全文以引用方式纳入本说明书的揭示。gRNA(例如,包括域2者)的其它实施例参考美国临时专利申请案U.S.S.N.61/874,682,提申日期2013年9月6日,名称「可切换Cas9核酸酶及其用途」("Switchable Cas9Nucleases And Uses Thereof,")及美国临时专利申请案U.S.S.N.61/874,746,提申日期2013年9月6日,名称「功能性核酸酶的递送系統」("Delivery System For FunctionalNucleases,"),全文以引用方式纳入本说明书的揭示。于若干实施方案中,gRNA包含域(1)及域(2)中的二或多者,可称作「扩延的gRNA」。举例言的,如于本文描述,扩延的gRNA将例如,在二或多个分开区结合二或多个Cas9蛋白及结合标靶核酸。gRNA包含与标靶位点互补的核苷酸序列,其媒介核酸酶/RNA复合物结合到标靶位点,提供核酸酶:RNA复合物的序列特异性。于若干实施方案中,RNA可编程核酸酶为(CRISPR相关联系統)Cas9核酸内切酶,例如得自化脓性链球菌的Cas9(Csnl)(例如,参考「化脓性链球菌Ml菌株的完整基因体序列」("Complete genome sequence of an Ml strain ofStreptococcus pyogenes.")Ferretti J.J.,McShan W.M.,Ajdic D.J.,Savic D.J.,Savic G.,Lyon K.,Primeaux C,Sezate S.,Suvorov A.N.,Kenton S.,Lai H.S.,Lin S.P.,Qian Y.,Jia H.G.,NajarF.Z.,Ren Q.,Zhu H.,Song L.,White J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlinR.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);「通过转编码小分子RNA及宿主因素RNase III的CRISPR RNA成熟」("CRISPR RNA maturation by trans-encoded smallRNA and host factor RNase III.")Deltcheva E.,Chylinski K.,Sharma CM.,GonzalesK.,Chao Y.,Pirzada Z.A.,Eckert M.R.,Vogel J.,Charpentier E.,Nature 471:602-607(2011))。

「SERPINA1多核苷酸」表示编码A1AT蛋白质或其片段的核酸分子。以NCBIAccession NO.NM_000295可得的SERPINA1多核苷酸的实施例序列提供如下:

与PAM序列互补的碱基位置以斜体加双下方画线显示。在位置1455的G(其是与在位置1455的标靶C互补)是以粗体加下方画线指示。

术语「单核苷酸多形性(SNP)」为出现在基因体特定位置的单核苷酸变异,于其中各个变异是存在至族群内部某个可感知的程度(例如,>1%)。举例言的,于人基因体中的特定碱基位置,C核苷酸可出现在大多数个体,但于少数个体,该位置是由A占据。如此表示在此特定位置有个SNP,两个可能的核苷酸变异,C或A,为此位置的等位基因。SNP乃构成对疾病(宽广范围的人类疾病)易感度的差异基础。病情严重程度与身体对治疗的反应也是基因变异的表征。SNP可落入于基因写码区、基因非写码区、或基因间区(基因中间区)。于若干实施方案中,写码序列内部的SNP并非必然改变蛋白质的氨基酸序列,该蛋白质是因遗传密码的简并所制造。写码区的SNP分成两个类型:同义SNP及非同义SNP。同义SNP不影响蛋白质序列,而非同义SNP改变蛋白质的氨基酸序列。非同义SNP分成两个类型:错义及无义。不在蛋白质写码区的SNP仍可能影响基因拼接、转录因子结合、传讯RNA降级、或编码RNA的序列。受此型SNP影响的基因表达,称作为eSNP(表达SNP),可在基因的上游或下游。单核苷酸变异体(SNV)为单核苷酸中的变异而无任何频率限制,且可能出现在体细胞。体单核苷酸变异(例如,因癌症造成)又称单核苷酸变更。

「特异性结合」表示核酸分子、多肽、或其复合物(例如,核酸可编程DNA结合域及导引核酸)、化合物、或分子,其辨识与结合本发明的多肽及/或核酸分子,但其实质上不会辨识与结合样本(例如,生物样本)中的其它分子。

本发明方法中有用的核酸分子包括编码本发明的多肽或其片段的核酸分子。此等核酸分子无需与内生性核酸序列百分的百相同,但将典型地具有实质相同度。对内生序列有「实质相同度」的多核苷酸典型地能与双股核酸分子的至少一股杂交。本发明方法有用的核酸分子包括编码本发明的多肽或其片段的核酸分子。此等核酸分子无需与内生性核酸序列百分的百相同,但将典型地具有实质相同度。对内生序列有「实质相同度」的多核苷酸典型地能与双股核酸分子的至少一股杂交。「杂交」表示配对以在各种严苛度条件下,在互补多核苷酸序列(例如,本文描述的基因)间生成双股分子,或其部分(例如,参考Wahl,G.M.and S.L.Berger(1987)酶学方法(Methods Enzymol.)152:399;Kimmel,A.R.(1987)酶学方法(Methods Enzymol.)152:507)。

举例言的,严苛盐浓度通常将低于约750mM NaCl及75mM柠檬酸三钠,较佳低于约500mM NaCl及50mM柠檬酸三钠,及更佳低于约250mM NaCl及25mM柠檬酸三钠。低严苛度杂交可于不存在有有机溶剂(例如,甲酰氨)下获得,而高严苛度杂交可于至少约35%甲酰氨的存在下获得,及更佳至少约50%甲酰氨。严苛温度条件通常包括至少约30℃的温度,更佳至少约37℃,及最佳至少约42℃。各种额外参数,诸如杂交时间、清洁剂(例如,硫酸十二烷酯钠(SDS))的浓度、及涵括或排除载体DNA,为熟谙技艺人士众所周知。各种不同的严苛程度是视需要通过组合此等各种条件达成。于较佳实施方案中,杂交将发生于30℃于750mMNaCl,75mM柠檬酸三钠,及1%SDS。于更佳实施方案中,杂交将发生于37℃于500mM NaCl,50mM柠檬酸三钠,1%SDS,35%甲酰氨,及100μg/ml变性鲑鱼精子(ssDNA)。于最佳实施方案中,杂交将发生于42℃于250mM NaCl,25mM柠檬酸三钠,1%SDS,50%甲酰氨,及200μg/mlssDNA。此等条件的有用变化将为业界熟谙技艺人士显然易知。

针对大部分应用,杂交后的洗涤步骤严苛度也将各异。洗涤严苛度条件可通过盐浓度及通过温度界定。如前述,洗涤严苛度可通过减低盐浓度及通过升高温度而提升。举例言的,洗涤步骤的严苛盐浓度较佳低于约30mM NaCl及3mM柠檬酸三钠;及最佳低于约15mMNaCl及1.5mM柠檬酸三钠。洗涤步骤的严苛温度通常包括至少约25℃的温度,更佳至少约42℃,及甚至更佳至少约68℃。于较佳实施方案中,洗涤步骤将发生于25℃于30mM NaCl,3mM柠檬酸三钠,及0.1%SDS。于更佳实施方案中,洗涤步骤将发生于42℃于15mM NaCl,1.5mM柠檬酸三钠,及0.1%SDS。于更佳实施方案中,洗涤步骤将发生于68℃于15mM NaCl,1.5mM柠檬酸三钠,及0.1%SDS。此等条件的额外变化将为业界熟谙技艺人士显然易知。杂交技术为业界熟谙技艺人士众所周知,描述于例如,Benton and Davis(Science 196:180,1977);Grunstein and Hogness(Proc.Natl.Acad.Sci.,USA 72:3961,1975);Ausubel et al.(分子生物学现行规范(Current Protocols in Molecular Biology),Wiley Interscience,New York,2001);Berger and Kimmel(分子克隆化技术指南(Guide to MolecularCloning Techniques),1987,Academic Press,New York);及Sambrook et al.,分子克隆化:实验室手册,Cold Spring Harbor Laboratory Press,New York。

「个体」表示哺乳类,包括但非限于人或非人哺乳类,诸如牛、马、犬、羊、或猫。

「实质上相同」表示与参考氨基酸序列(例如,本文描述的氨基酸序列中的任一者)或核酸序列(例如,本文描述的核酸序列中的任一者)具有至少50%相同度的多肽或核酸分子。较佳地,此种序列在氨基酸层级或核酸与用于比较的序列有至少60%,更佳地80%或85%,及更佳地90%、95%、或甚至99%相同。

序列相同度典型是使用序列分析软体测定(例如,遗传学电脑小组序列分析套装软体(Sequence Analysis Software Package of the Genetics Computer Group),威斯康辛大学生技中心,1710University Avenue,Madison,Wis.53705、BLAST、BESTFIT、GAP、或PILEUP/PRETTYBOX编程)。此软体通过对各项取代、缺失、及/或其它修饰指定同源程度,而配对相同的或相似的序列。保守性取代典型地包括以下各项组群内部的取代:甘氨酸、丙氨酸、缬氨酸、异白氨酸、白氨酸;天冬酸、麸酰氨酸;天冬酰氨、麸氨酸;丝氨酸、苏氨酸;赖氨酸、精氨酸;及苯丙氨酸、酪氨酸。于相同度测定的方法实施例中,可使用BLAST编程,具有e

术语「标靶位点」是指通过核苷碱基编辑器修饰的核酸分子内部的一序列。于一个实施方案中,标靶位点是通过脱氨酶或包含脱氨酶(例如,胞苷脱氨酶或腺苷脱氨酶)的融合蛋白脱氨。

因RNA可编程核酸酶(例如,Cas9)使用RNA:DNA杂交来靶定DNA分裂位点,故原则上,此等蛋白质能被靶定到由导引RNA所特定的任何序列。使用RNA可编程核酸酶,诸如,Cas9用于位点特异性分裂(例如,以修饰基因体)为业界所已知(例如,参考Cong,L.et ah,使用CRISPR/Cas系統的多工基因体改造(Multiplex genome engineering using CRISPR/Cas systems).Science 339,819-823(2013);Mali,P.et ah,通过Cas9 RNA导引的人基因体改造(RNA-guided human genome engineering via Cas9).Science 339,823-826(2013);Hwang,W.Y.et ah,使用CRISPR-Cas系統于斑马鱼的有效基因体编辑(Efficientgenome editing in zebrafish using a CRISPR-Cas system).Nature biotechnology31,227-229(2013);Jinek,M.et ah,于人类细胞的RNA编程基因体编辑(RNA-programmedgenome editing in human cells).eLife 2,e00471(2013);Dicarlo,J.E.et ah,使用CRISPR-Cas系統于酿酒酵母的基因体改造(Genome engineering in Saccharomycescerevisiae using CRISPR-Cas system)s.Nucleic acids research(2013);Jiang,W.etah使用CRISPR-Cas系統的细菌基因体的RNA导引编辑(RNA-guided editing of bacterialgenomes using CRISPR-Cas systems).Nature biotechnology 31,233-239(2013);其各自全文以引用方式纳入本说明书的揭示)。

如于本揭示中使用,术语「疗法」、「治疗」或其文法同义词是指获得期望的药理及/或生理功效。于若干实施方案中,功效为治疗性的,亦即,该功效部分地或完全地治愈疾病及/或归因于该病的不良症状。于若干实施方案中,功效为预防性的,亦即,该功效防止疾病或病况的发生或复发。为了达成此目的,本揭示方法包含投予治疗上有效量的如本文描述的组合物。

「尿嘧啶糖基化酶抑制剂」表示尿嘧啶切除修复系統的抑制剂。于一个实施方案中,该抑制剂为蛋白质或其片段,其结合宿主尿嘧啶-DNA糖基化酶,及阻止尿嘧啶残基自DNA移除。

须了解本揭示中提供的范围为在该范围内全部数值的简略。举例言的,须了解1至50的范围包括得自由1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、或50所组成的组群中的任何数字、数字的组合、或子范围。

于本揭示中的变数的任何定义中,化学基团表单的逐一列举包括该变数作为任何单一基团或列举基团的组合的定义。本揭示中的变数或态样的实施方案的引述包括该实施方案作为单一实施方案或与任何其它实施方案或其部分组合。

本揭示中提供的任何组合物或方法能与本揭示中提供的任何其它组合物或方法中的一或多者组合。

DNA编辑已变成通过校正基因层级的病原性突变来修饰疾病状态的可行办法。直到晚近,全部DNA编辑平台的发挥功能方式,是通过诱导于特定基因体位点的DNA双股断裂(DSB),及仰赖内生性DNA修复路径而以半随机方式判定产物结果,结果导致基因产物的复杂族群。虽然通过同源导向修复(HDR)途径,能达成精准的用户界定的修复结果,但有许多挑战阻止使用HDR的高效修复于治疗上相关细胞类型。实际上,此途径相较于竞争性的易出错的非同源端接合途径较为无效。又,HDR高度受限于细胞周期的G1期及S期,妨碍有丝分裂后细胞的DSB的精准修复。结果,已证实于此等族群中,难以或不可能以用户界定的可编程方式来变更基因体序列。

核苷碱基编辑器

文中揭示者为用来编辑、修饰、或变更多核苷酸的标靶核苷酸序列的碱基编辑器或核苷碱基编辑器。本文描述者为包含多核苷酸可编程核苷酸结合域或核苷碱基编辑域的核苷碱基编辑器或碱基编辑器。多核苷酸可编程核苷酸结合域,当连同结合的导引多核苷酸(例如,gRNA)时,能特异性地结合到标靶多核苷酸序列(换言的,通过结合的导引核酸的碱基与标靶多核苷酸序列的碱基间的互补碱基配对),因而将碱基编辑器定位到期望被编辑的标靶核酸序列。于若干实施方案中,标靶多核苷酸序列包含单股DNA或双股DNA。于若干实施方案中,标靶多核苷酸序列包含RNA。于若干实施方案中,标靶多核苷酸序列包含DNA-RNA融合体。

多核苷酸可编程核苷酸结合域

术语「多核苷酸可编程核苷酸结合域」是指与核酸(例如,DNA或RNA)相关联的蛋白质,诸如导引多核苷酸(例如,导引RNA),其导引该多核苷酸可编程核苷酸结合域到特定核酸序列。于若干实施方案中,多核苷酸可编程核苷酸结合域为多核苷酸可编程DNA结合域。于若干实施方案中,多核苷酸可编程核苷酸结合域为多核苷酸可编程RNA结合域。于若干实施方案中,多核苷酸可编程核苷酸结合域为Cas9蛋白。于若干实施方案中,多核苷酸可编程核苷酸结合域为Cpf1蛋白。

CRISPR为适应性免疫系統,其提供对抗移动式遗传元体(病毒、可置换元体、及接合质体)的保护。CRISPR簇集含有间隔基、祖先移动式元体的互补序列、及标靶入侵核酸。CRISPR簇集被转录与处理成CRISPR RNA(crRNA)。于II型CRISPR系統中,pre-crRNA的正确处理要求转编码小分子RNA(tracrRNA)、内生性核糖核酸酶3(rnc)、及Cas9蛋白。tracrRNA用作为pre-crRNA的核糖核酸酶3辅助处理的导引。随后,Cas9/crRNA/tracrRNA核酸内切地劈裂与间隔基互补的线性或环状dsDNA标靶。与crRNA不互补的标靶股首先通过核酸内切地切割,及然后通过核酸外切地3’-5’修整。自然界中,DNA结合与DNA劈裂典型地要求蛋白质及两种RNA。然而,单导引RNA(「sgRNA」或简称「gRNA」)可经基因改造,而将crRNA及tracrRNA两者的态样结合入单一种RNA。例如,参考Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,Charpentier E.Science 337:816-821(2012),全文以引用方式纳入本说明书的揭示。Cas9辨识CRISPR重复序列中的短基元(PAM或原间隔基相邻基元)以辅助区别自身与非自身。

Cas9核酸酶序列及结构为业界熟谙技艺人士众所周知(例如,参考「化脓性链球菌M1菌株的完整基因体序列」Ferretti J.J.,McShan W.M.,Ajdic D.J.,Savic D.J.,SavicG.,Lyon K.,Primeaux C,Sezate S.,Suvorov A.N.,Kenton S.,Lai H.S.,Lin S.P.,QianY.,Jia H.G.,Najar F.Z.,Ren Q.,Zhu H.,Song L.,White J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlin R.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);「通过转编码小分子RNA及宿主因素RNase III的CRISPR RNA成熟」Deltcheva E.,Chylinski K.,Sharma CM.,Gonzales K.,Chao Y.,Pirzada Z.A.,Eckert M.R.,Vogel J.,CharpentierE.,Nature 471:602-607(2011);及「适应性细菌性免疫中可编程双-RNA导引的DNA核酸内切酶」(“A programmable dual-RNA-guided DNA endonuclease in adaptive bacterialimmunity.”)Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,CharpentierE.Science 337:816-821(2012),各自全文以引用方式纳入本说明书的揭示)。Cas9同源基因已描述于各种种属,包括但非仅限于化脓性链球菌及嗜热链球菌(S.thermophilus)。基于本文揭示,额外合宜的Cas9核酸酶及序列为熟谙技艺人士显然易知,此等Cas9核酸酶及序列包括得自有机体的Cas9序列及基因座,其是揭示于Chylinski,Rhun,andCharpentier,「II型CRISPR-Cas免疫系統的tracrRNA及Cas9家族」(“The tracrRNA andCas9 families of type II CRISPR-Cas immunity systems”)(2013)RNA Biology 10:5,726-737,全文以引用方式纳入本说明书的揭示。

于若干态样中,核酸可编程DNA结合蛋白(napDNAbp)为Cas9结构域。Cas9结构域的非限制性实施例提供于本揭示文。Cas9结构域可以是核酸酶活性Cas9结构域、核酸酶失活性Cas9结构域、或Cas9切口酶。于若干实施方案中,Cas9结构域为核酸酶活性域。举例言的,Cas9结构域可以是切割二倍体核酸的两股(二倍体DNA分子的两股)的Cas9结构域。于若干实施方案中,Cas9结构域包含如本揭示阐明的氨基酸序列中的任一者。于若干实施方案中,Cas9结构域包含氨基酸序列,其与如本揭示阐明的氨基酸序列中的任一者为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。于若干实施方案中,Cas9结构域包含氨基酸序列,其比较如本揭示阐明的氨基酸序列中的任一者,具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或以上或以上个突变。于若干实施方案中,Cas9结构域包含氨基酸序列,其比较如本揭示阐明的氨基酸序列中的任一者具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100、或至少1200个相同的相邻氨基酸残基。

于若干实施方案中,Cas9核酸酶具有失活性(例如,失活化的)DNA分裂域,换言的,Cas9为切口酶。核酸酶失活化的Cas9蛋白可互换称作「dCas9」蛋白(用于核酸酶死亡Cas9)。具有失活性DNA分裂域的Cas9蛋白(或其片段)的生成方法为已知(例如,参考Jinek et al,Science.337:816-821(2012);Qi et al,「再利用CRISPR作为用于基因表达的特定序列控制的RNA导引平台」(“Repurposing CRISPR as an RNA-Guided Platform for Sequence-Specific Control of Gene Expression”)(2013)Cell.28;152(5):1173-83,各自全文以引用方式纳入本说明书的揭示)。举例言的,Cas9的DNA分裂域已知包括两个子域,HNH核酸酶子域及RuvC1子域。HNH子域劈裂gRNA的互补股,而RuvC1子域劈裂非互补股。此等子域内部的突变可压制Cas9的核酸酶活性。举例言的,突变D10A及H840A完全失活化化脓性链球菌Cas9的核酸酶活性(Jinek et al,Science.337:816-821(2012);Qi et al,Cell.28;152(5):1173-83(2013))。于若干实施方案中,Cas9核酸酶具有失活性(例如,失活化)DNA分裂域,换言的,Cas9为切口酶,称作为「nCas9」蛋白质(用于「切口酶」Cas9)。于若干实施方案中,提供包含Cas9的片段的蛋白质。举例言的,于若干实施方案中,蛋白质包含两个Cas9结构域中的一者:(1)Cas9的gRNA结合域;或(2)Cas9的DNA分裂域。于若干实施方案中,包含Cas9或其片段的蛋白质称作「Cas9变异体」。Cas9变异体分享与Cas9或其片段的同源性。举例言的,Cas9变异体是与野生型Cas9至少约70%相同,至少约80%相同,至少约90%相同,至少约95%相同,至少约96%相同,至少约97%相同,至少约98%相同,至少约99%相同,至少约99.5%相同,或至少约99.9%相同。于若干实施方案中,比较野生型Cas9,Cas9变异体可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或以上个氨基酸改变。于若干实施方案中,Cas9变异体包含Cas9的一片段(例如,gRNA结合域或DNA分裂域),以致于该片段与野生型Cas9的相应片段为至少约70%相同,至少约80%相同,至少约90%相同,至少约95%相同,至少约96%相同,至少约97%相同,至少约98%相同,至少约99%相同,至少约99.5%相同,或至少约99.9%相同。于若干实施方案中,该片段为相应野生型Cas9的氨基酸长度的至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%identical、至少96%、至少97%、至少98%、至少99%、或至少99.5%。于若干实施方案中,该片段至少长100氨基酸。于若干实施方案中,该片段为至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250,或至少长1300氨基酸。

于若干实施方案中,野生型Cas9对应于得自化脓性链球菌的Cas9(NCBIReference Sequence:NC_017053.1,核苷酸序列及氨基酸序列如下)。

于若干实施方案中,野生型Cas9对应到、或包含如下核苷酸及/或氨基酸序列:

于若干实施方案中,野生型Cas9对应于得自化脓性链球菌的Cas9(NCBI参考序列:NC_002737.2(核苷酸序列如下);及Uniprot参考序列:Q99ZW2(氨基酸序列如下)。

于若干实施方案中,Cas9是指得自以下各项的Cas9:溃疡棒状杆菌(Corynebacterium ulcerans)(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒状杆菌(Corynebacterium diphtheria)(NCBI Refs:NC_016782.1,NC_016786.1);栖蚜蝇螺原体(Spiroplasma syrphidicola)(NCBI Ref:NC_021284.1);中间普雷沃菌(Prevotellaintermedia)(NCBI Ref:NC_017861.1);栖虻螺原体(Spiroplasma taiwanense)(NCBIRef:NC_021846.1);海豚链球菌(Streptococcus iniae)(NCBI Ref:NC_021314.1);波罗的海贝尔氏菌(Belliella baltica)(NCBI Ref:NC_018010.1);嗜热海洋弯曲菌I(Psychroflexus torquisI)(NCBI Ref:NC_018721.1);嗜热链球菌(Streptococcusthermophilus)(NCBI Ref:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBI Ref:NP_472073.1);空肠弯曲菌(Campylobacter jejuni)(NCBI Ref:YP_002344900.1);或脑膜炎奈瑟氏菌(Neisseria meningitidis)(NCBI Ref:YP_002342100.1),或是指得自任何其它有机体的Cas9。

于若干实施方案中,dCas9对应于,或部分或全部包含,具有失活化Cas9核酸酶活性的一个或多个突变的Cas9氨基酸序列。除非另行陈明,否则Cas9是相对于野生型参考序列标示。举例言的,于若干实施方案中,dCas9结构域包含D10A及H840A突变、或在另一Cas9中的对应突变。于若干实施方案中,dCas9结构域包含dCas9的氨基酸序列(D10A及H840A)。

于若干实施方案中,Cas9结构域包含D10A突变,而在位置840的残基保持于如上提供的氨基酸序列中的组氨酸,或在本揭示中提供的氨基酸序列中的任一者中的对应位置。

于其它实施方案中,提供具有D10A及H840A以外的突变的dCas9变异体,其例如导致核酸酶失活化的Cas9(dCas9)。举例言的,此等突变包括在D10A及H840A的其它氨基酸取代,或在Cas9核酸酶域中的其它取代(例如,于HNH核酸酶子域及/或RuvC1子域的取代)。于若干实施方案中,提供dCas9的变异体或同是物,其为至少约70%相同,至少约80%相同,至少约90%相同,至少约95%相同,至少约98%相同,至少约99%相同,至少约99.5%相同,或至少约99.9%相同。于若干实施方案中,提供具有更短的或更长的氨基酸序列,达约5氨基酸,达约10氨基酸,达约15氨基酸,达约20氨基酸,达约25氨基酸,达约30氨基酸,达约40氨基酸,达约50氨基酸,达约75氨基酸,达约100氨基酸的dCas9变异体。

于若干实施方案中,如于本揭示中提供的Cas9融合蛋白包含Cas9蛋白的全长氨基酸序列,例如,本揭示中提供的Cas9序列的一。然而,于其它实施方案中,如本揭示中提供的融合蛋白不包含全长Cas9序列,反而只含一个或多个Cas9片段。合宜Cas9结构域及Cas9片段的氨基酸序列实施例提供于本揭示,其它合宜Cas9结构域及Cas9片段的序列将为熟谙技艺人士显然易知。

Cas9蛋白可与导引RNA相关联,后者导引Cas9蛋白到与该导引RNA互补的特定DNA序列。于若干实施方案中,多核苷酸可编程核苷酸结合域为Cas9结构域,例如,核酸酶活性Cas9、Cas9切口酶(nCas9)、或核酸酶失活性Cas9(dCas9)。核酸可编程DNA结合蛋白的实施例包括,但非限制性,Cas9(例如,dCas9及nCas9)、CasX、CasY、Cpf1、Cas12b/C2c1、及Cas12c/C2c3。

核酸酶失活化Cas9蛋白可互换称作「dCas9」蛋白质(用于核酸酶-「死亡」Cas9)或催化失活化Cas9。具有失活性DNA分裂域的Cas9蛋白(或其片段)的生成方法为已知(例如,参考Jinek et al,Science.337:816-821(2012);Qi et al,「再利用CRISPR作为用于基因表达的特定序列控制的RNA导引平台」(2013)Cell.28;152(5):1173-83,各自全文以引用方式纳入本说明书的揭示)。举例言的,Cas9的DNA分裂域已知包括两个子域,HNH核酸酶子域及RuvC1子域。HNH子域劈裂gRNA的互补股,而RuvC1子域劈裂非互补股。此等子域内部的突变可压制Cas9的核酸酶活性。举例言的,突变D10A及H840A完全失活化化脓性链球菌Cas9的核酸酶活性(Jinek et al,Science.337:816-821(2012);Qi et al,Cell.28;152(5):1173-83(2013))。作为一个实施例,核酸酶失活化Cas9结构域包含克隆化载体pPlatTET-gRNA2(Accession No.BAV54124)中陈述的氨基酸序列。

催化失活化Cas9(dCas9)的实施例的氨基酸序列如下:

催化Cas9切口酶(nCas9)的实施例的氨基酸序列如下:

催化活化Cas9的实施例的氨基酸序列如下:

于若干实施方案中,Cas9是指得自古菌(例如,奈米古菌)的Cas9,其构成单细胞原核微生物领域及界。于若干实施方案中,可编程核苷酸结合蛋白可以是CasX或CasY蛋白,其已描述于例如,Burstein et al.,「得自野生微生物的新颖CRISPR-Cas系統」("NewCRISPR-Cas systems from uncultivated microbes.")Cell Res.2017Feb 21.doi:10.1038/cr.2017.21,全文以引用方式纳入本说明书的揭示。利用基因体已解析的元基因体学,识别出多种CRISPR-Cas系統,包括于古菌生命领域中首度报告的Cas9。此分歧的Cas9蛋白出现在极少研究的奈米古菌,作为CRISPR-Cas系統的一部分。于细菌,探索两个先前未知的系統,CRISPR-CasX及CRISPR-CasY,其属于尚未被探索的最密集紧凑的系統。于若干实施方案中,于本文描述的碱基编辑器系統中,Cas9由CasX或CasX的变异体置换。于若干实施方案中,于本文描述的碱基编辑器系統中,Cas9由CasY或CasY的变异体置换。须了解其它RNA导引的DNA结合蛋白可被使用作核酸可编程DNA结合蛋白(napDNAbp),及是落入本文揭示的范围内。

于若干实施方案中,可编程核苷酸结合蛋白,于本揭示中又称核酸可编程DNA结合蛋白(napDNAbp),为CasX蛋白。于若干实施方案中,可编程核苷酸结合蛋白为CasY蛋白。于若干实施方案中,可编程核苷酸结合蛋白包含氨基酸序列,其与天然CasX或CasY蛋白为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。于若干实施方案中,可编程核苷酸结合蛋白为天然CasX蛋白或CasY蛋白。于若干实施方案中,可编程核苷酸结合蛋白包含氨基酸序列,其与本文描述的CasX蛋白或CasY蛋白为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。须了解根据本文揭示,也可使用得自其它菌种的CasX及CasY。

CasX((uniprot.org/uniprot/F0NN87;uniprot.org/uniprot/F0NH53)tr|F0NN87|F0NN87_SULIHCRISPR-相关联CasX蛋白OS=冰岛硫化叶菌(Sulfolobus islandicus)(种是HVE10/4)GN=SiH_0402PE=4SV=1)氨基酸序列的一实施例如下:

CasX(>tr|F0NH53|F0NH53_SULIR CRISPR相关联蛋白质,Casx OS=冰岛硫化叶菌(Sulfolobus islandicus)(种是REY15A)GN=SiRe_0771PE=4SV=1)氨基酸序列的一实施例如下:

δ-变形菌(Deltaproteobacteria)CasX

CasY((ncbi.nlm.nih.gov/protein/APG80656.1)>APG80656.1CRISPR-相关联蛋白质CasY[野生Parcubacteria类细菌])氨基酸序列的一实施例如下:

于若干实施方案中,核酸可编程DNA结合蛋白(napDNAbp)乃微生物CRISPR-Cas系統的单一效应物。微生物CRISPR-Cas系統的单一效应物包括,但非仅限于Cas9、Cpf1、Cas12b/C2c1、及Cas12c/C2c3。典型地,微生物CRISPR-Cas系統分成第1类系統及第2类系統。第1类系統具有多子单元效应物复合物,而第2类系統具有单一蛋白质效应物。举例言的,Cas9及Cpf1为第2类系統。除了Cas9及Cpf1的外,三种分开的第2类CRISPR-Cas系統(Cas12b/C2c1、及Cas12c/C2c3)已描述于Shmakov et al.,「分歧的第2类CRISPR-Cas系統的探索与功能特征化」(“Discovery and Functional Characterization of DiverseClass 2CRISPR Cas Systems”,)Mol.Cell,2015Nov.5;60(3):385-397,全文以引用方式纳入本说明书的揭示。该系統中的两者的效应物Cas12b/C2c1、及Cas12c/C2c3含有Cpf1相关的RuvC状的核酸内切酶域。第三系統含有具两个预测HEPN RNase域的效应物。成熟CRISPRRNA的制造是与tracrRNA独立无关,不像通过Cas12b/C2c1制造CRISPR RNA。Cas12b/C2c1依赖CRISPR RNA及tracrRNA两者来进行DNA分裂。

业已报告酸土脂环酸芽孢杆菌(Alicyclobaccillus acidoterrastris)Cas12b/C2c1(AacC2c1)的晶体结构复合嵌合体单分子导引RNA(sgRNA)。例如参考Liu et al.,「C2c1-sgRNA复合结构显示RNA导引DNA分裂机转」(“C2c1-sgRNA Complex StructureReveals RNA-Guided DNA Cleavage Mechanism”,)Mol.Cell,2017Jan.19;65(2):310-322,全文以引用方式纳入本说明书的揭示。晶体结构也已报告于酸土脂环酸芽孢杆菌C2c1结合到标靶DNA成三元复合物。例如,参考Yang et al.,「通过C2C1 CRISPR-Cas的PAM依赖型标靶DNA的辨识与分裂」(“PAM-dependent Target DNA Recognition and Cleavage byC2C1 CRISPR-Cas endonuclease”,)Cell,2016Dec.15;167(7):1814-1828,全文以引用方式纳入本说明书的揭示。带有标靶与非标靶DNA股两者的AacC2c1的催化合格构象,已知独立位在单一RuvC催化口袋内,以Cas12b/C2c1媒介的分裂,结果导致标靶DNA的交错的7-核苷酸断裂。Cas12b/C2c1三元复合物与先前辨识的Cas9及Cpf1对偶部分间的结构比较,验证CRISPR-Cas系統使用机转的多样性。

于若干实施方案中,本揭示中提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是Cas12b/C2c1蛋白,或是Cas12c/C2c3蛋白。于若干实施方案中,napDNAbp是Cas12b/C2c1蛋白。于若干实施方案中,napDNAbp是Cas12c/C2c3蛋白。于若干实施方案中,napDNAbp包含氨基酸序列,其与天然Cas12b/C2c1蛋白或Cas12c/C2c3蛋白为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。于若干实施方案中,napDNAbp为天然Cas12b/C2c1蛋白或Cas12c/C2c3蛋白。于若干实施方案中,napDNAbp包含氨基酸序列,其与本揭示中提供的napDNAbp序列中的任一者为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。须了解根据本文揭示也可使用得自它种细菌的Cas12b/C2c1或Cas12c/C2c3。

Cas12b/C2c1((uniprot.org/uniprot/T0D7A2#2)sp|T0D7A2|C2C1_AL IAGCRISPR-相关联核酸内切酶C2c1 OS=酸土脂环酸芽孢杆菌(Alicyclobacillus acido-terrestris)(strain ATCC 49025/DSM3922/CIP 106132/NCIMB 13137/GD3B)GN=c2c1 PE=1SV=1)氨基酸序列的一实施例如下:

BhCas12b好热芽孢杆菌(Bacillus hisashii)NCBI参考序列:WP_095142515

于若干实施方案中,Cas12b为BvCas12B,其乃BhCas12b的变异体,及包含BhCas12B相关的以下各项变化:S893R、K846R、及E837G。

BvCas12b(芽孢杆菌属(Bacillus sp.)V3-13)NCBI参考序列:WP_101661451.1

须了解多核苷酸可编程核苷酸结合域也可包括结合RNA的核酸可编程蛋白。举例言的,多核苷酸可编程核苷酸结合域可与核酸相关联,该核酸其导引多核苷酸可编程核苷酸结合域到RNA。其它核酸可编程DNA结合蛋白也落入本文揭示的范围内,但并未特定列举于本揭示中。

本揭示中可使用的Cas蛋白包括第1类及第2类。Cas蛋白的非限制性实施例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas9(又名Csn1或Csx12)、Cas10、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、and Cas12i、CARF、DinG、其同是物、或其修饰版本。未修饰的CRISPR酶能具有DNA劈裂活性,诸如Cas9,其具有两个功能性核酸内切酶域:RuvC及HNH。CRISPR酶能指导在标靶序列的一股或两股的劈裂,诸如于标靶序列内部及/或于标靶序列的补体内部。举例言的,CRISPR酶能指导在距标靶序列的第一个或最末个核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500、或以上个碱基对以内的一股或两股的劈裂。

可使用一种载体,其编码CRISPR酶,其是相对于对应野生型酶,突变到以致于已突变的CRISPR酶缺乏能力来劈裂含标靶序列的标靶多核苷酸的一股或两股。Cas9可指具有与野生型Cas9多肽实施例(例如,得自化脓性链球菌的Cas9)至少或至少约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%序列相同度及/或序列同源性的多肽。Cas9可指称具有与野生型Cas9多肽实施例(例如,得自化脓性链球菌的Cas9)至多或至多约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%序列相同度及/或序列同源性的多肽。Cas9可指Cas9蛋白的野生型或修饰型,其能包含氨基酸变化,诸如缺失、插入、取代、变异、突变、融合、嵌合、或其任何组合。

于若干实施方案中,本文描述的方法可运用遗传工程改造的Cas蛋白。导引RNA(gRNA)为由Cas结合所需骨架序列及用户界定的约20核苷酸间隔基(其界定欲被修饰的基因体标靶)组成的短合成RNA。于若干实施方案中,骨架包含GUUUUAGAGC UAGAAAUAGCAAGUUAAAAU AAGGCUAGUC CGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU。熟谙技艺人士能否改变Cas蛋白特异性的基因体标靶,是由针对基因体标靶比较基因体其余部分,gRNA靶定序列针对基因体标靶的特异性如何而部分决定。

Cas9核酸酶具有两个功能性核酸内切酶域:RuvC及HNH。当标靶结合时,其将核酸酶域定位来劈裂标靶DNA的相反股,Cas9进行第二构象变化。Cas9媒介的DNA分裂的最终结果为标靶DNA(PAM序列上游约3-4个核苷酸)内部的双股断裂(DSB)。然后,结果导致的DSB是通过两种通用修复路径的一修复:(1)有效但易患错误的非同源终端接合(NHEJ)路径,或(2)较非有效但高度保真的同源导向修复(HDR)路径。

非同源终端接合(NHEJ)及/或同源导向修复(HDR)的「效率」可通过任何方便方法求出。举例言的,于有些情况下,效率可以成功的HDR百分比表示。举例言的,检验员核酸酶分析试验可使用来生成劈裂产物,产物对酶基质的比可使用来计算百分比。举例言的,检验员核酸酶分析试验可使用来直接劈裂DNA,该DNA为因成功的HDR结果而含有新整合限剪序列的DNA。更多被劈裂的酶基质指示更大百分比HDR(HDR的效率较高)。至于一具体实施例,HDR的一分量(百分比)可使用如下方编程计算[(劈裂产物)/(酶基质+劈裂产物)](例如,(b+c)/(a+b+c),于其中a为DNA酶基质的频带强度,及b及c为劈裂产物)。

于有些情况下,效率可以成功NHEJ百分比表示。举例言的,T7核酸内切酶I分析试验可使用来生成劈裂产物,产物对酶基质的比可使用来计算百分比NHEJ。举例言的,T7核酸内切酶I劈裂配对错误的杂二倍体DNA,其是源自野生型与突变DNA股的杂交(NHEJ在原先断裂位点生成小的随机插入或缺失(indel))。较多劈裂,指示较大百分比的NHEJ(NHEJ的较高效率)。至于一具体实施例,NHEJ的一分量(百分比)可使用如下方编程计算(1-(1-(b+c)/(a+b+c))

NHEJ修复乃最具活性的修复机转,其常常在DSB位点造成小的核苷酸插入或缺失(indel)。NHEJ媒介的DSB修复的随机性具有重要的实际影响,因表达Cas9及gRNA或导引多核苷酸的细胞族群可能导致一堆分歧的突变。于大多数情况下,NHEJ在标靶DNA产生小的插入或缺失,结果导致氨基酸缺失、插入、或移码突变,而在靶定基因的开读框(ORF)内部导致生成未成熟的中止密码子。理想的最终结果为靶定基因内部的丧失功能突变。

虽然NHEJ媒介的DSB修复常破坏基因的开读框,但类似添加萤光基团或标签,同源导向修复(HDR)能使用来生成自单一核苷酸改变到大型插入的特定核苷酸变化。

为了将HDR用于基因编辑,含期望序列的DNA修复样板,可使用gRNA及Cas9或Cas9切口酶,递送入关注的细胞类型内部。修复样板可含有期望的编辑,以及紧邻标靶上游及下游的额外同源序列(命名为左及右同源臂)。各同源臂的长度可取决于导入的变化大小,较大的插入需要较长的同源臂。修复样板可以是单股寡核苷酸、双股寡核苷酸、或双股DNA质体。HDR的效率通常为低(低于经修饰等位基因的10%),即便于表达Cas9、gRNA、及外生性修复样板的细胞亦复如此。HDR的效率可通过将该细胞同步化加以提升,原因在于HDR是在细胞周期的S期及G2期发生故。NHEJ涉及的化学上或遗传上抑制基因也提高HDR效率。

于若干实施方案中,Cas9为已修饰的Cas9。遍及基因体(于其中存在有部分同源),指定gRNA靶定序列可有额外位点。此等位点称作为脱靶,当设计gRNA时须加以考虑。除了优化gRNA设计的外,CRISPR特异性也可经由对Cas9的修饰加以提升。Cas9通过两个核酸酶域RuvC及HNH的组合活性,生成双股断裂(DSB)。Cas9切口酶,亦即SpCas9的D10A突变体,保有一个核酸酶域,其生成DNA切口而非DSB。切口酶系統也可组合针对特定基因编辑的HDR媒介的基因编辑。

于若干实施方案中,已修饰的Cas9为高度保真Cas9酶。于若干实施方案中,高度保真Cas9酶为SpCas9(K855A)、eSpCas9(1.1)、SpCas9-HF1、或超准确Cas9变异体(HypaCas9)。已修饰的Cas9eSpCas9(1.1)含有丙氨酸取代,其弱化HNH/RuvC凹槽与非标靶DNA股间的交互作用,防止股的分离,及于脱靶位点切割。同理,SpCas9-HF1通过丙氨酸取代,其破坏Cas9与DNA磷酸主干的交互作用,而降低脱靶编辑。HypaCas9在REC3域含有突变(SpCas9 N692A/M694A/Q695A/H698A),其增加Cas9校正及标靶甄别。全部三种高度保真酶比野生型Cas9生成更少脱靶编辑。高度保真Cas9实施例的氨基酸序列提供如下。于此序列中,相对于参考Cas9的高度保真Cas9结构域突变以粗体显示及加下方画线:

于有些情况下,Cas9为变异Cas9蛋白。与野生型Cas9蛋白的氨基酸序列作比较时,变异Cas9多肽具有差异达一个氨基酸(例如,具有缺失、插入、取代、融合)的氨基酸序列。于某些情况下,变异Cas9多肽具有减低Cas9多肽的核酸酶活性的氨基酸变化(例如,缺失、插入、或取代)。举例言的,于某些情况下,变异Cas9多肽具有比对应野生型Cas9蛋白,少于50%、少于40%、少于30%、少于20%、少于10%、少于5%、或少于1%的核酸酶活性。于某有情况下,变异Cas9蛋白实质上不具核酸酶活性。当主旨Cas9蛋白为实质上不具核酸酶活性的变异Cas9蛋白时,可称作「dCas9」。

于某些情况下,变异Cas9蛋白具有减低的核酸酶活性。举例言的,变异Cas9蛋白具有比对应野生型Cas9蛋白,少于约20%、少于约15%、少于约10%、少于约5%、少于约1%、少于约%、或少于约0.1%的核酸内切酶活性。

于有些情况下,变异Cas9蛋白能劈裂导引标靶序列的互补股,但劈裂双股导引标靶序列的非互补股的能力减低。举例言的,变异Cas9蛋白可具有减低RuvC域的功能的突变(氨基酸取代)。至于非限制性实施例,于若干实施方案中,变异Cas9蛋白具有D10A(于氨基酸位置10的天冬酸变成丙氨酸),因而能劈裂双股导引标靶序列的互补股,但劈裂双股导引标靶序列的非互补股的能力减低(如此当变异Cas9蛋白劈裂双股标靶核酸时,结果导致单股断裂(SSB)而非双股断裂(DSB))(例如,参考Jinek et al.,Science.2012Aug.17;337(6096):816-21)。

于有些情况下,变异Cas9蛋白能劈裂导引标靶序列的非互补股,但劈裂双股导引标靶序列的互补股的能力减低。举例言的,变异Cas9蛋白可具有减低HNH域(RuvC/HNH/RuvC域基元)的功能的突变(氨基酸取代)。至于非限制性实施例,于若干实施方案中,变异Cas9蛋白具有H840A(于氨基酸位置840的组氨酸变成丙氨酸)突变,因而能劈裂导引标靶序列的非互补股,但劈裂双股导引标靶序列的互补股的能力减低(如此当变异Cas9蛋白劈裂双股标靶核酸时,结果导致单股断裂(SSB)而非双股断裂(DSB))。此种Cas9蛋白具有劈裂导引标靶序列(例如,单导引标靶序列)的能力减低,但保有结合导引标靶序列(例如,单导引标靶序列)的能力。

于有些情况下,变异Cas9蛋白具有劈裂双股标靶DNA的互补股及非互补股两者的能力减低。至于非限制性实施例,于若干实施方案中,变异Cas9蛋白具有D10A及H840A突变两者,因而该多肽具有劈裂双股标靶DNA的互补股及非互补股两者的能力减低。此种Cas9蛋白具有劈裂标靶DNA(例如,单股标靶DNA)的能力减低,但保有结合标靶DNA(例如,单股标靶DNA)的能力。

至于另一个非限制性实施例,于若干情况下,变异Cas9蛋白具有W476A及W1126A突变,因而该多肽具有劈裂标靶DNA的能力减低。此种Cas9蛋白具有劈裂标靶DNA(例如,单股标靶DNA)的能力减低,但保有结合标靶DNA(例如,单股标靶DNA)的能力。

至于另一个非限制性实施例,于若干情况下,变异Cas9蛋白具有P475A、W476A、N477A、D1125A、W1126A、及D1127A突变,因而该多肽具有劈裂标靶DNA的能力减低。此种Cas9蛋白具有劈裂标靶DNA(例如,单股标靶DNA)的能力减低,但保有结合标靶DNA(例如,单股标靶DNA)的能力。

至于另一个非限制性实施例,于若干情况下,变异Cas9蛋白具有H840A、W476A及W1126A突变,因而该多肽具有劈裂标靶DNA的能力减低。此种Cas9蛋白具有劈裂标靶DNA(例如,单股标靶DNA)的能力减低,但保有结合标靶DNA(例如,单股标靶DNA)的能力。至于另一个非限制性实施例,于若干情况下,变异Cas9蛋白具有H840A、D10A、W476A及W1126A突变,因而该多肽具有劈裂标靶DNA的能力减低。此种Cas9蛋白具有劈裂标靶DNA(例如,单股标靶DNA)的能力减低,但保有结合标靶DNA(例如,单股标靶DNA)的能力。于若干实施方案中,变异Cas9具有已修复的催化His残基在Cas9 HNH域的位置840(A840H)。

至于另一个非限制性实施例,于若干情况下,变异Cas9蛋白具有H840A、P475A、W476A、N477A、D1125A、W1126A、及D1127A突变,因而该多肽具有劈裂标靶DNA的能力减低。此种Cas9蛋白具有劈裂标靶DNA(例如,单股标靶DNA)的能力减低,但保有结合标靶DNA(例如,单股标靶DNA)的能力。至于另一个非限制性实施例,于若干情况下,变异Cas9蛋白具有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A、及D1127A突变,因而该多肽具有劈裂标靶DNA的能力减低。此种Cas9蛋白具有劈裂标靶DNA(例如,单股标靶DNA)的能力减低,但保有结合标靶DNA(例如,单股标靶DNA)的能力。于有些情况下,当变异Cas9蛋白具有W476A及W1126A突变时,或当变异Cas9蛋白具有P475A、W476A、N477A、D1125A、W1126A、及D1127A突变时,变异Cas9蛋白无法有效结合到PAM序列。因此,于有些情况下,当此种变异Cas9蛋白被使用于结合方法时,该方法无需PAM序列。换言的,于有些情况下,当此种变异Cas9蛋白被使用于结合方法时,该方法可包括导引RNA(gRNA),但该方法可在无PAM序列的存在下进行(及因此,结合特异性是由导引RNA的标靶节段提供)。其它残基可经突变以达成如上效果(亦即,失活化一个或另一个核酸酶部分)。至于非限制性实施例,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986、及/或A987可经变更(亦即,取代)。又,丙氨酸取代以外的突变也属适宜。

于若干实施方案中,具有减低的催化活性的变异Cas9蛋白(例如,当Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986、及/或A987突变时,例如,D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A、及/或D986A),该变异Cas9蛋白仍可以位点特异性方式结合到标靶DNA(原因在于其仍通过导引RNA而被导引至标靶DNA序列故),只要其仍保有与导引RNA交互作用的能力即可。

化脓性链球菌的替代之道,Cas9可包括来自Cpf1家族的RNA导引核酸内切酶,其于哺乳类细胞显示劈裂活性。来自普雷沃菌(Prevotella)及弗朗西斯菌(Francisella)1的CRISPR(CRISPR/Cpf1)为类似CRISPR/Cas系統的DNA编辑技术。Cpf1为第II类CRISPR/Cas系統的RNA导引核酸内切酶。此种后天免疫机转出现在普雷沃菌及弗朗西斯菌。Cpf1基因是与CRISPR基因座相关联,写码核酸内切酶,其利用导引RNA以找到并劈裂病毒DNA。Cpf1为比Cas9更小的更简单的核酸内切酶,克服若干CRISPR/Cas系統限制。不似Cas9核酸酶,Cpf1媒介DNA分裂结果为具有短3’突出部的双股断裂。Cpf1的交错分裂样式能够开启指向性基因移转的可能(类似传统限剪酶克隆化),其能提高基因编辑效率。类似前述Cas9变异体及同源体,Cpf1也能够扩增由CRISPR靶定到AT丰富区或AT丰富基因体(其缺SpCas9所偏好的NGGPAM位点)的位点数目。Cpf1基因座含有固定α/β域,RuvC-I,接着为螺旋状区、RuvC-II、及锌指状域。Cpf1蛋白具有RuvC状核酸内切酶域,其是类似Cas9的RuvC域。又复,Cpf1不具有HNH核酸内切酶域,及Cpf1的N端不具有Cas9的α-螺旋状辨识叶。Cpf1CRISPR-Cas结构域架构显示Cpf1为功能上独特,被归类为第2类,V型CRISPR系統。Cpf1基因座编码较为类似第I及III型而非来自第II型系統的Cas1、Cas2、及Cas4蛋白质。功能性Cpf1无需反式活化CRISPR RNA(tracrRNA),因此只需CRISPR(crRNA)。如此有助于基因体编辑,原因在于Cpf1不仅比Cas9更小,同时也具有更小型sgRNA分子故(核苷酸数目约为Cas9的半)。Cpf1-crRNA复合物通过识别原间隔基相邻基元5’-YTN-3’(与由Cas9靶定的G丰富PAM相反)而劈裂标靶DNA或RNA。于识别PAM的后,Cpf1导入4或5核苷酸突出部的黏端状DNA双股断裂。

本揭示的某些态样提供融合蛋白,其包含作为核酸可编程DNA结合蛋白的域,其可使用来导引蛋白质(诸如碱基编辑器)到特定核酸(例如,DNA或RNA)序列。于特定实施方案中,融合蛋白包含核酸可编程DNA结合蛋白域及脱氨酶域。DNA结合蛋白包括但非仅限于Cas9(例如,dCas9及nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、及Cas12i。具有与Cas9不同的PAM特异性的核酸可编程DNA结合蛋白的一个实施例为得自普雷沃菌及弗朗西斯菌1(Cpf1)的成簇规律间隔的短回文重复序列(CRISPR)。类似Cas9,Cpf1也是第2类CRISPR效应物。业已显示Cpf1媒介与Cas9不同特性的稳健DNA干涉。Cpf1为缺乏tracrRNA的单一RNA导引核酸内切酶,其运用T丰富原间隔基相邻基元(TTN、TTTN、或YTN)。此外,Cpf1通过交错的DNA双股断裂而劈裂DNA。16种Cpf1家族蛋白质中,得自氨基酸球菌(Acidaminococcus)及毛螺旋菌(Lachnospiraceae)的两种酶,显示为于人类细胞中具有有效基因体编辑活性。Cpf1蛋白为业界已知且先前已描述,例如,Yamano et al.,「与导引RNA及标靶DNA复合的Cpf1的晶体结构」(“Crystal structure ofCpf1 in complex with guide RNA and target DNA.”)Cell(165)2016,p.949-962;全文以引用方式纳入本说明书的揭示。

本组合物及方法中也有用者为核酸酶失活性Cpf1(dCpf1)变异体,其可用作为导引核苷酸序列可编程DNA结合蛋白域。Cpf1蛋白具有RuvC状核酸内切酶域,其是类似Cas9的RuvC域,但不具有HNH核酸内切酶域,及Cpf1的N端不具有Cas9的α-螺旋状辨识叶。于Zetsche et al.,Cell,163,759-771,2015(以引用方式纳入本说明书的揭示)中显示,Cpf1的RuvC状域负责分裂DNA两股,RuvC状域的失活化,使得Cpf1核酸酶活性失活化。举例言的,对应新弗朗西斯菌(Francisella novicida)Cpf1中的D917A、E1006A、或D1255A的突变使得Cpf1核酸酶活性失活化。于若干实施方案中,本揭示的dCpf1包含对应D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A、或D917A/E1006A/D1255A的突变。须了解依据本文揭示,失活化Cpf1的RuvC域的任何突变,例如,取代突变、缺失、或插入皆可使用。

于若干实施方案中,本揭示中提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是Cpf1蛋白。于若干实施方案中,Cpf1蛋白为Cpf1切口酶(nCpf1)。于若干实施方案中,Cpf1蛋白为核酸酶失活化Cpf1(dCpf1)。于若干实施方案中,Cpf1、nCpf1、或dCpf1包含与本文揭示的Cpf1序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的氨基酸序列。于若干实施方案中,dCpf1包含与本文揭示的Cpf1序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的氨基酸序列,及包含对应D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A、或D917A/E1006A/D1255A的突变。须了解依据本文揭示,也可使用得自其它菌种的Cpf1。

野生型新弗朗西斯菌Cpf1的氨基酸序列如下。D917、E1006、及D1255为粗体且下方画线。

新弗朗西斯菌Cpf1 D917A的氨基酸序列如下。(A917、E1006、及D1255为粗体且下方画线)。

新弗朗西斯菌Cpf1 E1006A的氨基酸序列如下。(D917、A1006、及D1255为粗体且下方画线)。

新弗朗西斯菌Cpf1 D1255A的氨基酸序列如下。(D917、E1006、及A1255突变位置为粗体且下方画线)。

新弗朗西斯菌Cpf1 D917A/E1006A的氨基酸序列如下。(A917、A1006、及D1255为粗体且下方画线)。

新弗朗西斯菌Cpf1 D917A/D1255A的氨基酸序列如下。(A917、E1006、及A1255为粗体且下方画线)。

新弗朗西斯菌Cpf1 E1006A/D1255A的氨基酸序列如下。(D917、A1006、及A1255为粗体且下方画线)。

新弗朗西斯菌Cpf1 D917A/E1006A/D1255A的氨基酸序列如下。(A917、A1006、及A1255为粗体且下方画线)。

于若干实施方案中,变异Cas蛋白可以是spCas9、spCas9-VRQR、spCas9-VRER、xCas9(sp)、saCas9、saCas9-KKH、spCas9-MQKSER、spCas9-LRKIQK、或spCas9-LRVSQL。

SaCas9的实施例的氨基酸序列如下:

SaCas9n的实施例的氨基酸序列如下:

SaKKH Cas9的实施例的氨基酸序列如下:

如上残基A579(其可突变自N579而获得SaCas9切口酶)为下方画线且为粗体。如上残基K781、K967、及H1014(其可突变自E781、N967、及R1014而获得SaKKH Cas9)为下方画线且为斜体。

碱基编辑器的多核苷酸可编程核苷酸结合域本身可包含一个或多个域。举例言的,多核苷酸可编程核苷酸结合域本身可包含一个或多个核酸酶域。于若干实施方案中,多核苷酸可编程核苷酸结合域的核酸酶域可包含核酸内切酶或核酸外切酶。于本揭示文中,术语「核酸外切酶」是指能够从游离端消化核酸(例如,RNA或DNA)的蛋白质或多肽,及术语「核酸内切酶」是指能够催化(例如,分裂)核酸(例如,DNA或RNA)内区的蛋白质或多肽。于若干实施方案中,核酸内切酶能劈裂双股核酸的单股。于若干实施方案中,核酸内切酶能劈裂双股核酸分子的两股。于若干实施方案中,多核苷酸可编程核苷酸结合域可以是去氧核糖核酸酶。于若干实施方案中,多核苷酸可编程核苷酸结合域可以是核糖核酸酶。

于若干实施方案中,多核苷酸可编程核苷酸结合域的核酸酶域能切割标靶核苷酸的零、一、或二股。于有些情况下,多核苷酸可编程核苷酸结合域可包含切口酶域。于本揭示文中,术语「切口酶」是指多核苷酸可编程核苷酸结合域包含核酸酶域,其只能分裂二倍体核酸分子(例如,DNA)中两股中的一股。于若干实施方案中,通过将一个或多个突变导入活性多核苷酸可编程核苷酸结合域内部,切口酶可衍生自多核苷酸可编程核苷酸结合域的全然催化活性(例如,天然)形式。举例言的,当多核苷酸可编程核苷酸结合域包含衍生自Cas9的切口酶域时,Cas9衍生的切口酶域可涵括D10A突变及在位置840的组氨酸。于此种情况下,残基H840保有催化活性,因而能劈裂核酸二倍体的单股。于另一实施例中,Cas9衍生的切口酶域可包含H840A突变,而在位置10的氨基酸残基维持为D。于若干实施方案中,通过去除非为切口酶活性所需的核酸酶域的全部或部分,切口酶可衍生自多核苷酸可编程核苷酸结合域的全然催化活性(例如,天然)形式。举例言的,当多核苷酸可编程核苷酸结合域包含衍生自Cas9的切口酶域时,Cas9衍生的切口酶域可包含RuvC域或HNH域的全部或部分的缺失。

如此包含涵括切口酶域的多核苷酸可编程核苷酸结合域的碱基编辑器能在特定多核苷酸标靶序列(例如,由已结合的导引核酸的互补序列判定)生成单股DNA断裂(切口)。于若干实施方案中,由包含切口酶域(例如,Cas9衍生的切口酶域)的碱基编辑器所劈裂的核酸二倍体标靶多核苷酸序列的该股,为不通过碱基编辑器编辑的该股(亦即,由碱基编辑器劈裂的该股是与包含欲被编辑的碱基的一股相反)。于其它实施方案中,包含切口酶域(例如,Cas9衍生的切口酶域)的碱基编辑器能劈裂被靶定用于编辑的DNA分子的该股。于此种情况下,未被靶定股不会被劈裂。

本揭示中也提供碱基编辑器,其包含为催化死亡(亦即,无法分裂标靶多核苷酸序列)的多核苷酸可编程核苷酸结合域。于本揭示文中,术语「催化死亡」及「核酸酶死亡」是互换使用,来指称多核苷酸可编程核苷酸结合域,其具有一个或多个突变及/或缺失,结果导致其无法劈裂核酸的一股。于若干实施方案中,催化死亡多核苷酸可编程核苷酸结合域碱基编辑器,因一个或多个核酸酶域中的特定点突变,结果可能缺乏核酸酶活性。举例言的,以包含Cas9结构域的碱基编辑器为例,Cas9可包含D10A突变及H840A突变两者。此等突变将两个核酸酶域失活化,因而导致丧失核酸酶活性。于其它实施方案中,催化死亡多核苷酸可编程核苷酸结合域可包含催化域(例如,RuvC1及/或HNH域)的全部或部分的一个或多个缺失。于进一步实施方案中,催化死亡多核苷酸可编程核苷酸结合域包含点突变(例如,D10A或H840A),以及核酸酶域的全部或部分的缺失。

本揭示中预期也涵盖能自先前功能版本的多核苷酸可编程核苷酸结合域,生成催化死亡多核苷酸可编程核苷酸结合域的突变。举例言的,以催化死亡Cas9(dCas9)为例,提供具有D10A及H840A以外突变的变异体,其导致核酸酶失活化Cas9。举例言的,此等突变包括在D10A及H840A的其它氨基酸取代,或Cas9的核酸酶域中的其它取代(例如,HNH核酸酶子域及/或RuvC1子域中的取代)。基于本文揭示及领域知识,额外合宜核酸酶失活性dCas9结构域为熟谙技艺人士显然易知,且是落入本文揭示的范围内。此等合宜核酸酶失活性Cas9结构域的额外实施例包括,但非仅限于D10A/H840A、D10A/D839A/H840A、及D10A/D839A/H840A/N863A突变域。(例如,参考Prashant et al.,「用于标靶特异性筛检的Cas9转录活化剂及用于协作基因体改造的配对切口酶」(CAS9 transcriptional activators fortarget specificity screening and paired nickases for cooperative genomeengineering).Nature Biotechnology.2013;31(9):833-838,全文以引用方式纳入本说明书的揭示)。于若干实施方案中,dCas9结构域包含与本揭示中提供的dCas9结构域中的任一者为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的氨基酸序列。于若干实施方案中,dCas9结构域包含氨基酸序列,其比较本揭示中列举的氨基酸序列中的任一者,具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或以上个突变。于若干实施方案中,dCas9结构域包含氨基酸序列,其比较本揭示中列举的氨基酸序列中的任一者,具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100、或至少1200个相同的邻接氨基酸残基。

可结合入碱基编辑器中的多核苷酸可编程核苷酸结合域的非限制性实施例包括CRISPR蛋白质衍生域、限剪核酸酶、巨核酸酶、TAL核酸酶(TALEN)、及锌指核酸酶(ZFN)。于有些情况下,碱基编辑器包含多核苷酸可编程核苷酸结合域,其包含天然的或修饰的蛋白质或其部分,后者通过已结合的导引核酸,能够于CRISPR(亦即,成簇规律间隔的短回文重复序列)媒介的核酸修饰期间,结合到核酸序列。此种蛋白质称作「CRISPR蛋白质」。因此,于本文中揭示者为包含多核苷酸可编程核苷酸结合域的碱基编辑器,其包含CRISPR蛋白质的全部或部分(亦即,包含CRISPR蛋白质的全部或部分作为一域的碱基编辑器,也称作碱基编辑器的「CRISPR蛋白质衍生域」)。结合入碱基编辑器的CRISPR蛋白质衍生域可比较野生型或CRISPR蛋白质的天然版本加以修饰。举例言的,如下文描述,相较于野生型或CRISPR蛋白质的天然版本,CRISPR蛋白质衍生域可包含一个或多个突变、插入、缺失、重排、及/或重组。

于若干实施方案中,结合入碱基编辑器的CRISPR蛋白质衍生域为,当连同已结合的导引核酸时,能够结合标靶多核苷酸的核酸内切酶(例如,去氧核糖核酸酶或核糖核酸酶)。于若干实施方案中,结合入碱基编辑器的CRISPR蛋白质衍生域为,当连同已结合的导引核酸时,能够结合标靶多核苷酸的切口酶。于若干实施方案中,结合入碱基编辑器的CRISPR蛋白质衍生域为,当连同已结合的导引核酸时,能够结合标靶多核苷酸的催化死亡域。于若干实施方案中,由碱基编辑器的CRISPR蛋白质衍生域结合的标靶多核苷酸为DNA。于若干实施方案中,由碱基编辑器的CRISPR蛋白质衍生域结合的标靶多核苷酸为RNA。

于若干实施方案中,碱基编辑器的CRISPR蛋白质衍生域可包括得自以下各项的Cas9的全部或部分:溃疡棒状杆菌(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒状杆菌(NCBI Refs:NC_016782.1,NC_016786.1);栖蚜蝇螺原体(NCBI Ref:NC_021284.1);中间普雷沃菌(NCBI Ref:NC_017861.1);栖虻螺原体(NCBI Ref:NC_021846.1);海豚链球菌(NCBIRef:NC_021314.1);波罗的海贝尔氏菌(NCBI Ref:NC_018010.1);嗜热海洋弯曲菌(NCBIRef:NC_018721.1);嗜热链球菌(NCBI Ref:YP_820832.1);无害李斯特菌(NCBI Ref:NP_472073.1);空肠弯曲菌(NCBI Ref:YP_002344900.1);脑膜炎奈瑟氏菌(NCBI Ref:YP_002342100.1);化脓性链球菌;或金黄色葡萄球菌。

于若干实施方案中,Cas9结构域为得自金黄色葡萄球菌的Cas9结构域(SaCas9)。于若干实施方案中,SaCas9为核酸酶活性SaCas9、核酸酶失活性SaCas9(SaCas9d)、或SaCas9切口酶(SaCas9n)。于若干实施方案中,SaCas9包含N579A突变,或本揭示中提供的任何氨基酸序列中的对应突变。

于若干实施方案中,SaCas9结构域、SaCas9d域、或SaCas9n域可结合到具有非典范PAM的核酸序列。于若干实施方案中,SaCas9结构域、SaCas9d域、或SaCas9n域可结合到具有NNGRRT或NNNRRT PAM序列的核酸序列。于若干实施方案中,SaCas9结构域包含E781X、N967X、及R1014X突变中的一者或多者,或本揭示中提供的任何氨基酸序列中的对应突变,其中X为任何氨基酸。于若干实施方案中,SaCas9结构域包含E781K、N967K、及R1014H突变中的一者或多者,或本揭示中提供的任何氨基酸序列中的一个或多个对应突变。于若干实施方案中,SaCas9结构域包含E781K、N967K、及R1014H突变,或本揭示中提供的任何氨基酸序列中的对应突变。

碱基编辑器可包含一域,该域衍生自其为高保真Cas9的Cas9的全部或部分。于若干实施方案中,碱基编辑器的高保真Cas9为包含一个或多个突变的工程改造Cas9结构域,其相较于对应野生型Cas9结构域,减低Cas9结构域与DNA的糖-磷酸主干间的静电交互作用。与DNA的糖-磷酸主干具有减低的静电交互作用的Cas9结构域可具有较少脱靶效应。于若干实施方案中,Cas9结构域(例如,野生型Cas9结构域)包含一个或多个突变,其减低Cas9结构域与DNA的糖-磷酸主干间的关联性。于若干实施方案中,Cas9结构域包含一个或多个突变,其减低Cas9结构域与DNA的糖-磷酸主干间的关联性达至少1%,至少2%,至少3%,至少4%,至少5%,至少10%,至少15%,至少20%,至少25%,至少30%,至少35%,至少40%,至少45%,至少50%,至少55%,至少60%,至少65%,至少70%,或以上。

如于本揭示中使用,术语「导引多核苷酸」是指一种多核苷酸其针对标靶序列具专一性,且能与多核苷酸可编程核苷酸结合域蛋白质(例如,Cas9或Cpf1)形成复合物。于一实施方案中,导引多核苷酸为导引RNA。如于本揭示中使用,术语「导引RNA(gRNA)」及其文法同义词可指称针对标靶DNA具专一性,且能与Cas蛋白形成复合物的RNA。RNA/Cas复合物可协助「导引」Cas蛋白到标靶DNA。Cas9/crRNA/tracrRNA核酸内切地劈裂与间隔基互补的线性或环状dsDNA标靶。与crRNA不互补的标靶股首先通过核酸内切地切割,及然后通过核酸外切地3’-5’修整。自然界中,DNA结合与劈裂典型地要求蛋白质及两种RNA。然而,单导引RNA(「sgRNA」或简称「gRNA」)可经基因改造,而将crRNA及tracrRNA两者的态样结合入单种RNA。例如,参考JinekM.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,CharpentierE.Science 337:816-821(2012),全文以引用方式纳入本说明书的揭示。Cas9辨识CRISPR重复序列中的短基元(PAM或原间隔基相邻基元)以辅助区别自身相对于非自身。

于若干实施方案中,导引多核苷酸为至少一个单导引RNA(「sgRNA」或「gRNA」)。于若干实施方案中,导引多核苷酸为至少一个tracrRNA。于若干实施方案中,导引多核苷酸无需PAM序列来导引多核苷酸可编程DNA结合域(例如,Cas9或Cpf1)到标靶核苷酸序列。

本文中揭示的碱基编辑器的多核苷酸可编程核苷酸结合域(例如,CRISPR衍生域),可通过与导引多核苷酸关联而辨识标靶核苷酸序列。导引多核苷酸(例如,gRNA)典型地为单股,可被编程化而位点特异性地结合(亦即,通过互补碱基配对)到多核苷酸的标靶序列,通过此指导碱基编辑器(其是连同导引核酸)到标靶序列。导引多核苷酸可以是DNA。导引多核苷酸可以是RNA。于有些情况下,导引多核苷酸包含天然核苷酸(例如,腺苷)。于有些情况下,导引多核苷酸包含非天然(或非自然)核苷酸(例如,肽核酸或核苷酸类似物)。于有些情况下,导引核酸序列的标靶区长度可以是至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、或30个核苷酸。导引核酸的标靶区长度可以是10至30个核苷酸长,或15至25个核苷酸长,或15至20个核苷酸长。

于若干实施方案中,导引多核苷酸包含二或更多个个别多核苷酸,其可通过例如互补碱基配对(例如,双重导引多核苷酸)彼此交互作用。举例言的,导引多核苷酸可包含CRISPR RNA(crRNA)及反式活化CRISPR RNA(tracrRNA)。举例言的,导引多核苷酸可包含一个或多个反式活化CRISPR RNA(tracrRNA)。

第II型CRISPR系統中,由CRISPR蛋白质(例如,Cas9)靶定核酸,典型地要求第一RNA分子(crRNA)(其包含辨识标靶序列的序列)与第二RNA分子(trRNA)间的互补碱基配对,第二RNA分子包含重复序列,其形成稳定化导引RNA-CRISPR蛋白质复合物的骨架区。此种双重导引RNA系統能被采用作为导引多核苷酸,以指导本文揭示的碱基编辑器到标靶核苷酸序列。

于若干实施方案中,本揭示中提供的碱基编辑器利用单导引多核苷酸(例如,gRNA)。于若干实施方案中,本揭示中提供的碱基编辑器利用双重导引多核苷酸(例如,双重gRNA)。于若干实施方案中,本揭示中提供的碱基编辑器利用一个或多个导引多核苷酸(例如,多数gRNA)。于若干实施方案中,单导引多核苷酸被运用于本文描述的不同碱基编辑器。举例言的,单导引多核苷酸可被运用于胞苷碱基编辑器及腺苷碱基编辑器。

于其它实施方案中,导引多核苷酸可包含核酸的多核苷酸标靶部及核酸的骨架部两者于单一分子(亦即,单分子导引核酸)。举例言的,单分子导引多核苷酸可以是单导引RNA(sgRNA或gRNA)。于本揭示中,导引多核苷酸序列一词预期涵盖能与碱基编辑器交互作用且指导碱基编辑器到标靶多核苷酸序列的任何单-、双-、或多-分子核酸。

典型地,导引多核苷酸(例如,crRNA/trRNA复合物或gRNA)包含「多核苷酸标靶节段」其包括能够辨识与结合到标靶多核苷酸序列的一序列,及「蛋白质结合节段」其稳定化碱基编辑器的多核苷酸可编程核苷酸结合域组成分内部的导引多核苷酸。于若干实施方案中,导引多核苷酸的多核苷酸标靶节段辨识与结合到DNA多核苷酸,通过此有助于DNA中的碱基编辑。于其它情况下,导引多核苷酸的多核苷酸标靶节段辨识与结合到RNA多核苷酸,通过此有助于RNA中的碱基编辑。于本揭示文中,「节段」是指分子的一区段或一区,例如,导引多核苷酸中核苷酸的邻接延伸。节段也是指复合物的一区/区段,使得一节段可包含多于一个分子的区。举例言的,当导引多核苷酸包含多个核酸分子时,蛋白质结合节段可包括多个分开分子的全部或部分,其例如沿一互补区杂交。于若干实施方案中,包含两个分开分子的DNA标靶RNA的蛋白质结合节段,其可包含(i)长100碱基对的第一RNA分子的碱基对40-75;及(ii)长50碱基对的第二RNA分子的碱基对10-25。除非于特定内文中另行特别界定,否则「节段」的定义并不受限于特定数目的总碱基对,并不受限于来自指定RNA分子的任何特定数目的碱基对,并不受限于复合物内部特定数目的分开分子,及可包括具有任何总长度的RNA分子区,及可包括与其它分子具有互补的区。

导引RNA或导引多核苷酸可包含两个或多个RNA,例如,CRISPR RNA(crRNA)及反式活化CRISPR RNA(tracrRNA)。导引RNA或导引多核苷酸偶尔可包含单链RNA,或由crRNA与tracrRNA的部分(例如,功能部分)融合所生成的单导引RNA(sgRNA)。导引RNA或导引多核苷酸也可以是crRNA与tracrRNA的双RNA。又复,crRNA可与标靶DNA杂交。

如前文讨论,导引RNA或导引多核苷酸可以是表达产物。举例言的,编码导引RNA的DNA可以是包含写码导引RNA的一序列的载体。导引RNA或导引多核苷酸可通过以分离的导引RNA或包含写码导引RNA的一序列的质体DNA,及启动子转染细胞,而转移入该细胞内。导引RNA或导引多核苷酸也能以其它方式转移入细胞内,诸如利用病毒媒介的基因递送。

导引RNA或导引多核苷酸可经分离。举例言的,导引RNA可以分离的RNA形式转移入细胞或有机体内。导引RNA可利用业界已知的任何活体外转录系統而通过活体外转录制造。导引RNA可以分离的RNA形式,而非以包含编码序列的质体形式转移到细胞。

导引RNA或导引多核苷酸可包含三区:在5’端的第一区,其可与在染色体序列中的标靶位点互补;第二内区,其能形成茎环结构;及第三3’区,其可以是单股。各个导引RNA的第一区也可不同,使得各个导引RNA导引融合蛋白到特定标靶位点。又,各个导引RNA的第二及第三区可在全部导引RNA中为相同。

导引RNA或导引多核苷酸的第一区可与在染色体序列中的标靶位点的序列互补,使得导引RNA的第一区可与标靶位点碱基配对。于有些情况下,导引RNA的第一区可包含自10或自约10核苷酸至25核苷酸(亦即,10核苷酸25至核苷酸;或约10核苷酸至约25核苷酸;或10核苷酸至约25核苷酸;或约10核苷酸至25核苷酸)或以上。举例言的,导引RNA的第一区至染色体序列中的标靶位点间的碱基配对一区的长度可以是或可以是约10、11、12、13、14、15、16、17、18、19、20、22、23、24、25或以上核苷酸。偶尔,导引RNA的第一区的长度可以是或可以是约19、20、或21核苷酸。

导引RNA或导引多核苷酸的也可包含第二区,其形成次级结构。举例言的,由导引RNA所生成的次级结构可包含茎(或发夹)及环。环与茎的长度可各异。举例言的,环的长度可自或自约3至10核苷酸的范围,及茎的长度可自或自约6至20核苷酸的范围。茎可包含1至10或约10核苷酸的一个或多个凸起。第二区的总长可自或自约16至60核苷酸的范围。举例言的,环的长度可以是或可以是约4核苷酸,及茎可以是或可以是约12碱基对。

导引RNA或导引多核苷酸也可包含在3’端的第三区,其可以是主要为单股。举例言的,第三区偶尔对关注细胞中的任何染色体序列为不互补,及偶尔对导引RNA的其余部分为不互补。又,第三区的长度可各异。第三区的长度可多于或多于约4核苷酸。举例言的,第三区的长度可自或自约5至60核苷酸的范围。

导引RNA或导引多核苷酸可靶定基因标靶的任何外显子或内含子。于有些情况下,导引可靶定基因的外显子1或2;于其它情况下,导引可靶定基因的外显子3或4。组合物可包含全部皆靶定相同外显子的多个导引RNA,或于有些情况下,多个导引RNA可靶定相同的外显子。基因的外显子及内含子可被靶定。

导引RNA或导引多核苷酸可靶定20或约20核苷酸的核酸序列。标靶核酸可少于或少于约20核苷酸。标靶核酸的长度可以是至少或至少约5、10、15、16、17、18、19、20、21、22、23、24、25、30或1-100核苷酸间的任何长度。标靶核酸的长度可以是至多或至多约5、10、15、16、17、18、19、20、21、22、23、24、25、30、40、50或1-100核苷酸间的任何长度。标靶核酸序列可以是约20碱基紧邻PAM的第一核苷酸的5’。导引RNA可靶定核酸序列。靶核酸的长度可以是至少或至少约1-10、1-20、1-30、1-40、1-50、1-60、1-70、1-80、1-90、或1-100核苷酸。

导引多核苷酸例如,导引RNA可指能够杂交至另一个核酸,例如,细胞的基因体中的标靶核酸或原间隔基的核酸。导引多核苷酸可以是RNA。导引多核苷酸可以是DNA。导引多核苷酸可经编程化或设定来位点特异性地结合至核酸序列。导引多核苷酸可包含一个多核苷酸链,及可称作单导引多核苷酸。导引多核苷酸可包含两个多核苷酸链,及可称作双导引多核苷酸。导引RNA可被导入细胞或胚胎内作为RNA分子。举例言的,RNA分子可于试管内转录及/或可以化学合成。RNA可转录自合成DNA分子,例如

选择、设计、及验证导引多核苷酸,例如导引RNA及靶定序列的方法是描述于本揭示中,且为熟谙技艺人士所已知。举例言的,最小化核苷碱基编辑器系統中的脱氨酶域(例如,AID域)的潜在酶基质混杂的影响,可能非蓄意地被靶定用于脱氨的残基(例如,可能驻在标靶核酸基因座内部的ssDNA上的脱靶C残基)的数目可被最小化。此外,软体工具可用来优化对应于标靶核酸序列的gRNA,例如,最小化跨基因体的总脱靶活性。举例言的,针对使用化脓性链球菌Cas9的各个可能的标靶域选择,全部脱靶序列(上述经抉择的PAM,例如NAG或NGG)可跨基因体识别,其含有多达某个数目(例如,1、2、3、4、5、6、7、8、9、或10)的匹配错误碱基对。与标靶位点互补的gRNA的第一区可经识别,及全部第一区(例如,crRNA)可根据其预测脱靶总分排名;排名最高的标靶域代表可能具有最大的中靶活性及最小的脱靶活性者。候选的gRNA可使用业界已知的及/或如本文陈述的方法评估。

至于非限制性实施例,于导引RNA的crRNA中用来与Cas9一起使用的标靶DNA杂交序列,可使用DNA序列搜寻演算法加以识别。gRNA设计可基于公开工具序列比对编程(casoffinder)(如描述于Bae S.,Park J.,&Kim J.-S.Cas-OFFinder:「搜寻Cas9 RNA导引的核酸内切酶的潜在脱靶位点的快速通用演算法」(A fast and versatile algorithmthat searches for potential off-target sites of Cas9 RNA-guidedendonucleases).Bioinformatics 30,1473-1475(2014)),使用客户gRNA设计进行。计算其全基因体脱靶倾向的后,通过此软体分数来导引。典型地,自完美匹配至7匹配错误的匹配范围,被考虑为长度17至24的范围的导引。一旦运算决定脱靶位点,针对各个导引计算累积分数,利用网路介面摘要列表输出。除了鉴别PAM序列相邻的潜在标靶位点的外,该软体也鉴别与择定的标靶位点差异达1、2、3、或多于3个核苷酸的全部PAM相邻序列。针对标靶核酸序列的基因体DNA序列,例如标靶基因可经获得,重复元体可使用公开取得的工具例如Repeatmasker编程加以筛选。Repeatmasker搜寻输入DNA序列的重复元体及低复杂度区。输出者为存在于指定查询序列中的重复序列的细节注释。

于鉴别的后,导引RNA的第一区,例如crRNA,可基于其与标靶位点的距离、其不相干性、及存在有5’核苷酸来密切匹配相关PAM序列(例如,5’G,基于在含相关PAM例如化脓性链球菌的NGG PAM、金黄色葡萄球菌的NNGRRT或NNGRRV PAM的人基因体中的密切匹配的识别)来成层分级。如于本揭示中使用,不相干性是指人基因体中含有最小数目的与标靶序列匹配错误的序列数目。「高度不相干性」或「良好不相干性」例如可指称20-聚体标靶域,其于人基因体中除了预期的标靶的外,不含相同序列,也不含在标靶序列中含有一或二个匹配错误的任何序列。靶定具良好不相干性的域可经抉择来最小化脱靶DNA分裂。

于若干实施方案中,通报子系統可被使用来检测碱基编辑活性,及测试候选物导引多核苷酸。于若干实施方案中,通报子系統可包含基于通报子基因的分析试验,于其中,碱基编辑活性导致通报子基因的表达。举例言的,通报子系統可包含通报子基因,其包含去活化的起始密码子,例如3'-TAC-5'至3'-CAC-5'的样板股上的突变。当标靶C被成功地脱氨的时,对应的mRNA将被转录成5'-AUG-3',而非5'-GUG-3',使得通报子基因能够翻译。合宜的通报子基因将为熟谙技艺人士显然易知。通报子基因的非限制性实施例包括基因,其编码绿萤光蛋白质(GFP)、红萤光蛋白质(RFP)、虫萤光素酶、分泌碱性磷酸酶(SEAP)的基因,或任何其它基因,其表达为可检测且为熟谙技艺人士显然易知。通报子系統可被使用来测试许多不同的gRNA,俾便判定相对于标靶DNA序列,个别脱氨酶将靶定哪(些)个残基。靶定非样板股的sgRNA也能经测试,俾便评比特定碱基编辑蛋白质,例如Cas9脱氨酶融合蛋白的脱靶效应。于若干实施方案中,此等gRNA可经设计,使得已突变的起始密码子将不与gRNA碱基配对。导引多核苷酸可包含标准核糖核苷酸、修饰的核糖核苷酸(例如,假尿苷)、核糖核苷酸异构物、及/或核糖核苷酸类似物。于若干实施方案中,导引多核苷酸可包含至少一个可检测标记。可检测标记可以是萤光基团(例如,FAM、TMR、Cy3、Cy5、德州红(Texas Red)、俄勒冈绿(Oregon Green)、Alexa Fluors、Halo标签、或合宜萤光染料)、检测标签(例如,生物素、地高辛等)、量子粒、或金粒子。

导引多核苷酸可以是化学合成、酶学合成、或其组合。举例言的,导引RNA可利用基于标准亚磷酰氨的固相合成法合成。另外,导引RNA于活体外可通过操作式链接编码导引RNA的DNA到启动子控制序列(其由噬菌体RNA聚合酶辨识)合成。合宜噬菌体启动子序列的实施例包括T7、T3、SP6启动子序列、或其变异体。于其中导引RNA包含两个分开分子(例如,crRNA及tracr RNA)的实施方案中,crRNA可通过化学合成,及tracr RNA可通过酶学合成。

于若干实施方案中,碱基编辑器系統可包含多数导引多核苷酸,例如gRNA。举例言的,gRNA可靶定到碱基编辑器系統中所包含的一个或多个标靶基因座(例如,至少1gRNA、至少2gRNA、至少5gRNA、至少10gRNA、至少20gRNA、至少30g RNA、至少50gRNA)。该多数gRNA序列可串接排列,且较佳地通过直接重复序列分开。

编码导引RNA或导引多核苷酸的DNA序列也可以是载体的一部分。又复,载体可包含额外表达控制序列(例如,强化子序列、柯札克(Kozak)序列、多腺苷化序列、转录终结序列等)、可选择标记序列(例如,GFP或抗生素抗性基因,诸如普罗霉素(puromycin))、复制起点等。编码导引RNA的DNA序列也可以是线性。编码导引RNA或导引多核苷酸的DNA序列也可以是环状。

于若干实施方案中,碱基编辑器系統的一个或多个组件可通过DNA序列编码。此等DNA序列可一起地或分开地被导入表达系統例如细胞内。举例言的,编码多核苷酸可编程核苷酸结合域及导引RNA的DNA序列可被导入细胞内,各个DNA序列可以是一个分开分子部件(例如,一个载体含有多核苷酸可编程核苷酸结合域写码序列,及第二载体含有导引RNA写码序列);或两者可以是相同分子部件(例如,一个载体含有针对多核苷酸可编程核苷酸结合域及导引RNA两者的写码(及调节)序列)。

导引多核苷酸可包含一个或多个修饰,以给核酸提供新颖特征或增强的特征。导引多核苷酸可包含核酸亲和力标签。导引多核苷酸可包含合成核苷酸、合成核苷酸类似物、核苷酸衍生物、及/或已修饰的核苷酸、

于有些情况下,gRNA或导引多核苷酸可包含修饰。修饰可在gRNA或导引多核苷酸的任何位置做出。对单一gRNA或导引多核苷酸可做出多于一个修饰。gRNA或导引多核苷酸可进行修饰后的品质控制。于有些情况下,品质控制可包括PAGE、HPLC、MS、或其任何组合。

gRNA或导引多核苷酸的修饰可以是取代、插入、缺失、化学修饰、物理修饰、稳定化、纯化、或其任何组合。

gRNA或导引多核苷酸也可通过以下各项加以修饰:5’腺苷化、5’鸟苷三磷酸端帽、5’N7-甲基鸟苷三磷酸端帽、5’三磷酸端帽、3’磷酸、3’硫代磷酸、5’磷酸、5’硫代磷酸、顺-反胸腺苷二元体、三元体、C12间隔基、C3间隔基、C6间隔基、d间隔基(dSpacer)、PC间隔基、r间隔基(rSpacer)、间隔基18、间隔基9、3’-3’修饰、5’-5’修饰、脱碱基位点、吖啶、偶氮苯、生物素、生物素BB、生物素TEG、胆固醇基TEG、去硫生物素TEG、DNP TEG、DNP-X、DOTA、dT-生物素、双生物素、PC生物素、补骨脂素C2、补骨脂素C6、TINA、3’DABCYL、黑洞淬灭剂1、黑洞淬灭剂2、DABCYL SE、dT-DABCYL、IRDye QC-1、QSY-21、QSY-35、QSY-7、QSY-9、羧基链接基、硫醇链接基、2’-去氧核糖核苷类似物嘌呤、2’-去氧核糖核苷类似物嘧啶、核糖核苷类似物、2’-O-甲基核糖核苷类似物、糖修饰类似物、摇摆/通用碱基、萤光染料标记、2’-氟RNA、2’-O-甲基RNA、膦酸甲酯、磷酸二酯DNA、磷酸二酯RNA、硫代磷酸酯DNA、硫代磷酸酯RNA、UNA、假尿苷-5’-三磷酸、5’-甲基胞苷-5’-三磷酸、或其任何组合。

于有些情况下,修饰为永久性。于其它情况下,修饰为暂时性。于有些情况下,可对gRNA或导引多核苷酸做出多项修饰。gRNA或导引多核苷酸修饰,能变更核苷酸的物化性质,诸如其构象、极性、斥水性、化学反应性、碱基配对交互作用、或其任何组合。

修饰也可以是硫代磷酸取代。于有些情况下,天然磷酸二酯键可能易感而被细胞核酸酶快速降解,及使用硫代磷酸(PS)键取代的核苷酸链接的修饰,可能对被细胞降解的水解较为稳定。修饰能提高gRNA或导引多核苷酸的安定性。修饰也能强化生物活性。于有些情况下,硫代磷酸已强化的RNA gRNA能抑制RNase A、RNase T1、胎牛血清核酸酶、或其任何组合。此等性质让PS-RNA gRNAs的用途应用在于其中,于活体内或活体外有高机率暴露于核酸酶的应用。举例言的,硫代磷酸(PS)键可被导入在gRNA的5’-或“-端的最末3-5核苷酸间,其能抑制核酸外切酶降解。于有些情况下,硫代磷酸键可添加遍布整个gRNA,以减少受核酸内切酶攻击。

原间隔基相邻基元

术语「原间隔基相邻基元(PAM)」或PAM状基元是指,于CRISPR细菌性适应性免疫系統中,由Cas9核酸酶所靶定的DNA序列,紧接其后的2-6碱基对DNA序列。于若干实施方案中,PAM可以是5’PAM(亦即,位在原间隔基的5’端上游)。于其它实施方案中,PAM可以是3’PAM(亦即,位在原间隔基的5’端下游)。

原间隔基相邻基元(PAM)或PAM状基元是指,于CRISPR细菌性适应性免疫系統中,由Cas9核酸酶所靶定的DNA序列,紧接其后的2-6碱基对DNA序列。于若干实施方案中,PAM可以是5’PAM(亦即,位在原间隔基的5’端上游)。于其它实施方案中,PAM可以是3’PAM(亦即,位在原间隔基的5’端下游)。PAM序列乃标靶结合所必需,但确切序列取决于Cas蛋白的类型。本揭示中提供的碱基编辑器可包含CRISPR蛋白质衍生域,其能结合含有典范或非典范原间隔基相邻基元(PAM)序列的核苷酸序列。PAM位点为邻近标靶多核苷酸序列的核苷酸序列。本揭示的若干态样提供碱基编辑器,其包含具有不同PAM特异性的CRISPR蛋白质的全部或部分。举例言的,典型地Cas9蛋白,诸如得自化脓性链球菌的Cas9(spCas9),需要典范NGGPAM序列来结合特定核酸区,于其中NGG中的N为腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)、或胞嘧啶(C),及G为鸟嘌呤。PAM可以是CRISPR蛋白质专一性,且在包含不同CRISPR蛋白质衍生域的不同碱基编辑器间可以不同。PAM可以是标靶序列的5’或3’。PAM可以是标靶序列的上游或下游。PAM可以是1、2、3、4、5、6、7、8、9、10或以上的核苷酸长度。经常PAM的长度在2至6个核苷酸间。

于若干实施方案中,Cas9结构域为得自化脓性链球菌的Cas9结构域(SpCas9)。于若干实施方案中,SpCas9结构域为核酸酶活性SpCas9、核酸酶失活性SpCas9(SpCas9d)、或SpCas9切口酶(SpCas9n)。于若干实施方案中,SpCas9包含D9X突变、或对应突变于本揭示中提供的氨基酸序列中的任一者,其中X为任一个氨基酸(但D除外)。于若干实施方案中,SpCas9包含D9A突变、或对应突变于本揭示中提供的氨基酸序列中的任一者。于若干实施方案中,SpCas9结构域、SpCas9d域、或SpCas9n域能结合到具有非典范PAM的核酸序列。于若干实施方案中,SpCas9结构域、SpCas9d域、或SpCas9n域能结合到具有NGG、NGA、或NGCG PAM序列的核酸序列。于若干实施方案中,SpCas9结构域包含D1135X、R1335X及T1337X突变中的一或多者、或对应突变于本揭示中提供的氨基酸序列中的任一者,其中X为任一个氨基酸。于若干实施方案中,SpCas9结构域包含D1135E、R1335Q及T1337R突变中的一或多者、或对应突变于本揭示中提供的氨基酸序列中的任一者。于若干实施方案中,SpCas9结构域包含D1135E、R1335Q及T1337R突变中的一或多者、或对应突变于本揭示中提供的氨基酸序列中的任一者。于若干实施方案中,SpCas9结构域包含D1135X、R1335X及T1337X突变中的一或多者、或对应突变于本揭示中提供的氨基酸序列中的任一者,其中X为任一个氨基酸。于若干实施方案中,SpCas9结构域包含D1135V、R1335Q及T1337R突变中的一或多者、或对应突变于本揭示中提供的氨基酸序列中的任一者。于若干实施方案中,SpCas9结构域包含D1135V、R1335Q及T1337R突变中的一或多者、或对应突变于本揭示中提供的氨基酸序列中的任一者。于若干实施方案中,SpCas9结构域包含D1135X、G1218X、R1335X及T1337X突变中的一或多者、或对应突变于本揭示中提供的氨基酸序列中的任一者,其中X为任一个氨基酸。于若干实施方案中,SpCas9结构域包含D1135V、G1218R、R1335Q及T1337R突变中的一或多者、或对应突变于本揭示中提供的氨基酸序列中的任一者。于若干实施方案中,SpCas9结构域包含D1135V、G1218R、R1335Q及T1337R突变中的一或多者、或对应突变于本揭示中提供的氨基酸序列中的任一者。

于若干实施方案中,本揭示中提供的融合蛋白中的任一者的Cas9结构域包含氨基酸序列,其与本文描述的Cas9多肽为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。于若干实施方案中,本揭示中提供的融合蛋白中的任一者的Cas9结构域包含本文描述的任何Cas9多肽的氨基酸序列。于若干实施方案中,本揭示中提供的融合蛋白中的任一者的Cas9结构域是由本文描述的任何Cas9多肽的氨基酸序列组成。

能结合PAM序列的SpCas9蛋白实施例的氨基酸序列如下。

结合PAM的SpCas9的实施例的氨基酸序列如下:

结合PAM的SpCas9n的实施例的氨基酸序列如下:

结合PAM的SpEQR Cas9的实施例的氨基酸序列如下:

结合PAM的SpVQR Cas9的实施例的氨基酸序列如下:

结合PAM的SpVRER Cas9的实施例的氨基酸序列如下:

结合PAM的SpVRQR Cas9的实施例的氨基酸序列如下:

如上残基V1135、R1218、Q1335、及R1337,其可自D1135、G1218、R1335、及T1337突变而获得SpVRQR Cas9,为下方画线且为粗体。

于若干实施方案中,Cas9结构域为重组Cas9结构域。于若干实施方案中,重组Cas9结构域为SpyMacCas9结构域。于若干实施方案中,SpyMacCas9结构域为核酸酶活性SpyMacCas9、核酸酶失活性SpyMacCas9(SpyMacCas9d)、或SpyMacCas9切口酶(SpyMacCas9n)。于若干实施方案中,SaCas9结构域、SaCas9d域、或SaCas9n域能结合到具有非典范PAM的核酸序列。于若干实施方案中,SaCas9结构域、SaCas9d域、或SaCas9n域能结合到具有NAA PAM序列的核酸序列。

SpyMacCas9实施例

高保真Cas9结构域

本文揭示的若干态样提供高保真Cas9结构域。于若干实施方案中,高保真Cas9结构域为包含一个或多个突变的基因改造Cas9结构域,其比较对应野生型Cas9结构域,减低了Cas9结构域与DNA的糖-磷酸主干间的静电交互作用。不欲受任何特定理论所限,具有与DNA的糖-磷酸主干减低的静电交互作用的高保真Cas9结构域,其可具有较少脱靶效应。于若干实施方案中,Cas9结构域(例如,野生型Cas9结构域)包含一个或多个突变,其减低Cas9结构域与DNA的糖-磷酸主干间的静电交互作用。于若干实施方案中,Cas9结构域包含一个或多个突变,其减低Cas9结构域与DNA的糖-磷酸主干间的关联性达至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、或至少70%。

于若干实施方案中,本揭示中提供的Cas9融合蛋白中的任一者包含N497X、R661X、Q695X、及/或Q926X突变中的一或多者、或对应突变于本揭示中提供的氨基酸序列中的任一者,其中X为任一个氨基酸。于若干实施方案中,本揭示中提供的Cas9融合蛋白中的任一者包含N497A、R661A、Q695A、及/或Q926A突变中的一或多者、或对应突变于本揭示中提供的氨基酸序列中的任一者。于若干实施方案中,本揭示中提供的Cas9融合蛋白中的任一者包含D10A突变、或对应突变于本揭示中提供的氨基酸序列中的任一者。举例言的,具有高保真的Cas9结构域已描述于Kleinstiver,B.P.,et al.「不具可检测全基因体脱靶效应的高保真CRISPR-Cas9核酸酶」(“High-fidelity CRISPR-Cas9 nucleases with no detectablegenome-wide off-target effects.”)Nature 529,490-495(2016);及Slaymaker,I.M.,etal.「具改良特异性的合理改造Cas9核酸酶」(“Rationally engineered Cas9 nucleaseswith improved specificity.”)Science 351,84-88(2015),各自全文以引用方式纳入本说明书的揭示。

相较于Cas9,高保真Cas9结构域突变是以粗体及下方画线显示

于有些情况下,变异Cas9蛋白带有H840A、P475A、W476A、N477A、D1125A、W1126A、及D1127A突变,使得多肽具有劈裂标靶DNA或RNA的能力减低。此种Cas9蛋白具有劈裂标靶DNA(例如,单股标靶DNA)的能力减低,但保有结合标靶DNA(例如,单股标靶DNA)的能力。至于另一个非限制性实施例,于有些情况下,变异Cas9蛋白带有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A、及D1127A突变,使得多肽具有劈裂标靶DNA或RNA的能力减低。此种Cas9蛋白具有劈裂标靶DNA(例如,单股标靶DNA)的能力减低,但保有结合标靶DNA(例如,单股标靶DNA)的能力。于有些情况下,当变异Cas9蛋白带有W476A及W1126A突变时,或当变异Cas9蛋白带有P475A、W476A、N477A、D1125A、W1126A、及D1127A突变时,变异Cas9蛋白无法有效地结合到PAM序列。因此,于若干此等情况下,当此种变异Cas9蛋白使用在结合方法时,该方法无需PAM序列。换言的,于有些情况下,当此种变异Cas9蛋白使用在结合方法时,该方法可涵括导引RNA,但该方法可能无PAM序列的存在下进行(及因此,结合特异性是由导引RNA的靶定节段提供)。其它残基可经突变来达成上述效果(亦即,失活化一个或另一个核酸酶部分)。至于非限制性实施例,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986、及/或A987可经变异(亦即,取代)。又,丙氨酸取代以外的突变为合宜。

于若干实施方案中,碱基编辑器的CRISPR蛋白质衍生域可包含带有典范PAM序列(NGG)的Cas9蛋白的全部或部分。于其它实施方案中,碱基编辑器的CRISPR蛋白质衍生域可采用非典范PAM序列。此等序列已于业界描述且将为熟谙技艺人士显然易知。举例言的,结合非典范PAM序列的Cas9结构域已描述于Kleinstiver,B.P.,et al.,「具有变更的PAM特异性的改造CRISPR-Cas9核酸酶」(“Engineered CRISPR-Cas9 nucleases with altered PAMspecificities”)Nature523,481-485(2015);及Kleinstiver,B.P.,et al.,「通过修饰PAM辨识拓宽金黄色葡萄球菌CRISPR-Cas9的靶定范围」(“Broadening the targeting rangeof Staphylococcus aureus CRISPR-Cas9 by modifying PAM recognition”)NatureBiotechnology 33,1293-1298(2015),各自全文以引用方式纳入本说明书的揭示。

于若干实施方案中,由碱基编辑器的CRISPR蛋白质衍生域辨识的PAM,其可在分开寡核苷酸上提供给细胞到编码碱基编辑器的插子(例如,AAV插子)。于此等情况下,提供在分开寡核苷酸上的PAM可允许标靶序列的劈裂,否则其将无法被劈裂,原因在于没有相邻PAM存在于标靶序列的相同多核苷酸上故。

于一个实施方案中,化脓性链球菌Cas9(SpCas9)可被用作为CRISPR核酸内切酶,用于基因体改造。但也可使用其它者。于有些情况下,不同的核酸内切酶可被使用来靶定某些基因体标靶。于有些情况下,可使用不含NGG PAM序列的合成SpCas9衍生变异体。此外,已经识别来自各种物种的其它Cas9同是物,此等「SpCas9」可结合各种PAM序列,其于本文揭示也有用。举例言的,相对大尺寸的SpCas9(约4kb写码序列)也获得携载有无法在细胞内有效表达的SpCas9 cDNA。相反地,金黄色葡萄球菌Cas9(SaCas9)的写码序列比SpCas9短约1千碱基(kb),可能允许其在细胞内有效表达。类似SpCas9,活体外在哺乳类细胞及活体内在小鼠,SaCas9核酸内切酶能修饰标靶基因。于有些情况下,Cas蛋白可靶定不同的PAM序列。于有些情况下,标靶基因可相邻Cas9 PAM,例如5’-NGG。于其它情况下,其它Cas9同是物具有不同的PAM需求。举例言的,其它PAM诸如嗜热链球菌(5’-NNAGAA用于CRISPR1及5’-NGGNG用于CRISPR3)及脑膜炎奈瑟氏菌(5’-NNNNGATT)也发现相邻标靶基因。

于若干实施方案中,针对化脓性链球菌系統,标靶基因序列可在5’-NGG PAM的先(亦即,在5’),及20-nt导引RNA序列可与相对股碱基配对,以媒介相邻于PAM的Cas9劈裂。于有些情况下,相邻切割可以是或可以是约在PAM上游3碱基对。于有些情况下,相邻切割可以是或可以是约在PAM上游10碱基对。于有些情况下,相邻切割可以是或可以是约在PAM上游0-20碱基对。举例言的,相邻切割可以在PAM上游紧邻,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、或30碱基对。相邻切割也可以是在PAM下游1至30碱基对。

包含核定位序列(NLS)的融合蛋白

可使用编码包含一个或多个核定位序列(NLS)的CRISPR酶的载体。举例言的,可使用或可使用约1、2、3、4、5、6、7、8、9、10个NLS。CRISPR酶可于或接近氨基端包含NLS,于或接近羧基端包含约或多于约1、2、3、4、5、6、7、8、9、10NLS,或其任何组合(例如,一个或多个NLS在氨基端,及一个或多个NLS在羧基端)。当存在有多于一个NLS时,各自可互不相干独立选择,使得单一NLS可以多于一个拷贝存在,及/或组合一个或多个其它NLS以多于一个拷贝存在。

该方法中使用的CRISPR酶可包含约6个NLS。当最靠近NLS的氨基酸是在沿多肽链距N端或C端约50氨基酸以内,例如,1、2、3、4、5、10、15、20、25、30、40、或50氨基酸以内时,该NLS被视为靠近N端或C端。

于若干实施方案中,NLS包含氨基酸序列PKKKRKVEGADKRTADGSEFESPKKKRKV、KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRKPKKKRKV、或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC。

于若干实施方案中,NLS存在于链接基中,或NLS侧接链接基,例如,本文描述的链接基。于若干实施方案中,N端或C端NLS为二部分式NLS。二部分式NLS包含两个碱性氨基酸簇集,其通过相当短的间隔基序列分开(因此二部分式-2部分,而一部分式NLS则否)。核质素的NLS,KR[PAATKKAGQA]KKKK,为泛在二分信号的原型:两个碱性氨基酸簇集,其通过约10氨基酸的间隔基分开。二部分式NLS实施例的序列如下:

PKKKRKVEGADKRTADGSEFES PKKKRKV。

于若干实施方案中,本发明的融合蛋白不包含间隔基序列。于若干实施方案中,存在有介于域或蛋白质中的一者或多者间的间隔基序列。

PAM序列可以是业界已知的任何PAM序列。合宜的PAM序列包括,但非仅限于NGG、NGA、NGC、NGN、NGT、NGCG、NGAG、NGAN、NGNG、NGCN、NGCG、NGTN、NNGRRT、NNNRRT、NNGRR(N)、TTTV、TYCV、TYCV、TATV、NNNNGATT、NNAGAAW、或NAAAAC。Y为嘧啶;N为任何核苷酸碱基;W为A或T。

核苷碱基编辑域

本文描述者为包含融合蛋白的碱基编辑器,该融合蛋白包括多核苷酸可编程核苷酸结合域及核苷碱基编辑域(例如,脱氨酶域)。碱基编辑器可经编程化,以通过能够辨识标靶序列的导引多核苷酸交互作用,来编辑标靶多核苷酸序列中的一个或多个碱基。一旦已辨识标靶序列,碱基编辑器锚定在将进行编辑的多核苷酸上,然后碱基编辑器的脱氨酶域组件能编辑标靶碱基。

于若干实施方案中,核苷碱基编辑域为脱氨酶域。于有些情况下,脱氨酶域可以是胞嘧啶脱氨酶或胞苷脱氨酶。于若干实施方案中,「胞嘧啶脱氨酶」或「胞苷脱氨酶」可互换使用。于有些情况下,于有些情况下,脱氨酶域可以是腺嘌呤脱氨酶或腺苷脱氨酶。于若干实施方案中,「腺嘌呤脱氨酶」或「腺苷脱氨酶」可互换使用。核苷碱基编辑蛋白的细节是描述于国际PCT申请案Nos.PCT/2017/045381(WO2018/027078)及PCT/US2016/058344(WO2017/070632),其各自全文以引用方式纳入本说明书的揭示。也请参考Komor,A.C.,etal.,「不含双股DNA分裂的基因体DNA中的标靶碱基的可编程编辑」Nature 533,420-424(2016);Gaudelli,N.M.,et al.,「不含DNA分裂的基因体DNA中的A·T至G·C的可编程碱基编辑」Nature 551,464-471(2017);及Komor,A.C.,et al.,「改良碱基切除修复抑制及有较高效率与产物纯度的噬菌体μGam蛋白质获得C:G-to-T:A碱基编辑器」,Science Advances3:eaao4774(2017),其全文内容以引用方式纳入本说明书的揭示。

C至T编辑

于若干实施方案中,本文中揭示的碱基编辑器包含融合蛋白,其包含胞苷脱氨酶域,其能够将多核苷酸的标靶胞苷(C)碱基脱氨以制造尿苷(U),其具有胸腺嘧啶的碱基配对性质。于若干实施方案中,举例言的,其中多核苷酸为双股(例如,DNA),尿苷碱基然后可以胸腺苷碱基取代(例如,通过细胞修复机构),以获得C:G至T:A变换。于其它实施方案中,核酸中通过碱基编辑器的C至U脱氨,无法伴随有U至T的取代。

多核苷酸中标靶C脱氨以获得U,乃可通过本文描述的碱基编辑器执行的一类型碱基编辑的非限制性实施例。于另一实施例中,包含胞苷脱氨酶域的碱基编辑器能媒介胞嘧啶(C)碱基至嘌呤(G)碱基的转换。举例言的,通过碱基编辑器的胞苷脱氨酶域将胞苷脱氨所制造的多核苷酸的U,可通过碱基切除修复机制(例如,通过尿嘧啶DNA糖基化酶(UDG)域)而自多核苷酸切除,制造脱碱基位点。然后,脱碱基位点相对的核苷碱基可以另一个碱基(诸如C),通过例如跨病变聚合酶(translesion polymerase)取代(例如,通过细胞修复机构)。虽然典型地脱碱基位点相对的核苷碱基是以C置换,但也可能出现其它取代(例如,A、G或T)。

因此,于若干实施方案中,本文描述的碱基编辑器包含脱氨酶域(例如,胞苷脱氨酶域),其能够将多核苷酸中的标靶C脱氨成U。又,容后详述,碱基编辑器可包含额外域,于若干实施方案中,其辅助脱氨所得的U转换成T或G。举例言的,包含胞苷脱氨酶域的碱基编辑器可进一步包含尿嘧啶糖基化酶抑制剂(UGI)域,以媒介U被T取代,完成C至T碱基编辑事件。于另一实施例中,碱基编辑器可结合跨病变聚合酶,以改良C至G碱基编辑效率,原因在于跨病变聚合酶能协助结合C相对于脱碱基位点故(亦即,结果导致G结合于脱碱基位点,完成C至G碱基编辑事件)。

包含胞苷脱氨酶作为一域的碱基编辑器能将任何多核苷酸(包括DNA、RNA、及DNA-RNA杂交体)中的标靶C脱氨。典型地,胞苷脱氨酶催化位在多核苷酸的单股部分中的C核苷碱基。于若干实施方案中,包含标靶C的整个多核苷酸可以是单股。举例言的,结合入碱基编辑器中的胞苷脱氨酶能将单股RNA多核苷酸中的标靶C脱氨。于其它实施方案中,包含胞苷脱氨酶域的碱基编辑器可作用在双股多核苷酸上,但标靶C可位在当脱氨反应时处在单股状态的多核苷酸部分。举例言的,于其中NAGPB域包含Cas9结构域的实施方案中,Cas9-gRNA-标靶DNA复合物生成时,数个核苷酸可任其未配对,结果导致生成Cas9「R-环复合物」。此等未配对的核苷酸可生成单股DNA泡泡,其可用作为单股特定核苷酸脱氨酶酵素(例如,胞苷脱氨酶)的酶基质。

于若干实施方案中,碱基编辑器的胞苷脱氨酶可包含载脂蛋白B mRNA编辑复合物(APOBEC)家族脱氨酶的全部或部分。APOBEC为演化上保守性胞苷脱氨酶家族。此家族成员为C至U编辑酶。类似APOBEC蛋白质的N端域为催化域,而C端域为假催化域。更明确言的,催化域为锌依赖型胞苷脱氨酶域,且对胞苷脱氨为要紧。APOBEC家族成员包括APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D("APOBEC3E"现在指此者)、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4、及活化诱导(胞苷)脱氨酶。于若干实施方案中,结合入碱基编辑器的脱氨酶包含APOBEC1脱氨酶的全部或部分。于若干实施方案中,结合入碱基编辑器的脱氨酶包含APOBEC2脱氨酶的全部或部分。于若干实施方案中,结合入碱基编辑器的脱氨酶包含APOBEC3脱氨酶的全部或部分。于若干实施方案中,结合入碱基编辑器的脱氨酶包含APOBEC3A脱氨酶的全部或部分。于若干实施方案中,结合入碱基编辑器的脱氨酶包含APOBEC3B脱氨酶的全部或部分。于若干实施方案中,结合入碱基编辑器的脱氨酶包含APOBEC3C脱氨酶的全部或部分。于若干实施方案中,结合入碱基编辑器的脱氨酶包含APOBEC3D脱氨酶的全部或部分。于若干实施方案中,结合入碱基编辑器的脱氨酶包含APOBEC3E脱氨酶的全部或部分。于若干实施方案中,结合入碱基编辑器的脱氨酶包含APOBEC3F脱氨酶的全部或部分。于若干实施方案中,结合入碱基编辑器的脱氨酶包含APOBEC3G脱氨酶的全部或部分。于若干实施方案中,结合入碱基编辑器的脱氨酶包含APOBEC3H脱氨酶的全部或部分。于若干实施方案中,结合入碱基编辑器的脱氨酶包含APOBEC4脱氨酶的全部或部分。于若干实施方案中,结合入碱基编辑器的脱氨酶包含活化诱导脱氨酶(AID)的全部或部分。于若干实施方案中,结合入碱基编辑器的脱氨酶包含胞苷脱氨酶1(CDA1)的全部或部分。须了解碱基编辑器可包含得自任何有机体(例如,人或大鼠)的脱氨酶。于若干实施方案中,碱基编辑器的脱氨酶域是来自人、黑猩猩、猩猩、猴、牛、犬、大鼠、或小鼠。于若干实施方案中,碱基编辑器的脱氨酶域是衍生自大鼠(例如,大鼠APOBEC1)。于若干实施方案中,碱基编辑器的脱氨酶域为人APOBEC1。于若干实施方案中,碱基编辑器的脱氨酶域为pmCDA1。

pmCDA1的氨基酸序列及核酸序列显示如下。

>tr|A5H718|A5H718_PETMA胞嘧啶脱氨酶OS=八目鳗OX=7757PE=2SV=1氨基酸序列:

核酸序列:>EF094822.1八目鳗分离株PmCDA.21胞嘧啶脱氨酶mRNA,完整cds:

人活化诱导胞苷脱氨酶(AID)的写码序列(CDS)的氨基酸序列及核酸序列显示如下。

>tr|Q6QJ80|Q6QJ80_HUMAN活化诱导胞苷脱氨酶OS=智人Homo sapiens OX=9606GN=AICDA PE=2SV=1氨基酸序列:

核酸序列:>NG_011588.1:5001-15681智人活化诱导胞苷脱氨酶(AICDA),RefSeqGene(LRG_17)在染色体12上:

根据本揭示文的态样,能融合至Cas9的脱氨酶的其它实施例提供如下。须了解于若干实施方案中,可使用个别序列的活性域,例如,没有定位信号的域(核定位序列,没有核输出信号,胞质定位信号)。

人AID:

(下方画线:核定位序列;双下方画线:核输出信号)

小鼠AID:

(下方画线:核定位序列;双下方画线:核输出信号)

犬AID:

(下方画线:核定位序列;双下方画线:核输出信号)

牛AID:

(下方画线:核定位序列;双下方画线:核输出信号)

大鼠AID:

(下方画线:核定位序列;双下方画线:核输出信号)

小鼠APOBEC3:

(斜体:核酸编辑域)

大鼠APOBEC-3:

(斜体:核酸编辑域)

猕猴APOBEC-3G:

(斜体:核酸编辑域;下方画线:胞质定位信号)

黑猩猩APOBEC-3G:

(斜体:核酸编辑域;下方画线:胞质定位信号)

绿猴APOBEC-3G:

(斜体:核酸编辑域;下方画线:胞质定位信号)

人APOBEC-3G:

(斜体:核酸编辑域;下方画线:胞质定位信号)

人APOBEC-3F:

(斜体:核酸编辑域)

人APOBEC-3B:

(斜体:核酸编辑域)

大鼠APOBEC-3B:

牛APOBEC-3B:

黑猩猩APOBEC-3B:

人APOBEC-3C:

(斜体:核酸编辑域)

猩猩APOBEC-3C:

人APOBEC-3A:

(斜体:核酸编辑域)猕猴APOBEC-3A:

(斜体:核酸编辑域)

牛APOBEC-3A:

(斜体:核酸编辑域)

人APOBEC-3H:

(斜体:核酸编辑域)

猕猴APOBEC-3H:

人APOBEC-3D:

(斜体:核酸编辑域)

人APOBEC-1:

小鼠APOBEC-1:

大鼠APOBEC-1:

人APOBEC-2:

小鼠APOBEC-2:

大鼠APOBEC-2:

牛APOBEC-2:

八目鳗CDA1(pmCDA1):

人APOBEC3G D316R D317R:

人APOBEC3G链A:

人APOBEC3G链A D120R D121R:

本揭示的若干态样是基于认知,例如通过在脱氨酶域中做出点突变,而调控本文描述的融合蛋白中的任一者的脱氨酶域催化活性,来影响该融合蛋白(例如,碱基编辑器)的持续合成能力。举例言的,减少(但非消除)碱基编辑作用融合蛋白内部的脱氨酶域的催化活性的突变,使得脱氨酶域将催化标靶残基相邻残基的脱氨为较不可能,因而缩窄脱氨窗。缩窄脱氨窗的能力能够防止相邻于特定标靶残基的残基被非期望地脱氨,其能减少或防止脱靶效应。

举例言的,于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含选自于由rAPOBEC1的H121X、H122X、R126X、R126X、R118X、W90X、W90X、及R132X所组成的组群中的一个或多个突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变,其中X为任何氨基酸。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含选自于由rAPOBEC1的H121R、H122R、R126A、R126E、R118A、W90A、W90Y、及R132E所组成的组群中的一个或多个突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。

举例言的,于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含选自于由hAPOBEC3G的D316X、D317X、R320X、R320X、R313X、W285X、W285X、R326X所组成的组群中的一个或多个突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变,其中X为任何氨基酸。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含选自于由hAPOBEC3G的D316R、D317R、R320A、R320E、R313A、W285A、W285Y、R326E所组成的组群中的一个或多个突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。

于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含rAPOBEC1的H121R及H122R突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含rAPOBEC1的R126A突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含rAPOBEC1的R126E突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含rAPOBEC1的R118A突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含rAPOBEC1的W90A突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含rAPOBEC1的W90Y突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含rAPOBEC1的R132E突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含rAPOBEC1的W90Y及R126E突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含rAPOBEC1的R126E及R132E突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含rAPOBEC1的W90Y及R132E突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含rAPOBEC1的W90Y、R126E、及R132E突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。

于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含hAPOBEC3G的D316R及D317R突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含hAPOBEC3G的R320A突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含hAPOBEC3G的R320E突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含hAPOBEC3G的R313A突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含hAPOBEC3G的W285A突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含hAPOBEC3G的W285Y突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含hAPOBEC3G的R326E突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含hAPOBEC3G的W285Y及R320E突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含hAPOBEC3G的R320E及R326E突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含hAPOBEC3G的W285Y及R326E突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。于若干实施方案中,结合入碱基编辑器的APOBEC脱氨酶可包含hAPOBEC3G的W285Y、R320E、及R326E突变;或另一个APOBEC脱氨酶中的一个或多个相应的突变。

多种已修饰的胞苷脱氨酶为市售可得,包括,但非仅限于得自雅德金(Addgene)的SaBE3、SaKKH-BE3、VQR-BE3、EQR-BE3、VRER-BE3、YE1-BE3、EE-BE3、YE2-BE3、及YEE-BE3(质体85169、85170、85171、85172、85173、85174、85175、85176、85177)。

C至T核苷碱基编辑蛋白的细节是描述于国际PCT申请案Nos.PCT/US2016/058344(WO2017/070632),及Komor,A.C.,et al.,「不含双股DNA分裂的基因体DNA中的标靶碱基的可编程编辑」Nature 533,420-424(2016),其全文以引用方式纳入本说明书的揭示。

A至G编辑

于若干实施方案中,本文描述的碱基编辑器可包含脱氨酶域,其涵括腺苷脱氨酶。碱基编辑器的此种腺苷脱氨酶域能通过将腺嘌呤(A)脱氨,生成肌苷(I),其具有鸟嘌呤(G)的碱基配对性质,而协助A核苷碱基编辑成G核苷碱基。腺苷脱氨酶能将去氧核糖核酸(DNA)中的去氧腺苷残基的腺嘌呤脱氨(亦即,去除氨基)。

于若干实施方案中,本揭示中提供的核苷碱基编辑器可经由将一个或多个蛋白质域融合在一起,因而生成融合蛋白制造。于某些实施方案中,本揭示中提供的融合蛋白包含一个或多个特征,其改良融合蛋白的碱基编辑活性(例如,效率、选择性、及特异性)。举例言的,本揭示中提供的融合蛋白可包含具有减低核酸酶活性的Cas9结构域。于若干实施方案中,本揭示中提供的融合蛋白可具有不具核酸酶活性的Cas9结构域(dCas9),或切割二倍体DNA分子的一股的Cas9结构域,称作Cas9切口酶(nCas9)。不欲受任何特定理论所限,催化残基(例如,H840)的存在,维持了Cas9劈裂含与标靶A相对的T的非编辑(例如,非脱氨)股的活性。Cas9的催化残基的突变(例如,D10至A10)防止含标靶A残基的已编辑股的劈裂。此等Cas9变异体能基于gRNA界定的标靶序列而在特定位置生成单股DNA断裂(切口),导致非编辑股的修复,最终结果导致非编辑股上的T至C改变。于若干实施方案中,A-至-G碱基编辑器进一步包含肌苷碱基切除修复抑制剂,例如,尿嘧啶糖基化酶抑制剂(UGI)域或催化失活性肌苷特异性核酸酶。不欲受任何特定理论所限,UGI域或催化失活性肌苷特异性核酸酶能抑制或阻止已脱氨腺苷残基(例如,肌苷)的碱基切除修复,其可改良碱基编辑器的活性或效率。

包含腺苷脱氨酶的碱基编辑器能作用在任何多核苷酸上,包括DNA、RNA及DNA-RNA杂交体。于某些实施方案中,包含腺苷脱氨酶的碱基编辑器能将包含RNA的多核苷酸的标靶A脱氨。举例言的,碱基编辑器可包含腺苷脱氨酶域,其能够将RNA多核苷酸及/或DNA-RNA杂交体多核苷酸的标靶A脱氨。于一个实施方案中,结合入碱基编辑器的腺苷脱氨酶包含作用在RNA(ADAR,例如,ADAR1或ADAR2)上的腺苷脱氨酶的全部或部分。于另一个实施方案中,结合入碱基编辑器的腺苷脱氨酶包含作用在tRNA(ADAT)上的腺苷脱氨酶的全部或部分。包含腺苷脱氨酶域的碱基编辑器也能够将DNA多核苷酸的A核苷碱基脱氨。于一个实施方案中,碱基编辑器的腺苷脱氨酶包含ADAT的全部或部分,其包含一个或多个突变,其允许该ADAT将DNA中的标靶A脱氨。举例言的,碱基编辑器可包含得自大肠杆菌的ADAT的全部或部分(EcTadA),其包含以下各项突变中的一者或多者:D108N,A106V,D147Y,E155V,L84F,H123Y,I157F,或于另一个腺苷脱氨酶中的相应的突变。

腺苷脱氨酶可衍生自任何合宜的有机体(例如,大肠杆菌)。于若干实施方案中,腺苷脱氨酶为天然出现的腺苷脱氨酶,其包括对应于本揭示中提供的任何突变的一个或多个突变(例如,ecTadA中的突变)。任何同源蛋白质中的对应残基可通过例如同源残基的序列对齐与脱氨加以识别。于任何天然出现的腺苷脱氨酶中的对应于本揭示中提供的任何突变(例如,ecTadA中识别的任何突变)的突变可据此而生成。

于特定实施方案中,TadA为PCT/US2017/045381(WO2018/027078)(全文以引用方式纳入本说明书的揭示)中描述的TadA中的任一者。

于某些实施方案中,腺苷脱氨酶包含氨基酸序列:

于若干实施方案中,TadA脱氨酶为全长大肠杆菌TadA脱氨酶。举例言的,于某些实施方案中,腺苷脱氨酶包含氨基酸序列:

但须了解本申请案中有用的额外腺苷脱氨酶将为熟谙技艺人士显然易知且是落入本文揭示的范围内。举例言的,腺苷脱氨酶可以是作用在tRNA上的腺苷脱氨酶同源体(ADAT)。并非限制性,AD AT同源体实施例的氨基酸序列包括以下各项:

金黄色葡萄球菌TadA:

枯草芽孢杆菌(Bacillus subtilis)TadA:

鼠伤寒沙门氏菌(Salmonella typhimurium(S.typhimurium))TadA:

腐败希瓦氏菌(S.putrefaciens)TadA:

流感嗜血杆菌F3031(H.influenzae)TadA:

新月柄杆菌(C.crescentus)TadA:

硫还原地杆菌(Geobacter sulfurreducens(G.sulfurreducens))TadA:

TadA 7.10:

于若干实施方案中,腺苷脱氨酶是得自原核生物。于若干实施方案中,腺苷脱氨酶是得自细菌。于若干实施方案中,腺苷脱氨酶是得自大肠杆菌、金黄色葡萄球菌、鼠伤寒沙门氏菌、腐败希瓦氏菌、流感嗜血杆菌、新月柄杆菌、或枯草芽孢杆菌。于若干实施方案中,腺苷脱氨酶是得自大肠杆菌。

于一个实施方案中,本发明的融合蛋白包含链接到TadA 7.10的野生型TadA,其是链接到Cas9切口酶。于特定实施方案中,融合蛋白包含单一TadA 7.10域(例如,呈单体提供)。于其它实施方案中,ABE7.10编辑器包含TadA 7.10及TadA(wt),其能生成杂二元体。

于若干实施方案中,腺苷脱氨酶包含氨基酸序列,其是与本揭示中提供的任何腺苷脱氨酶中列举的氨基酸序列中的任一者为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5相同。须了解本揭示中提供的腺苷脱氨酶可包括一个或多个突变(例如,本揭示中提供的突变中的任一者)。本文提供具有某个百分比的相同度加上突变中的任一者或本文描述的组合的任何脱氨酶域。于若干实施方案中,腺苷脱氨酶包含氨基酸序列,其比较参考序列或本揭示中提供的任何腺苷脱氨酶,具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、或以上个突变。于若干实施方案中,腺苷脱氨酶包含氨基酸序列,其比较业界已知的或本文描述的氨基酸序列中的任一者,具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160、或至少170个相同的邻接氨基酸残基。

于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含D108X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的D108N、D108V、D108A、或D108Y突变,或于另一个腺苷脱氨酶中的对应突变。但须了解额外脱氨酶可类似地经对齐来识别如于本揭示中提供可被突变的同源氨基酸残基。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的A106X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的E155X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的E155D、E155G、或E155V突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的D147X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的D147Y突变,或于另一个腺苷脱氨酶中的对应突变。

须了解本揭示中提供的任何突变(例如,基于TadA参考序列氨基酸序列)能被导入其它腺苷脱氨酶中,诸如金黄色葡萄球菌TadA(saTadA)或其它腺苷脱氨酶(例如,细菌性腺苷脱氨酶)。于TadA参考序列中识别的任何突变能在具有同源氨基酸残基的其它腺苷脱氨酶做出。也须了解本揭示中提供的任何突变可于TadA参考序列中或其它腺苷脱氨酶中个别或呈任何组合做出。

举例言的,相对于TadA参考序列,腺苷脱氨酶包含D108N、A106V、E155V、及/或D147Y突变,或于另一个腺苷脱氨酶中的对应突变。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含以下各项群组突变(突变群组以「;」分开),或于另一个腺苷脱氨酶中的对应突变:D108N及A106V;D108N及E155V;D108N及D147Y;A106V及E155V;A106V及D147Y;E155V及D147Y;D108N、A106V及E55V;D108N、A106V及D147Y;D108N、E55V及D147Y;A106V、E55V及D147Y;以及D108N、A106V、E55V及D147Y。但须了解于腺苷脱氨酶中可做出本揭示中提供的对应突变的任何组合(例如,ecTadA)。

于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含H8X、T17X、L18X、W23X、L34X、W45X、R51X、A56X、E59X、E85X、M94X、I95X、V102X、F104X、A106X、R107X、D108X、K110X、M118X、N127X、A138X、F149X、M151X、R153X、Q154X、I156X、及/或K157X突变中的一者或多者,或于另一个腺苷脱氨酶中的一个或多个对应突变,于其中X的存在指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含H8Y、T17S、L18E、W23L、L34S、W45L、R51H、A56E、或A56S、E59G、E85K、或E85G、M94L、1951、V102A、F104L、A106V、R107C、或R107H、或R107P、D108G、或D108N、或D108V、或D108A、或D108Y、K110I、M118K、N127S、A138V、F149Y、M151V、R153C、Q154L、I156D、及/或K157R突变中的一者或多者,或于另一个腺苷脱氨酶中的一个或多个对应突变。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含H8X、D108X、及/或N127X突变中的一者或多者,或于另一个腺苷脱氨酶中的一个或多个对应突变,于其中X的存在指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含H8Y、D108N、及/或N127S突变中的一者或多者,或于另一个腺苷脱氨酶中的一个或多个对应突变。

于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含H8X、R26X、M61X、L68X、M70X、A106X、D108X、A109X、N127X、D147X、R152X、Q154X、E155X、K161X、Q163X、及/或T166X突变中的一者或多者,或于另一个腺苷脱氨酶中的一个或多个对应突变,于其中X的存在指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含H8Y、R26W、M61I、L68Q、M70V、A106T、D108N、A109T、N127S、D147Y、R152C、Q154H或Q154R、E155G或E155V或E155D、K161Q、Q163H、及/或T166P突变中的一者或多者,或于另一个腺苷脱氨酶中的一个或多个对应突变。

于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含选自于由H8X、D108X、N127X、D147X、R152X、及Q154X所组成的组群中的1、2、3、4、5、或6个突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸的存在。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含选自于由H8X、M61X、M70X、D108X、N127X、Q154X、E155X、及Q163X所组成的组群中的1、2、3、4、5、6、7或8个突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸的存在。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含选自于由H8X、D108X、N127X、E155X、及T166X所组成的组群中的1、2、3、4、或5个突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸的存在。

于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含选自于由H8X、A106X、D108X所组成的组群中的1、2、3、4、5、或6个突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸的存在。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含选自于由H8X、R126X、L68X、D108X、N127X、D147X、及E155X所组成的组群中的1、2、3、4、5、6、7或8个突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸的存在。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含选自于由H8X、D108X、A109X、N127X、及E155X所组成的组群中的1、2、3、4、或5个突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸的存在。

于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含选自于由H8Y、D108N、N127S、D147Y、R152C、及Q154H所组成的组群中的1、2、3、4、5、或6个突变,或于另一个腺苷脱氨酶中的对应突变。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含选自于由H8Y、M61I、M70V、D108N、N127S、Q154R、E155G、及Q163H所组成的组群中的1、2、3、4、5、6、7或8个突变,或于另一个腺苷脱氨酶中的对应突变。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含选自于由H8Y、D108N、N127S、E155V、及T166P所组成的组群中的1、2、3、4、或5个突变,或于另一个腺苷脱氨酶中的对应突变。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含选自于由H8Y、A106T、D108N、N127S、E155D、及K161Q所组成的组群中的1、2、3、4、5、或6个突变,或于另一个腺苷脱氨酶中的对应突变。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含选自于由H8Y、R126W、L68Q、D108N、N127S、D147Y、及E155V所组成的组群中的1、2、3、4、5、6、7或8个突变,或于另一个腺苷脱氨酶中的对应突变。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含选自于由H8Y、D108N、A109T、N127S、及E155G所组成的组群中的1、2、3、4、或5个突变,或于另一个腺苷脱氨酶中的对应突变。

须了解本揭示中提供的任何突变及任何额外突变(例如,基于TadA参考序列氨基酸序列)能被导入其它腺苷脱氨酶中。本揭示中提供的任何突变可于TadA参考序列中或其它腺苷脱氨酶中个别地做出或呈任何组合做出。

A至G核苷碱基编辑蛋白的细节是描述于国际PCT申请案Nos.PCT/2017/045381(WO2018/027078)及Gaudelli,N.M.,et al.,「不含DNA分裂的基因体DNA中的A·T至G·C的可编程碱基编辑」Nature551,464-471(2017),全文以引用方式纳入本说明书的揭示。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的突变中的一者或多者,或于另一个腺苷脱氨酶中的一个或多个对应突变。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V及D108N突变,或于另一个腺苷脱氨酶中的对应突变。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的R107C及D108N突变,或于另一个腺苷脱氨酶中的对应突变。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y、及Q154H突变,或于另一个腺苷脱氨酶中的对应突变。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、R24W、D108N、N127S、D147Y、及E155V突变,或于另一个腺苷脱氨酶中的对应突变。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的D108N、D147Y、及E155V突变,或于另一个腺苷脱氨酶中的对应突变。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、及N127S突变,或于另一个腺苷脱氨酶中的对应突变。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V、D108N、D147Y、及E155V突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的a、S2X、H8X、I49X、L84X、H123X、N127X、I156X及/或K160X突变中的一者或多者,或于另一个腺苷脱氨酶中的对应突变,于其中X的存在指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的S2A、H8Y、I49F、L84F、H123Y、N127S、I156F及/或K160S突变中的一者或多者,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含L84X突变腺苷脱氨酶,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的L84F突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的H123X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的H123Y突变,或于另一个腺苷脱氨酶中的对应突变。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的I157X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的I157F突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的选自于由L84X、A106X、D108X、H123X、D147X、E155X、及I156X所组成的组群中的1、2、3、4、5、6、或7个突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸的存在。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的选自于由S2X、I49X、A106X、D108X、D147X、及E155X所组成的组群中的1、2、3、4、5、或6个突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸的存在。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的选自于由H8X、A106X、D108X、N127X、及K160X所组成的组群中的1、2、3、4、或5个突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸的存在。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的选自于由L84F、A106V、D108N、H123Y、D147Y、E155V、及I156F所组成的组群中的1、2、3、4、5、6、或7个突变,或于另一个腺苷脱氨酶中的对应突变。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的选自于由S2A、I49F、A106V、D108N、D147Y、及E155V所组成的组群中的1、2、3、4、5、或6个突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的选自于由H8Y、A106T、D108N、N127S、及K160S所组成的组群中的1、2、3、4、或5个突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的E25X、R26X、R107X、A142X、及/或A143X突变中的一者或多者,或于另一个腺苷脱氨酶中的一个或多个对应突变,于其中X的存在指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S、E25Y、R26G、R26N、R26Q、R26C、R26L、R26K、R107P、R07K、R107A、R107N、R107W、R107H、R107S、A142N、A142D、A142G、A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q及/或A143R突变中的一者或多者,或于另一个腺苷脱氨酶中的一个或多个对应突变。于若干实施方案中,腺苷脱氨酶包含对应于TadA参考序列中的本文描述的突变中的一者或多者,或于另一个腺苷脱氨酶中的一个或多个对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的E25X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S、或E25Y突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的R26X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的R26G、R26N、R26Q、R26C、R26L、或R26K突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的R107X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的R107P、R07K、R107A、R107N、R107W、R107H、或R107S突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的A142X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的A142N、A142D、A142G突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的A143X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q及/或A143R突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的H36X、N37X、P48X、I49X、R51X、M70X、N72X、D77X、E134X、S 146X、Q154X、K157X、及/或K161X突变中的一者或多者,或于另一个腺苷脱氨酶中的一个或多个对应突变,于其中X的存在指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的H36L、N37T、N37S、P48T、P48L、I49V、R51H、R51L、M70L、N72S、D77G、E134G、S146R、S146C、Q154H、K157N、及/或K161T突变中的一者或多者,或于另一个腺苷脱氨酶中的一个或多个对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的H36X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的H36L突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的N37X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的N37T、或N37S突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的P48X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的P48T、或P48L突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的R51X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的R51H、或R51L突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的S146X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的S146R、或S146C突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的K157X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的K157N突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的P48X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的P48S、P48T、或P48A突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的A142X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的A142N突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的W23X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的W23R、或W23L突变,或于另一个腺苷脱氨酶中的对应突变。

于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的R152X突变,或于另一个腺苷脱氨酶中的对应突变,于其中X指示野生型腺苷脱氨酶中的对应氨基酸以外的任何氨基酸。于若干实施方案中,腺苷脱氨酶包含TadA参考序列中的R152P、或R152H突变,或于另一个腺苷脱氨酶中的对应突变。

于一个实施方案中,腺苷脱氨酶可包含突变H36L、R51L、L84F、A106V、D108N、H123Y、S 146C、D147Y、E155V、I156F、及K157N。于若干实施方案中,相对于TadA参考序列,腺苷脱氨酶包含以下各项突变的组合,于其中组合中的各个突变是通过「-」分开,及各个突变组合是括于括号内:(A106V_D108N)、(R107C_D108N)、

于某些实施方案中,本揭示中提供的融合蛋白包含改良融合蛋白的碱基编辑活性的一个或多个特征。举例言的,本揭示中提供的融合蛋白中的任一者可包含具有减低的核酸酶活性的Cas9结构域。于若干实施方案中,本揭示中提供的融合蛋白中的任一者可具有Cas9结构域,其不具有核酸酶活性;或切割二倍体DNA分子的一股的Cas9结构域,称作Cas9切口酶(nCas9)。

胞苷脱氨酶

于一个实施方案中,本发明的融合蛋白包含胞苷脱氨酶。于若干实施方案中,本揭示中提供的胞苷脱氨酶能将胞嘧啶或5-甲基胞嘧啶脱氨成尿嘧啶或胸腺嘧啶。于一个实施方案中,本揭示中提供的胞苷脱氨酶能将DNA中的胞嘧啶脱氨。胞苷脱氨酶可衍生自任何合宜的有机体。于若干实施方案中,胞苷脱氨酶为天然出现的胞苷脱氨酶,其包括对应于本揭示中提供的任何突变的一个或多个突变。熟谙技艺人士将能例如通过同源残基的序列对齐与脱氨而识别任何同源蛋白质中的对应残基。据此,熟谙技艺人士将能于任何天然出现的胞苷脱氨酶中,生成对应于本揭示中提供的任何突变的突变。于若干实施方案中,胞苷脱氨酶是得自原核生物。于若干实施方案中,胞苷脱氨酶是得自细菌。于若干实施方案中,胞苷脱氨酶是得自哺乳类(例如,人类)。

于若干实施方案中,胞苷脱氨酶包含氨基酸序列,其与本揭示中列举的胞苷脱氨酶氨基酸序列中的任一者,为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。须了解本揭示中提供的胞苷脱氨酶可涵括一个或多个突变(例如,本揭示中提供的突变中的任一者)。本文提供任何脱氨酶域具有某个百分比的相同度加本文描述的突变或其组合中的任一者。于若干实施方案中,胞苷脱氨酶包含氨基酸序列,其比较参考序列或本揭示中提供的任何胞苷脱氨酶,具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、或以上突变。于若干实施方案中,胞苷脱氨酶包含氨基酸序列,其比较业界已知的或本文描述的氨基酸序列中的任一者,具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160、或至少170相同的邻接氨基酸残基。

本发明的融合蛋白包含核酸编辑域。于若干实施方案中,核酸编辑域能催化C至U碱基变化。于若干实施方案中,核酸编辑域为脱氨酶域。于若干实施方案中,脱氨酶为胞苷脱氨酶或腺苷脱氨酶。于若干实施方案中,脱氨酶为载脂蛋白B mRNA编辑复合物(APOBEC)家族脱氨酶。于若干实施方案中,脱氨酶为APOBEC1脱氨酶。于若干实施方案中,脱氨酶为APOBEC2脱氨酶。于若干实施方案中,脱氨酶为APOBEC3脱氨酶。于若干实施方案中,脱氨酶为APOBEC3A脱氨酶。于若干实施方案中,脱氨酶为APOBEC3B脱氨酶。于若干实施方案中,脱氨酶为APOBEC3C脱氨酶。于若干实施方案中,脱氨酶为APOBEC3D脱氨酶。于若干实施方案中,脱氨酶为APOBEC3E脱氨酶。于若干实施方案中,脱氨酶为APOBEC3F脱氨酶。于若干实施方案中,脱氨酶为APOBEC3G脱氨酶。于若干实施方案中,脱氨酶为APOBEC3H脱氨酶。于若干实施方案中,脱氨酶为APOBEC4脱氨酶。于若干实施方案中,脱氨酶为活化诱导脱氨酶(AID)。于若干实施方案中,脱氨酶为脊椎动物脱氨酶。于若干实施方案中,脱氨酶为无脊椎动物脱氨酶。于若干实施方案中,脱氨酶为人、黑猩猩、猩猩、猴、牛、犬、大鼠、或小鼠脱氨酶。于若干实施方案中,脱氨酶为人脱氨酶。于若干实施方案中,脱氨酶为大鼠脱氨酶,例如,rAPOBEC1。于若干实施方案中,脱氨酶为八目鳗胞苷脱氨酶1(pmCDA1)。于若干实施方案中,脱氨酶为人APOBEC3G。于若干实施方案中,脱氨酶为人APOBEC3G的一片段。于若干实施方案中,脱氨酶为人APOBEC3G变异体,其包含D316R D317R突变。于若干实施方案中,脱氨酶为人APOBEC3G的一片段,及其包含D316R D317R突变的相应突变。于若干实施方案中,核酸编辑域与本文描述的任何脱氨酶的脱氨酶域为至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。

核苷碱基编辑器的Cas9结构域

于有些态样中,核酸可编程DNA结合蛋白(napDNAbp)为Cas9结构域。本揭示中提供Cas9结构域的非限制性实施例。Cas9结构域可以是核酸酶活性Cas9结构域、核酸酶失活性Cas9结构域、或Cas9切口酶。于若干实施方案中,Cas9结构域为核酸酶活性Cas9结构域。举例言的,Cas9结构域可以是切割二倍体核酸的两股(例如,二倍体DNA分子的两股)的Cas9结构域。于若干实施方案中,Cas9结构域包含本揭示列举的氨基酸序列中的任一者。于若干实施方案中,Cas9结构域包含氨基酸序列,其是与本揭示中列举的氨基酸序列中的任一者,为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。于若干实施方案中,Cas9结构域包含氨基酸序列,其比较本揭示中列举的氨基酸序列中的任一者,具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、或以上突变。于若干实施方案中,Cas9结构域包含氨基酸序列,其比较本揭示中列举的氨基酸序列中的任一者,具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100、或至少1200相同的邻接氨基酸残基。

于若干实施方案中,Cas9结构域为核酸酶失活性Cas9结构域(dCas9)。举例言的,dCas9结构域可结合到二倍体核酸分子(例如,通过gRNA分子),而未劈裂二倍体核酸分子的任一股。于若干实施方案中,核酸酶失活性dCas9结构域包含本揭示中列举的氨基酸序列的D10X突变及H840X突变,或本揭示中提供的任何氨基酸序列的相应突变,其中X为任何氨基酸变化。于若干实施方案中,核酸酶失活性dCas9结构域包含本揭示中列举的氨基酸序列的D10A突变及H840A突变,或本揭示中提供的任何氨基酸序列的相应突变。

于若干实施方案中,Cas9结构域为Cas9切口酶。Cas9切口酶可以是能劈裂二倍体核酸分子(例如,二倍体DNA分子)只有一股的Cas9蛋白。于若干实施方案中,Cas9切口酶劈裂二倍体核酸分子的标靶股,表示Cas9切口酶劈裂其是与结合到Cas9的gRNA(例如,sgRNA)碱基配对(与其互补)的该股。于若干实施方案中,Cas9切口酶包含D10A突变,及于位置840具有组氨酸。于若干实施方案中,Cas9切口酶劈裂二倍体核酸分子的非标靶且非碱基编辑股,表示Cas9切口酶劈裂其是未与结合到Cas9的gRNA(例如,sgRNA)碱基配对的该股。于若干实施方案中,Cas9切口酶包含H840A突变,及于位置10具有天冬酸、或对应突变。于若干实施方案中,Cas9切口酶包含氨基酸序列,其是与本揭示中提供的Cas9切口酶中的任一者,为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。任何合宜的Cas9切口酶将为熟谙技艺人士基于本文揭示与该领域知识所显然易知,且是落入本文揭示的范围内。

具有减低排他性的Cas9结构域

典型地,Cas9蛋白,诸如得自化脓性链球菌的Cas9(spCas9),需要典范NGG PAM序列以结合特定核酸区,于其中「NGG」中的「N」为腺嘌呤(A)、胸腺嘧啶(T)、或胞嘧啶(C),及G为鸟嘌呤。此可能限制在基因体内编辑期望碱基的能力。于若干实施方案中,本揭示中提供的碱基编辑融合蛋白可能需要置于精准位置,例如包含PAM上游的标靶碱基的一区。参考例如,Komor,A.C.,et al.,「不含双股DNA分裂的基因体DNA中的标靶碱基的可编程碱基编辑」Nature 533,420-424(2016),全文以引用方式纳入本说明书的揭示。据此,于若干实施方案中,本揭示中提供的融合蛋白中的任一者可含有Cas9结构域,其能结合不含典范(例如,NGG)PAM序列的核苷酸序列。结合至非典范PAM序列的Cas9结构域已由业界描述且为熟谙技艺人士显然易知。举例言的,结合至非典范PAM序列的Cas9结构域已描述于Kleinstiver,B.P.,et al.,「具有变更PAM特异性的改造CRISPR-Cas9」Nature 523,481-485(2015);及Kleinstiver,B.P.,et al.,「通过修饰PAM辨识来拓展金黄色葡萄球菌CRISPR-Cas9的靶定范围」Nature Biotechnology 33,1293-1298(2015);Nishimasu,H.,et al.,「具有扩增靶定空间的改造CRISPR-Cas9核酸酶」(“Engineered CRISPR-Cas9 nuclease with expandedtargetingspace”)Science.2018Sep 21;361(6408):1259-1262;Chatterjee,P.,et al.,「高度相似的SpCas9同是物的极低PAM特异性」(Minimal PAM specificity of a highlysimilar SpCas9 ortholog”)Sci Adv.2018Oct 24;4(10):eaau0766.doi:10.1126/sciadv.aau0766,各自全文以引用方式纳入本说明书的揭示。数个PAM变异体是描述于下表1。

表1.Cas9蛋白及对应的PAM序列

Cas9与导引RNA的复合物

本揭示的若干态样提供包含本揭示中提供的融合蛋白中的任一者与导引RNA(例如,靶定关注基因的导引)的复合物。用以链接融合蛋白域的任何方法皆可采用(例如,自形式(GGGS)

于若干实施方案中,导引核酸(例如,导引RNA)长度为15-100核苷酸,及包含至少10个邻接核苷酸的序列,其是与标靶序列互补。于若干实施方案中,导引RNA长度为15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、或50核苷酸。于若干实施方案中,导引RNA包含15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、或40个邻接核苷酸的序列,其是与标靶序列互补。于若干实施方案中,标靶序列为DNA序列。于若干实施方案中,标靶序列为细菌、酵母、真菌、昆虫、植物、或动物的基因体中的序列。于若干实施方案中,标靶序列为人的基因体中的序列。于若干实施方案中,标靶序列3’端是紧邻于典范PAM序列(NGG)。于若干实施方案中,标靶序列为人的基因体中的序列。于若干实施方案中,标靶序列3’端是紧邻于非典范PAM序列(例如,表1列举的序列或5’-NAA-3’)。于若干实施方案中,导引核酸(例如,导引RNA)是与关注基因中的序列互补。

本揭示的若干态样提供融合蛋白或本揭示中提供的复合物的使用方法。举例言的,本揭示的若干态样提供的方法包含DNA分子接触本揭示中提供的融合蛋白中的任一者,及与至少一个导引RNA接触,其中该导引RNA长度为约15-100核苷酸,及包含至少10个邻接核苷酸的序列,其是与标靶序列互补。于若干实施方案中,标靶序列的3’端是紧邻AGC、GAG、TTT、GTG、或CAA序列。于若干实施方案中,标靶序列的3’端是紧邻NGA、NAA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN、或5’(TTTV)序列。

须了解个别序列中的特定位置或残基的编号是取决于使用的特定蛋白质及编号方案。编号可能不同,例如成熟蛋白质的前驱物与成熟蛋白质本身,及不同种属的序列差异可能影响编号。通过业界众所周知的方法,例如,通过序列对齐与同源残基的测定,熟谙技艺人士将能识别任何同源蛋白质中的及个别编码核酸中的个别残基。

熟谙技艺人士显然易知为了将本文描述的融合蛋白中的任一者靶定于标靶位点,例如包含欲编辑的突变的位点,典型地须与导引RNA一起表达融合蛋白。如于本文中它处以进一步细节解释,导引RNA典型地包含允许Cas9结合的tracrRNA框架;及导引序列,其赋与序列特异性给Cas9:核酸编辑酶/域融合蛋白。另外,导引RNA及tracrRNA可分开提供,为两个核酸分子。于若干实施方案中,导引RNA包含一种结构,其中该导引序列包含与标靶序列互补的序列。导引序列典型长度为20核苷酸。基于本文揭示,用于将Cas9:核酸编辑酶/域融合蛋白靶定到特定基因体标靶位点的合宜导引RNA序列将为熟谙技艺人士显然易知。此等合宜导引RNA序列典型地包含导引序列,其与在欲被编辑的标靶核苷酸上游或下游50核苷酸以内的核酸序列互补。本揭示中提供适合用于将所提供的任何融合蛋白靶定到特定标靶序列的合宜导引RNA序列的若干实施例。

包含Cas9结构域及胞苷脱氨酶或腺苷脱氨酶的融合蛋白的使用方法

本揭示的若干态样提供融合蛋白或本揭示中提供的复合物的使用方法。举例言的,本揭示的若干态样提供的方法,包含编码关注蛋白质的DNA分子接触本揭示中提供的融合蛋白中的任一者,及与至少一个导引RNA接触,其中该导引RNA长度为约15-100核苷酸,及包含至少10个邻接核苷酸的序列,其是与标靶序列互补。于若干实施方案中,标靶序列3’端是紧邻于典范PAM序列(NGG)。于若干实施方案中,标靶序列3’端是非紧邻于典范PAM序列(NGG)。于若干实施方案中,标靶序列的3’端是紧邻AGC、GAG、TTT、GTG、或CAA序列。于若干实施方案中,标靶序列的3’端是紧邻NGA、NAA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN、或5’(TTTV)序列。

额外域

本文描述的碱基编辑器可包括任何域,其有助于协助核苷碱基编辑,多核苷酸的核苷碱基修饰或变更。于若干实施方案中,碱基编辑器包含多核苷酸可编程核苷酸结合域(例如,Cas9)、核苷碱基编辑域(例如,脱氨酶域)、及一个或多个额外域。于有些情况下,额外域可协助碱基编辑器的酶催或催化功能、碱基编辑器的结合功能、或作为可能干扰期望的碱基编辑结果的细胞机构(例如,酶)的抑制剂。于若干实施方案中,碱基编辑器可包含核酸酶、切口酶、重组酶、脱氨酶、甲基转移酶、甲基酶、乙酰酶、乙酰转移酶、转录活化剂、或转录阻遏子域。

于若干实施方案中,碱基编辑器可包含尿嘧啶糖基化酶抑制剂(UGI)域。UGI域例如可通过抑制由C脱氨所形成的U转换回C核苷碱基,而改良包含胞苷脱氨酶域的碱基编辑器效率。于有些情况下,对存在有U:G杂二倍体DNA的细胞DNA修复反应,可能造成细胞中核苷碱基编辑效率的减低。于此等情况下,尿嘧啶DNA糖基化酶(UDG)能催化细胞中自DNA去除U,其能引发碱基切除修复(BER),大半导致U:G对逆转成C:G对。于此等情况下,BER能在包含一个或多个域的碱基编辑器中被抑制,其结合单股,阻挡被编辑的碱基,抑制UGI,抑制BER,保护被编辑的碱基,及/或促进非编辑股的修复。如此,本文揭示预期涵盖包含UGI域的碱基编辑器融合蛋白。

于若干实施方案中,碱基编辑器包含双股断裂(DSB)结合蛋白的全部或部分,成为一域。举例言的,DSB结合蛋白可涵括噬菌体μ的Gam蛋白质,其能结合至DSB末端,且能保护DSB免于降解。参考Komor,A.C.,et al.,「改良碱基切除修复抑制及有较高效率与产物纯度的噬菌体μGam蛋白质获得C:G-to-T:A碱基编辑器」,Science Advances 3:eaao4774(2017);全文以引用方式纳入本说明书的揭示。

于若干实施方案中,碱基编辑器包含核酸聚合酶(NAP)的全部或部分,成为一域。举例言的,碱基编辑器可包含原核NAP的全部或部分。于若干实施方案中,结合入碱基编辑器的NAP或其部分为DNA聚合酶。于若干实施方案中,结合入碱基编辑器的NAP或其部分具有跨病变聚合酶活性。于若干实施方案中,结合入碱基编辑器的NAP或其部分乃跨病变DNA聚合酶。于若干实施方案中,结合入碱基编辑器的NAP或其部分为Rev7、Rev1复合物、聚合酶ι、聚合酶κ、或聚合酶η。于若干实施方案中,结合入碱基编辑器的NAP或其部分为真核聚合酶α、β、γ、δ、ε、γ、η、ι、κ、λ、μ、或ν组成分。于若干实施方案中,结合入碱基编辑器的NAP或其部分包含氨基酸序列,其是与核酸聚合酶(例如,跨病变DNA聚合酶)为至少75%、80%、85%、90%、95%、96%、97%、98%、99%、或99.5%相同。

碱基编辑器系統

本揭示中提供的碱基编辑器系統包含以下各项步骤:(a)让个体的多核苷酸(例如,双股DNA或RNA、单股DNA或RNA)的标靶核苷酸序列接触包含核苷碱基编辑器(例如,腺苷碱基编辑器或胞苷碱基编辑器)及导引多核苷酸(例如,gRNA)的碱基编辑器系統,其中该标靶核苷酸序列包含被靶定的核苷碱基对;(b)诱导标靶区的股分离;(c)将标靶区单股中的标靶核苷碱基对的第一核苷碱基转换成第二核苷碱基;及(d)切割标靶区中不多于一股,于其中与第一核苷碱基互补的第三核苷碱基是由与第二核苷碱基互补的第四核苷碱基置换。须了解于若干实施方案中,步骤(b)被删除。于若干实施方案中,被靶定的核苷碱基对为一个或多个基因中的复数个核苷碱基对。于若干实施方案中,本揭示中提供的碱基编辑器系統能够多工编辑一个或多个基因中的复数个核苷碱基对。于若干实施方案中,复数个核苷碱基对是在相同基因中。于若干实施方案中,复数个核苷碱基对是在一个或多个基因中,其中至少一个基因是位在不同的基因座。

于若干实施方案中,被切割的单股(切口股)杂交至导引核酸。于若干实施方案中,被切割的单股是与包含第一核苷碱基的该股相反。于若干实施方案中,碱基编辑器包含Cas9。于若干实施方案中,第一碱基为腺嘌呤,及第二碱基非为G、C、A、或T。于若干实施方案中,第二碱基为肌苷。

如本揭示中提供的碱基编辑器系統提供基因体编辑的新颖办法,其使用含有催化缺陷的化脓性链球菌Cas9、胞苷脱氨酶、及碱基切除修复抑制剂的融合蛋白,来诱导DNA中的可编程单一核苷酸(C→T或A→G)改变,而未生成双股DNA断裂,不需要供体DNA样板,且不会诱导过量随机插入或缺失。

本揭示中提供者为用于使用碱基编辑器系統编辑核苷碱基的系統、组合物、及方法。于若干实施方案中,碱基编辑器系統包含(1)碱基编辑器(BE),其包含多核苷酸可编程核苷酸结合域-及用于编辑核苷碱基的核苷碱基编辑域(例如,脱氨酶域);及(2)导引多核苷酸(例如,导引RNA)连同多核苷酸可编程核苷酸结合域。于若干实施方案中,碱基编辑器系統包含胞苷碱基编辑器(CBE)。于若干实施方案中,碱基编辑器系統包含腺苷碱基编辑器(ABE)。于若干实施方案中,多核苷酸可编程核苷酸结合域为多核苷酸可编程DNA结合域。于若干实施方案中,多核苷酸可编程核苷酸结合域为多核苷酸可编程RNA结合域。于若干实施方案中,核苷碱基编辑域为脱氨酶域。于有些情况下,脱氨酶域可以是胞嘧啶脱氨酶或胞苷脱氨酶。于若干实施方案中,术语「胞嘧啶脱氨酶」与「胞苷脱氨酶」可互换使用。于有些情况下,脱氨酶域可以是腺嘌呤脱氨酶或腺苷脱氨酶。于若干实施方案中,术语「腺嘌呤脱氨酶」与「腺苷脱氨酶」可互换使用。核苷碱基编辑蛋白的细节是描述于国际PCT申请案Nos.PCT/2017/045381(WO2018/027078)及PCT/US2016/058344(WO2017/070632),其各自全文以引用方式纳入本说明书的揭示。也请参考Komor,A.C.,et al.,「不含双股DNA分裂的基因体DNA中的标靶碱基的可编程编辑」Nature 533,420-424(2016);Gaudelli,N.M.,et al.,「不含DNA分裂的基因体DNA中的A·T至G·C的可编程碱基编辑」Nature 551,464-471(2017);及Komor,A.C.,et al.,「改良碱基切除修复抑制及有较高效率与产物纯度的噬菌体μGam蛋白质获得C:G-to-T:A碱基编辑器」,Science Advances 3:eaao4774(2017);其全文内容以引用方式纳入本说明书的揭示。

于若干实施方案中,碱基编辑器抑制已编辑股的碱基切除修复。于若干实施方案中,碱基编辑器保护或结合非编辑股。于若干实施方案中,碱基编辑器包含UGI活性。于若干实施方案中,碱基编辑器包含切口酶活性。于若干实施方案中,碱基对的意图编辑是在PAM位点上游。于若干实施方案中,碱基对的意图编辑是在PAM位点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20核苷酸。于若干实施方案中,碱基对的意图编辑是在PAM位点下游。于若干实施方案中,碱基对的意图编辑是在PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20核苷酸。

于若干实施方案中,该方法无需典范(例如,NGG)PAM位点。于若干实施方案中,核苷碱基编辑器包含链接基或间隔基。于若干实施方案中,链接基或间隔基长度为1-25个氨基酸。于若干实施方案中,链接基或间隔基长度为5-20个氨基酸。于若干实施方案中,链接基或间隔基长度为10、11、12、13、14、15、16、17、18、19、或20个氨基酸。

于若干实施方案中,标靶区包含一标靶窗,其中该标靶窗包含标靶核苷碱基对。于若干实施方案中,标靶窗包含1-10个核苷酸。于若干实施方案中,标靶窗的长度为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。于若干实施方案中,碱基对的意图编辑是在标靶窗内部。于若干实施方案中,标靶窗包含碱基对的意图编辑。于若干实施方案中,该方法是使用本揭示中提供的碱基编辑器中的任一者进行。于若干实施方案中,标靶窗为脱氨窗。

于若干实施方案中,碱基编辑器为胞苷碱基编辑器(CBE)。于若干实施方案中,CBE的非限制性实施例为BE1(APOBEC1-XTEN-dCas9)、BE2(APOBEC1-XTEN-dCas9-UGI)、BE3(APOBEC1-XTEN-dCas9(A840H)-UGI)、BE3-Gam、saBE3、saBE4-Gam、BE4、BE4-Gam、saBE4、或saB4E-Gam。BE4延长链接基APOBEC1-Cas9n(D10A)至32个氨基酸,及延长Cas9n-UGI链接基成9氨基酸,及附加UGI的第二拷贝到具有另一个9-氨基酸链接基的建构体C端,而成为单一碱基编辑器建构体。碱基编辑器saBE3及saBE4具有化脓性链球菌Cas9n(D10A),其被金黄色葡萄球菌Cas9n(D10A)置换。BE3-Gam、saBE3-Gam、BE4-Gam、及saBE4-Gam具有Gam蛋白质的174残基,通过16-氨基酸XTEN链接基,而融合到BE3、saBE3、BE4、及saBE4的N端。

于若干实施方案中,碱基编辑器为腺苷碱基编辑器(ABE)。于若干实施方案中,腺苷碱基编辑器能将DNA中的腺嘌呤脱氨。于若干实施方案中,ABE是经由以天然的或改造的大肠杆菌TadA、人ADAR2、小鼠ADA、或人ADAT2置换BE3的APOBEC1组成分生成。于若干实施方案中,ABE包含演化的TadA变异体。于若干实施方案中,ABE为ABE 1.2(TadA*-XTEN-nCas9-NLS)。于若干实施方案中,TadA*包含A106V及D108N突变。

于若干实施方案中,ABE为第二代ABE。于若干实施方案中,ABE为ABE2.1,其包含TadA*中的额外突变D147Y及E155V(TadA*2.1)。于若干实施方案中,ABE为ABE2.2,ABE2.1融合至人烷基腺嘌呤DNA糖基化酶的催化失活化版本(AAG具有E125Q突变)。于若干实施方案中,ABE为ABE2.3,ABE2.1融合至大肠杆菌Endo V的催化失活化版本(失活化具有D35A突变)。于若干实施方案中,ABE为ABE2.6,其具有链接基为ABE2.1中的链接基的两倍长(32氨基酸,(SGGS)

于若干实施方案中,ABE为第三代ABE。于若干实施方案中,ABE为ABE3.1,其为具有三个额外TadA突变(L84F、H123Y、及I157F)的ABE2.3。

于若干实施方案中,ABE为第四代ABE。于若干实施方案中,ABE为ABE4.3,其为具有一个额外TadA突变A142N(TadA*4.3)的ABE3.1。

于若干实施方案中,ABE为第五代ABE。于若干实施方案中,ABE为ABE5.1,其是经由将来自幸存克隆的等位突变集合(H36L、R51L、S146C、及K157N)输入ABE3.1内生成。于若干实施方案中,ABE为ABE5.3,其具有杂二元建构体,其含有野生型大肠杆菌TadA融合至内部演化TadA*。于若干实施方案中,ABE为ABE5.2、ABE5.4、ABE5.5、ABE5.6、ABE5.7、ABE5.8、ABE5.9、ABE5.10、ABE5.11、ABE5.12、ABE5.13、或ABE5.14,如显示于下表2。于若干实施方案中,ABE为第六代ABE。于若干实施方案中,ABE为ABE6.1、ABE6.2、ABE6.3、ABE6.4、ABE6.5、或ABE6.6,如显示于下表2。于若干实施方案中,ABE为第七代ABE。于若干实施方案中,ABE为ABE7.1、ABE7.2、ABE7.3、ABE7.4、ABE7.5、ABE7.6、ABE7.7、ABE7.8、ABE 7.9、或ABE7.10,如显示于下表2。

表2.ABE的基因型

于若干实施方案中,碱基编辑器为融合蛋白,其包含多核苷酸可编程核苷酸结合域(例如,Cas9衍生域)融合到核苷碱基编辑域(例如,脱氨酶域的全部或部分)。于若干实施方案中,碱基编辑器进一步包含一域,其包含尿嘧啶糖基化酶抑制剂(UGI)的全部或部分。于若干实施方案中,碱基编辑器包含一域,其包含尿嘧啶结合蛋白(UBP)的全部或部分,诸如尿嘧啶DNA糖基化酶(UDG)。于若干实施方案中,碱基编辑器包含一域,其包含核酸聚合酶的全部或部分。于若干实施方案中,结合入碱基编辑器的核酸聚合酶或其部分为跨病变DNA聚合酶。

于若干实施方案中,碱基编辑器的一域可包含多个域。举例言的,包含衍生自Cas9的多核苷酸可编程核苷酸结合域的该碱基编辑器,其可包含REC叶、及对应于REC叶的NUC叶、及野生型或天然Cas9的NUC叶。于另一实施例中,碱基编辑器可包含RuvCI域、BH域、REC1域、REC2域、RuvCII域、L1域、HNH域、L2域、RuvCIII域、WED域、TOPO域、或CTD域中的一者或多者。于若干实施方案中,碱基编辑器的一个或多个域包含相对于包含该域的多肽的野生型版本的突变(例如,取代、插入、缺失)。举例言的,多核苷酸可编程DNA结合域的HNH域可包含H840A取代。于另一实施例中,多核苷酸可编程DNA结合域的RuvCI域可包含D10A取代。

有或无使用一个或多个链接基域(例如,XTEN链接基域),本文中揭示的碱基编辑器的不同域(例如,相邻域)能够彼此连结。于有些情况下,链接基域可以是键结(例如,共价键)、化学基团、或链接两个分子或部分的分子,例如,融合蛋白的二域,诸如第一域(例如,Cas9衍生域)及第二域(例如,胞苷脱氨酶域或腺苷脱氨酶域)。于若干实施方案中,链接基为共价键(例如,碳-碳键、双硫键、碳-杂原子键等)。于某些实施方案中,链接基为酰氨键联的碳-氮键。于某些实施方案中,链接基为环状或无环、取代的或无取代的、分支的或未分支的脂肪族或杂脂肪族链接基。于某些实施方案中,链接基为聚合的(例如,聚乙烯、聚乙二醇、聚酰氨、聚酯等)。于某些实施方案中,链接基包含氨基烷酸的单体、二元体、或聚合物。于若干实施方案中,链接基包含氨基烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。于有些实施方案中,链接基包含氨基己酸(Ahx)的单体、二元体、或聚合物。于某些实施方案中,链接基是基于碳环部分(例如,环戊烷、环己烷)。于其它实施方案中,链接基包含聚乙二醇部分(PEG)。于某些实施方案中,链接基包含芳基或杂芳基部分。于某些实施方案中,链接基是基于苯环。链接基可包括官能化部分,俾便协助来自肽的亲核基团(例如,硫醇、氨基)附接到链接基。任何亲电子基团可被使用作为链接基的部分。亲电子基团的实施例包括,但非仅限于活性酯、活性酰氨、麦可受体、烷基卤、芳基卤、酰基卤、及异硫氰酸酯。于若干实施方案中,链接基接合RNA可编程核酸酶的gRNA结合域(包括Cas9核酸酶域),与核酸编辑蛋白的催化域。于若干实施方案中,链接基接合dCas9与第二域(例如,胞苷脱氨酶、UGI等)。

典型地,链接基是位在两个基团、分子、或其它部分间,或由其所旁出,及通过共价键而连结各者,如此连接两者。于若干实施方案中,链接基为氨基酸或复数个氨基酸(例如,肽或蛋白质)。于若干实施方案中,链接基为有机分子、基团、聚合物、或化学部分。于若干实施方案中,链接基长度为2-100个氨基酸,例如,长2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150、或150-200个氨基酸。也预期涵盖更长或更短的链接基。于若干实施方案中,链接基域包含氨基酸序列SGSETPGTSESATPES,其也称作XTEN链接基。于若干实施方案中,链接基包含氨基酸序列SGGS。于若干实施方案中,链接基包含(SGGS)n、(GGGS)n、(GGGGS)n、(G)n、(EAAAK)n、(GGS)n、SGSETPGTSESATPES、或(XP)

本文中揭示的碱基编辑器的域可以任何顺序排列。包含融合蛋白的碱基编辑器,其包含例如,多核苷酸可编程核苷酸结合域及脱氨酶域的非限制性实施例可排列如下:

NH

NH

NH

NH

NH

NH

NH

NH

NH

NH

NH

NH

NH

NH

NH

此外,于有些情况下,Gam蛋白质可融合至碱基编辑器的N端。于有些情况下,Gam蛋白质可融合至碱基编辑器的C端。噬菌体μ的Gam蛋白质可结合到双股断裂(DSB)末端,及保护其免于降解。于若干实施方案中,使用Gam来结合DSB的自由端,可减少碱基编辑过程中插入或缺失(indel)的生成。于若干实施方案中,174-残基Gam蛋白质融合至碱基编辑器的N端。参考Komor,A.C.,et al.,「改良碱基切除修复抑制及有较高效率与产物纯度的噬菌体μGam蛋白质获得C:G-to-T:A碱基编辑器」,Science Advances 3:eaao4774(2017)。于有些情况下,突变可能改变碱基编辑器域相对于野生型域的长度。举例言的,于至少一个域中缺失至少一个氨基酸,可能缩短碱基编辑器的长度。于另一种情况下,突变不会改变碱基编辑器域相对于野生型域的长度。举例言的,于任何域的取代不会改变碱基编辑器的长度。此等碱基编辑器,于其中全部域的长度是与野生型域相同,其非限制性实施例可包括:

NH

NH

NH

NH

NH

NH

NH

NH

NH

NH

NH

于若干实施方案中,本揭示中提供的碱基编辑融合蛋白须位在精准位置,例如,于其中,标靶碱基是置于已界定区(例如,「脱氨窗」)。于有些情况下,标靶可落入4-碱基区内部。于有些情况下,此种已界定的标靶区可在PAM上游约15个碱基。参考Komor,A.C.,etal.,「不含双股DNA分裂的基因体DNA中的标靶碱基的可编程编辑」,Nature 533,420-424(2016);Gaudelli,N.M.,et al.,「不含DNA分裂的基因体DNA中的A·T至G·C的可编程碱基编辑」,Nature 551,464-471(2017);及Komor,A.C.,et al.,「改良碱基切除修复抑制及有较高效率与产物纯度的噬菌体Mu Gam蛋白质获得C:G-to-T:A碱基编辑器」,ScienceAdvances 3:eaao4774(2017),其全文内容以引用方式纳入本说明书的揭示。

已界定的标靶区可以是脱氨窗。脱氨窗可以是已界定区,于其中,碱基编辑器作用在标靶核苷酸上且将其脱氨。于若干实施方案中,脱氨窗是落入于2、3、4、5、6、7、8、9、或10个碱基区内。于若干实施方案中,脱氨窗为PAM上游5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、或25个碱基。

本文揭示的碱基编辑器可包含辅助标靶多核苷酸序列编辑的任何域、特征、或氨基酸序列。举例言的,于若干实施方案中,碱基编辑器包含核定位序列(NLS)。于若干实施方案中,碱基编辑器的NLS是位在脱氨酶域与多核苷酸可编程核苷酸结合域间。于若干实施方案中,碱基编辑器的NLS是位在多核苷酸可编程核苷酸结合域的C端。

须了解本揭示的融合蛋白可包含一个或多个额外特征。可存在于如本文描述的碱基编辑器中的其它特征的实施例为定位序列,诸如胞质定位序列、输出序列,诸如核输出序列、或其它定位序列、以及对融合蛋白的溶解、纯化、或检测为有用的序列标签。本揭示中提供的合宜蛋白质标签包括,但非仅限于生物素羧基酶载体蛋白质(BCCP)标签、myc-标签、携钙素-标签、FLAG-标签、血球凝集素(HA)-标签、多组氨酸标签,又称组氨酸标签或His-标签、麦芽糖结合蛋白(MBP)-标签、nus-标签、麸胱甘肽-S-转移酶(GST)-标签、绿萤光蛋白(GFP)-标签、硫氧化还原蛋白-标签、S-标签、Softags(例如,Softag 1、Softag3)、strep-标签、生物素接合酶标签、FlAsH标签、V5标签、及SBP-标签。额外合宜序列将为熟谙技艺人士显然易知。于若干实施方案中,融合蛋白包含一个或多个His标签。

能涵括于融合蛋白中的蛋白质域的非限制性实施例包括脱氨酶域(例如,胞苷脱氨酶及/或腺苷脱氨酶)、尿嘧啶糖基化酶抑制剂(UGI)域、抗原决定表位标签、通报子基因序列、及/或具有以下各项活性中的一者或多者的蛋白质域:甲基酶活性、脱甲基酶活性、转录活化活性、转录遏止活性、转录释放因子活性、组织蛋白修饰活性、RNA劈裂活性、及核酸结合活性。额外域可以是非同源功能域。此等非同源功能域可赋与功能活性,诸如DNA甲基化、DNA损坏、DNA修复、标靶DNA相关联的标靶多肽的修饰(例如,组织蛋白、DNA结合蛋白等),结果导致例如,组织蛋白甲基化、组织蛋白乙酰化、组织蛋白泛在化等。

其它赋与的功能可包括甲基转移酶活性、脱甲基酶活性、脱氨活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二元体生成活性、整合酶活性、转位酶活性、重组酶活性、聚合酶活性、接合酶活性、解螺旋酶活性、光分解酶活性或糖基化酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素接合酶活性、脱泛素化活性、腺苷化活性、脱腺苷化活性、SUMO化活性、脱SUMO化活性、核糖化活性、脱核糖化活性、肉豆蔻化活性、塑形化活性、蛋白酶活性、氧化还原酶活性、转移酶活性、水解酶活性、分解酶活性、异构酶活性、合酶活性、合成酶活性、及脱肉豆蔻化活性、或其任何组合。

抗原决定表位标签的非限制性实施例包括组氨酸(His)标签、V5标签、FLAG标签、流行性感冒血球凝集素(HA)标签、Myc标签、VSV-G标签、及硫氧化还原蛋白(Trx)标签。通报子基因的实施例包括,但非仅限于麸胱甘肽-5-转移酶(GST)、辣根过氧化酶(HRP)、氯霉素乙酰转移酶(CAT)、β-半乳糖苷酶、β-葡萄糖苷酸酶、虫萤光素酶、绿萤光蛋白(GFP)、HcRed、DsRed、青萤光蛋白(CFP)、黄萤光蛋白(YFP)、及自体萤光蛋白包括蓝萤光蛋白(BFP)。额外蛋白序列可包括结合DNA分子或结合其它细胞分子的氨基酸序列,包括但非仅限于麦芽糖结合蛋白(MBP)、S-标签、Lex A DNA结合域(DBD)融合物、GAL4 DNA结合域融合物、及单纯疱疹病毒(HSV)BP16蛋白融合物。

碱基编辑器效率

CRISPR-Cas9核酸酶已广用来媒介靶定的基因体编辑。于大部分的基因体编辑应用中,Cas9与导引多核苷酸(例如,单导引RNA(sgRNA))生成复合物,及在由sgRNA序列所特定化的标靶位点,诱导双股断裂(DSB)。细胞主要通过非同源末端接合(NHEJ)修复路径,回应此DSB,其结果导致随机插入或缺失(indel),其可能造成破坏基因的移码突变。在具有与DSB旁出序列高度同源性的供体DNA样板的存在下,基因校正可通过称作为同源导向修复(HDR)的替代途径达成。不幸地,于大多数非扰动条件下,HDR为无效,取决于细胞状态及细胞类型,及由较高频率的插入或缺失(indel)掌控。因为人类疾病相关联的已知基因变异为点突变,需要有能够更有效地更俐落地做出精准点突变的方法。如本揭示中提供的碱基编辑系統提供了新颖的编辑基因体编辑方式,而不会产生双股DNA断裂,不需要供体DNA样板,及不会诱导过量随机插入或缺失。

本揭示中提供的碱基编辑器能修饰特定核苷酸碱基,而不会产生显著比例的插入或缺失(indel)。如于本揭示中使用,术语「indel(s)」是指在核酸内部核苷酸碱基的插入或缺失。此等插入或缺失可能导致基因编码区内部的移码突变。于若干实施方案中,可期望产生碱基编辑器,其有效地修饰(例如,突变或脱氨)核酸内部的特定核苷酸,而不会在标靶核苷酸序列中产生大量插入或缺失(亦即,indel)。于某些实施方案中,本揭示中提供的任何碱基编辑器,相较于indel,能够生成更大比例的预期修饰(例如,点突变或脱氨)。

于若干实施方案中,本揭示中提供的碱基编辑器系統中的任一者导致在标靶多核苷酸序列中产生少于50%、少于40%、少于30%、少于20%、少于19%、少于18%、少于17%、少于16%、少于15%、少于14%、少于13%、少于12%、少于11%、少于10%、少于9%、少于8%、少于7%、少于6%、少于5%、少于4%、少于3%、少于2%、少于1%、少于0.9%、少于0.8%、少于0.7%、少于0.6%、少于0.5%、少于0.4%、少于0.3%、少于0.2%、少于0.1%、少于0.09%、少于0.08%、少于0.07%、少于0.06%、少于0.05%、少于0.04%、少于0.03%、少于0.02%、或少于0.01%的插入或缺失生成。

本揭示的若干态样是基于认知本揭示中提供的碱基编辑器中的任一者能在核酸(例如,个体的基因体内部的核酸)中产生预期的突变,诸如点突变,而不会产生显著量的非预期的突变,诸如非预期的点突变。

于若干实施方案中,本揭示中提供的碱基编辑器中的任一者能够产生至少0.01%预期的突变(亦即,至少0.01%碱基编辑效率)。于若干实施方案中,本揭示中提供的碱基编辑器中的任一者能够产生至少0.01%、1%、2%、3%、4%、5%、10%、15%、20%、25%、30%、40%、45%、50%、60%、70%、80%、90%、95%、或99%预期的突变。

于若干实施方案中,本揭示中提供的碱基编辑器中的任一者能够产生预期的点突变对indel的比其是大于1:1。于若干实施方案中,本揭示中提供的碱基编辑器中的任一者能够产生预期的点突变对indel的比其是至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少8.5:1、至少9:1、至少10:1、至少11:1、至少12:1、至少13:1、至少14:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少200:1、至少300:1、至少400:1、至少500:1、至少600:1、至少700:1、至少800:1、至少900:1、或至少1000:1,或以上。

预期的突变数目及indel数目可利用任何合宜方法测定,例如,如描述于国际PCT申请案Nos.PCT/2017/045381(WO2018/027078)及PCT/US2016/058344(WO2017/070632);Komor,A.C.,et al.,「不含双股DNA分裂的基因体DNA中的标靶碱基的可编程编辑」Nature533,420-424(2016);及Komor,A.C.,et al.,「改良碱基切除修复抑制及有较高效率与产物纯度的噬菌体μGam蛋白质获得C:G-to-T:A碱基编辑器」,Science Advances 3:eaao4774(2017),其全文内容以引用方式纳入本说明书的揭示。

于若干实施方案中,为了计算indel频率,定序读码被扫描,用于正确匹配旁出于一窗(于其中出现indel)两侧的两个10-bp序列。若未找到正确匹配,则该读码从分析中被排除。若此indel窗长度正确匹配参考序列,则该读码被归类为不含indel。若indel窗比参考序列更长或更短2或以上个碱基,则该定序读码分别被归类为插入或缺失。于若干实施方案中,本揭示中提供的碱基编辑器可能限制在核酸区中的indel生成。于若干实施方案中,该区是在由碱基编辑器所靶定的核苷酸,或在由碱基编辑器所靶定的核苷酸的2、3、4、5、6、7、8、9、或10个核苷酸以内的一区。

于标靶核苷酸区所生成的indel数目,可取决于核酸(例如,细胞的基因体内部的核酸)暴露至碱基编辑器的时间量。于若干实施方案中,indel的数目或比例是在标靶核苷酸序列(例如,细胞的基因体内部的核酸)暴露至碱基编辑器的至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少34日、至少5日、至少7日、至少10日、或至少14日后测定。须了解如本文描述的碱基编辑器的特性可应用至融合蛋白中的任一者,或本揭示中提供的融合蛋白的使用方法。

多工编辑

于若干实施方案中,本揭示中提供的碱基编辑器系統能够多工编辑在一个或多个基因中的复数个核苷碱基对。于若干实施方案中,复数个核苷碱基对是位在相同基因。于若干实施方案中,复数个核苷碱基对是位在一个或多个基因,其中至少一个基因是位在不同的基因座。于若干实施方案中,多工编辑可包含一个或多个导引多核苷酸。于若干实施方案中,多工编辑可包含一个或多个碱基编辑器系統。于若干实施方案中,多工编辑可包含一个或多个具有单导引多核苷酸的碱基编辑器系統。于若干实施方案中,多工编辑可包含一个或多个具有复数导引多核苷酸的碱基编辑器系統。于若干实施方案中,多工编辑可包含一个或多个具有单一碱基编辑器系統的导引多核苷酸。于若干实施方案中,多工编辑可包含至少一个导引多核苷酸,其不需要PAM序列来靶定结合到标靶核苷酸序列。于若干实施方案中,多工编辑可包含至少一个导引多核苷酸,其需要PAM序列来靶定结合到标靶核苷酸序列。于若干实施方案中,多工编辑可包含至少一个导引多核苷酸,其不需要PAM序列来靶定结合到标靶核苷酸序列,与至少一个导引多核苷酸,其需要PAM序列来靶定结合到标靶核苷酸序列的混合。须了解使用如本文描述的碱基编辑器中的任一者进行多工编辑的特性,可应用到使用本揭示中提供的碱基编辑器中的任一者的方法的任何组合。也须了解使用如本文描述的碱基编辑器中的任一者进行多工编辑,可包含复数个核苷碱基对的顺序编辑。

本揭示中提供的方法包含以下各项步骤:(a)让个体的多核苷酸的标靶核苷酸序列(例如,双股DNA序列)接触包含核苷碱基编辑器(例如,腺苷碱基编辑器或胞苷碱基编辑器)及导引多核苷酸(例如,gRNA)的碱基编辑器系統,其中该标靶核苷酸序列包含被靶定的核苷碱基对;(b)诱导标靶区的股分离;(c)将标靶区单股中的标靶核苷碱基对的第一核苷碱基编辑成第二核苷碱基;及(d)切割标靶区中不多于一股,于其中,与第一核苷碱基互补的第三核苷碱基是由与第二核苷碱基互补的第四核苷碱基置换。

于若干实施方案中,复数个核苷碱基对是在再一个基因中。于若干实施方案中,复数个核苷碱基对是在同一个基因中。于若干实施方案中,再一个基因中的至少一个基因是在不同的基因座。

于若干实施方案中,编辑为在至少一个蛋白质写码区中复数个核苷碱基对的编辑。于若干实施方案中,编辑为在至少一个蛋白质非写码区中复数个核苷碱基对的编辑。于若干实施方案中,编辑为在至少一个蛋白质写码区和至少一个蛋白质非写码区中复数个核苷碱基对的编辑。

于若干实施方案中,编辑为关联一个或多个导引多核苷酸。于若干实施方案中,碱基编辑器系統可包含一个或多个碱基编辑器系統。于若干实施方案中,碱基编辑器系統可包含一个或多个碱基编辑器系統连同单导引多核苷酸。于若干实施方案中,碱基编辑器系統可包含一个或多个碱基编辑器系統连同复数个导引多核苷酸。于若干实施方案中,编辑为关联具有单一碱基编辑器系統的一个或多个导引多核苷酸。于若干实施方案中,编辑为关联至少一个导引多核苷酸,其不需要PAM序列来靶定结合到标靶核苷酸序列。于若干实施方案中,编辑为关联至少一个导引多核苷酸,其需要PAM序列来靶定结合到标靶核苷酸序列。于若干实施方案中,编辑为关联至少一个导引多核苷酸,其不需要PAM序列来靶定结合到标靶核苷酸序列,与至少一个导引多核苷酸,其需要PAM序列来靶定结合到标靶核苷酸序列的混合。须了解使用如本文描述的碱基编辑器中的任一者进行多工编辑的特性,可应用到使用本揭示中提供的碱基编辑器中的任一者的方法的任何组合。也须了解编辑可包含复数个核苷碱基对的顺序编辑。

碱基编辑器的使用方法

疾病相关联的基因及等位基因中的点突变的校正,开启了基因校正的新颖策略,应用在治疗学与基础研究。如目前揭露的位点特异性单一碱基修饰系統也可应用在「反向」基因疗法,于其中某些基因功能被蓄意地压制或废除。于此等情况下,导致蛋白质中失活化突变的位点特异性突变残基、或抑制蛋白质功能的突变可被使用来于试管内、活体外、或活体内废止或抑制蛋白质功能。

本文提供诊断患有点突变相关联的或由其引发的疾病的个体的治疗方法,该点突变能通过本揭示中提供的碱基编辑器系統加以校正。举例言的,于若干实施方案中,提供一种方法,其包含对患有此种疾病,例如由基因突变所引发的疾病的个体投予有效量的核苷碱基编辑器(例如,腺苷脱氨酶碱基编辑器或胞苷脱氨酶碱基编辑器),其将失活化突变导入疾病相关联的基因中。

于若干实施方案中,该病为增生性疾病。于若干实施方案中,该病为遗传性疾病。于若干实施方案中,该病为肿瘤疾病。于若干实施方案中,该病为代谢疾病。于若干实施方案中,该病为溶小体储积症。合宜疾病和病症的实施例包括,但非仅限于镰状细胞症、β-地中海型贫血、或α-1抗胰蛋白酶缺乏症(A1AD)。可通过校正点突变或将失活化突变导入疾病相关联的基因中而治疗的疾病,为熟谙技艺人士所已知,本揭示文并不受限于此一面向。本文提供额外疾病或病症的治疗方法,例如,可通过脱氨酶媒介的基因编辑校正的点突变相关联的或引起的疾病或病症。若干此等疾病是描述于本文中,及基于本文揭示,能以本揭示中提供的策略及融合蛋白治疗的额外合宜疾病,将为熟谙技艺人士显然易知。须了解个别序列中特定位置或残基的编号,是取决于特殊蛋白质及所使用的编号方案。编号可能不同,例如,成熟蛋白质的前驱物与成熟蛋白质本身的编号可能不同,及因种属而异的序列差异可能影响编号。熟谙技艺人士将能够通过业界众所周知的方法,例如,通过序列对齐与同源残基的判定,而识别任何同源蛋白质中与个别编码核酸中的个别残基。

本揭示中提供者为使用碱基编辑器或碱基编辑器系統,用于编辑疾病或病症相关联的标靶核苷酸序列中的核苷碱基的方法。于若干实施方案中,碱基编辑器(例如,包含腺苷脱氨酶及Cas9结构域)的活性,结果导致点突变的校正。于若干实施方案中,标靶DNA序列包含疾病或病症相关联的G→A点突变,及其中突变体A碱基的脱氨,结果导致与疾病或病症不相关联的序列。于若干实施方案中,标靶DNA序列包含疾病或病症相关联的T→C点突变,及其中突变体C碱基的脱氨,结果导致与疾病或病症不相关联的序列。

于若干实施方案中,标靶DNA序列编码蛋白质,及点突变是在密码子,及导致比较野生型密码子,由突变体密码子编码的氨基酸改变。于若干实施方案中,突变体A的脱氨,结果导致由该突变体密码子编码的氨基酸改变。于若干实施方案中,突变体A的脱氨结果导致该密码子编码野生型氨基酸。于若干实施方案中,突变体C的脱氨,结果导致由该突变体密码子编码的氨基酸改变。于若干实施方案中,突变体C的脱氨结果导致该密码子编码野生型氨基酸。于若干实施方案中,该个体患有或已被确诊患有疾病或病症。

于若干实施方案中,本揭示中提供的腺苷脱氨酶能将DNA的去氧腺苷残基的腺嘌呤脱氨。本揭示的其它态样提供融合蛋白,其包含腺苷脱氨酶(例如,如本文描述的将DNA中的去氧腺苷脱氨的腺苷脱氨酶)及能结合到特定核苷酸序列的一域(例如,Cas9或Cpf1蛋白)。举例言的,腺苷能转成肌苷残基,其典型地与胞苷残基碱基配对。此等融合蛋白特别可使用于核酸序列的靶定编辑。此等融合蛋白可使用于试管内DNA的靶定编辑,例如,用于突变体细胞或动物的产生;用于靶定突变的导入,例如用于活体外细胞中,例如得自一个体的细胞随后再导入相同个体或另一个体的细胞中,遗传缺陷的校正;及用于活体内靶定突变的导入,例如疾病相关联的基因中遗传缺陷的校正或失活化突变的导入,G至A突变或T至C突变能使用本揭示中提供的核苷碱基编辑器处理。本文提供运用脱氨酶及核苷碱基编辑器的脱氨酶、融合蛋白、核酸、载体、细胞、组合物、方法、试剂盒、系統等。

产生预期的突变

于若干实施方案中,本揭示中提供的方法的目的是通过基因编辑,恢复功能失调基因的功能。于若干实施方案中,功能失调基因的功能是通过导入预期的突变恢复。本揭示中提供的核苷碱基编辑蛋白可验证用于试管内以基因编辑为基础的人类疗法,例如通过校正人类细胞培养中疾病相关联的突变。熟谙技艺人士须了解本揭示中提供的核苷碱基编辑蛋白,例如包含多核苷酸可编程核苷酸结合域(例如,Cas9)及核苷碱基编辑域(例如,腺苷脱氨酶域或胞苷脱氨酶域)的融合蛋白,可使用来校正任何单点A至G突变或C至T突变。于第一情况下,突变体A至I的脱氨,校正了该突变;而于后者情况下,与突变体T呈碱基配对的A的脱氨,接着为一回合复制,校正了该突变。

于若干实施方案中,本文提供碱基编辑器,其能在核酸(例如,个体基因体内部的核酸)中有效生成预期的突变,诸如点突变,而不会产生显著数目的非预期的突变,诸如非预期的点突变。于若干实施方案中,预期的突变为,经由特定碱基编辑器(例如,胞苷碱基编辑器或腺苷碱基编辑器)结合到特别设计用以产生预期的突变的导引多核苷酸(例如,gRNA),所产生的突变。于若干实施方案中,预期的突变为与疾病或病症相关联的突变。于若干实施方案中,预期的突变为与疾病或病症相关联的腺嘌呤(A)至鸟嘌呤(G)点突变。于若干实施方案中,预期的突变为与疾病或病症相关联的胞嘧啶(C)至胸腺嘧啶(T)点突变。于若干实施方案中,预期的突变为在基因的写码区或非写码区内部腺嘌呤(A)至鸟嘌呤(G)点突变。于若干实施方案中,预期的突变为在基因的写码区或非写码区内部胞嘧啶(C)至胸腺嘧啶(T)点突变。

于若干实施方案中,本揭示中提供的碱基编辑器中的任一者能够产生预期的突变对非预期的突变的比(例如,预期的点突变:非预期的点突变)其是大于1:1。于若干实施方案中,本揭示中提供的碱基编辑器中的任一者能够产生预期的突变对非预期的突变的比(例如,预期的点突变:非预期的点突变)其为至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少150:1、至少200:1、至少250:1、至少500:1、或至少1000:1、或以上。

碱基编辑器效率的细节是描述于国际PCT申请案Nos.PCT/2017/045381(WO2018/027078)及PCT/US2016/058344(WO2017/070632),其各自全文以引用方式纳入本说明书的揭示。也请参考Komor,A.C.,et al.,「不含双股DNA分裂的基因体DNA中的标靶碱基的可编程编辑」Nature 533,420-424(2016);Gaudelli,N.M.,et al.,「不含DNA分裂的基因体DNA中的A·T至G·C的可编程碱基编辑」Nature 551,464-471(2017);及Komor,A.C.,et al.,「改良碱基切除修复抑制及有较高效率与产物纯度的噬菌体μGam蛋白质获得C:G-to-T:A碱基编辑器」,Science Advances 3:eaao4774(2017);其全文内容以引用方式纳入本说明书的揭示。

于若干实施方案中,于一个或多个基因中复数个核苷碱基对的编辑,导致至少一个预期的突变生成。于若干实施方案中,至少一个预期的突变生成,导致导入补偿突变,遏止疾病表现型。须了解如本文描述的碱基编辑器的多工编辑,能够应用到本揭示中提供的碱基编辑器的使用方法的任何组合。

补偿突变的导入

于若干实施方案中,本揭示中提供的碱基编辑器能导入一个或多个补偿突变,以校正基因的开读框的突变,其又转而:(1)通过校正活性位点突变,或通过导入异位突变,以提高催化活性或以增加酶基质亲和力,而提高蛋白质活性;(2)增加蛋白质安定性;或(3)通过改良翻译速率,增加内囊胞释放,改善信号肽处理,或增/减与其它蛋白质(例如,阻遏子或伴侣蛋白)的交互作用,而增加蛋白质表达。于若干实施方案中,补偿突变可抵消引发疾病的突变。补偿突变介绍的非限制性实施例系列举于表3A及3B。突变及其它序列变异的描述命名是说明于den Dunnen,J.T.and Antonarakis,S.E.,「突变命名延伸与描述复杂突变的建议:讨论」(“Mutation Nomenclature Extensions and Suggestions to DescribeComplex Mutations:A Discussion.”)Human Mutation 15:712(2000),全文内容以引用方式纳入本说明书的揭示。

于一态样中,疾病或病症为α-1抗胰蛋白酶缺乏症(A1AD)。于若干实施方案中,病原性突变是在编码A1AT蛋白质的SERPINA1基因。A1AT蛋白质中的突变是与A1AD相关联(表3A)。于若干实施方案中,SERPINA1的病原性突变为E342K(PiZ等位基因)。于若干实施方案中,SERPINA1的病原性突变为E264V(PiS等位基因)。于若干实施方案中,遏止A1AT的PiZ或PiS等位基因的突变体效应的补偿突变为M374I(图3及图4)。于若干实施方案中,遏止A1AT的PiZ或PiS等位基因的突变体效应的补偿突变为F51L。于若干实施方案中,遏止A1AT的PiZ或PiS等位基因的突变体效应的补偿突变为A348V/A347V。于若干实施方案中,遏止A1AT的PiZ或PiS等位基因的突变体效应的补偿突变为K387R。于若干实施方案中,遏止A1AT的PiZ或PiS等位基因的突变体效应的补偿突变为T59A。于若干实施方案中,遏止A1AT的PiZ或PiS等位基因的突变体效应的补偿突变为T68A。

于另一态样中,疾病或病症表示表3B中例示说明者。于一个实施方案中,疾病或病症为镰状细胞症。于若干实施方案中,一个或多个补偿突变可被导入血色素子单元的编码基因。于若干实施方案中,一个或多个补偿突变可被导入血色素β子单元(HbB)的编码HBB基因。于若干实施方案中,HBB基因为镰状血色素等位基因(HbS)。于若干实施方案中,于HBB基因中导入一个或多个补偿突变,结果导致血色素β子单元的氨基酸序列改变。于若干实施方案中,β血色素子单元的改变为A70T、A70V、L88P、F85L、F85P、E22G、G16D、G16N、或其任何组合。于若干实施方案中,于HBA1或HBA2基因中导入一个或多个补偿突变,结果导致血色素α子单元的氨基酸序列改变。于若干实施方案中,碱基编辑可导致血色素α子单元的氨基酸序列改变。于若干实施方案中,α血色素子单元的氨基酸序列是定位在血色素的α子单元与β子单元的聚合交界面。于若干实施方案中,α血色素子单元的氨基酸序列是定位在镰状细胞血色素的α子单元与β子单元的聚合交界面。于若干实施方案中,α子单元的氨基酸序列中的变化为K11E、D47G、Q54R、N68D、E116K、H20Y、H50Y、或其任何组合。于若干实施方案中,任何此等变化能减低生成HbA/HbS四元体的聚合潜力。于若干实施方案中,任何此等变化是在血色素的一个或多个异位位点。于若干实施方案中,任何此等变化是在血色素的一个或多个非异位位点。于若干实施方案中,镰状血色素的氨基酸序列中的任何此等变化能与定位在HBA1或HBA2基因中的额外核苷碱基的额外编辑多工化。于若干实施方案中,疾病为囊性纤维化(CF),及补偿突变(例如,R555K、F409L、F433L、H667R、R1070W、R29K、R553Q、I539T、G550E、F429S、Q637R)包含囊性纤维化穿膜电导调节(CTRF)基因变化,CTRF基因编码脊椎动物体的CTRF膜蛋白及氯通道。于若干实施方案中,该疾病为甲状腺素(TTR)心脏类淀粉蛋白沈积症,其是因折迭错误或组装错误(变异体)的甲状腺素蛋白所诱发,及补偿突变(例如,A108V、R104H、T119M)包含TTR蛋白的改变,其补偿折迭错误的或组装错误的变异体。

须了解本揭示中提供的碱基编辑器系統,能使用来阻遏任何其它血色素等位基因的任何病原性氨基酸。于若干实施方案中,该改变使得血色素的镰状化最小化。于若干实施方案中,该变化是在涉及血色素子单元聚合的一个或多个氨基酸残基中。于若干实施方案中,该变化改进了血色素的溶解能力。涉及血色素子单元聚合的任何其它氨基酸残基预期涵盖于本揭示中。

递送系統

根据本文揭示编码核苷碱基编辑器的核酸,可通过业界已知的或如本文描述的方法,投予个体或于试管内递送入细胞内。于一个实施方案中,核苷碱基编辑器被选择性地递送到肝、肺、或任何其它器官的细胞及其祖细胞。于特定实施方案中,已进行编辑的细胞能被使用来分析试验基因编辑对编码蛋白质功能的功能效应。于一个实施方案中,核苷碱基编辑器可通过例如载体(例如,病毒性或非病毒载体)、基于非载体的方法(例如,使用裸DNA、DNA复合物、脂质奈米粒子)或其组合递送。

编码核苷碱基编辑器的核酸可呈裸DNA或裸RNA直接递送到肝、肺、或任何其它器官的细胞,例如利用转染或电泳递送;或可接合到促进由标靶细胞吸收的分子(例如,N-乙酰半乳糖氨)。也可使用核酸载体,诸如本文描述的载体。

本文中揭示的碱基编辑器可编码于含在病毒载体的核酸上。病毒载体可包括慢病毒、腺病毒、反转录病毒、及腺相关联病毒(AAV)。病毒载体可基于应用而予选择。举例言的,AAV因其温和免疫原性,故常用于活体内基因递送。腺病毒因其诱发强力免疫反应,故常用作为疫苗。病毒载体的包装容量可能限制能被包装入载体内的碱基编辑器大小。举例言的,AAV的包装容量为约4.5kb,包括两个145碱基末端反向重复序列(ITR)。

AAV基因体是由两个基因组成,其分别编码四种复制蛋白及三种衣壳蛋白,及任一侧上旁出有145-bp末端反向重复序列(ITR)。病毒粒子是由三种衣壳蛋白组成,Vp1、Vp2、及Vp3,由相同开读框以1:1:10比例制造,但来自差异拼接(Vp1)及其它翻译起始位点(分别为Vp2及Vp3)。Vp3乃病毒粒子中最丰富的子单元,参与界定病毒向性的细胞表面的受体辨识。发挥病毒感染力功能的磷脂酶域已在Vp1的独特N端识别出。

类似wt AAV,重组AAV(rAAV)利用顺式作用145-bp ITR来旁出于载体转移基因卡匣,提供高达4.5kb用于外来DNA的包装。感染的后,rAAV可表达本发明的融合蛋白,及持续维持,而不会通过现有附加于环状头至尾连环而整合入宿主基因体内。虽然试管内及活体内,有无数使用此系統的rAAV成功的实施例,但当基因的写码序列长度是大小等于或大于wt AAV基因体时,有限包装容量已限制了AAV媒介的基因递送的用途。

AAV载体的小包装容量,使得超过此大小的多个基因的递送及/或大型生理调节元体的用途,变成具有挑战性。此等挑战可通过例如,将欲递送的蛋白质平分成两个或以上个片段加以解决,其中N端片段是融合至分裂的内含肽-N,及C端片段是融合至分裂的内含肽-C。然后,此等片段被包装成两个或以上个AAV载体。如于本揭示中使用,「内含肽」是指自我拼接蛋白质内含子(例如,肽),其接合旁出的N端与C端外显肽(例如,欲被接合的片段)。某些内含肽用于接合异源性蛋白质片段的用途例如,是描述于Wood et al.,J.Biol.Chem.289(21);14512-9(2014)。举例言的,融合到分开蛋白质片段时,内含肽IntN及IntC辨识彼此,拼接出其本身,及同时,接合其所融合的蛋白质片段的旁出N-及C-端外显肽,通过此从两个蛋白质片段,重新建构全长蛋白质。其它合宜的内含肽将为业界熟谙技艺人士显然易知。

本发明的融合蛋白的片段长度可各异。于若干实施方案中,蛋白质片段长度是于2氨基酸至约100氨基酸的范围。于若干实施方案中,蛋白质片段长度是于约5氨基酸至约500氨基酸的范围。于若干实施方案中,蛋白质片段长度是于约20氨基酸至约200氨基酸的范围。于若干实施方案中,蛋白质片段长度是于约10氨基酸至约100氨基酸的范围。其它长度的合宜蛋白质片段将为业界熟谙技艺人士显然易知。

于若干实施方案中,核酸酶(例如,Cas9)的一部分或一片段是融合至内含肽。核酸酶可融合至内含肽的N端或C端。于若干实施方案中,融合蛋白的一部分或一片段是融合至内含肽,且融合到AAV衣壳蛋白。内含肽、核酸酶、及衣壳蛋白可以任何排列融合在一起(例如,核酸酶-内含肽-衣壳、内含肽-核酸酶-衣壳、衣壳-内含肽-核酸酶等)。于若干实施方案中,内含肽N端是融合到融合蛋白C端,及内含肽C端是融合到AAV衣壳蛋白N端。

于一个实施方案中,于分开两半(5’及3’端,或头及尾)中,对偶AAV载体是通过拼接大型转移基因表达卡匣产生,于其中卡匣的各半是包装于单一AAV载体(<5kb)。然后,当相同细胞通过两个对偶AAV载体,接着为以下各项共同感染时,达成了全长转移基因表达卡匣的重新组装:(1)5’及3’基因体(对偶AAV重迭载体)间的同源重组(HR);(2)5’及3’基因体(对偶AAV转拼接载体)的ITR媒介尾至头连环;或(3)此二机转的组合(对偶AAV杂交载体)。活体内对偶AAV载体的使用,导致全长蛋白质的表达。对偶AAV载体平台的使用,代表>4.7kb大小的转移基因的有效的可行的基因转移策略。

所揭示的用于设计碱基编辑器的策略,用于产生能够包装入病毒载体的碱基编辑器是有用的。使基于RNA或DNA病毒系統来递送碱基编辑器,利用高度演化的方法,用以将病毒靶定至培养中的或宿主中的特定细胞,及贩运病毒酬载到细胞核或宿主细胞基因体。病毒载体可直接投予培养中的细胞,投予病人(活体内);或其能被使用来于试管内处理细胞,及已修饰的细胞可任选地投予病人(活体外)。习知基于病毒的系統可包括反转录病毒、慢病毒、腺病毒、腺相关联及单纯疱疹病毒用于基因转移。使用反转录病毒、慢病毒、及腺相关联病毒基因转移方法,可能整合于宿主基因体,经常导致被插入的转移基因的长期表达。此外,在许多不同细胞类型及标靶组织,已观察到高转导效率。

反转录病毒的向性可通过结合外来外套膜蛋白,扩增标靶细胞的潜在目标族群加以变更。慢病毒载体为能够转导或感染非分裂细胞,及典型地产生高病毒效价的反转录病毒载体。因此,反转录病毒基因转移系統的选择将取决于标靶组织。反转录病毒载体包含顺式作用长末端重复序列,具有包装容量高达6-10kb外来序列。最小顺式作用LTR足够用于载体的复制与包装,其然后用来将治疗性基因整合入标靶细胞内,以提供永久转移基因表达。广为使用的反转录病毒载体包括基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猴免疫缺乏病毒(SIV)、人免疫缺乏病毒(HIV)、及其组合者(例如,参考Buchscher et al.,J.Virol.66:2731-2739(1992);Johann et al.,J.Virol.66:1635-1640(1992);Sommnerfelt et al.,Virol.176:58-59(1990);Wilson et al.,J.Virol.63:2374-2378(1989);Miller et al.,J.Virol.65:2220-2224(1991);PCT/US94/05700)。

反转录病毒载体,尤其是慢病毒载体可能要求多核苷酸序列小于某个长度,来有效整合入标靶细胞。举例言的,长度大于9kb的反转录病毒载体,比较较小尺寸的病毒载体可能导致低病毒效价。就某些态样而言,本揭示的碱基编辑器是具有足够尺寸,因而使其能通过反转录病毒载体而有效包装与递送入标靶细胞内。于有些情况下,碱基编辑器具有某个大小,因而允许有效包装与递送,即便当连同导引核酸及/或可靶定核酸酶系統的其它组件一起表达时亦复如此。

于暂时性表达为佳的应用中,可使用基于腺病毒的系統。基于腺病毒的载体于许多细胞类型中能有极高转导效率,不需要细胞分裂。使用此种载体,已获得高效价及表达程度。此载体能于相对简单系統中大量制造。

腺相关联病毒(AAV)载体也能用来以标靶核酸转导细胞,例如于核酸及肽的试管内制造,及用于活体内及活体外基因治疗程序(参考,例如,West et al.,Virology 160:38-47(1987);美国专利案No.4,797,368;WO 93/24641;Kotin,Human Gene Therapy 5:793-801(1994);Muzyczka,J.Clin.Invest.94:1351(1994))。重组AAV载体的建构是描述于多个公开文献,包括美国专利案No.5,173,414;Tratschin et al.,Mol.Cell.Biol.5:3251-3260(1985);Tratschin,et al.,Mol.Cell.Biol.4:2072-2081(1984);Hermonat&Muzyczka,PNAS 81:6466-6470(1984);及Samulski et al.,J.Virol.63:03822-3828(1989)。

因此,本文描述的碱基编辑器能使用病毒载体递送。碱基编辑器系統的一个或多个组件可编码在一个或多个病毒载体上。举例言的,碱基编辑器及导引核酸可编码在单一病毒载体上。于其它情况下,碱基编辑器及导引核酸是编码在不同的病毒载体上。于任一种情况下,碱基编辑器及导引核酸能各自可操作地链接到启动子及终止子。

编码在病毒载体上的组件组合可由选用的病毒载体的货载尺寸限制加以决定。

也可利用用于碱基编辑器的非病毒递送办法。非病毒核酸载体的一个重要类别为奈米粒子,其乃有机或无机。奈米粒子为业界众所周知。任何合宜的奈米粒子设计皆可使用来递送基因体编辑系統组件、或编码此等组件的核酸。例如,于本揭示的某些实施方案中,有机(例如,脂质及/或聚合物)奈米粒子可适合使用作为递送媒体。用于奈米粒子配方及/或基因转移的脂质的实施例显示于表4(如下)。

表4

表5列举用于基因转移及/或奈米粒子配方的聚合物实施例。

表5

表6摘述编码本文描述的融合蛋白的多核苷酸的递送方法

表6

于另一态样中,基因体编辑系統组件或编码此等组件的核酸,例如,核酸结合蛋白(例如,Cas9或其变异体),及靶定于关注的基因体核酸序列的gRNA的递送,可通过将核糖核蛋白(RNP)递送到细胞达成。RNP包含核酸结合蛋白例如,Cas9,与标靶gRNA复合。RNP可使用已知方法递送到细胞,诸如电泳、核转染、或阳离子性脂质媒介方法,例如,如由Zuris,J.A.et al.,2015,Nat.Biotechnology,33(1):73-80报告。RNP用在CRISPR碱基编辑系統为优异,特别用于难以转染的细胞,诸如初代细胞。此外,RNP也能减少细胞中的蛋白质表达时可能出现的困难,特别是当真核启动子(例如,CMV或EF1A,其也能用在CRISPR质体)并未良好表达时尤为如此。优异地,RNP的使用并不需要外来DNA递送入细胞内。又复,因包含核酸结合蛋白及gRNA复合物的RNP随时间的推移而降解,故使用RNP具有限制脱靶效应的潜力。以类似基于质体技术的方式,RNP可被使用来递送结合蛋白(例如,Cas9变异体),及指导同源导向修复(HDR)。

于另一态样中,基因体编辑系統组件或编码此等组件的核酸,例如,核酸结合蛋白(例如,Cas9或其变异体),及靶定于关注的基因体核酸序列的gRNA的递送,可通过将核糖核蛋白(RNP)递送到细胞达成。RNP包含核酸结合蛋白例如,Cas9,与标靶gRNA复合。RNP可使用已知方法递送到细胞,诸如电泳、核转染、或阳离子性脂质媒介方法,例如,如由Zuris,J.A.et al.,2015,Nat.Biotechnology,33(1):73-80报告。RNP用在CRISPR碱基编辑系統为优异,特别用于难以转染的细胞,诸如初代细胞。此外,RNP也能减少细胞中的蛋白质表达时可能出现的困难,特别是当真核启动子(例如,CMV或EF1A,其也能用在CRISPR质体)并未良好表达时尤为如此。优异地,RNP的使用并不需要外来DNA递送入细胞内。又复,因包含核酸结合蛋白及gRNA复合物的RNP随时间的推移而降解,故使用RNP具有限制脱靶效应的潜力。以类似基于质体技术的方式,RNP可被使用来递送结合蛋白(例如,Cas9变异体),及指导同源导向修复(HDR)。

用来驱动碱基编辑器写码核酸分子表达的启动子可包括AAV ITR。此优点为免除额外启动子元件的需要,其可能占据载体的空间。释出的额外空间可被使用来驱动额外元件的表达,诸如导引核酸或可选择标记。ITR活性相当弱,故其可使用来减低因选用的核酸酶过度表达所致的潜在毒性。

任何合宜的启动子皆可使用来驱动碱基编辑器的表达,及当适合时,导引核酸。用于泛在表达,可使用的启动子包括CMV、CAG、CBh、PGK、SV40、铁蛋白重链或轻链等。用于脑或其它CNS细胞表达,合宜的启动子包括突触蛋白I用于全部神经元;CaMKIIα用于兴奋性神经元;GAD67或GAD65或VGAT用于GABA激性神经元等。用于肝细胞表达,合宜的启动子包括白蛋白启动子。用于肺细胞表达,合宜的启动子包括SP-B。用于内皮细胞,合宜的启动子包括ICAM。用于造血细胞,合宜的启动子包括IFNβ或CD45。用于成骨细胞,合宜的启动子包括OG-2。

于有些情况下,本揭示的碱基编辑器大小够小,而许可分开的启动子驱动同一个核酸分子内部的碱基编辑器及相容性导引核酸的表达。例如,载体或病毒载体可包括可操作式链接到编码碱基编辑器的核酸的第一启动子,及可操作式链接到导引核酸的第二启动子。

用来驱动导引核酸的表达的启动子可包括:Pol III启动子,诸如Pol II启动子及内含子卡匣的U6或H1用途,来表达gRNA腺相关联病毒(AAV)。

有或无一个或多个导引核酸的本文描述的碱基编辑器可使用腺相关联病毒(AAV)、慢病毒、腺病毒或其它质体或病毒载体类型递送,特别是使用例如来自以下各项的配方及剂量:美国专利案No.8,454,972(用于腺病毒的配方、剂量);美国专利案No.8,404,658(用于AAV的配方、剂量);及美国专利案No.5,846,946(用于DNA质体的配方、剂量);及来自临床试验及有关涉及慢病毒、AAV及腺病毒的临床试验的公开文献。举例言的,用于AAV,投予途径、配方及剂量可如同于美国专利案No.8,454,972及如同于涉及AAV的临床试验。用于腺病毒,投予途径、配方及剂量可如同于美国专利案No.8,404,658及如同于涉及腺病毒的临床试验。用于质体递送,投予途径、配方及剂量可如同于美国专利案No.5,846,946及如同于涉及质体的临床试验。剂量可基于或外推至平均70千克个人(例如,成年男人),且可针对不同体重及物种的病人、个体、哺乳类调整。投予频率是在医药或兽医执业人员(例如,医师、兽医师)的权限范围内,取决于寻常因素,包括病人或个体的年龄、性别、一般健康状况、其它条件,及特殊条件或欲解决的症状。病毒载体可注射到关注组织内。用于细胞类型特异性碱基编辑,碱基编辑器及任选的导引核酸的表达可通过细胞类型特异性启动子驱动。

用于活体内递送,AAV优于其它病毒载体。于有些情况下,AAV许可低毒性,其可能原因在于纯化法不需要细胞粒子超离心,其可能激活免疫反应故。于有些情况下,AAV许可造成插入突变发生机率低,原因在于其不会整合入宿主基因体内故。

AAV具有4.5或4.75Kb的包装极限。如此表示所揭示的碱基编辑器以及启动子及转录终止子能够嵌合入单一病毒载体内。大于4.5或4.75Kb的建构体可能导致显著减少的病毒产量。举例言的,SpCas9相当大,基因本身超过4.1Kb,使其难以包装入AAV内。因此,本揭示的实施方案包括利用所揭示的碱基编辑器,其长度比习知碱基编辑器短。于若干实施例中,碱基编辑器是小于4kb。所揭示的碱基编辑器可小于4.5kb、4.4kb、4.3kb、4.2kb、4.1kb、4kb、3.9kb、3.8kb、3.7kb、3.6kb、3.5kb、3.4kb、3.3kb、3.2kb、3.1kb、3kb、2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2kb、或1.5kb。于有些情况下,所揭示的碱基编辑器长度为4.5kb或以下。

AAV可以是AAV1、AAV2、AAV5或其任何组合。可就欲靶定的细胞而选择AAV类型,可选择AAV血清型1、2、5或杂交衣壳AAV1、AAV2、AAV5或其任何组合用来靶定脑或神经元细胞;可选择AAV4用来靶定心组织。AAV8可用于递送至肝。至于此等细胞的某些AAV血清型列表可参考Grimm,D.et al,J.Virol.82:5887-5911(2008)。

慢病毒为复杂的反转录病毒,其能于有丝分裂中及有丝分裂后细胞两者中感染与表达其基因。最为人知的慢病毒为人免疫缺乏病毒(HIV),其利用其它病毒的外套膜糖蛋白,来靶定宽广范围的细胞类型。

慢病毒可如下准备。于克隆化pCasES10(其含有慢病毒转移质体主干)的后,转染前一天,HEK293FT于低继代培养(p=5)播种于T-75烧瓶至50%融合,于含10%胎牛血清而不含抗生素的DMEM中。20小时后,培养基改成OptiMEM(不含血清)培养基,4小时后进行转染。细胞被转染以10μg慢病毒转移质体(pCasES10)及以下各项包装质体:5μg pMD2.G(VSV-g假型),及7.5μg psPAX2(gag/pol/rev/tat)。转染可在含有阳离子性脂质递送剂(50ul脂转染氨(Lipofectamine)2000及100ul Plus试剂)的4mL OptiMEM中进行。6小时后,培养基改成含10%胎牛血清的不含抗生素DMEM。此等方法于细胞培养期间使用血清,但以不含血清的方法为佳。

慢病毒可纯化如下。48小时后收获病毒上清液。上清液首先清除碎屑,及通过0.45微米低蛋白结合(PVDF)过滤器过滤。然后于超离心机以24,000rpm离心2小时。病毒丸粒再悬浮于50微升DMEM中于4℃隔夜。然后,分取液分及于-80℃即刻冷冻。

于另一个实施方案中,也预期涵盖基于马传染性贫血病毒(EIAV)的极小非灵长类慢病毒载体。于另一个实施方案中,RetinoStat.RTM为基于马传染性贫血病毒的慢病毒基因疗法载体,其表达血管抑制蛋白,亦即内皮抑制素及血管抑制素,其预期通过网膜下注射递送。于另一个实施方案中,预期涵盖自行失活化慢病毒载体的使用。

该系統的任何RNA,例如导引RNA或碱基编辑器编码mRNA,可以RNA形式递送。碱基编辑器编码mRNA可利用试管内转录产生。举例言的,核酸酶mRNA可使用含以下各项元件的PCR卡匣合成:T7启动子、任选的科札克序列(GCCACC)、核酸酶序列、及3’UTR诸如来自β珠蛋白-多聚腺苷酸尾的3’UTR。该卡匣可用于通过T7聚合酶转录。导引多核苷酸(例如,gRNA)也可利用试管内转录,自含有T7启动子,接着序列GG,及导引多核苷酸序列的卡匣转录。

为了促进表达与减低可能的毒性,碱基编辑器编码序列及/或导引核酸可经修饰,来涵括一个或多个修饰核苷酸,例如,使用pseudo-U或5-Methyl-C。于若干实施方案中,gRNA具有用于第一及最末3个碱基的硫代磷酸键联及2’O-Me修饰。

于若干实施方案中,mRNA具有Cap—5’UTR—ORF—3’UTR的形式。于若干实施方案中,5’UTR为如下:

于若干实施方案中,3’UTR为如下:

于若干实施方案中,碱基编辑器具有如下结构及序列:

于若干实施方案的揭示涵盖一种细胞或有机体的修饰方法。细胞可以是原核细胞或真核细胞。细胞可以是哺乳类细胞。哺乳类细胞可以是非人灵长类、牛、猪、啮齿类或小鼠细胞。通过本揭示的碱基编辑器、组合物及方法而导入细胞的修饰,可以使得细胞及细胞子代被变更,用以改良生物产物的产量,诸如抗体、淀粉、醇类、或其它期望的细胞输出。通过本揭示的方法导入细胞的修饰,可以使得细胞及细胞子代包括变更,该变更其改变了所产生的生物产物。

系統可包含一个或多个不同载体。于一态样中,碱基编辑器为表达期望的细胞类型的优化密码子,较佳地为真核细胞,较佳地为哺乳类细胞或人类细胞。

一般而言,密码子优化是指,经由以较频繁地或最频繁地使用在关注宿主细胞的基因中的密码子,置换天然序列的至少一个密码子(例如,约或多于约1、2、3、4、5、10、15、20、25、50、或以上个密码子),同时维持天然氨基酸序列的一种修饰核酸序列的方法,用以促进在关注宿主内的表达。各种物种对特殊氨基酸的某些密码子有特殊偏向。密码子偏向(有机体间密码子的使用差异)经常与信使RNA(mRNA)的翻译效率交互关联,其又转而(于多种其它事物中)相信取决于被翻译的密码子的性质、及特殊转移RNA(tRNA)分子的可利用率。被选定的tRNA在细胞内占优势,通常反映出最频繁使用在肽合成的密码子。据此,基于密码子优化,基因可被量身订制,用以在指定有机体获得最佳基因表达。密码子用途列表方便易得,例如,于www.kazusa.orjp/codon/(visited Jul.9,2002)可得的“Codon UsageDatabase”,此等列表可以多种方式调整。参考Nakamura,Y.,et al.「自国际DNA序列资料库列表的密码子用途:2000年现状」("Codon usage tabulated from the internationalDNA sequence databases:status for the year 2000")Nucl.Acids Res.28:292(2000)。用于优化特殊序列用以在特殊宿主细胞中表达的密码子的电脑演算法也可得,诸如GeneForge(Aptagen;Jacobus,Pa.)也可得。于若干实施方案中,于编码改造核酸酶的序列中的一个或多个密码子(例如,1、2、3、4、5、10、15、20、25、50、或以上个密码子)相对应于一特殊氨基酸的最频繁地使用的密码子。

包装细胞典型地用来形成有能力感染宿主细胞的病毒粒子。此等细胞包括293细胞,其包装腺病毒;及psi.2细胞或PA317细胞,其包装反转录病毒。基因疗法中使用的病毒载体通常经由制造一种细胞是产生,该细胞是将核酸载体包装入病毒粒子内。载体典型地含有包装及随后整合入宿主内需要的最少病毒序列,其它病毒序列被针对欲表达的多核苷酸的表达卡匣所置换。丧失的病毒功能典型地是由包装细胞是呈反式地供应。举例言的,用于基因疗法的AAV载体典型地只具有来自AAV基因体的ITR序列,其乃包装及整合入宿主基因体内所需。病毒DNA可包装于细胞是,其含有编码其它AAV基因(亦即,rep及cap)的助手质体,但缺ITR序列。细胞是也能被感染以腺病毒作为助手。助手病毒能增进AAV载体的增生与AAV基因自助手质体的表达。因缺ITR序列故,于有些情况下助手质体未以显著量包装。污染有腺病毒可通过例如热处理而予减少,腺病毒对热处理比AAV更敏感。

医药组合物

本揭示的其它态样是有关于医药组合物,其包含本文描述的碱基编辑器、融合蛋白、或融合蛋白-导引多核苷酸复合物中的任一者。如于本揭示中使用,术语「医药组合物」是指配方供医药使用的组合物。于若干实施方案中,医药组合物进一步包含医药上可接受的载剂。于若干实施方案中,医药组合物包含额外作用剂(例如,用于特定递送,延长半生期,或其它治疗性化合物)。

如于本揭示中使用,术语「医药上可接受的载剂」表示医药上可接受的物质、组合物、或载媒剂,诸如液体或固体填充剂、稀释剂、赋形剂、制造助剂(例如,润滑剂、滑石、硬脂酸镁、钙或锌、或硬脂酸)、或溶剂包胶材料,涉及将化合物从身体的一个部位(例如,递送部位)携载或转运到另一个部位(例如,身体器官、组织或部分)。医药上可接受的载剂为「可接受的」,表示与配方的其它组成分可相容,及对个体的组织无害(例如,生理上可相容性、无菌、生理pH等)。

可用作为医药上可接受的载剂的材料的若干非限制性实施例包括:(1)糖类,诸如乳糖、葡萄糖及蔗糖;(2)淀粉类,诸如玉米淀粉及马铃薯淀粉;(3)纤维素及其衍生物类,诸如羧甲基纤维素钠、甲基纤维素、微晶纤维素、及乙酸纤维素;(4)粉状西黄蓍胶;(5)麦芽;(6)明胶;(7)润滑剂,诸如硬脂酸镁、硫酸月桂酯钠、及滑石;(8)赋形剂,诸如可可脂及栓剂蜡;(9)油类,诸如花生油、棉子油、番红花油、芝麻油、橄榄油、玉米油、及大豆油;(10)甘醇类,诸如丙二醇;(11)多元醇类,诸如甘油、山梨糖醇、甘露糖醇、及聚乙二醇(PEG);(12)酯类,诸如油酸乙酯及月桂酸乙酯;(13)琼脂;(14)缓冲剂类,诸如氢氧化镁及氢氧化铝;(15)褐藻酸;(16)无热原水;(17)等张食盐水;(18)林格氏液;(19)乙醇;(20)pH缓冲液;(21)聚酯类,诸如聚碳酸酯类及/或聚酐类;(22)填充剂类,诸如多肽类及氨基酸类;(23)血清醇类,诸如乙醇;及(24)采用于医药配方中的其它无毒性可相容物质。湿润剂、着色剂、释放剂、包衣剂、甜味剂、矫味剂、芳香剂、保藏剂、及抗氧化剂也可存在于配方。本文中术语诸如「赋形剂」、「载剂」、「医药上可接受的载剂」、「载媒剂」等可互换使用。

于若干实施方案中,医药组合物是配方用于递送给个体,例如,用于基因编辑。投予本文描述的医药组合物的合宜途径包括,但非仅限于:局部、皮下、经皮、皮内、病灶内、关节内、腹膜内、膀胱内、经黏膜、齿龈、牙内、耳蜗内、经鼓膜、器官内、硬膜外、鞘内、肌肉、静脉、血管内、骨内、眼周、肿瘤内、脑内、及脑室内投予。

于若干实施方案中,本文描述的医药组合物是局部投予生病部位(例如,肿瘤部位)。于若干实施方案中,本文描述的医药组合物是通过注射、利用导管、利用栓剂、或利用植入物投予个体,植入物为多孔材料、无孔材料、或明胶材料,包括膜诸如硅胶膜、或纤维。

于其它实施方案中,本文描述的医药组合物是在控制释放系統中递送。于一个实施方案中,可利用泵浦(参考例如,Langer,1990,Science 249:1527-1533;Sefton,1989,CRC Crit.Ref.Biomed.Eng.14:201;Buchwald et al.,1980,Surgery 88:507;Saudek etal,1989,N.Engl.J.Med.321:574)。于另一个实施方案中,可使用聚合物料(参考例如,「控制释放的医学应用」(Medical Applications of Controlled Release)(Langer and Wiseeds.,CRC Press,Boca Raton,Fla.,1974);「控制药物生物利用率,药品设计与效能」(Controlled Drug Bioavailability,Drug Product Design and Performance)(Smolenand Ball eds.,Wiley,New York,1984);Ranger and Peppas,1983,Macromol.Sci.Rev.Macromol.Chem.23:61。也请参考Levy et al.,1985,Science 228:190;During et al.,1989,Ann.Neurol.25:351;Howard et ah,1989,J.Neurosurg.71:105.)。其它控制释放系統例如讨论于Langer,supra。

于若干实施方案中,医药组合物是根据例行程序配方为适用于静脉或皮下投予个体,例如,人类的组合物。于若干实施方案中,用于通过注射投予的医药组合物为于无菌等张溶液,使用作为增溶剂及局部麻醉剂,诸如利多卡因(lignocaine)以缓和注射部位疼痛的溶液剂。通常,各成分是分开供给,或呈单位剂型一起混合供给,举例言的,呈无水冻干粉末或不含水的浓缩物于气密容器内,诸如安瓿或药袋,指示活性剂含量。当药物欲通过输注投予时,可使用含有无菌医药级水或食盐水的输注瓶配送。当医药组合物是通过注射投予时,可提供无菌注射用水或食盐水的安瓿,使得投药前可先混合各成分。

系統性投予用的医药组合物可以是液体,例如,无菌食盐水溶液、乳酸化林格氏溶液、或汉克氏溶液。此外,医药组合物可呈固体形式,而恰在使用前再度溶解或悬浮。也预期涵盖冻干形式。医药组合物可容纳在脂质粒子或囊泡内,诸如微脂粒或微晶,其也适合供肠道外投予。粒子可具有任何合宜结构,诸如单层或多层,只要组合物是容纳于其中即可。化合物可被捕捉于「稳定质体-脂质粒子(SPLP)」中,其含有融合作用脂质,二油酰基磷脂基乙醇氨(DOPE),低含量(5-10mol%)阳离子性脂质,及通过聚乙二醇(PEG)包衣加以稳定化(Zhang Y.P.et ah,Gene Ther.1999,6:1438-47)。带正电荷的脂质,诸如N-[l-(2,3-二油酰基氧基)丙基]-N,N,N-三甲基-甲基硫酸铵,或称「DOTAP」,用于此等粒子及囊泡为特佳。此等脂质粒子的制备为众所周知。参考例如,美国专利案Nos.4,880,635;4,906,477;4,911,928;4,917,951;4,920,016及4,921,757;各案全文以引用方式纳入本说明书的揭示。

本文描述的医药组合物例如可呈单位剂型投予或包装。术语「单位剂型」当述及本揭示的医药组合物使用时,是指适合用于个体,用作为单位剂量的实体上分开的单元,各个单元含有预定量的活性物质,经计算以连同要求的稀释剂,亦即载剂,或载媒剂,产生期望的疗效。

又,医药组合物可呈医药试剂盒提供,其包含(a)一容器含有呈冻干形式的本发明化合物;及(b)第二容器含有医药上可接受的稀释剂(例如,无菌供本发明的冻干化合物的重新调制或稀释用)。任选地连同此(等)容器者可以是呈政府机关规定格式的公告,规定药品或生物制品的制造、使用或贩售,该公告反映出由政府机关核准用于人类投予的制造、使用或贩售。

于另一态样中包括其中含有治疗上述疾病有用的材料的制造物件。于若干实施方案中,制造物件包含容器及标签。合宜容器包括例如瓶子、小瓶、注射筒、及试管。容器可从多种材料制成,诸如玻璃或塑胶。于若干实施方案中,容器盛装有效用于治疗本文描述的疾病的组合物,及具有无菌出入孔。举例言的,容器可以是静脉溶液袋、或具有可通过皮下注射针头刺穿的瓶塞的小瓶。组合物中的活性剂为本发明化合物。于若干实施方案中,容器上的或连同容器的标签指示该组合物是用来治疗首选的疾病。制造物件可进一步包含第二容器,其包含医药上可接受的缓冲液,诸如磷酸盐缓冲食盐水、林格氏溶液、或葡萄糖溶液。其可进一步包含从商业及用户观点为期望的其它材料,包括其它缓冲液、稀释剂、过滤器、针头、针筒、及带有使用指南的包装仿单。

于若干实施方案中,本文描述的融合蛋白、gRNA、及/或复合物中的任一者被提供作为医药组合物的一部分。于若干实施方案中,医药组合物包含本揭示中提供的任何融合蛋白。于若干实施方案中,医药组合物包含本揭示中提供的任何复合物。于若干实施方案中,医药组合物包含核糖核蛋白复合物,其包含RNA导引的核酸酶(例如,Cas9),其与gRNA形成复合物,及阳离子性脂质。于若干实施方案中,医药组合物包含gRNA、核酸可编程DNA结合蛋白、阳离子性脂质、及医药上可接受的赋形剂。医药组合物可任选地包含一或多种额外治疗活性物质。

于若干实施方案中,本揭示中提供的组合物是投予个体,例如投予人体,俾便执行个体内靶定的基因体修饰。于若干实施方案中,细胞是得自个体,及与本揭示中提供的任何医药组合物接触。于若干实施方案中,自个体移出且于活体外与医药组合物接触的细胞是再度引进个体内,任选地可在细胞内已执行或已检测出期望的基因体修饰的后。包含核酸酶的医药组合物的递送方法为已知,且描述于例如,美国专利案Nos.6,453,242;6,503,717;6,534,261;6,599,692;6,607,882;6,689,558;6,824,978;6,933,113;6,979,539;7,013,219;及7,163,824,各案全文揭示以引用方式纳入本说明书的揭示。虽然本揭示中提供的医药组合物的描述主要是针对适合投予人类的医药组合物,但熟谙技艺人士须了解此等组合物通常适合用于投予各种动物或有机体。

适用于投予人类的医药组合物的修饰,俾便使得组合物适合用于投予各种动物已明确地了解,熟谙技艺的兽医药理师能设计及/或进行此种修饰,只需寻常(若有任何)实验即可。预期涵盖的被投予医药组合物的个体包括,但非仅限于人及/或非人灵长类、哺乳类、家畜、宠物、及商业相关哺乳类诸如牛、猪、马、羊、猫、犬、小鼠、及/或大鼠;及/或鸟类包括商业相关鸟类诸如鸡、鸭、鹅、火鸡。

本文描述的医药组合物配方可通过药理业界已知的或未来发展的任何方法制备。一般而言,此等制备方法包括下述步骤:将活性成分与赋形剂及/或一或多种其它附加成分组合,及然后,若有所需及/或若属期望,将产物成形及/或包装成期望的单剂或多剂单元。医药配方可额外包含医药上可接受的赋形剂,其如于本揭示中使用,包括适合期望的特定剂型的任何的以及全部的溶剂、分散媒剂、稀释剂、或其它液体载媒剂、分散或悬浮佐剂、界面活性剂、等张剂、增稠或乳化剂、保藏剂、固体连结剂、润滑剂等。Remington药物科学与实务(Remington’s The Science and Practice of Pharmacy),21st Edition,A.R.Gennaro(Lippincott,Williams&Wilkins,Baltimore,MD,2006;全文以引用方式纳入本说明书的揭示)揭示使用于配方医药组合物的各种赋形剂及其已知制备方法。也参考PCT申请案PCT/US2010/055131(公告号码WO2011053982A8,提申日期2010年11月2日),全文以引用方式纳入本说明书的揭示,有关用于制造包含核酸酶的医药组合物的额外合宜方法、试剂、赋形剂及溶剂。

除非任何习知赋形剂介质是与物质或其衍生物为不相容,诸如产生任何非期望的生物效应,或相反地,以有害方式与医药组合物的任何其它组成分交互作用,否则其使用是预期涵盖落入于本文揭示的范围内。

如前文描述,组合物可以有效量投予。有效量将取决于投予模式、特殊治疗病况、及期望的结果。也可取决于病情阶段、个体的年龄及身体状况、同步疗法(若有)的本质、及医事从业人员众所周知的类似因素。用于治疗性应用,该量是足以达成医疗上的期望效果。

于若干实施方案中,根据本揭示的组合物可使用来治疗多种疾病、病症、及/或病况中的任一者,包括但非仅限于以下各项中的一者或多者:自体免疫病症(例如,糖尿病、狼疮、多发性硬化、干癣、类风湿性关节炎);发炎病症(例如,关节炎、骨盆发炎病);传染病(例如,病毒感染(例如,HIV、HCV、RSV)、细菌感染、真菌感染、败血症);神经病症(例如,阿兹海默氏病、杭丁顿氏病、自闭症、裘馨氏肌肉失养症);心血管病症(例如,动脉粥瘤硬化、高胆固醇血症、血栓、凝血障碍、血管原性病症诸如黄斑部退化);增生性病症(例如,癌症、良性肿瘤);呼吸病症(例如,慢性阻塞性肺疾);消化病症(例如,发炎性肠病、溃疡);肌肉骨骼病症(例如,纤维肌痛、关节炎);内分泌、代谢、及营养病症(例如,糖尿病、骨松症);泌尿病症(例如,肾病);精神病症(例如,忧郁症、思觉失调症);皮肤病症(例如,伤口、湿疹);血液与淋巴病症(例如,贫血、血友病)等。

试剂盒

本揭示的各个态样提供包含碱基编辑器系統的试剂盒。于一个实施方案中,试剂盒包含核酸建构体,其包含编码核苷碱基编辑器融合蛋白的核苷酸序列。融合蛋白包含脱氨酶(例如,胞苷脱氨酶或腺苷脱氨酶)及核酸可编程DNA结合蛋白(napDNAbp)。于若干实施方案中,试剂盒包含至少一个导引RNA,其能靶定关注的核酸分子,例如,表3A及3B中识别的基因中的疾病相关联的突变。于若干实施方案中,试剂盒包含核酸建构体,其包含编码至少一个导引RNA的核苷酸序列。

于若干实施方案中,试剂盒提供指示,其用于指示使用该试剂盒来编码表3A及3B中的基因中的一者或多者中的一个或多个疾病相关联的突变。指示通常将包括指示试剂盒用于编码核酸分子的用途的相关资讯。于其它实施方案中,指示包括以下各项中的至少一者:注意;警告;临床研究;及/或参考文献。指示可直接印在容器上(当存在有容器时),或作为施用至容器上的标签,或呈于容器内供应或连同容器供应的分开单张、小册、卡片、或折迭式印刷品。于又一实施方案中,试剂盒可包含针对合宜操作参数呈标签或分开仿单(包装仿单)形式的指令。于又另一个实施方案中,试剂盒可包含一个或多个容器,其容纳有适当阳性对照及阴性对照、或控制样本,其欲被使用作为检测、校准、或标准化的标准品。试剂盒可进一步包含第二容器,其容纳有医药上可接受的缓冲液,诸如(无菌)磷酸盐缓冲食盐水、林格氏溶液、或葡萄糖溶液。试剂盒可进一步包含从商业与用户观点为期望的其它材料,包括其它缓冲液、稀释剂、过滤器、针头、针筒、及带有使用指示的包装仿单。

于某些实施方案中,试剂盒用在患有α-1抗胰蛋白酶缺乏症(A1AD)个体的治疗上是有用的。

以下编号的额外实施方案涵盖了本揭示中预期涵盖的碱基编辑器系統的方法及组合物及其用途:

一种于有需要的个体治疗疾病的方法,认方法包含对该个体投予碱基编辑器系統,该系統包含

导引多核苷酸或编码导引多核苷酸的核酸;

多核苷酸可编程DNA结合域或编码多核苷酸可编程DNA结合域的核酸;及

脱氨酶域或编码脱氨酶域的核酸,

其中该多核苷酸能靶定该碱基编辑器系統,以执行于个体中的细胞的SERPINA1多核苷酸中的核苷碱基的脱氨,通过此治疗该病;

其中该核苷碱基并非该疾病的起因。

一种于有需要的个体治疗疾病的方法,其包含

于一细胞内导入一碱基编辑器系統,其包含

导引多核苷酸或编码导引多核苷酸的核酸;

多核苷酸可编程DNA结合域或编码多核苷酸可编程DNA结合域的核酸;及

脱氨酶域或编码脱氨酶域的核酸,

将该细胞投予该个体,

其中该导引多核苷酸能靶定该碱基编辑器系統,以执行于细胞中的SERPINA1多核苷酸中的核苷碱基的脱氨,通过此治疗该病;

其中该核苷碱基并非该疾病的起因。

如实施方案2的方法,其中该细胞为肝细胞或其祖细胞。

如实施方案3的方法,进一步包含分化该祖细胞以生成肝细胞。

如实施方案2至4中任一项的方法,其中该细胞对该个体为自体的。

如实施方案2至4中任一项的方法,其中该细胞对该个体为同种异体的。

如实施方案2至4中任一项的方法,其中该细胞对该个体为异种的。

如先前实施方案中任一项的方法,其中该个体为哺乳类。

一种编辑SERPINA1多核苷酸的方法,其包含让该SERPINA1多核苷酸与碱基编辑器系統接触,该系統包含

导引多核苷酸;

多核苷酸可编程DNA结合域;及

脱氨酶域,

其中该导引多核苷酸能靶定该碱基编辑器系統,以执行于SERPINA1多核苷酸中的核苷碱基的脱氨,

其中该核苷碱基并非该疾病的起因。

一种制造用于疾病的治疗的修饰细胞的方法,该方法包含

于一细胞内导入碱基编辑器系統,其包含

导引多核苷酸或编码该一个或多个导引多核苷酸的核酸;

多核苷酸可编程DNA结合域或编码多核苷酸可编程DNA结合域的核酸;及

脱氨酶域或编码脱氨酶域的核酸,

其中该导引多核苷酸能靶定该碱基编辑器系統,以执行于细胞内的SERPINA1多核苷酸中的核苷碱基的脱氨,

其中该核苷碱基并非该疾病的起因。

如实施方案10的方法,其中该导入为活体内。

如实施方案10的方法,其中该导入为活体外。

如实施方案12的方法,其中该细胞是得自患有该病的个体。

如实施方案10至13中任一项的方法,其中该细胞为哺乳类细胞。

如实施方案14的方法,其中该细胞为肝细胞或其祖细胞。

如实施方案15的方法,进一步包含分化该祖细胞而制造肝细胞。

如先前实施方案中任一项的方法,其中该多核苷酸可编程DNA结合域为Cas9结构域。

如实施方案17的方法,其中该Cas9结构域为核酸酶失活化Cas9结构域。

如实施方案18的方法,其中该Cas9结构域为Cas9切口酶域。

如实施方案17至19中任一项的方法,其中该Cas9结构域包含SpCas9结构域。

如实施方案20的方法,其中该SpCas9结构域包含D10A及/或H840A氨基酸取代或其对应氨基酸取代。

如实施方案20或21的方法,其中该SpCas9结构域具有针对NGG PAM的特异性。

如实施方案20至22中任一项的方法,其中该SpCas9结构域具有针对NGA PAM、NGTPAM、或NGC PAM的特异性。

如实施方案20至23中任一项的方法,其中该SpCas9结构域包含氨基酸取代L1111R、D1135V、G1218R、E1219F、A1322R、R1335V、T1337R,及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、R1335Q、T1337I、T1337V、T1337F、及T1337M中的一者或多者,或其对应氨基酸取代。

如实施方案20至23中任一项的方法,其中该SpCas9结构域包含氨基酸取代L1111R、D1135V、G1218R、E1219F、A1322R、R1335V、T1337R,及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、R1335Q、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337R、T1337H、T1337Q、及T1337M中的一者或多者,或其对应氨基酸取代。

如实施方案20至23中任一项的方法,其中该SpCas9结构域包含氨基酸取代D1135L、S1136R、G1218S、E1219V、A1322R、R1335Q、T1337、及A1322R,以及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、R1335Q、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337R、T1337H、T1337Q、及T1337M中的一者或多者,或其对应氨基酸取代。

如实施方案20至23中任一项的方法,其中该SpCas9结构域包含氨基酸取代D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E、及T1337R,或其对应氨基酸取代。

如实施方案20或21的方法,其中该SpCas9结构域具有针对NG PAM、NNG PAM、GAAPAM、GAT PAM、或CAA PAM的特异性。

如实施方案28的方法,其中该SpCas9结构域包含氨基酸取代E480K、E543K、及E1219V或其对应氨基酸取代。

如实施方案17-19中任一项的方法,其中该Cas9结构域包含SaCas9结构域。

如实施方案30的方法,其中该SaCas9结构域具有针对NNNRRT PAM的特异性。

如实施方案31的方法,其中该SaCas9结构域具有针对NNGRRT PAM的特异性。

如实施方案30至32中任一项的方法,其中该SaCas9结构域包含氨基酸取代N579A或其对应氨基酸取代。

如实施方案30至33中任一项的方法,其中该SaCas9结构域包含氨基酸取代E782K、N968K、及R1015H,或其对应氨基酸取代。

如实施方案17至19中任一项的方法,其中该Cas9结构域包含St1Cas9结构域。

如实施方案35的方法,其中该St1Cas9结构域具有针对NNACCA PAM的特异性。

如先前实施方案中任一项的方法,其中该脱氨酶域包含胞苷脱氨酶域。

如实施方案31的方法,其中该胞苷脱氨酶域包含APOBEC域。

如实施方案32的方法,其中该APOBEC域包含APOBEC1域。

如实施方案1至36中任一项的方法,其中该脱氨酶域包含腺苷脱氨酶域。

如实施方案40的方法,其中该腺苷脱氨酶域为于自然界不会出现的修饰腺苷脱氨酶域。

如实施方案41的方法,其中该腺苷脱氨酶域包含TadA域。

如实施方案42的方法,其中该TadA域包含TadA 7.10的氨基酸序列。

如先前实施方案中任一项的方法,其中该碱基编辑器系統进一步包含至少一个UGI域。

如实施方案44的方法,其中该碱基编辑器系統包含至少两个UGI域。

如先前实施方案中任一项的方法,其中该碱基编辑器系統进一步包含锌指域。

如实施方案46的方法,其中该锌指域包含识别螺旋序列RNEHLEV、QSTTLKR、及RTEHLAR或识别螺旋序列RGEHLRQ、QSGTLKR、及RNDKLVP。

如实施方案46或47的方法,其中该锌指域为zf1ra或zf1rb。

如先前实施方案中任一项的方法,其中该碱基编辑器系統进一步包含核定位信号(NLS)。

如先前实施方案中任一项的方法,其中该碱基编辑器系統进一步包含一个或多个链接基。

如实施方案50的方法,其中该多核苷酸可编程DNA结合域、脱氨酶域、UGI域、NLS、及/或锌指域中的二者或多者是通过链接基连结。

如实施方案50的方法,其中该链接基为肽链接基,通过此生成碱基编辑融合蛋白。

如实施方案52的方法,其中该肽链接基包含选自于由以下各项所组成的组群中的氨基酸序列:

如实施方案53的方法,其中该碱基编辑融合蛋白包含BE4的氨基酸序列。

如实施方案53的方法,其中该碱基编辑融合蛋白包含以下各项氨基酸序列:

如先前实施方案中任一项的方法,其中该SERPINA1多核苷酸包含该疾病的病原性单核苷酸多形性(SNP)起因。

如实施方案56的方法,其中该疾病为α-1抗胰蛋白酶缺乏症(A1AD)。

如实施方案57的方法,其中该SERPINA1多核苷酸编码A1AT蛋白,其包含自病原性SNP所导致的氨基酸突变。

如实施方案58的方法,其中该氨基酸突变为342L或376L突变或其任何对应位置。

如实施方案58或59的方法,其中该核苷碱基的脱氨导致于A1AT蛋白中在位置342或376或其对应位置以外位置的氨基酸取代。

如实施方案60的方法,其中该核苷碱基的脱氨导致于A1AT蛋白中选自于由F51L、M374I、A348V、A347V、K387R、T59A、及T68A所组成的组群中的氨基酸取代或其对应取代。

如实施方案60的方法,其中该核苷碱基的脱氨导致于A1AT蛋白中在位置374或其对应位置的氨基酸取代。

如实施方案62的方法,其中该在该A1AT蛋白中的氨基酸取代为M374I或其对应取代。

如实施方案63的方法,其中该核苷碱基是在该SERPINA1多核苷酸的核酸位置1455或其对应位置。

如先前实施方案中任一项的方法,其中该导引多核苷酸包含两个个别多核苷酸,其中该两个个别多核苷酸为两个DNA、两个RNA、或一个DNA及一个RNA。

如先前实施方案中任一项的方法,其中该导引多核苷酸包含crRNA及tracrRNA,其中该crRNA包含与SERPINA1多核苷酸中的标靶序列互补的核酸序列。

如实施方案66的方法,其中该标靶序列包含SERPINA1多核苷酸的位置1455。

如实施方案66的方法,其中该标靶序列包含选自于GAAGAAGATATTGGTGCTGT、TCAATCATTAAGAAGACAAA、ACTTTTCCCATGAAGAGGGG、CATCGCTACAGCCTTTGCAA、及GGGACCAAGGCTGACACTCA中的序列。

如实施方案66或67的方法,其中该碱基编辑器系統包含单导引RNA(sgRNA)。

如实施方案68的方法,其中该sgRNA包含选自于由以下各项所组成的组群中的序列:

一种于有需要的个体治疗α-1抗胰蛋白酶缺乏症(A1AD)的方法,该方法包含对该个体投予碱基编辑器系統,该系統包含

单导引RNA(sgRNA),

包含BE4的氨基酸序列的融合蛋白,

其中该sgRNA靶定该碱基编辑器系統以将个体内于细胞内于SERPINA1多核苷酸中在位置1455或其对应位置的胞苷脱氨,通过此治疗A1AD,

其中该sgRNA包含选自于由以下各项所组成的组群中的序列:

一种于有需要的个体治疗α-1抗胰蛋白酶缺乏症(A1AD)的方法,其包含

于细胞内导入碱基编辑器系統,其包含

单导引RNA(sgRNA),

包含BE4的氨基酸序列的融合蛋白,

将该细胞投予该个体,

其中该sgRNA靶定该碱基编辑器系統以将细胞内于SERPINA1多核苷酸中在位置1455或其对应位置的胞苷脱氨,通过此治疗A1AD,

其中该sgRNA包含选自于由以下各项所组成的组群中的序列:

其中该细胞为得自该个体的肝细胞。

一种包含碱基编辑器系統的修饰细胞,该碱基编辑器系統包含:

导引多核苷酸或编码导引多核苷酸的核酸;

多核苷酸可编程DNA结合域或编码多核苷酸可编程DNA结合域的核酸;及

脱氨酶域或编码脱氨酶域的核酸,

其中该导引多核苷酸能靶定该碱基编辑器系統,以执行于该细胞内于SERPINA1多核苷酸中的核苷碱基的脱氨,其中该核苷碱基并非该疾病的起因。

如实施方案73的修饰细胞,其中该导入为活体内。

如实施方案73的修饰细胞,其中该导入为活体外。

如实施方案75的修饰细胞,其中该细胞是得自患有该病的个体。

如实施方案73至76中任一项的修饰细胞,其中该细胞为哺乳类细胞。

如实施方案77的修饰细胞,其中该细胞为肝细胞或其祖细胞。

如实施方案78的修饰细胞,进一步包含分化该祖细胞而制造肝细胞。

如实施方案73至79中任一项的修饰细胞,其中该多核苷酸可编程DNA结合域为Cas9结构域。

如实施方案80的修饰细胞,其中该Cas9结构域为核酸酶失活化Cas9结构域。

如实施方案80的修饰细胞,其中该Cas9结构域为Cas9切口酶域。

如实施方案80至82中任一项的修饰细胞,其中该Cas9结构域包含SpCas9结构域。

如实施方案83的修饰细胞,其中该SpCas9结构域包含D10A及/或H840A氨基酸取代或其对应氨基酸取代。

如实施方案83或84的修饰细胞,其中该SpCas9结构域具有针对NGG PAM的特异性。

如实施方案83至85中任一项的修饰细胞,其中该SpCas9结构域具有针对NGA PAM、NGT PAM、或NGC PAM的特异性。

如实施方案83至86中任一项的修饰细胞,其中该SpCas9结构域包含氨基酸取代L1111R、D1135V、G1218R、E1219F、A1322R、R1335V、T1337R,及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、R1335Q、T1337I、T1337V、T1337F、及T1337M中的一者或多者,或其对应氨基酸取代。

如实施方案83至86中任一项的修饰细胞,其中该SpCas9结构域包含氨基酸取代L1111R、D1135V、G1218R、E1219F、A1322R、R1335V、T1337R,及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、R1335Q、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337R、T1337H、T1337Q、及T1337M中的一者或多者,或其对应氨基酸取代。

如实施方案83至86中任一项的修饰细胞,其中该SpCas9结构域包含氨基酸取代D1135L、S1136R、G1218S、E1219V、A1322R、R1335Q、T1337、及A1322R,以及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、R1335Q、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337R、T1337H、T1337Q、及T1337M中的一者或多者,或其对应氨基酸取代。

如实施方案83-86中任一项的修饰细胞,其中该SpCas9结构域包含氨基酸取代D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E、及T1337R,或其对应氨基酸取代。

如实施方案83或84的修饰细胞,其中该SpCas9结构域具有针对NG PAM、NNG PAM、GAA PAM、GAT PAM、或CAA PAM的特异性。

如实施方案91的修饰细胞,其中该SpCas9结构域包含氨基酸取代E480K、E543K、及E1219V或其对应氨基酸取代。

如实施方案80至82中任一项的修饰细胞,其中该Cas9结构域包含SaCas9结构域。

如实施方案93的修饰细胞,其中该SaCas9结构域具有针对NNNRRT PAM的特异性。

如实施方案94的修饰细胞,其中该SaCas9结构域具有针对NNGRRT PAM的特异性。

如实施方案93至95中任一项的修饰细胞,其中该SaCas9结构域包含氨基酸取代N579A或其对应氨基酸取代。

如实施方案93至96中任一项的修饰细胞,其中该SaCas9结构域包含氨基酸取代E782K、N968K、及R1015H,或其对应氨基酸取代。

如实施方案80至82中任一项的修饰细胞,其中该Cas9结构域包含St1Cas9结构域。

如实施方案98的修饰细胞,其中该St1Cas9结构域具有针对NNACCA PAM的特异性。

如实施方案71至99中任一项的修饰细胞,其中该脱氨酶域包含胞苷脱氨酶域。

如实施方案100的修饰细胞,其中该胞苷脱氨酶域包含APOBEC域。

如实施方案101的修饰细胞,其中该APOBEC域包含APOBEC1域。

如实施方案71至99中任一项的修饰细胞,其中该脱氨酶域包含腺苷脱氨酶域。

如实施方案103的修饰细胞,其中该腺苷脱氨酶域为于自然界不会出现的修饰腺苷脱氨酶域。

如实施方案104的修饰细胞,其中该腺苷脱氨酶域包含TadA域。

如实施方案105的修饰细胞,其中该TadA域包含TadA 7.10的氨基酸序列。

如实施方案71至106中任一项的修饰细胞,其中该碱基编辑器系統进一步包含至少一个UGI域。

如实施方案107的修饰细胞,其中该碱基编辑器系統包含至少两个UGI域。

如实施方案71-108中任一项的修饰细胞,其中该碱基编辑器系統进一步包含锌指域。

如实施方案109的修饰细胞,其中该锌指域包含识别螺旋序列RNEHLEV、QSTTLKR、及RTEHLAR或识别螺旋序列RGEHLRQ、QSGTLKR、及RNDKLVP。

如实施方案109或110的修饰细胞,其中该锌指域为zf1ra或zf1rb。

如实施方案71至111中任一项的修饰细胞,其中该碱基编辑器系統进一步包含核定位信号(NLS)。

如实施方案71至112中任一项的修饰细胞,其中该碱基编辑器系統进一步包含一个或多个链接基。

如实施方案113的修饰细胞,其中该多核苷酸可编程DNA结合域、脱氨酶域、UGI域、NLS、及/或锌指域中的二者或多者是通过链接基连结。

如实施方案114的修饰细胞,其中该链接基为肽链接基,通过此生成碱基编辑融合蛋白。

如实施方案115的修饰细胞,其中该肽链接基包含选自于由以下各项所组成的组群中的氨基酸序列:

如实施方案116的修饰细胞,其中该碱基编辑融合蛋白包含BE4的氨基酸序列。

如实施方案116的修饰细胞,其中该碱基编辑融合蛋白包含TadA7.10的氨基酸序列。

如实施方案71至118中任一项的修饰细胞,其中该SERPINA1多核苷酸包含该疾病的病原性单核苷酸多形性(SNP)起因。

如实施方案119的修饰细胞,其中该疾病为α-1抗胰蛋白酶缺乏症(A1AD)。

如实施方案120的修饰细胞,其中该SERPINA1多核苷酸编码A1AT蛋白,其包含自病原性SNP所导致的氨基酸突变。

如实施方案121的修饰细胞,其中该氨基酸突变为342L或376L突变或其任何对应位置。

如实施方案121或122的修饰细胞,其中该核苷碱基的脱氨导致于A1AT蛋白中在位置342或376或其对应位置以外位置的氨基酸取代。

如实施方案123的修饰细胞,其中该核苷碱基的脱氨导致于A1AT蛋白中选自于由F51L、M374I、A348V、A347V、K387R、T59A、及T68A所组成的组群中的氨基酸取代或其对应取代。

如实施方案122的修饰细胞,其中该核苷碱基的脱氨导致于A1AT蛋白中在位置374或其对应位置的氨基酸取代。

如实施方案125的修饰细胞,其中在该A1AT蛋白中的氨基酸取代为M374I或其对应取代。

如实施方案126的修饰细胞,其中该核苷碱基是在该SERPINA1多核苷酸的核酸位置1455或其对应位置。

如实施方案71至127中任一项的修饰细胞,其中该导引多核苷酸包含两个个别多核苷酸,其中该两个个别多核苷酸为两个DNA、两个RNA、或一个DNA及一个RNA。

如实施方案71至128中任一项的修饰细胞,其中该导引多核苷酸包含crRNA及tracrRNA,其中该crRNA包含与SERPINA1多核苷酸中的标靶序列互补的核酸序列。

如实施方案129的修饰细胞,其中该标靶序列包含SERPINA1多核苷酸的位置1455。

如实施方案130的修饰细胞,其中该标靶序列包含选自于GAAGAAGATATTGGTGCTGT、TCAATCATTAAGAAGACAAA、ACTTTTCCCATGAAGAGGGG、CATCGCTACAGCCTTTGCAA、及GGGACCAAGGCTGACACTCA中的序列。

如实施方案130或131的修饰细胞,其中该碱基编辑器系統包含单导引RNA(sgRNA)。

如实施方案132的修饰细胞,其中该sgRNA包含选自于由以下各项所组成的组群中的序列:

一种包含碱基编辑器系統的修饰细胞,其包含

单导引RNA(sgRNA),

包含BE4的氨基酸序列的融合蛋白,

其中该sgRNA是能靶定该碱基编辑器系統以将SERPINA1多核苷酸中在位置1455或其对应位置的胞苷脱氨,

其中该sgRNA包含选自于由以下各项所组成的组群中的序列:

其中该细胞为肝细胞。

一种碱基编辑器系統,其包含:

导引多核苷酸或编码导引多核苷酸的核酸;

多核苷酸可编程DNA结合域或编码多核苷酸可编程DNA结合域的核酸;及

脱氨酶域或编码脱氨酶域的核酸,

其中该导引多核苷酸能靶定该碱基编辑器系統,以执行于SERPINA1多核苷酸中的核苷碱基的脱氨,其中该核苷碱基并非该疾病的起因。

如实施方案135的碱基编辑器系統,其中该Cas9结构域为核酸酶失活化Cas9结构域。

如实施方案135的碱基编辑器系統,其中该Cas9结构域为Cas9切口酶域。

如实施方案135-137中任一项的碱基编辑器系統,其中该Cas9结构域包含SpCas9结构域。

如实施方案138的碱基编辑器系統,其中该SpCas9结构域包含D10A及/或H840A氨基酸取代或其对应氨基酸取代。

如实施方案138或139的碱基编辑器系統,其中该SpCas9结构域具有针对NGG PAM的特异性。

如实施方案138至140中任一项的碱基编辑器系統,其中该SpCas9结构域具有针对NGA PAM、NGT PAM、或NGC PAM的特异性。

如实施方案138至141中任一项的碱基编辑器系統,其中该SpCas9结构域包含氨基酸取代L1111R、D1135V、G1218R、E1219F、A1322R、R1335V、T1337R,及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、R1335Q、T1337I、T1337V、T1337F、及T1337M中的一者或多者,或其对应氨基酸取代。

如实施方案138至141中任一项的碱基编辑器系統,其中该SpCas9结构域包含氨基酸取代L1111R、D1135V、G1218R、E1219F、A1322R、R1335V、T1337R,及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、R1335Q、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337R、T1337H、T1337Q、及T1337M中的一者或多者,或其对应氨基酸取代。

如实施方案138至141中任一项的碱基编辑器系統,其中该SpCas9结构域包含氨基酸取代D1135L、S1136R、G1218S、E1219V、A1322R、R1335Q、T1337、及A1322R,以及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、R1335Q、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337R、T1337H、T1337Q、及T1337M中的一者或多者,或其对应氨基酸取代。

如实施方案138至141中任一项的碱基编辑器系統,其中该SpCas9结构域包含氨基酸取代D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E、及T1337R,或其对应氨基酸取代。

如实施方案138或139的碱基编辑器系統,其中该SpCas9结构域具有针对NG PAM、NNG PAM、GAA PAM、GAT PAM、或CAA PAM的特异性。

如实施方案146的碱基编辑器系統,其中该SpCas9结构域包含氨基酸取代E480K、E543K、及E1219V或其对应氨基酸取代。

如实施方案135至137中任一项的碱基编辑器系統,其中该Cas9结构域包含SaCas9结构域。

如实施方案148的碱基编辑器系統,其中该SaCas9结构域具有针对NNNRRT PAM的特异性。

如实施方案149的碱基编辑器系統,其中该SaCas9结构域具有针对NNGRRT PAM的特异性。

如实施方案135至137中任一项的碱基编辑器系統,其中该SaCas9结构域包含氨基酸取代N579A或其对应氨基酸取代。

如实施方案148至151中任一项的碱基编辑器系統,其中该SaCas9结构域包含氨基酸取代E782K、N968K、及R1015H,或其对应氨基酸取代。

如实施方案135至137中任一项的碱基编辑器系統,其中该Cas9结构域包含St1Cas9结构域。

如实施方案153的碱基编辑器系統,其中该St1Cas9结构域具有针对NNACCA PAM的特异性。

如实施方案134至154中任一项的碱基编辑器系統,其中该脱氨酶域包含胞苷脱氨酶域。

如实施方案155的碱基编辑器系統,其中该胞苷脱氨酶域包含APOBEC域。

如实施方案156的碱基编辑器系統,其中该APOBEC域包含APOBEC1域。

如实施方案134至157中任一项的碱基编辑器系統,其中该脱氨酶域包含腺苷脱氨酶域。

如实施方案158的碱基编辑器系統,其中该腺苷脱氨酶域为于自然界不会出现的修饰腺苷脱氨酶域。

如实施方案159的碱基编辑器系統,其中该腺苷脱氨酶域包含TadA域。

如实施方案160的碱基编辑器系統,其中该TadA域包含TadA 7.10的氨基酸序列。

如实施方案134至161中任一项的碱基编辑器系統,其中该碱基编辑器系統进一步包含至少一个UGI域。

如实施方案162的碱基编辑器系統,其中该碱基编辑器系統包含至少两个UGI域。

如实施方案134至163中任一项的碱基编辑器系統,其中该碱基编辑器系統进一步包含锌指域。

如实施方案164的碱基编辑器系統,其中该锌指域包含识别螺旋序列RNEHLEV、QSTTLKR、及RTEHLAR或识别螺旋序列RGEHLRQ、QSGTLKR、及RNDKLVP。

如实施方案165的碱基编辑器系統,其中该锌指域为zf1ra或zf1rb。

如实施方案134至166中任一项的碱基编辑器系統,其中该碱基编辑器系統进一步包含核定位信号(NLS)。

如实施方案134至167中任一项的碱基编辑器系統,其中该碱基编辑器系統进一步包含一个或多个链接基。

如实施方案168的碱基编辑器系統,其中该多核苷酸可编程DNA结合域、脱氨酶域、UGI域、NLS、及/或锌指域中的二者或多者是通过链接基连结。

如实施方案169的碱基编辑器系統,其中该链接基为肽链接基,通过此生成碱基编辑融合蛋白。

如实施方案170的碱基编辑器系統,其中该肽链接基包含选自于由以下各项所组成的组群中的氨基酸序列:

如实施方案170的碱基编辑器系統,其中该碱基编辑融合蛋白包含BE4的氨基酸序列。

如实施方案170的碱基编辑器系統,其中该碱基编辑融合蛋白包含以下各项氨基酸序列:

如实施方案134-173中任一项的碱基编辑器系統,其中该SERPINA1多核苷酸包含该疾病的病原性单核苷酸多形性(SNP)起因。

如实施方案174的碱基编辑器系統,其中该疾病为α-1抗胰蛋白酶缺乏症(A1AD)。

如实施方案175的碱基编辑器系統,其中该SERPINA1多核苷酸编码A1AT蛋白,其包含自病原性SNP所导致的氨基酸突变。

如实施方案176的碱基编辑器系統,其中该氨基酸突变为342L或376L突变或其任何对应位置。

如实施方案176或177的碱基编辑器系統,其中该核苷碱基的脱氨导致于A1AT蛋白中在位置342或376或其对应位置以外位置的氨基酸取代。

如实施方案178的碱基编辑器系統,其中该核苷碱基的脱氨导致于A1AT蛋白中选自于由F51L、M374I、A348V、A347V、K387R、T59A、及T68A所组成的组群中的氨基酸取代或其对应取代。

如实施方案178的碱基编辑器系統,其中该核苷碱基的脱氨导致于A1AT蛋白中在位置374或其对应位置的氨基酸取代。

如实施方案180的碱基编辑器系統,其中在该A1AT蛋白中的氨基酸取代为M374I或其对应取代。

如实施方案126的碱基编辑器系統,其中该核苷碱基是在该SERPINA1多核苷酸的核酸位置1455或其对应位置。

如实施方案134至182中任一项的碱基编辑器系統,其中该导引多核苷酸包含两个个别多核苷酸,其中该两个个别多核苷酸为两个DNA、两个RNA、或一个DNA及一个RNA。

如实施方案186中任一项的碱基编辑器系統,其中该导引多核苷酸包含crRNA及tracrRNA,其中该crRNA包含与SERPINA1多核苷酸中的标靶序列互补的核酸序列。

如实施方案184的碱基编辑器系統,其中该标靶序列包含SERPINA1多核苷酸中的位置1455。

如实施方案184的碱基编辑器系統,其中该标靶序列包含选自于GAAGAAGATATTGGTGCTGT、TCAATCATTAAGAAGACAAA、ACTTTTCCCATGAAGAGGGG、CATCGCTACAGCCTTTGCAA、及GGGACCAAGGCTGACACTCA中的序列。

如实施方案185或186的碱基编辑器系統,其中该碱基编辑器系統包含单导引RNA(sgRNA)。

如实施方案187的碱基编辑器系統,其中该sgRNA包含选自于由以下各项所组成的组群中的序列:

一种碱基编辑器系統,其包含

单导引RNA(sgRNA)

包含BE4的氨基酸序列的融合蛋白

其中该sgRNA是能靶定该碱基编辑器系統以将于该SERPINA1多核苷酸中在核酸位置1455或其对应位置的胞苷脱氨,

其中该sgRNA包含选自于由以下各项所组成的组群中的序列:

一种于有需要的个体治疗疾病的方法,该方法包含对该个体投予碱基编辑器系統,该系統包含

导引多核苷酸或编码导引多核苷酸的核酸;

多核苷酸可编程DNA结合域或编码多核苷酸可编程DNA结合域的核酸;及

脱氨酶域或编码脱氨酶域的核酸,

其中该导引多核苷酸能靶定该碱基编辑器系統,以执行于个体中的细胞的标靶多核苷酸中的核苷碱基的脱氨,其中该核苷碱基并非该疾病的起因。

一种于有需要的个体治疗疾病的方法,其包含

于一细胞内导入一碱基编辑器系統,其包含

导引多核苷酸或编码导引多核苷酸的核酸;

多核苷酸可编程DNA结合域或编码多核苷酸可编程DNA结合域的核酸;及

脱氨酶域或编码脱氨酶域的核酸,

将该细胞投予该个体,

其中该导引多核苷酸能靶定该碱基编辑器系統,以执行于个体中的细胞的标靶多核苷酸中的核苷碱基的脱氨,通过此治疗该病,其中该核苷碱基并非该疾病的起因。

一种制造用于疾病的治疗的修饰细胞的方法,该方法包含于细胞内导入碱基编辑器系統,该系統包含

导引多核苷酸或编码导引多核苷酸的核酸;

多核苷酸可编程DNA结合域或编码多核苷酸可编程DNA结合域的核酸;及

脱氨酶域或编码脱氨酶域的核酸,

其中该导引多核苷酸能靶定该碱基编辑器系統,以执行于细胞的标靶多核苷酸中的核苷碱基的脱氨,其中该核苷碱基并非该疾病的起因。

如实施方案192的方法,其中该导入为活体内或活体外。

如实施方案192或193的方法,其中该细胞为肝细胞或其祖细胞。

如实施方案190-194中任一项的方法,其中该标靶多核苷酸包含编码蛋白质的基因,其中该基因包含该疾病的病原性单核苷酸多形性(SNP)起因。

如实施方案95的方法,其中该疾病为镰状细胞症、β-地中海型贫血、α-1抗胰蛋白酶缺乏症(A1AD)、ATTR类淀粉沈积症、或囊性纤维化。

如实施方案195或196的方法,其中该蛋白包含因病原性SNP所致的氨基酸突变。

如实施方案197的方法,其中该核苷碱基的脱氨修饰该蛋白的表达、活性、或安定性。

如实施方案198的方法,其中该核苷碱基的脱氨增加该蛋白的表达、活性、或安定性。

如实施方案195至199中任一项的方法,其中该基因为CFTR及该蛋白为CFTR蛋白。

如实施方案200的方法,其中该脱氨导致选自于由CFTR蛋白中的R555K、F409L、F433L、H667R、R1070W、R29K、R553Q、I539T、G550E、F429S、及Q637R所组成的组群中的氨基酸取代或其任何对应取代。

如实施方案195至199中任一项的方法,其中该基因为TTR及该蛋白为TTR蛋白。

如实施方案202的方法,其中该脱氨导致选自于由TTR蛋白中的A108V、R104H、及T119M所组成的组群中的氨基酸取代或其任何对应取代。

如实施方案195至199中任一项的方法,其中该基因为HBB及该蛋白为血色素的β亚单位(HbB)。

如实施方案204的方法,其中该脱氨导致选自于由HbB的A70T、A70V、L88P、F85L、F85P、E22G、G16D、及G16N所组成的组群中的氨基酸取代或其任何对应取代。

如实施方案189至205中任一项的方法,其中该多核苷酸可编程DNA结合域为Cas9结构域。

如实施方案206的方法,其中该Cas9结构域为核酸酶失活化Cas9结构域或Cas9切口酶域。

如实施方案206或207的方法,其中该Cas9结构域包含SpCas9结构域。

如实施方案208的方法,其中该SpCas9结构域包含D10A及/或H840A氨基酸取代或其对应的氨基酸取代。

如实施方案209的方法,其中该SpCas9结构域具有针对NGN PAM的特异性。

如实施方案208至210中任一项的方法,其中该SaCas9结构域包含氨基酸取代D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E、及T1337R,或其对应的氨基酸取代。

如实施方案206或207的方法,其中该Cas9结构域包含SaCas9结构域。

如实施方案212的方法,其中该SaCas9结构域具有针对NNNRRT PAM的特异性。

如实施方案212或213的方法,其中该SaCas9结构域包含氨基酸取代N579A或其对应的氨基酸取代。

如实施方案212至214中任一项的方法,其中该Cas9结构域包含氨基酸取代E782K、N968K、及R1015H,或其对应的氨基酸取代。

如实施方案189至215中任一项的方法,其中该脱氨酶域包含胞苷脱氨酶域。

如实施方案216的方法,其中该胞苷脱氨酶域包含APOBEC1域。

如实施方案189至215中任一项的方法,其中该脱氨酶域包含腺苷脱氨酶域。

如实施方案218的方法,其中该腺苷脱氨酶域包含TadA域其包含TadA 7.10。

如实施方案189至219中任一项的方法,其中该碱基编辑器系統进一步包含至少一个UGI域。

如实施方案220的方法,其中该碱基编辑器系統包含至少两个UGI域。

如实施方案189至221中任一项的方法,其中该碱基编辑器系統进一步包含一个或多个链接基。

如实施方案222的方法,其中该多核苷酸可编程DNA结合域与该脱氨酶域是通过链接基连结。

如实施方案222或223的方法,其中该UGI域与脱氨酶域是通过链接基连结。

如实施方案224的方法,其中该链接基为肽链接基,通过此生成碱基编辑融合蛋白。

如实施方案225的方法,其中该碱基编辑融合蛋白包含BE4的氨基酸序列。

如实施方案225的方法,其中该碱基编辑融合蛋白包含以下各项的氨基酸序列:

如实施方案159至197中任一项的方法,其中该脱氨导致少于10%插入或缺失(indel)的生成。

一种碱基编辑器系統,其包含

导引多核苷酸或编码导引多核苷酸的核酸;

多核苷酸可编程DNA结合域或编码多核苷酸可编程DNA结合域的核酸;及

脱氨酶域或编码腺苷脱氨酶域的核酸,

其中该导引多核苷酸能靶定该碱基编辑器系統,以执行于标靶多核苷酸中的核苷碱基的脱氨,

其中该核苷碱基并非该疾病的起因,其中该标靶多核苷酸包含表3A或表3B中的靶定序列。

实施例

以下各项实施例是仅供例示说明目的,而非意图囿限本揭示中提供的申请专利范围的范畴。

实施例1.碱基编辑器中验证PAM变异体

新颖CRISPR系统及PAM变异体使得碱基编辑器能在标靶SNP做出精准校正。若干新颖PAM变异体已经评估与验证。PAM评估及碱基编辑器的细节是描述于例如,国际PCT申请案Nos.PCT/2017/045381(WO2018/027078)及PCT/US2016/058344(WO2017/070632),其各自全文以引用方式纳入本说明书的揭示。也请参考Komor,A.C.,et al.,「不含双股DNA分裂的基因体DNA中的标靶碱基的可编程编辑」Nature 533,420-424(2016);Gaudelli,N.M.,etal.,「不含DNA分裂的基因体DNA中的A·T至G·C的可编程碱基编辑」Nature 551,464-471(2017);及Komor,A.C.,et al.,「改良碱基切除修复抑制及有较高效率与产物纯度的噬菌体μGam蛋白质获得C:G-to-T:A碱基编辑器」,Science Advances 3:eaao4774(2017);其全文内容以引用方式纳入本说明书的揭示。

实施例2.基因编辑以校正α-1抗胰蛋白酶缺乏症(A1AD)

α-1抗胰蛋白酶(A1A或A1AT)为由染色体14上的SERPINA1基因编码的蛋白酶抑制剂。此糖蛋白主要是在肝脏合成且被分泌入血,健康成人的血清浓度为1.5-3.0g/L(20-52μmol/L)(图1)。A1AT扩散入肺间质与肺泡内衬液中,于其中其失活化嗜中性细胞弹性蛋白酶,通过此保护肺组织免于蛋白酶媒介的损伤。α-1抗胰蛋白酶缺乏症(A1AD)是以常染色体显性方式遗传。

业已描述SERPINA1基因的超过100种基因变异体,但非全部皆与疾病相关。此等变异体的字母标志是基于其在凝胶电泳上的迁移速度。最常见的变异体为M(中等迁移率)等位基因,两个最频繁的缺陷等位基因为PiS及PiZ(后者具有最慢的迁移速率)。若干突变已经描述,其未产生可量测的血清蛋白;此等被称作为「无效」等位基因。最常见的基因型为MM,其产生α-1抗胰蛋白酶的正常血清浓度。大多数有重度缺陷者为Z等位基因的同型接合子(ZZ)。Z蛋白在其于肝细胞内质网制造期间折迭错误与聚合;此等异常聚合物被捕捉于肝脏内,大大地降低了α-1抗胰蛋白酶的血清浓度。在患有α-1抗胰蛋白酶缺乏症的病人体所见肝病,是因异常α-1抗胰蛋白酶蛋白累积在肝细胞,及结果导致的细胞反应所致,包括自噬、内质网压力反应、及细胞凋亡。图2显示最常见的基因型(MM、MZ、SS、SZ、及ZZ),及其个别相关联的α-1抗胰蛋白酶的血清浓度。α-1抗胰蛋白酶的循环浓度减低,导致肺脏的嗜中性细胞弹性蛋白酶活性增加;蛋白酶与抗蛋白酶活性的此种不平衡,结果导致与此病况相关联的肺疾(图1)。

α-1抗胰蛋白酶缺乏症(A1AD)最常见于高加索人,其最常见影响肺及肝。于肺脏,最常见的表征为早期发作型(30多岁及40多岁病人)全腺泡型肺气肿,以肺底为最显著。但可能发生扩散型肺气肿或上肺叶肺气肿,如同支气管扩张症般。最常描述的症状包括呼吸困难、喘息、及咳嗽。患者的肺功能试验显示与COPD符合一致的观察所见;但可能观察到对支气管扩张剂有反应,而可能被错误诊断为气喘。

由ZZ基因型引发的肝病以各种方式表征。病婴可能在新生儿期呈现胆汁郁滞型黄疸,偶尔伴随有无胆色粪便(灰白色或黏土色)及肝肿大。血中接合型胆红素、转氨酶、及γ-麸氨酰基转移酶浓度升高。年龄较长的儿童及成人的肝病可能呈现偶发的转氨酶升高,或有已确立的肝硬化征象,包括静脉曲张出血或腹水。α-1抗胰蛋白酶缺乏症也造成病人好发肝癌。虽然同型接合子ZZ基因型乃发展出肝病所需,但杂合子Z突变可能作为其它疾病的基因修饰因子,赋与更严重肝病的更高风险,诸如C型肝炎感染及囊性纤维化肝病。

A1AD的两种最常见的临床变异体为E264V(PiS)及E342K(PiZ)等位基因。超过半数的A1AD病人带有突变E342K的至少一个拷贝。通过同源导向修复(HDR)的核酸酶基因体编辑为无效,大量的插入或缺失,将降低循环浓度,及恶化肺症状。使用AAV载体,涉及转导肝细胞的基因疗法,因额外折迭错误蛋白而使得肝病理恶化。编码野生型A1AT及siRNA两者(其减弱E342K A1AT)的AAV显示解决两种病理的展望。

用于质体转染,人胚胎肾细胞(HEK293T)细胞使用针对HEK293细胞优化的高效率低毒性DNA转染试剂暂时性转染,Mirus TransIT293以3μl:1μg比例(含250ng gRNA质体具有U6启动子及750ng碱基编辑器质体具有CMV启动子)。碱基编辑器亦即优化的BE4具有如下序列:

针对mRNA转染,HEK293T细胞使用Neon System于1150V,使用两个20毫秒脉冲,以3μg全体RNA电泳。针对gRNA及mRNA转染,使用具有硫代磷酸键联及针对第一及最末3碱基的2OMe修饰的已修饰gRNA。针对全部NNGRRT及NNNRRT PAMs,间隔基加saCas9骨架具有如下序列:

四日的质体转染及两日的RNA电泳的后,基因体DNA是萃取自细胞,使用0.05%SDS,25μg/ml proteinase K,10mM Tris pH 8.0的简单溶解缓冲液,接着为于85℃的热失活化。基因体位点经PCR扩增及在MiSeq上定序。结果是如先前描述,针对在各个位置的碱基频率及针对%插入或缺失分析。插入或缺失的细节是描述于国际PCT申请案Nos.PCT/2017/045381(WO2018/027078)及PCT/US2016/058344(WO2017/070632),其各自全文以引用方式纳入本说明书的揭示。也请参考Komor,A.C.,et al.,「不含双股DNA分裂的基因体DNA中的标靶碱基的可编程编辑」Nature 533,420-424(2016);Gaudelli,N.M.,et al.,「不含DNA分裂的基因体DNA中的A·T至G·C的可编程碱基编辑」Nature 551,464-471(2017);及Komor,A.C.,et al.,「改良碱基切除修复抑制及有较高效率与产物纯度的噬菌体μGam蛋白质获得C:G-to-T:A碱基编辑器」,Science Advances 3:eaao4774(2017);其全文内容以引用方式纳入本说明书的揭示。

图3显示针对于SERPINA1基因中突变的遏止剂突变碱基编辑策略。使用BE4碱基编辑器导入M374I,可同时改善肝毒性与增加A1AT循环至肺。如于图4中显示,M374I增加变异体PiZ A1AT蛋白及变异体PiS A1AT蛋白自HEK293T细胞的分泌,及辅助稳定化变异体E342KA1AT及E264V A1AT蛋白。A1AT的分泌量遵循临床样式,PiM>PiS>PiZ。来自E376K突变的脱靶效应与PiS或PiZ变异体A1AT蛋白组合显然有害。分泌并非唯一要求的表现型。因编辑产物并非野生型蛋白,重组突变体A1AT经分析试验其活性,亦即嗜中性细胞弹性蛋白酶的抑制作用。

分泌实验是在HEK293T细胞进行,其是在48孔培养皿以125ng编码各个A1AT变异体的pCMV暂时性转染。转染是以六次重复进行,转染后24小时收集细胞培养上清液。细胞上清液中的A1AT浓度是使用对抗A1AT的抗体通过ELISA分析试验。

图5显示于HEK293T中M374I的优化碱基编辑。建构体设计与递送参数是经优化。观察得对期望的:非期望的结果(M374I:E376K或indels)的比的影响极小。

图6提供始于TadA tRNA脱氨酶,演化DNA去氧腺苷脱氨酶的策略。

经碱基编辑的A1AT变异体的%弹性蛋白酶活性是显示于图7。补偿突变M374I的存在改进了A1AT蛋白中E342K及E264V突变各自的抑制活性。M374I的有意义的碱基编辑带有极少旁观者编辑,是在含有A1AT其携载有E342K等位基因的iPSC衍生肝细胞中、及在野生型(WT)人肝细胞两者中达成(图8)。M374I的碱基编辑是与iPSC衍生E342K肝细胞中A1AT的分泌显著(>40%)增加相关联(图9)。增加BE4 RNA的量(剂量)增进了编辑,但不会导致A1AT分泌的对应增加。不欲受任何特定理论所限,于转染期间,使用高RNA剂量,可能出现胞毒性。当导入补偿突变M374I时,iPSC衍生E342K肝细胞中检测得A1AT分泌有可再现性的增加。初代人肝细胞(PHH)的先导评比显示对A1AT分泌没有负面影响。

序列

下表7呈现如于本案描述的实施方案中运用,野生型及变异体(E342K)SERPINA1-编码氨基酸序列、及野生型及变异体(E342K)SERPINA1多核苷酸的开读框(ORF)核酸序列的代表性列表。

表7.序列实施例

实施例3.材料及方法

本文描述的实施例中提供的结果是使用以下各项材料及方法获得。

克隆化/转染

PCR是使用VeraSeq ULtra DNA聚合酶(Enzymatics),或Q5热门初始高保真(HotStart High-Fidelity)DNA聚合酶(New England Biolabs)进行。碱基编辑器(BE)质体是使用USER克隆化(New England Biolabs)建构。脱氨酶基因是合成为gBlocks基因片段(Integrated DNA Technologies)。使用的Cas9基因列表如下。Cas9基因是得自先前报告的质体。脱氨酶及融合基因是被克隆化入pCMV(哺乳类密码子优化)或pET28b(大肠杆菌密码子优化)主干。sgRNA表达质体是使用位点导向突变发生建构。

简言的,前文列举的引子是根据制造商指示,使用T4多核苷酸激酶(New EnglandBiolabs)进行5’磷酸化。其次,PCR是使用带有磷酸化引子的Q5热门初始高保真聚合酶(NewEngland Biolabs),及包含编码A1AT sgRNA表达质体的核酸的质体作为样板,根据制造商指示进行。PCR产物与DpnI(20U,New England Biolabs)于37℃孵育1小时,于QIAprep离心管柱(Qiagen)上纯化,及使用QuickLigase(New England Biolabs)根据制造商指示接合。DNA载体扩增是使用Mach1胜任细胞(ThermoFisher Scientific)进行。

针对gRNA,呈现如下骨架序列:

使用的DNA序列引子如下:

ssDNA上的试管内脱氨酶分析试验

全部ssDNA酶基质的序列提供如下。全部Cy3标记的酶基质是得自Integrated DNATechnologies(IDT)。脱氨酶是使用TNT T7快速偶合转录/翻译试剂盒(Promega),根据制造商指示使用1μg质体于试管内表达。于蛋白质表达的后,5μl溶解产物组合35μl ssDNA(1.8μM)及USER酶(1单位)于CutSmart缓冲液(New England Biolabs)(50mM乙酸钾,29mM Tris-乙酸盐,10mM乙酸镁,100μg ml-1BSA,pH 7.9),及于37℃培育2小时。含有已劈裂U的酶基质是在10%TBE-尿素凝胶(Bio-Rad)上自全长未经修饰的酶基质解析出。

His6–rAPOBEC1-链接基–dCas9融合蛋白的表达与纯化

大肠杆菌BL21 STAR(DE3)-胜任细胞(ThermoFisher Scientific)以编码pET28b-His6-rAPOBEC1-链接基-dCas9的质体转形。结果所得的表达菌株于37℃,于含有100μg ml-1康霉素(kanamycin)的Luria-Bertani(LB)营养汁中生长隔夜。细胞以1:100稀释入相同生长培养基,及于37℃生长至OD600=~0.6。培养以2小时时间冷却到4℃,及异丙基-β-d-1-硫代半乳糖哌喃糖苷(IPTG)以0.5mM添加来诱导蛋白质表达。约经16小时后,细胞通过于4,000g离心收集,及再悬浮于溶解缓冲液(50mM参(羟基甲基)-氨基甲烷(Tris)-HCl(pH7.5),1M NaCl,20%甘油,10mM参(2-羧基乙基)膦(TCEP,Soltec Ventures))。细胞通过音振处理溶解(20秒脉冲开,20秒脉冲关,以6W输出共8分钟),于25,000g离心15分钟后分离溶解上清液。溶解产物与His-Pur镍-氮基三乙酸(镍-NTA)树脂(ThermoFisher Scientific)于4℃培养1小时以捕捉加His-标签的融合蛋白。树脂转移到管柱及以40ml溶解缓冲液洗涤。加His-标签的融合蛋白于补充以285mM咪唑的溶解缓冲液中洗提,及通过超过滤(Amicon-Millipore,100-kDa分子量截止值)浓缩至1ml总体积。蛋白质于低盐纯化缓冲液中稀释成20ml,该缓冲液中含有50mM参(羟基甲基)-氨基甲烷(Tris)-HCl(pH 7.0),0.1M NaCl,20%甘油,10mM TCEP及载荷至SP Sepharose Fast Flow树脂(GE Life Sciences)上。树脂以40ml此低盐缓冲液洗涤,及蛋白质以5ml活性度缓冲液洗提,其中含有50mM参(羟基甲基)-氨基甲烷(Tris)-HCl(pH 7.0),0.5M NaCl,20%甘油,10mM TCEP。洗提供的蛋白质通过SDS–PAGE加以量化。

sgRNA的试管内转录

含T7启动子接着为20-bp sgRNA标靶序列的线性DNA片段,根据制造商指示,使用TranscriptAid T7高产率转录试剂盒(High Yield Transcription Kit)(ThermoFisherScientific)于试管内转录。sgRNA产物使用MEGAclear Kit(ThermoFisher Scientific)根据制造商指示纯化,及通过UV吸光比定量。

Cy3-接合dsDNA酶基质的制备

80-nt未加标签股序列是自IDT订购为经PAGE纯化的寡核苷酸。补遗资讯中列举的25-nt Cy3-标签引子是与各个80-nt酶基质的3’端互补。此引子是自IDT订购为经HPLC纯化的寡核苷酸。为了生成Cy3-标签的dsDNA酶基质,80-nt股(5μl 100μM溶液)组合Cy3-标签引子(5μl 100μM溶液)于NEBuffer 2(38.25μl 50mM NaCl,10mM Tris-HCl,10mM MgCl2,1mMDTT,pH 7.9溶液,New England Biolabs)含dNTPs(0.75μl 100mM溶液),及加热至95℃历时5分钟,接着为以每秒0.1℃的速率徐缓冷却到45℃。在此退火期的后,添加Klenow exo–(5U,New England Biolabs),及反应于37℃培养1小时。溶液以缓冲液PB(250μl,Qiagen)及异丙醇(50μl)稀释,及于QIAprep离心管柱(Qiagen)上纯化,以50μl Tris缓冲液洗提。脱氨酶分析试验是在dsDNA上。已纯化的融合蛋白(20μl 1.9μM于活性度缓冲液)组合1当量适当sgRNA,及于周温培养5分钟。添加Cy3-标签dsDNA酶基质至125nM终浓度,及所得溶液于37℃培养2小时。通过添加缓冲液PB(100μl,Qiagen)及异丙醇(25μl),dsDNA自融合蛋白分离,及于EconoSpin微离心管柱(Epoch Life Science)上纯化,以20μl CutSmart缓冲液(NewEngland Biolabs)洗提。USER酶(1U,New England Biolabs)添加至已纯化经编辑的dsDNA,及于37℃培养1小时。Cy3-标签股通过组合5μl反应溶液含15μl以DMSO-为主的载荷缓冲液(5mM Tris,0.5mM EDTA,12.5%甘油,0.02%溴酚蓝,0.02%二甲苯青,80%DMSO),而与其互补序列全然变性。全长含C酶基质在10%TBE-尿素凝胶(Bio-Rad)上与任何已劈裂的含U洗提供的酶基质分开,及在GE Amersham Typhoon成像仪上成像。

用于高通量定序的试管内已编辑dsDNA的制备

如以下各项出的寡核苷酸得自IDT。互补序列组合(5μl 100μM溶液)于Tris缓冲液,及通过加热至95℃历时5分钟,接着为以每秒0.1℃的速率徐缓冷却到45℃退火,以生成60-bp dsDNA酶基质。已纯化的融合蛋白(20μl 1.9μM于活性度缓冲液)组合1当量适当sgRNA,及于周温培养5分钟。添加60-mer dsDNA酶基质至125nM终浓度,所得溶液于37℃培养2小时。通过添加缓冲液PB(100μl,Qiagen)及异丙醇(25μl),dsDNA自融合蛋白分离,及于EconoSpin微离心管柱(Epoch Life Science)上纯化,以20μl CutSmart缓冲液(NewEngland Biolabs)洗提。所得经编辑的DNA(1μl用作为样板)根据制造商指示,通过PCR使用如上提供的高通量定序引子对及VeraSeq Ultra(Enzymatics),以13个扩增周期扩增。PCR反应产物是使用RapidTips(Diffinity Genomics)纯化,及已纯化的DNA通过PCR以含定序配接子的引子扩增,纯化,及在如前述MiSeq高通量DNA定序仪(Illumina)上定序。

细胞培养

HEK293T(ATCC CRL-3216)及U2OS(ATCC HTB-96)维持于Dulbecco’s ModifiedEagle’s Medium加GlutaMax(ThermoFisher)补充以10%(v/v)胎牛血清(FBS),于37℃含5%CO2。HCC1954细胞(ATCC CRL-2338)维持于如前文描述经补充的RPMI-1640培养基(ThermoFisher Scientific)。含SERPINA1基因(Taconic Biosciences)的永生细胞是培养于Dulbecco’s Modified Eagle’s Medium加GlutaMax(ThermoFisher Scientific)补充以10%(v/v)胎牛血清(FBS)及200μg ml-1Geneticin(ThermoFisher Scientific)。

转染

HEK293T细胞播种于48-孔经胶原蛋白涂覆的BioCoat培养皿(Corning)上,及于约85%融合转染,简言的,750ng BE及250ng sgRNA表达质体根据制造商规范,使用每孔1.5μl脂转染氨(Lipofectamine)2000(ThermoFisher Scientific)转染。HEK293T细胞使用适当Amaxa Nucleofector II编程,根据制造商指示(V试剂盒使用编程Q-001用于HEK293T细胞)转染。

基因体DNA样本的高通量DNA定序

三日后收获转染细胞,及基因体DNA是使用Agencourt DNAdvance基因体DNA分离试剂盒(Genomic DNA Isolation Kit)(Beckman Coulter)根据制造商指示分离。关注的中靶与脱靶基因体区是通过PCR,以旁出的高通量定序引子对BEAM53/BEAM54或BEAM1704/BEAM54扩增。PCR扩增是以Phusion高保真DNA聚合酶(ThermoFisher),根据制造商指示,使用5ng基因体DNA作为样板进行。周期数是针对各个引子对分开判定,俾便确保反应是停止在线性扩增范围。PCR产物使用RapidTips(Diffinity Genomics)纯化。纯化后的DNA是通过PCR以含定序配接子的引子扩增。产物经凝胶纯化,及使用Quant-iT PicoGreen dsDNA分析试验试剂盒(Assay Kit)(ThermoFisher)及KAPA存库定量试剂盒(LibraryQuantification Kit)-Illumina(KAPA Biosystems)定量。样本是在如先前描述的Illumina MiSeq(Pattanayak,Nature Biotechnol.31,839–843(2013))上定序。

资料分析

定序读码是使用MiSeq Reporter(Illumina)自动解多工,及个别FASTQ档案是使用客户Matlab分析。各个读码是使用Smith-Waterman演算法成对地对齐到适当参考序列。具有Q分数低于31的碱基判定以N置换,因而在计算核苷酸频率中排除。此处理获得预期MiSeq碱基判定错误率约为千分的一。于其中,读码与参考序列不含间隙的对齐的序列是被储存于对齐表中,自该表中,针对各个基因座的碱基频率可被列表。使用先前描述的标准,插入或缺失(indel)频率是以客户Matlab稿本定量(Zuris,et al.,NatureBiotechnol.33,73–80(2015))。定序读码经扫描以供正确匹配到两个10-bp序列,其是旁出于其中可能发生indels的窗两侧。若未找到正确匹配,则该读码自分析中排除。若此indel窗长度正确匹配参考序列,则该读码被归类为不含indel。若该indel窗比参考序列更长或更短两个或以上个碱基,则该定序读码被归类为插入或缺失。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号