首页> 中国专利> 基因转录框架、载体系统、基因组序列编辑方法及应用

基因转录框架、载体系统、基因组序列编辑方法及应用

摘要

本发明提供一种基因转录框架、载体系统、基因组序列编辑方法及应用,该基因转录框架基于真核生物逆转录转座机制,可经DNA、RNA或RNP途径介导,包括包含有靶位点上游序列、待插入序列及靶位点下游序列的转录序列、一个或多个SINE(元件),LINE(元件)、一个或多个ORF1p编码序列和/或ORF2p编码序列。该基因编辑方法在尽量不引入外来体系或物质及不产生双链断裂的前提下,通过DNA、RNA或RNP途径转入细胞核或细胞质(RNA或RNP通过ORF1p和/或ORF2p介导从细胞质转入细胞核),将目的片段插入基因组中的指定位点或将基因组中的指定片段删除或替换,并同时具有较高的靶向准确性。

著录项

  • 公开/公告号CN112708636A

    专利类型发明专利

  • 公开/公告日2021-04-27

    原文格式PDF

  • 申请/专利权人 彭双红;

    申请/专利号CN202110089068.1

  • 发明设计人 彭双红;隋云鹏;

    申请日2021-01-22

  • 分类号C12N15/85(20060101);C12N15/63(20060101);A61K48/00(20060101);A61P25/16(20060101);A61P25/28(20060101);A61P35/00(20060101);A61P35/02(20060101);A61P43/00(20060101);

  • 代理机构11100 北京北新智诚知识产权代理有限公司;

  • 代理人张晶;王淳

  • 地址 100078 北京市丰台区芳群园3区1508

  • 入库时间 2023-06-19 10:46:31

说明书

技术领域

本发明属于生物技术领域,涉及一种基因编辑技术,具体涉及一种可经 DNA、RNA或RNP途径介导的基因编辑技术及其应用。

背景技术

目前在生物技术领域中基因编辑技术技术主要有ZFN、TALEN、 CRISPR/Cas9及Targetron技术。其中,ZFN技术在历史上出现最早,但因其 DNA结合域一般只能识别9bp长度的序列,使其实际应用时的靶向精确性受到较大的限制,且该技术实际设计繁琐,并无法对未知上下游的序列进行敲除。此外,其细胞毒性及脱靶率均较高。而TALEN技术相较于ZFN在设计上更为简单,且可识别17~18bp的序列使其具有更高的特异性,但由于核心技术掌握于个别商业公司,多数实验室无法自行完成,使其传播和应用受到了一定的限制。同时,其构建过程仍较为复杂。CRISPR/Cas9技术则是这三者中最为简便的,也是最富于操作性的。其最早发现于古细菌和细菌中,可以特异性识别 20bp左右的序列,在Cas9内切酶的作用下,造成特定位点的双链断裂,并通过系统自身的DNA修复功能进行修复,以此进行基因编辑操作。

然而这三种技术均存在所谓的脱靶问题,即使是识别长度最高的 CRISPR/Cas9技术也不例外。有研究显示,CRISPR/Cas9与靶位点识别的特异性主要依赖于靠近gRNA PAM位点的10~12个碱基的配对,这使其易于产生非特异切割。此外,这三种技术产生双链断裂后,会大概率通过非同源末端连接进行修复,而非同源重组,并产生随机序列,其不确定性使得其作用在实际应用,尤其是在人体和临床上大打折扣。同时,这三种技术将本不属于接受体系的遗传物质及蛋白带入其中,也可能带来意料之外的影响。

而更新的Targetron技术,其应用II类内含子实现在基因组特定位点插入序列,使相应基因发生突变。但该技术不可避免的会引发基因组双链断裂并向基因组引入外源性II类内含子产生“疤痕”,且由于该技术源于原核生物,其本身产生的用于逆转录的RNA并无跨膜运输的功能,限制了其RNA单独行使功能的应用。此外,最为重要的是,该技术在细菌基因编辑领域表现良好,但在高等生物上却表现不佳。所有这四种基因编辑技术均必须引入本不属于接受体系的蛋白质及核酸,增加了其作用的不确定性,并极大的阻碍了其临床应用。

发明内容

为了解决上述问题,本发明的目的在于提供一种基因转录框架,该基因转录框架转录后可经DNA、RNA和/或RNP途径介导转入细胞核或细胞质,将目的片段插入基因组中的特定位点或将基因组中的特定片段删除或替换,并同时具有较高的靶向准确性。

本发明的另一目的在于提供一种可经DNA、RNA和/或RNP途径介导的载体系统。

本发明的第三个目的在于提供一种基因编辑方法,该基因编辑方法在尽量不引入外来体系或物质及不产生双链断裂的前提下,以DNA、RNP或RNA(可体外制备产生)及相关蛋白质为介质,通过DNA、RNA或RNP途径转入细胞核或细胞质,将目的片段插入基因组中的指定位点或将基因组中的指定片段删除或替换,并同时具有较高的靶向准确性。

为了实现上述目的,本发明提供一种基因转录框架,该基因转录框架沿 5′→3′方向包括靶位点上游序列、待插入序列、靶位点下游序列;

该基因转录框架为一段可通过RNA聚合酶I、RNA聚合酶II或RNA聚合酶III转录的DNA序列,该基因转录框架的转录产物或其转录产物的转化产物中的靶位点上游序列或其互补序列能够与细胞基因组中相应靶位点的上游序列或其互补序列杂交,靶位点下游序列或其互补序列能够与细胞基因组中相应靶位点的下游序列或其互补序列杂交,该靶位点上游序列和该靶位点下游序列在基因组中相应的靶基因序列中为直接相连,基因组上靶基因序列中的靶位点上游序列和靶位点下游序列之间的位点即为待插入序列的靶位点。

上述基因转录框架用于将待插入序列插入至基因组靶位点。

优选地,所述细胞为真核细胞。

本发明还提供一种载体系统,该载体系统包括一种或多种载体,该一种或多种载体包括:

一个或多个1)如权利要求1所述的基因转录框架;

一个或多个2)短散在元件和/或部分短散在元件和/或类短散在元件,和/ 或一个或多个3)长散在元件和/或ORF1p编码序列和/或ORF2p编码序列;

其中,该组分1)、2)和/或3)位于该载体系统的相同或不同载体上;

当组分1)为多个时位于该载体系统的相同或不同载体上;

当组分2)为多个时位于该载体系统的相同或不同载体上;

当组分3)为多个时位于该载体系统的相同或不同载体上;

该载体上带有一个或多个启动子,该启动子为RNA聚合酶I启动子、RNA 聚合酶II启动子或RNA聚合酶III启动子,并且位于该组分1)、2)和/或3) 的上游;

该载体系统通过DNA、RNA和/或RNP途径介导。

更进一步地,所述载体为真核表达载体、原核表达载体、病毒载体、质粒载体、人工染色体、噬菌体载体、粘粒载体。

更进一步地,所述载体为表达载体、克隆载体、测序载体、转化载体、穿梭载体或多功能载体。

更进一步地,当1)和2)位于相同载体上时,该短散在元件,和/或部分短散在元件,和/或类短散在元件位于该基因转录框架的下游,并且该基因转录框架与该短散在元件,和/或部分短散在元件,和/或类短散在元件直接相连或间接相连;当直接相连时,该基因转录框架与该短散在元件,和/或部分短散在元件,和/或类短散在元件共用一个启动子;当间接相连时,该基因转录框架与该短散在元件,和/或部分短散在元件,和/或类短散在元件共用一个启动子或不共用一个启动子。

更进一步地,当1)和3)位于相同载体上时,该一个或多个长散在元件,和/或一个或多个ORF1p编码序列,和/或一个或多个ORF2p编码序列位于该基因转录框架的上游和/或下游,并且该基因转录框架与该一个或多个长散在元件,和/或一个或多个ORF1p编码序列,和/或一个或多个ORF2p编码序列直接相连或间接相连;当直接相连时,该基因转录框架与该一个或多个长散在元件,和/或一个或多个ORF1p编码序列,和/或一个或多个ORF2p编码序列共用一个启动子;当间接相连时,该基因转录框架与该一个或多个长散在元件,和/ 或一个或多个ORF1p编码序列,和/或一个或多个ORF2p编码序列共用一个启动子或不共用一个启动子。

更进一步地,当1)、2)和3)位于相同载体上时,该短散在元件和/或部分短散在元件和/或类短散在元件位于该基因转录框架的下游,和/或该长散在元件和/或ORF1p编码序列和/或ORF2p编码序列的下游;当该短散在元件和/或部分短散在元件和/或类短散在元件位于该基因转录框架的下游时,该长散在元件和/或ORF1p编码序列和/或ORF2p编码序列位于该基因转录框架的上游,和 /或该长散在元件和/或ORF1p编码序列和/或ORF2p编码序列位于该短散在元件和/或部分短散在元件和/或类短散在元件的下游;当该短散在元件和/或部分短散在元件和/或类短散在元件位于该长散在元件和/或ORF1p编码序列和/或ORF2p编码序列的下游时,该长散在元件和/或ORF1p编码序列和/或ORF2p 编码序列位于该基因转录框架的下游;并且该基因转录框架、该短散在元件和/ 或部分短散在元件和/或类短散在元件和该长散在元件和/或ORF1p编码序列和/ 或ORF2p编码序列之间直接相连或间接相连;当直接相连时,该基因转录框架、该短散在元件和/或部分短散在元件和/或类短散在元件和该长散在元件和/ 或ORF1p编码序列和/或ORF2p编码序列共用一个启动子;当间接相连时,该基因转录框架、该短散在元件和/或部分短散在元件和/或类短散在元件和该长散在元件和/或ORF1p编码序列和/或ORF2p编码序列共用一个启动子或不共用一个启动子。

更进一步地,当2)和3)位于相同载体上时,该长散在元件和/或ORF1p 编码序列和/或ORF2p编码序列位于该短散在元件和/或部分短散在元件和/或类短散在元件的上游和/或下游,且该短散在元件和/或部分短散在元件和/或类短散在元件与该长散在元件和/或ORF1p编码序列和/或ORF2p编码序列直接相连或间接相连;当直接相连时,该短散在元件和/或部分短散在元件和/或类短散在元件与该长散在元件和/或ORF1p编码序列和/或ORF2p编码序列共用一个启动子,当间接相连时,该短散在元件和/或部分短散在元件和/或类短散在元件与该长散在元件和/或ORF1p编码序列和/或ORF2p编码序列共用一个启动子或不共用一个启动子。

为了提高转录效率,增加载体系统中的基因转录框架、短散在元件和/或部分短散在元件和/或类短散在元件、长散在元件和/或ORF1p编码序列和/或 ORF2p编码序列的数量。在不同物种中也天然存在的短散在元件、长散在元件,但是由于天然的自带的启动子的活性差,用额外的启动子转录提高表达。

本发明还提供一种基因组序列编辑方法,包括如下步骤:

1)在基因组中选择待进行编辑的靶基因的待插入位点(靶位点),确定待插入位点两边的靶基因的待插入位点的上游序列(靶位点上游序列)和下游序列(靶位点下游序列);

2)制备如上述的载体系统;

3)将载体系统转化或转染到细胞、组织或生物体中进行表达以实现基因编辑。

本发明还提供上述载体系统在基因组中任意区域进行DNA序列的插入、删除、替换中的应用。

优选地,所述DNA序列为一个或多个CNV序列、CNV末端序列、短散在元件或长散在元件。

当DNA序列为CNV序列、CNV末端序列时,可对CNV末端(即CNV 末端中的基因部分和部分SINE之间)进行编辑,插入与基因组或局部基因组非同源的序列以阻碍其基因拷贝数变化以及表达变化;或对CNV末端的基因部分序列进行删除以改变相应细胞表达。

本发明还提供上述载体系统作为预防和/或治疗癌症、与基因有关的遗传病、神经退行性疾病的药物中的应用。

优选地,所述癌症为胶质瘤、乳腺癌、宫颈癌、肺癌、胃癌、结直肠癌、十二指肠癌、白血病、前列腺癌、子宫内膜癌、甲状腺癌、淋巴瘤、胰腺癌、肝癌、黑色素瘤、皮肤癌、垂体瘤、生殖细胞瘤、脑膜瘤、脑膜癌、胶质母细胞瘤、各类星形细胞瘤、各类少枝胶质细胞瘤、星形少枝细胞瘤、各类室管膜瘤、脉络丛乳头状瘤、脉络丛癌、脊索瘤、各类神经节细胞瘤、嗅神经母细胞瘤、交感神经系统神经母细胞瘤、松果体细胞瘤、松果体母细胞瘤、髓母细胞瘤、三叉神经鞘瘤、面听神经瘤、颈静脉球瘤、血管网状细胞瘤、颅咽管瘤或颗粒细胞瘤。

优选地,所述与基因有关的遗传病为Huntington病、脆性X综合征、苯丙酮尿症、假肥大型进行性肌营养不良、线粒体脑肌病、脊髓性肌萎缩症、帕金森叠加综合征、白化病、红绿色盲症、软骨发育不全、黑尿症、先天性聋哑、地中海贫血、镰刀型细胞贫血病、血友病、与基因改变有关的癫痫、肌阵挛、肌张力障碍、卒中和精神分裂、抗维生素D佝偻病、家族性结肠息肉症、遗传性肾炎。

优选地,所述神经退行性疾病为帕金森病、阿尔茨海默病、Huntington病、肌萎缩性侧索硬化、脊髓小脑共济失调、多系统萎缩、原发性侧索硬化、Pick 病、额颞叶痴呆、路易体痴呆或进行性核上性麻痹。

本发明可实现对上述癌症及其转移癌的发生的预防,抑制其增殖并阻止其级别升高和进展或逆转其性质;阻止、延缓或改善对胰岛素、左旋多巴、各类肿瘤化疗药物以及靶向药物等药物的耐药性、延缓或停止细胞及生物体的基因及状态改变、组织和器官再造和生物再生。

应用本发明相关技术还可对各基因中的拷贝数变异及其末端部分进行编辑,改变末端位置或稳定末端,由于其决定基因表达,从而达到稳定或改变细胞及生物各项状态的目的,并因此可应用于改造细胞、组织及生物体的基因及状态、对生物体如人类基因组进行改造以提高机能、对生物体如人类基因组进行改造以治疗各类与基因有关的遗传病如Huntington病和脆性X综合症等、延缓或停止细胞及生物体的基因及状态改变、改变细胞或生物体的基因及状态、组织器官再造和生物再生、通过导入转录因子使体细胞转化为生殖细胞辅助生殖、防止或延缓神经退行性疾病如帕金森病、阿尔茨海默病、Huntington病、肌萎缩性侧索硬化、多系统萎缩、原发性侧索硬化、脊髓小脑共济失调、Pick 病、额颞叶痴呆、路易体痴呆和进行性核上性麻痹、抑制肿瘤细胞代谢活动、增殖速度及产生同时延缓其恶化并改善其恶性程度、以及其他所有与基因及 CNVs改变相关的疾病如糖尿病等的研究与治疗及其他生理、病理和病生理研究等领域。

在本发明中,在基因转录框架中插入序列可为外源序列,也可为内源序列,一次性插入序列长度为1bp-2000bp。当多次插入时可以实现任意长度DNA序列的插入。靶位点上游序列核苷酸序列长度可在10bp-2000bp、靶位点下游序列核苷酸序列长度可在10bp-2000bp。

本发明的特点:

本发明可将需要插入基因组选定位点的待插入序列依靠载体上插入序列两侧的靶位点的上下游序列定位于基因组上的待插入位点,并在短散在元件、长散在元件及其表达的蛋白的辅助下,将待插入序列插入至基因组中的选定位点。且细胞内或载体表达的ORF2p只有在插入点上游序列完全匹配的条件下才可从其载体核酸的3′端顺利滑至剪切位点进行基因组上的单链剪切,这极大的提高了其靶向的准确性,避免了非预期剪切的发生,其靶向准确性理论上高于目前存在的基因编辑技术。

此外,可通过在体外产生所需的RNA及ORF1p和ORF2p等相应内源性蛋白,在不引入DNA片段和转染非必需入核的条件下,通过RNA或RNP途径对目的序列及基因进行修改。通过RNA或RNP介导途径更是可以把对接受体系的影响降到最低并在提高靶向性的同时减少非特异作用。借助ORF1p和ORF2p的核定位功能及ORF1p对于核酸的保护作用,转染入细胞的RNA和蛋白质可被引导至核内,有利于对因载体难以入核而难以操作的细胞进行编辑。

本发明具有较高的靶向性,可在不产生双链断裂的前提下,进行较为准确的靶向序列识别和剪切,通过同源重组定向插入相关序列,并可由此对相应片段进行删减和替换。而目前已有的基因编辑技术如CRISPR则产生双链断裂,发生同源重组引入目的序列的概率较低,且易产生不可预知的随机突变。本技术不产生双链断裂,无需担心双链DNA断裂的危险和非预期随机序列的引入。

本发明可以通过不断根据之前插入后产生的新位点设计载体进一步进行插入,以递进的方式在基因组上引入长序列,这也是目前已知的编辑技术难以达到的。同样,在基因组上进行定向和准确的删减及序列替换也难以通过现有的技术实现但同样可以通过本发明实现。而通过对CNV及其末端进行编辑和使其稳定等操作以改变或稳定细胞或生物体的基因表达及状态亦无法通过目前已有的基因编辑技术实现。

本发明的有益效果在于:

本发明提供一种基于真核生物逆转录转座机制的可经DNA、RNA或RNP 途径介导的基因编辑方法,该方法通过真核生物自身的固有机制,在尽量不引入外源性体系或物质及不产生双链断裂的前提下,以DNA、RNP或RNA(可体外制备产生)及相关蛋白质为介质,通过DNA、RNA或RNP途径转入细胞核或细胞质,将目的片段插入基因组中的选定位点或将基因组中的选定片段删除或替换,并同时具有较高的靶向准确性。由于不引入外来体系如源自原核生物的蛋白质等,且不产生双链断裂,本发明相较于目前已有的基因编辑技术更易应用于临床。

附图说明

图1为基于真核生物自身所有的逆转录转座机制进行基因编辑的基本原理图。

图2为DNA介导的基因组插入或删除的原理图。

图3为RNA及RNP介导的基因组插入与删除的原理图。

图4为通过在CNV末端插入非同源序列以阻止CNV末端变化的原理图。

图5为本发明提供的基因转录框架的结构示意图。

图6为本发明提供的基因转录框架连接启动子的结构示意图。

图7为本发明提供的基因转录框架连接启动子及短散在元件、部分短散在元件或类短散在元件的结构示意图。

图8为本发明提供的基因转录框架上游连接启动子,下游连接长散在元件或ORF1p编码序列或ORF2p编码序列的结构示意图。

图9为本发明提供的基因转录框架上游连接长散在元件或ORF1p编码序列或ORF2p编码序列,并在长散在元件或ORF1p编码序列或ORF2p编码序列的上游连接启动子的结构示意图。

图10为本发明提供的基因转录框架在上游连接启动子,在下游连接短散在元件、部分短散在元件或类短散在元件后,再在下游连接长散在元件或ORF1p 编码序列或ORF2p编码序列的结构示意图。

图11为本发明提供的基因转录框架在下游连接短散在元件、部分短散在元件或类短散在元件,在基因转录框架上游连接长散在元件或ORF1p编码序列或 ORF2p编码序列,并在长散在元件或ORF1p编码序列或ORF2p编码序列的上游连接启动子的结构示意图。

图12为本发明提供的基因转录框架与短散在元件、部分短散在元件或类短散在元件不共用一个启动子的结构示意图。

图13为本发明提供的基因转录框架与长散在元件或ORF1p编码序列或 ORF2p编码序列不共用一个启动子的结构示意图。

图14为本发明提供的基因转录框架与短散在元件、部分短散在元件或类短散在元件及长散在元件或ORF1p编码序列或ORF2p编码序列不共用一个启动子,而短散在元件、部分短散在元件或类短散在元件及长散在元件或ORF1p编码序列或ORF2p编码序列共用一个启动子的结构示意图。

图15为本发明提供的基因转录框架与短散在元件、部分短散在元件或类短散在元件及长散在元件或ORF1p编码序列或ORF2p编码序列不共用一个启动子,而短散在元件、部分短散在元件或类短散在元件及长散在元件或ORF1p编码序列或ORF2p编码序列共用一个启动子的结构示意图。

图16为在实施例1中构建的基因转录框架VEGFA1在实施例1插入到载体上的质粒pSIL-eGFP-VEGFA1-Alu1的质粒图谱。

图17为实施例6中构建的基因转录框架IT15-1在实施例6插入到载体上的质粒pBS-L1PA1-CH-mneo-IT15-1的质粒图谱。

具体实施方式

本发明基于普遍存在于真核生物中的通过转座子对基因组上的基因拷贝数及重复序列等进行修改的基因组重构机制。该机制可能在一些中枢神经系统退行性病变如Huntington病和脆性X综合症中对其中的致病三联核苷酸重复序列造成了删减或添加,并符合同源重组如序列的高度同源性以及可被甲基化抑制等特点且与表达水平相关。如图1所示,本发明所涉及短散在元件(short interspersed element,SINE,短散在核元件)、长散在元件(long interspersed elenent,LINE,长散在核元件)及其产生的相关蛋白如开放阅读框1蛋白(open reading frame 1protein,ORF1p)、开放阅读框2蛋白(open readingframe 2 protein,ORF2p)和其他种类的开放阅读框蛋白(open reading frame protein,ORFp)。短散在元件(SINE)主要包含灵长类中的Alu元件和SVA元件、哺乳动物中常见的各类哺乳动物广泛分布散在重复元件(mammalian-wide interspersed repeat elements,MIRs)如MIR和MIR3等、单孔目动物中的 Mon-1、鼠类中的B1和B2元件、斑马鱼等中的HE1家族、爬行动物中的 Anolis SINE2和Sauria SINE、无脊椎动物如乌贼等中的IdioSINE1、IdioSINE2、SepiaSINE、Sepioth-SINE1、Sepioth-SINE2A、Sepioth-SINE2B和 OegopSINE以及植物如大米等中的p-SINE1等。长散在元件主要包含各类不同种类生物中的各类LINE-1(L1)、各类LINE-2(L2)和各类LINE-3(L3)、 Ta元件及R2、RandI、L1、RTE、I和Jockey六类LINE中的其他LINE种类等。这些结构广泛存在于各类动植物体内并散布于整个基因组中,每种生物均有其特定的SINE和与其功能互补对应的LINE;SINE的主要特征为分布于基因组上、含有内部RNA聚合酶III启动子并以富含A或T的尾巴或短简单重复序列结尾、借助于LINE实现逆转录的相对较短的转座子,其转录产物的右半部分含有可逆转录的功能结构;而LINE的特征则为含有逆转录酶编码序列的于基因组中广泛分布的转座子。SINE及其在相应物种中所对应的LINE均通过类似的机制对基因组进行不断的重构。该机制的基本原理为将机体通过对 pre-mRNA进行处理产生的套索结构与SINE的转录产物经剪切所剩的具有逆转录功能结构的右半部分连接(这些经完整的SINE转录产物于中间位点剪切所剩余的具有逆转录功能结构的右半部分称为部分SINE序列,不同物种的不同 SINE其剪切位点会有所不同。SINE的自然剪切位点一般位于全长的中间偏前,对于一般全长为100-400nt左右的SINE来说,其自然剪切位点通常位于其第100-250nt,例如对于全长为300bp左右的Alu元件,其剪切位点位于第 118nt;而对于全长为260nt左右的各类MIR,可在其第100-150nt的范围内可观察到剪切位点。实际上,不论位点位于何处,只要经剪切后,剩余的右部分含有完整的逆转录功能结构(二级结构形成特殊结构,通常为Ω形;其一级结构的特征为含有两段在两段之间被中间间隔序列隔开的序列,此两段序列可结合基因组上所对应的不含有中间间隔序列并使两段序列直接连接的序列的互补序列;LINE编码的ORF2p可结合于转录产物中两段序列之中位于3′的序列并在两段序列之间空缺所对应的基因组位点处切开基因组单链,起始逆转录),即为部分SINE序列。对于特定SINE如Alu元件所产生的部分SINE则记为部分Alu,具体为其中间腺苷酸重复序列或连同其上游2-3个碱基和Alu右单体及右单体后面的3′多聚A重复序列。此外,含有逆转录功能结构并可起始逆转录却与常规各类SINE在序列上有所区别的序列则称为类短散在元件(类 SINE)。),通过相应种类LINE(如Alu元件在功能上所对应的LINE-1和各类MIR元件对应的LINE-2等)所表达的蛋白质(即ORF1p和ORF2p),实现将RNA转化为双链DNA并结合于基因组上与之互补的序列(其中转录形成的RNA通过逆转录产生的单链DNA及单链DNA以基因组序列为引物产生的双链 DNA即为转录产物的转化产物),通过形成特异的Ω结构,经同源重组机制完成对基因组的插入。此外,LINE亦可通过转录其下游序列(即3′转导)并与基因组上的互补序列结合并形成Ω结构来完成上述类似的RNA到双链DNA的转化及基因组的插入。以Alu和其对应辅助其功能的LINE-1为例:基因表达后产生的pre-mRNA可经剪切产生序列上互相重叠的套索结构,这在pre-mRNA的任何区域均可发生,差别在于产生这些套索的剪切强弱不同。由于外显子上下游套索的产生剪切强度(基于序列差异)高于其他周围的套索结构,使得外显子在pre-mRNA的处理中易于被完整切下,并抑制其他套索的产生。同时, LINE-1产生的ORF1p可以保护与其结合的核酸,其与同为LINE产生的ORF2p 均可将所结合的核酸定位至细胞核并转运入核;此外,ORF2p可结合于Alu元件的特殊的Ω二级结构上并介导此后的基因组单链剪切、逆转录及辅助基因组的整合。Alu元件的转录产物则可于特定位点(即下文的scAlu剪切位点或自然剪切位点,该位点一般位于Alu转录产物的中间多聚A序列前,实际情况可出现浮动)被剪切(Multiple dispersed loci produce small cytoplasmic element RNA),产生小胞质Alu(small cytoplasmic element RNA,scAlu)及包含右单体的剩余部分(包含可结合ORF2p的逆转录功能结构),其包含右单体的剩余部分称为部分Alu。此后,产生的套索结构可以从其3′端连接Alu序列转录产物经剪切的含有逆转录功能结构的剩余部分,ORF2p可经由富含A的序列招募,并结合于部分Alu二级结构所形成的Ω结构两脚中位于3′的脚上,并识别基因组上与Ω两脚上序列(主要为UU/AAAA,U和A之间不连续,即缺口所在)相匹配的序列,切开Ω缺口正对的基因组位点的单链并解链基因组上的互补序列作为引物进行逆转录,这一过程称为目标引物化的逆转录(target-primed reverse transcription,TPRT);ORF2p随逆转录的进行移动至所形成的单链DNA的3′端,产生的单链DNA序列可结合于基因组上的互补序列并在基因组相应待插入位点处形成Ω结构(因待插入序列在基因组上相应待插入位点处不存在,而单链DNA上待插入序列的两侧序列存在于基因组上待插入位点两侧),ORF2p可沿匹配的序列以3′到5′的方向滑动至Ω结构,识别基因组上与Ω底端缺口互补的6位核苷酸序列(主要为3′的4个核苷酸及5′的2个核苷酸),经上述类似过程形成双链DNA。注意只有完全匹配的序列才可令ORF2p滑动至剪切位点,这保证了其靶向的准确性。最终产生的双链DNA再次呈“Ω”形结合于相应插入点(两端序列匹配固定)的两侧,当ORF2p识别的6个核苷酸(主要为3′的4个核苷酸及5′的2个核苷酸)中间不连续时(Ω的缺口处),则可在缺口处所对应的基因及自身的另一条链上经ORF2p的核酸内切酶作用制造两个单链缺口,将中间的圆环部分借助同源重组机制插入至基因组中。而通过改变被插入的的序列,可经由同源序列重组达到删除或替换等其他效果。在上述过程中,同样由LINE编码的ORF1p的退火及解构功能也可起到辅助作用,可协助稳定上述基因组重构过程中核酸所产生的二级结构及其与基因组的结合,以及促进核酸在结合并作用后与基因组的分离。此外,ORF1p具有高度的RNA亲和性并具有核定位功能。由于ORF2p只能切开基因组双链中的其中一条链,无法产生双链断裂,因此具有较高的安全性。类似的机制同样适用于其他SINE 以及LINE组合。在胚胎发育及肿瘤发生等病生理过程中的局部拷贝数变异的变化及具有缺失的HIV-1基因组在人类基因组中的插入对于短散在元件序列的偏好性或为该机制在自然界中的一个体现。曾有报导称在ORF1p和ORF2p的协助下可将转录的mRNA序列整合入基因组,但由于转录模板为纯粹的外源非同源序列而使其无法靶向基因组中具体位点且并未连接具有逆转录功能结构的片段造成效率低下且随机,难以控制。本发明通过重新设计转录序列,通过各种主动或被动手段与具有逆转录功能结构的序列如各类SINE或部分SINE连接,以达到较为精准且高效的基因编辑效果。

在生理状况下,拷贝数变异(copy number variation,CNV)类似于完整基因原本的一个副本,通过上述机制,可以依照完整的基因原本不断延伸作为副本的CNV,使得细胞、组织及生物体的蛋白表达及各类状态不断变化。CNV末端由上游的基因部分和下游的部分SINE序列部分组成,而由套索结构与部分 SINE序列连接形成的短序列片段则会不断插入至这两部分之间以延伸CNV。在胚胎发育早期,LINE的转录明显增加,而基因组上的SINE如Alu序列则呈现明显的去甲基化。在LINE介导的3′转导(基于启动子上游SINE的右单体缺失及下游的完整的SINE结构)起始相关基因拷贝数变异(CNVs)延长的同时,去甲基化的SINE序列则互相发生同源重组将大部分此前延伸的CNVs删去(初始化)。此后,彻底初始化的胚胎细胞重新恢复高甲基化状态,并由CNV末端的部分SINE序列介导CNVs的末端逐渐延长,从而改变各细胞的表达情况及状态,而各细胞的基因表达情况又通过套索结构反过来影响CNVs改变,从而使基因组产生变化,逐渐诱导分化。这与胚胎中普遍出现的CNVs改变及各种不同组织中的CNVs差异相吻合。

不同基因CNVs的延长普遍存在于各类肿瘤细胞中,且与临床分级呈正相关。同时,原癌基因与抑癌基因的表达水平与CNVs的长度亦成正比关系,因此肿瘤的形成及进展应与原癌或抑癌的CNVs紊乱有关。此外,一些与外界刺激相关的不可逆性疾病如糖尿病等或亦与CNVs的紊乱相关。由于多数耐药性与外界的长期刺激导致相应蛋白的表达改变有关,因此可涉及其相应基因的 CNV改变,亦可通过本技术得以改善或阻碍。

一、DNA介导的基因组序列插入技术(当通过DNA介导基因编辑时,可在质粒上添加1-40个TTAAAA或TTTTAA序列辅助将RNA转化为DNA)(如图2所示)

1.套索结构介导方式:选取待插入位点(即靶位点)的上下游序列(分别 2000bp以内),在上下游序列中间插入点处添加待插入序列(2000bp以内),将所设计的序列合成并整合入载体并由RNA聚合酶II启动合成。载体其余区域插入SINE序列(0-20个,根据接受体系物种不同可为相应物种中的SINE,以减少对接受体系的影响;如在灵长类中则为Alu序列,而在单孔目动物中则为Mon-1,数量在一定范围内和效率成正比;亦可使用非本物种的SINE,则

2.SINE序列直接连接方式:该方法无需SINE剪切后连接套索,而是直接将待插入位点上下游序列及中间的待插入序列与SINE相关序列在载体构建时连接,因此此方法适用于不具有真核生物pre-mRNA剪切机制无法产生套索结构的体系如细菌等原核生物,也同时适用于具有pre-mRNA剪切机制的真核生物中,后面的LINE介导方式同理。具体步骤为合成由RNA聚合酶II或III启动子启动的含有插入点上下游序列(分别2000bp以内)及夹在中间的待插入序列(2000bp以内),其后接SINE序列、部分SINE序列或类SINE序列(可选择在SINE、部分SINE序列或类SINE序列后添加可辅助相应SINE功能的LINE 序列或其蛋白编码序列以增加基因编辑效率,当接受体系自身不表达LINE或其编码蛋白时,则必须添加或额外给予表达),此后选择性连接相应种类RNA 聚合酶的终止信号(若终止信号为多聚腺苷酸,则可适当延长(200bp以内) 以增加ORF2p招募,若非,则可选择在终止信号前,LINE、ORF1p和/或ORF2p 序列后添加适当长度多聚腺苷酸(200bp),以增加ORF2p招募),并将该序列构建入载体中。此后将该载体通过常规转染手段如脂质体或病毒等转入体外培养的细胞、组织或经血液、淋巴液和脑脊液等通路或局部组织给予等方式给予生物体,将构建的载体转入核内进行表达(可选择将构建好的载体短暂置于含有ORF1p和/或ORF2p的生理液体中孵育(于适宜温度,常温或37℃均可,孵育48h以内)以提高载体的入核效率),将待插入序列插入至基因组上的相应待插入位点。若根据插入后产生的新位点继续按上述方法构建载体进行插入,则可持续性插入并完成无明显长度限制的长片段插入。

3.LINE介导方式:由RNA聚合酶II启动LINE或其内的蛋白ORF2p和/ 或ORF1p编码序列表达,后接与SINE序列直接连接方式中相同方法设计的序列(若为最大程度上减少对接受体系的影响,可选择采用该接受体系中的SINE 和LINE种类;为提高效率可选择使其内的SINE序列种类为与前面的LINE在功能上相对应者),最后选择性连接所用RNA聚合酶II的终止信号。此后将该载体通过常规转染手段如脂质体或病毒等转入体外培养的细胞、组织或经血液、淋巴液和脑脊液等通路或局部组织给予等方式给予生物体,将构建的载体转入核内进行表达(可选择将构建好的载体短暂置于含有ORF1p和/或ORF2p 的生理液体中孵育(于适宜温度,常温或37℃均可,孵育48h以内)以提高载体的入核效率),将待插入序列插入至基因组上的相应待插入位点。若根据插入后产生的新位点继续按上述方法插入,则可持续性插入并完成无明显长度限制的长片段插入。

4.下游连接ORF2p结合序列法:以载体上基因转录框架中的靶位点上游序列、靶位点下游序列以及中间的待插入序列与基因组结合形成的Ω结构代替 SINE中的逆转录功能结构起始逆转录,因此在基因转录框架中靶位点下游连接可结合ORF2p的ORF2p结合序列(例如多聚A序列),并可选择性在与基因转录框架同一载体上或另外的载体上添加LINE序列、ORF1p和/或ORF2p 编码序列以提高效率。此后将构建好含有下游连接ORF2p结合序列(例如多聚 A序列)的基因转录框架的载体通过常规转染手段如脂质体或病毒转入体外培养的细胞、组织或经血液、淋巴液和脑脊液等通路或局部组织给予等方式给予生物体,将构建的载体转入核内进行表达(可选择将构建好的载体短暂置于含有ORF1p和/或ORF2p的生理液体中孵育(于适宜温度,常温或37℃均可,孵育48h以内)以提高载体的入核效率),将待插入序列插入特定位点。若根据插入后产生的新位点继续按上述方法构建载体进行插入,则可持续性插入并完成无明显长度限制的长片段插入。

二、DNA介导的基因组序列删除技术,如图2所示

1.基因组上任意区域删除:将上述插入技术中设计的载体中的待插入序列改为插入点上游或下游(100000bp以内)的某段序列(2000bp以内),通过本发明中描述DNA、RNP或RNA介导的插入途径即可在插入该段序列后通过同源重组以一定效率将两段相同序列之间的序列去除。可选择含有重组位点(GCAGA[A/T]C、 CCCA[C/G]GAC/或及CCAGC)的序列进行插入以提高随后的同源重组效率。

2.从CNV末端删除:通过测序及比对(比对到基因序列与部分SINE序列的连接处)检测细胞或组织中的CNV末端,并选取欲进行处理的CNV末端中的基因部分(2000bp以内)及该末端在完整基因中下游一段范围内(20000bp以内)可形成的套索的3′部分序列(下游可形成的套索可由下述方法预测或检测得到)(亦可直接选取该末端在完整基因中下游一段范围内(20000bp以内)的序列进行切割后替换上述的3′部分序列)分别连接末端待删除序列上游(100000bp以内)紧邻的序列,之后连接完整的SINE序列、部分SINE序列或类SINE序列(根据上述不同的插入方式)(据上所述其后可接ORF1p及ORF2p编码序列)进行合成并通过上述基因插入方式的其中一种通过DNA、RNA或RNP途径在实际CNV末端的基因部分与部分SINE序列(载体上所用SINE序列与插入点周围的SINE序列相同或更加接近可提高效率)之间插入末端待删除序列上游紧邻的序列,此后借相同序列间的同源重组将待删除序列删除。可选择含有重组位点(GCAGA[A/T]C、 CCCA[C/G]GAC/或及CCAGC)的序列进行插入以提高效率。

三、DNA介导的基因组序列替换技术

将上述插入技术中设计的载体中的待插入序列改为替换用序列及基因组上待替换序列的周围序列(即待插入的替换用序列和基因组上序列发生同源重组后将被删除的那段序列,其在构建载体时位于替换用序列的3′还是5′取决于插入点在基因组上待替换序列的上游还是下游)(替换用序列应与基因组上待替换序列同源),通过上述基因编辑插入方式将替换用序列及基因组上待替换序列的周围序列插入于基因组上待替换序列的上游或下游,当插入的替换用序列与基因组上的待替换序列发生同源重组后,则基因组上的待替换序列被替换为插入的与其同源的替换用序列,同时因同源重组被删去的待替换序列的周围序列部分则在插入时已与替换用序列一块被重新插入。

四、RNA介导的基因组序列编辑技术(由于不需要进行RNA到DNA的转化,因此不需要额外添加TTAAAA位点或TTTTAA位点),如图3所示

1.核糖核蛋白(RNP)介导途径:

将前述合成的载体扩增后转化进入额外高表达LINE所编码蛋白(可选择与所合成载体中所含SINE序列功能对应的LINE以提高效率,例如所合成载体中包含 Alu序列或部分Alu序列,则其对应LINE-1和其编码蛋白ORF1p及ORF2p)(通过表达相关蛋白的载体转染或转染后筛选获得永久过表达相关蛋白的工程细胞,若此后经相关蛋白如ORF1p和ORF2p的孵育则该被转入的工程细胞可不表达相关蛋白)的工程用细胞系,一段时间后提取细胞核及细胞质,根据序列特异性等原理及应用相应常规方法提取单链质粒产物(单链RNA)或含有单链质粒产物(单链 RNA)的具有生物活性的核糖核蛋白(RNP)复合体(可选择再次短暂于所得的含有ORF1p和/或ORF2p的细胞质中或含有ORF1p和/或ORF2p的生理液体中孵育 (于适宜温度,常温或37℃均可,孵育48h以内)后再次提取纯化,注意体外生理液体或细胞质中需添加RNA酶抑制剂,若此前转入的细胞不表达相关蛋白则必须与ORF1p和/或ORF2p孵育);此后通过常规转染手段如应用脂溶性物质如脂质体或病毒等包裹核糖核蛋白复合体后转入体外培养的细胞、组织或经血液、淋巴液和脑脊液等通路或局部组织给予等方式转入生物体(转入细胞质即可,无需入核),完成相应的基因编辑作用。若需定向转入可在载体外面的包裹上进行修饰。注意整个过程避免RNA降解。

另外,LINE介导方式所合成载体的以RNP形式应用需从所提取的含有单链质粒产物(单链RNA)的具有生物活性的核糖核蛋白(RNP)复合体中筛选不含前端LINE-1序列或ORF1p和ORF2p编码序列的产物(通过序列特异性)(可额外添加体外核酸内切酶等处理以促进剪切),以防止前端序列扰乱基因编辑的靶向进行。

2.单纯RNA介导途径:

同前所述,合成含有插入点(即靶位点)上下游序列(分别2000bp以内)及夹在中间位于插入点所对应处的待插入序列(2000bp以内),其后接SINE序列、部分SINE序列或类SINE序列,之后为与所用SINE功能对应的LINE序列或其中所含的蛋白编码序列(例如若使用部分Alu序列,则对应LINE-1及其中的ORF1p 和ORF2p编码序列;若使用部分MIR序列,则对应LINE-2及其中相应的蛋白编码序列),并构建入载体由RNA聚合酶II/III启动子启动(或者可以直接采用上述各种DNA介导方法中所得的载体并转入工程细胞中,此后通过常规手段如根据序列特异性等提取可用于基因编辑的RNA产物)。将其表达的mRNA经分离纯化后通过常规转染手段如应用脂溶性物质如脂质体或病毒等包裹RNA后转入体外培养的细胞、组织或经血液、淋巴液和脑脊液等通路或局部组织给予等方式转入生物体(转入细胞质即可,无需入核),即可达到将待插入序列插入至基因组上的相应待插入位点的目的。若根据插入后产生的新位点继续按上述方法插入,则可随细胞分裂将待插入片段逐渐插入并完成无明显长度限制的长片段插入(需持续将 RNA转入细胞)。

五、阻碍转座子造成的基因组变化,稳定基因组及其上的CNVs(即通过该基因编辑技术在CNV末端的基因部分和部分SINE序列之间或其他区域插入与基因组或与该CNV末端中基因部分及其在完整基因中的上下游序列非同源的序列,阻碍CNV的进一步延伸;CNV末端定义为基因序列直接连接部分SINE序列处,在该处基因可被延伸,每个特定CNV末端的基因序列和部分SINE序列的具体序列可通过基因测序或基因芯片等分子生物学手段获取)(通过常规转染手段如应用脂溶性物质或具有细胞转染能力的物质如脂质体或病毒等包裹相应载体后转入体外培养的细胞、组织或经血液、淋巴液和脑脊液等通路或局部组织给予等方式转入生物体)(如图4所示)

1.对特定的CNV进行干预(其中插入所用的上游序列为特定基因的CNV末端的基因部分):选定需要操作的CNV,其基因部分的3′端与部分SINE序列的交界处设为插入点(靶位点),将上述插入方法中的插入点上游序列设为CNV末端基因部分的3′端(2000bp以内),下游序列即为部分SINE序列(因此上述方法中下游序列后面连接的SINE序列、部分SINE序列或类SINE序列可省略),待插入序列为任意与基因组或与该CNV末端中基因部分及其在完整基因中的上下游序列非同源的序列(2000bp以内)。载体构建完成后通过上述的DNA、RNA或RNP 途径转入相应细胞,活体组织或生物体,使相应CNV末端插入非同源序列。由于非同源序列不存在于完整基因中相应CNV末端基因序列的下游,因此无法依据完整的基因序列对CNV末端进行进一步的延伸,从而阻碍CNV末端的进一步变化。

2.对基因组上广泛的CNV进行干预(插入所用的靶位点上游序列需包含所有可能存在的CNV末端的基因部分):

(1)基因组破碎序列法:取需要操作的生物体、组织或细胞系中的细胞进行体外培养,或直接提取基因组,超声破碎后通过随机引物和PCR进行富集;设计合成短随机序列(20bp以内),在下游连接部分SINE序列。将富集所得的基因组碎片与合成的短随机序列连接部分SINE序列片段通过PCR进行连接和扩增,获得不同的基因组碎片序列连接随机序列后连接部分SINE的序列,将所得的片段构建入载体后,通过上述的DNA、RNA或RNP途径转入相应细胞,活体组织或生物体,经由基因组碎片序列靶向基因组上所有的CNV末端,使CNV末端在其基因部分与部分SINE之间被插入非同源序列(即短随机序列或部分短随机序列,其不与基因碎片同源的部分,对于相应基因碎片的局部基因序列而言是非同源的),由于非同源序列不存在于完整基因中相应CNV末端基因部分序列的下游,从而阻碍 CNV末端的进一步变化。

(2)随机序列法:构建表达适当长度(100bp以内)的随机序列(包含所有排列可能,可排除与SINE序列近似的组合)连接任意与基因组非同源序列(2000bp 以内)后连接部分SINE的质粒;或构建随机序列(100bp以内)连接在SINE的中间自然剪切位点(如对于Alu的转录产物则为其中间可剪切产生scAlu和部分Alu 的剪切位点)后添加任意与基因组非同源序列(2000bp以内)的部分SINE序列的质粒;亦可构建经由RNA聚合酶II表达的随机序列后连接任意与基因组非同源序列(此后表达为套索)的载体(该载体中需含有SINE序列或另外转入其他含有SINE 序列的载体,SINE序列下游可接或另外表达与SINE功能对应的LINE序列或其蛋白编码序列)。并通过上述DNA、RNP或RNA途径转入相应细胞,活体组织或生物体,经由随机序列靶向基因组上所有的CNV末端,使相应CNV末端插入非同源序列,由于非同源序列不存在于完整基因中相应CNV末端基因序列的下游,从而阻碍CNV末端的进一步变化。

(3)据套索末端序列法:检测所有的套索种类(将一小段与基因组非同源的随机序列(100bp以内)插入SINE序列且SINE序列仍可被正常剪切为部分SINE序列(即该非同源序列的插入位置在SINE自然剪切位点的下游,并不位于剪切位点),并构建可表达该改造SINE序列的质粒,转入从相应待操作生物体中取出扩增的细胞或相应物种的细胞系(亦可取相应待测物种的基因组,将全基因组截为长度较长(200bp以上)且互相一定重叠(重叠超过10bp以上)的片段,并通过构建入载体通过RNA聚合酶II在相应物种的体外细胞过表达),一段时间后通过插入至SINE序列中的非同源序列的序列特异性提取相应核酸并进行测序,获取与整合有非同源序列的部分SINE序列相连的各种所产生套索的序列信息。)或/同时根据pre-mRNA形成套索的序列规律预测套索序列(如多以AG结束),获得该物种或个体的所有套索序列信息。取所有套索的3′序列(2000bp以内),分别连接任意与基因组非同源的序列(2000bp以内)后整合入上述表达SINE序列(据上所述其后可接SINE功能对应的LINE序列或其蛋白编码序列以增加效率)的载体(SINE也可在另一个载体上表达)表达为套索,并与SINE转录产物经细胞剪切所产生部分 SINE序列相连;或将所有所得套索的3′序列分别连接任意与基因组非同源序列 (2000bp以内)后接部分SINE序列(据上所述后可接SINE功能对应的LINE序列或其蛋白编码序列以增加效率)(SINE序列最好与与其连接的套索3′序列所在基因的SINE序列相同或相似)并构建入载体表达。通过上述DNA、RNP或RNA 途径转入相应细胞,组织或生物体,并对全基因组范围内的CNV末端进行编辑。

(4)SINE序列改造法:即通过额外给予改造过的SINE序列表达,使与基因组或与该CNV末端中基因部分及其在完整基因中的上下游序列非同源的序列插入至各CNV末端,阻碍末端延伸。构建含有在SINE自然剪切位点前额外增加一段短序列(与常规产生的套索3′序列不一致,一小段横跨SINE自然剪切位点的序列即可(100bp以内)),使SINE的转录产物在该新增区域亦可被自然剪切的完整SINE 序列的载体(可在其后添加与相应种类SINE功能对应的LINE序列或其蛋白编码序列以增加效率);或构建在SINE转录产物的自然剪切位点后添加任意与基因组非同源序列(200bp以内)的完整SINE序列(可在其后添加与相应种类SINE功能对应的LINE序列或其蛋白编码序列以增加效率),并给予相应细胞,活体组织或生物体。所用SINE序列尽量涵盖该物种或个体的所有SINE序列(可通过测序或阵列芯片等方法获得)以对全基因组上的所有CNV末端进行精确修改。

也可将全基因组截为互相一定重叠的长片段(重叠长度在一个套索结构的长度以上),并构建入载体在相应物种的体外细胞系过表达并产生套索结构,此后将上述制作的表达改造SINE序列(下游添加与相应种类SINE功能对应的LINE序列或其蛋白编码序列后可经RNA途径介导)的载体转入,将连接有所产生套索的部分 SINE序列(由改造的SINE所产生)的具有生物活性的单链RNA核糖核蛋白复合体(RNP)或RNA通过序列特异性等性质及常规手段进行分离提纯,此后通过相应RNA或RNP途径发挥作用。

3.对基因组上的SINE元件和LINE进行改造:将基因组上SINE的启动子、转录产物的自然剪切位点或SINE上的其他序列或/和LINE的启动子、蛋白编码序列或其他序列通过本发明插入任意序列(500bp以内),使基因组上的SINE序列无法转录或转录后无法剪切或/和LINE序列无法转录或产生具有正常功能的蛋白。首先对待进行操作个体全基因组的SINE或LINE序列通过测序获取序列,选取其上的启动子、转录产物的自然剪切位点、蛋白编码序列或其他序列作为待插入点,发明中的上下游序列为SINE或LINE序列上相对于待插入位点的上下游序列,插入序列为任意序列。通过上述插入方法将任意序列插入至基因组上SINE或 LINE上的相应位点。此外,通过上述基因编辑方法对基因组上SINE或LINE序列进行替换或删除使其失活亦可。

4.对CNV末端进行删除同时固定:选定需要操作的CNV末端,将其基因部分的3′端与部分SINE序列的交界处设为插入点,将上述插入方法中的上游序列设为CNV末端基因部分的3′端(2000bp以内),下游序列即为部分SINE序列(因此上述基因编辑方法中下游序列后面连接的部分SINE序列可省略),待插入序列为基因组上待删除序列(100000bp以内)上游紧邻的序列(2000bp以内)后接与基因组序列不同源的任意序列(2000bp以内)。载体构建完成后通过上述的DNA、 RNA或RNP途径转入相应细胞,活体组织或生物体,使相应CNV末端插入基因组上待删除序列上游紧邻的序列后接非同源序列,当两段相同序列发生同源重组导致中间序列被删去后,非同源序列将同时阻碍CNV的进一步延伸。

5.抑制固有机制法:亦可直接抑制细胞或生物体固有的CNV延伸机制如通过 RNA干扰等方式抑制SINE和LINE等的转录或其RNA及所编码的蛋白质如ORF1p 和ORF2p蛋白的产生,通过特异性蛋白与该CNV延伸机制中相关的蛋白如 ORF1p、ORF2p或剪切体等或复合体的功能结构结合以阻碍其功能,通过上述的基因编辑技术等对基因组上SINE如Alu和各类MIR等、各类LINE及其中的相应蛋白编码序列等进行改造使其失活或降低活性、对同源重组或错配修复机制上的相关蛋白功能进行抑制或给予经改造的核苷类物质以阻碍逆转录的进行,从而通过抑制内在的CNV延伸机制实现阻碍基因组变化及稳定CNVs的作用。

由于SINE、LINE及其所表达的蛋白广泛存在于真核生物当中,因此可通过该技术对广泛的真核生物进行基因编辑操作。此外,尚可应用于具有基因改变的疾病治疗及改变或稳定与基因变化相关的细胞或生物体状态等。

在本发明中,定义某确定序列(如待插入序列)沿5′→3′方向,上游为确定序列的5′端之前,下游为确定序列的3′端之后,上游序列为位于确定序列的5′端之前的序列,下游序列为确定序列的3′端之后的序列。

本发明提供的基因转录框架,如图5所示,沿5′→3′方向包括靶位点上游序列、待插入序列、靶位点下游序列。为了能够更好理解基因转录框架与短散在元件、长散在元件、启动子的位置关系,再列一些不同连接形式供理解。如图6所示为在基因转录框架前连接有启动子的结构示意图。启动子可以为RNA聚合酶I启动子、RNA聚合酶II启动子、RNA聚合酶III启动子。启动子可以位于载体上,通过载体酶切位点将基因转录框架、短散在元件、长散在元件等插入到启动子下游,转染进细胞后进表达。也可以通过直接合成的方法将启动子直接与基因转录框架、短散在元件、长散在元件等一起合成,再插入载体中。图7为在基因转录框架上游连接启动子,下游连接短散在元件、部分短散在元件或类短散在元件的结构。图8 为基因转录框架上游连接启动子,下游连接长散在元件或ORF1p编码序列或 ORF2p编码序列的结构示意图。图9为基因转录框架上游连接长散在元件或 ORF1p编码序列或ORF2p编码序列,并在长散在元件或ORF1p编码序列或 ORF2p编码序列的上游连接启动子的结构示意图。图10为在基因转录框架在上游连接启动子,在下游连接短散在元件、部分短散在元件或类短散在元件后,再在下游连接长散在元件或ORF1p编码序列或ORF2p编码序列的结构示意图。图11 为在基因转录框架在下游连接短散在元件、部分短散在元件或类短散在元件,在基因转录框架上游连接长散在元件或ORF1p编码序列或ORF2p编码序列,并在长散在元件或ORF1p编码序列或ORF2p编码序列的上游连接启动子的结构示意图。图12为基因转录框架与短散在元件、部分短散在元件或类短散在元件不共用一个启动子的结构示意图。图13为基因转录框架与长散在元件或ORF1p编码序列或ORF2p编码序列不共用一个启动子的结构示意图。图14为基因转录框架与短散在元件、部分短散在元件或类短散在元件及长散在元件或ORF1p编码序列或ORF2p编码序列不共用一个启动子的结构,且短散在元件、部分短散在元件或类短散在元件位于长散在元件或ORF1p编码序列或ORF2p编码序列下游,二者共用一个启动子。图15为基因转录框架与短散在元件、部分短散在元件或类短散在元件及长散在元件和/或ORF1p编码序列和/或ORF2p编码序列不共用一个启动子的结构,且短散在元件、部分短散在元件或类短散在元件位于长散在元件或 ORF1p编码序列或ORF2p编码序列上游,二者共用一个启动子。上述情况均为基因转录框架与短散在元件、部分短散在元件或类短散在元件及长散在元件、ORF1p 编码序列和/或ORF2p编码序列在同一载体上的形式,也可以不在同一载体上,共转染到细胞中,通过不同启动子进行表达。

在下述实施例中,由于所用材料为人源细胞,因此使用的SINE为灵长类特有的短散在元件Alu元件。Alu元件的完整序列如Seq ID No.1所示,部分Alu序列如 Seq ID No.2所示。当使用材料为其他物种时,可以将短散在元件更换为对应物种的短散在元件,以利于表达。

材料

1.pSIL-eGFP质粒载体购自Addgene,Plasmid 52675, pBS-L1PA1-CH-mneo质粒载体购自Addgene,Plasmid 51288。

2.10×酶切缓冲液(NheI酶切所需):330mM Tris-acetate,100mM乙酸镁,660mM乙酸钾,1mg/mL BSA;10×酶切缓冲液(SalI酶切所需):500mM Tris-HCl,100mM MgCl2,1000mM NaCl,1mg/mL BSA。

3.限制性内切酶NheI、SalI购自ThermoFisher。

4.T4 DNA连接酶及其应用所需10×连接缓冲液购自Promega。

5.Entranster-H4000转染试剂购自北京英格恩生物科技有限公司。

6.血液/细胞/组织基因组DNA提取试剂盒购自天根生化科技(北京)有限公司,产品目录号:DP304。

7.SuperReal PreMix Plus(SYBR Green)购自天根生化科技(北京)有限公司,产品目录号:FP205。

8.磁珠法组织/细胞/血液总RNA提取试剂盒购自天根生化科技(北京)有限公司,产品目录号:DP761。

9.FastKing cDNA第一链合成试剂盒购自天根生化科技(北京)有限公司,产品目录号:KR116。

10.TIANSeq mRNA捕获试剂盒自天根生化科技(北京)有限公司,产品目录号:NR105。

11.Lipofectamine

12.胰蛋白酶购自Sigma-Aldrich,产品目录号:T1426。

13.Dnase I购自天根生化科技(北京)有限公司,产品目录号:RT411。

14.引物、序列的化学合成由铂尚生物技术(上海)有限公司完成。

实施例1 DNA介导的外源性待插入序列插入基因组指定位点

VEGFA(血管内皮生长因子A)为PDGF/VEGF生长因子家族的成员。它编码一种肝素结合蛋白,以二硫键连接的同型二聚体的形式存在。这种生长因子在血管生成、血管发生和内皮细胞生长中有作用,可以诱导内皮细胞增殖、促进细胞迁移、抑制凋亡并诱导血管通透性,对于生理和病理性血管生成都是必需的。

本实施例中以将外源序列插入到VEGFA基因中以证实本发明中DNA介导的基因组序列插入技术。

选取人类基因组中基因VEGFA中的一段459bp的序列,序列如Seq ID No.3 所示:ATTATGCGGATCAAACCTCACCAAGGCCAGCACATAGGAGAGATGAGCTT CCTACAGCACAACAAATGTGAATGCAGGTGAGGATGTAGTCACGGATTCA TTATCAGCAAGTGGCTGCAGGGTGCCTGATCTGTGCCAGGGTTAAGCATGCTGTACTTTTTGGCCCCCGTCCAGCTTCCCGCTATGTGACCTTTGGCATTTT ACTTCAATGTGCCTCAGTTTCTACATCTGTAAAATGGGCA

其中,下划线表示的为随机设计的外源非同源序列 (即待插入序列),长度为38bp,在序列两端为NheI酶切位点及保护碱基(斜体加粗),采用化学合成方法获得该序列,命名为VEGFA1。将外源待插入序列设计为与VEGFA基因序列非同源的序列的目的为方便在后面的实验中特异性检测其的基因组上靶位点处的插入。

同时设计在载体上插入位点前后添加VEGFA基因中插入位点上游序列和下游序列的短序列来验证不同长度的靶位点上游序列和下游序列对于插入效果的影响。

选择上述VEGFA序列插入位点前后各10bp,与非同源序列及NheI酶切位点及保护碱基设计成短序列,如Seq ID No.5所示:

其中,下划线表示的为随机设计的外源非同源序列(即待插入序列),长度为38bp,在序列两端为NheI 酶切位点及保护碱基(斜体加粗),采用化学合成方法获得该序列,命名为 VEGFA2。

酶切位点的选择仅用于方便构建质粒,可根据不同载体进行更换。

将VEGFA1和VEGFA2分别插入到质粒载体pSIL-eGFP中,构建质粒 pSIL-eGFP-VEGFA1和pSIL-eGFP-VEGFA2,具体过程为:

将VEGFA1、VEGFA2、质粒载体pSIL-eGFP分别进行酶切,反应体系如表1所示:

表1酶切反应体系

反应条件为:37℃下孵育1h后,然后升温到65℃温育20min使内切酶失活,电泳,回收酶切产物。

将酶切后的VEGFA1或VEGFA2分别与酶切成线性的质粒载体pSIL-eGFP 进行连接,反应体系如表2所示:

表2连接反应体系

反应条件为:16℃孵育16h,然后升温至70℃温育10min灭活连接酶,电泳、纯化得到质粒pSIL-eGFP-VEGFA1和质粒pSIL-eGFP-VEGFA2。质粒经测序验证正确。

由于pSIL-eGFP质粒自身带有CMV启动子,因此只要将基因转录框架插入到CMV启动子后,即可通过RNA聚合酶II启动转录。

设计Alu表达序列,将Alu序列、非同源序列(18bp)、TTTTT、TTTTAA*n 连接到一起,这里n=6,并在序列两端添加SalI酶切位点及相应保护碱基,得到序列如Seq ID No.6所示:

将Alu1、质粒pSIL-eGFP-VEGFA1和质粒pSIL-eGFP-VEGFA2分别用SalI 进行酶切,酶切反应体系如表3所示。

表3酶切反应体系

反应条件为:37℃孵育3h,然后加热到80℃温育10min灭活内切酶,电泳、回收酶切产物。

将酶切后的Alu1分别与酶切成线性的质粒pSIL-eGFP-VEGFA1和质粒 pSIL-eGFP-VEGFA2进行连接,反应体系如表4所示。

表4连接反应体系

反应条件为:16℃下孵育16h,此后升温至70℃温育10min灭活连接酶,电泳,回收,获得质粒pSIL-eGFP-VEGFA1-Alu1(如图16所示)及 pSIL-eGFP-VEGFA2-Alu1。质粒经测序验证正确。

由于pSIL-eGFP质粒自身带有U6启动子(属于RNA聚合酶III依赖的启动子),因此只要将Alu序列插入到U6启动子后,即可通过RNA聚合酶III 启动转录。

将pSIL-eGFP-VEGFA1-Alu1或pSIL-eGFP-VEGFA2-Alu1转染到Hela细胞中检验随机设计的外源序列的插入效率,为了提高插入效率,在Hela细胞中共转染表达ORF1p和ORF2p(LINE)的质粒pBS-L1PA1-CH-mneo,并设计相应对照组。实验组和对照组中共转染质粒如表5所示。

表5实验分组

从分组可以看出,对照1组为共转染原始pSIL-eGFP和 pBS-L1PA1-CH-mneo,其中不包含基因转录框架序列和Alu1序列,实验1组为共转染pSIL-eGFP-VEGFA1-Alu1和pBS-L1PA1-CH-mneo,其中包含含有 VEGFA基因上靶位点上下游长序列的基因转录框架和Alu1序列及 pBS-L1PA1-CH-mneo;实验2组为共转染pSIL-eGFP-VEGFA1和 pBS-L1PA1-CH-mneo,其中包含含有VEGFA基因上靶位点上下游长序列的基因转录框架及pBS-L1PA1-CH-mneo,不包含Alu1序列;实验3组为共转染 pSIL-eGFP-VEGFA2-Alu1和pBS-L1PA1-CH-mneo,其中包含含有VEGFA基因上靶位点上下游短序列的基因转录框架和Alu1序列及pBS-L1PA1-CH-mneo;实验4组为转染pSIL-eGFP-VEGFA1-Alu1而不转染pBS-L1PA1-CH-mneo,其中包含含有VEGFA基因上靶位点上下游长序列的基因转录框架和Alu1序列,不包含pBS-L1PA1-CH-mneo。每组设3个平行,每个平行均为一个培养有Hela 细胞的6孔板。

转染步骤为:将Hela细胞传代并铺于6孔板。传代次日,应用 Entranster-H4000转染试剂进行转染。对于每板细胞的转染,取48μg或96μg (依照实验分组,若仅转染一种质粒则为48μg;若共转染两种质粒则每种质粒取48μg,总共96μg)构建好的质粒用300μL的无血清DMEM稀释,充分混匀;同时取120μL的Entranster-H4000试剂用300μL的无血清DMEM稀释,充分混匀后,室温静置5min。之后将制备好的两种液体混合并充分混匀并室温静置 15min,制成转染复合物。将转染复合物加入到每孔含2ml含10%胎牛血清的 DMEM培养液进行转染。待细胞长至90%左右融合时传代,传代后重复上述操作,细胞长至90%左右融合后取材进行后续操作。

提取转染后细胞DNA:吸去细胞培养基后,用PBS冲洗两遍细胞后,加入适量0.25%胰蛋白酶进行消化,在37℃下共消化20min,每5min进行15次吹打。当细胞悬浮后,加入含有血清的完全培养基终止反应。此后按照血液/ 细胞/组织基因组DNA提取试剂盒的产品说明书进行细胞DNA的提取,紫外分光光度计测定DNA浓度。

qPCR检测:

由于GAPDH基因不含有Alu序列,拷贝数稳定,因此将GAPDH基因作为内参基因。

检测GAPDH基因的上游引物序列如Seq ID No.7所示: 5′–CACTGCCACCCAGAAGACTG-3′;下游引物序列如Seq ID No.8所示: 5′-CCTGCTTCACCACCTTCTTG-3′。

设计引物对1和引物对2,其中,引物对1的上游引物序列如Seq ID No.9 所示:5′-CCCAGGGTTGTCCCATCT-3′;下游引物序列如Seq ID No.10所示: 5′-CCTCCTCTTATTCCGTAGC-3′。引物对1的上游引物序列位于完整VEGFA 基因中,质粒上所用插入位点(靶位点)上游序列的更上游,不存在于质粒中,仅存于基因组中,引物对1的下游引物序列位于待插入的随机设计的非同源序列(待插入序列)的5′端的19bp序列。引物对2的上游序列如Seq IDNo.11所示:5′-CACAACAGTCGTGGGTCG-3′;下游引物序列如Seq ID No.12所示: 5′-GAGGGAGAAGTGCTAAAGTCAG-3′。引物对2的上游引物序列位于待插入的随机设计的非同源序列(待插入序列)的3′端的18bp序列,下游引物序列位于完整VEGFA基因中,质粒上所用插入位点(靶位点)下游序列的更下游,不存在于质粒中,仅存于基因组中。

上述引物均通过化学合成获得。

qPCR反应体系如表6所示。

表6 qPCR反应体系

细胞DNA模板分别为前述共转染后的对照1组、实验1组至实验4组中提取的DNA。

上述反应体系在冰上配制,配制好后盖上反应管,轻柔混匀后短暂离心,以确保所有组分均位于管底。每个6孔板细胞样本同时进行3次重复。

qPCR反应循环:

引物对1:95℃预变性15min;(95℃变性10s,50℃退火20s,72℃延伸20s)40个循环。GAPDH引物按照相同条件进行反应。

引物对2:95℃预变性15min;(95℃变性10s,54℃退火20s,72℃延伸 20s)40个循环。GAPDH引物按照相同条件进行反应。

观察GAPDH和检测待插入序列插入的扩增曲线中的指数增长期,确认近似平行后,通过2

表7引物对1的结果(n=3,

实验1组与其他各组两两比较(N/A按照40.00计算),其拷贝数相对量明显高于其他组,均具有统计学意义(P<0.05),说明在基因转录框架中插入位点(靶位点)上下游存在更长的序列以及在Alu元件(SINE)、ORF1p和ORF2p (LINE)的充足表达下,基因编辑的效率最高;实验2组、3组及4组的拷贝数相对量均高于对照1组(N/A按照40.00计算),均具有统计学意义(P<0.05),说明在基因转录框架中插入位点(靶位点)上下游更短的序列、细胞本身Alu 元件(SINE)低或不表达或ORF1p及ORF2p(LINE)低或不表达下,基因编辑仍有效但效率较低。为了保证插入的高效性需要插入点两侧足够长度的序列以利于套索的形成。而基因转录框架中更长的靶位点上下游序列、ORF1p、ORF2p 蛋白(LINE)和/或Alu元件(SINE)的额外表达可以提高编辑效率。

表8引物对2的结果(n=3,

实验1组与其他各组两两比较(N/A按照40.00计算),其拷贝数相对量明显高于其他组,均具有统计学意义(P<0.05),说明在基因转录框架中插入位点(靶位点)上下游存在更长的序列以及在Alu元件(SINE)、ORF1p和ORF2p (LINE)的充足表达下,基因编辑的效率最高;实验2组、3组及4组的拷贝数相对量均高于对照1组(N/A按照40.00计算),均具有统计学意义(P<0.05),说明在基因转录框架中插入位点(靶位点)上下游更短的序列、细胞本身Alu 元件(SINE)低或不表达或ORF1p及ORF2p(LINE)低或不表达下,基因编辑仍有效但效率较低。为了保证插入的高效性需要插入点两侧足够长度的序列以利于套索的形成。而基因转录框架中更长的靶位点上下游序列、ORF1p、ORF2p 蛋白(LINE)和/或Alu元件(SINE)的额外表达可以提高编辑效率。

综合表7和表8的实验结果可知待插入序列的两端均被插入待插入位点(靶位点),意味着待插入序列被完整的插入待插入位点。实验1、2、3及4组均可一定程度上将非同源序列完整的插入基因组,以实验1组效率最高。

实施例2检测基因转录框架(含有外源性待插入序列)转录形成的套索结构与含有部分SINE序列(以Alu元件为例)的RNA片段(为Alu元件的转录产物经于自然剪切位点剪切所得)的连接

1.对实施例1中实验1组及对照1组提取细胞总RNA:

具体过程为:取其中经转染后的细胞吸去细胞培养基后,用PBS冲洗两遍细胞后,加入适量0.25%胰蛋白酶进行消化,在37℃下共消化20min,每5min 进行15次吹打。当细胞悬浮后,加入含有血清的完全培养基终止反应。将含有细胞的溶液转移至RNase-Free的离心管中,300g离心5min后,收集沉淀并吸去所有上清液。按照磁珠法组织/细胞/血液总RNA提取试剂盒的说明书进行总RNA提取。

2.逆转录合成cDNA模板:

按照FastKing cDNA第一链合成试剂盒的说明书去除提取的总RNA中的基因组DNA,然后进行cDNA的合成,紫外分光光度计测定所合成cDNA的浓度,待后续检测。

3.qPCR检测:

以如Seq ID No.7和Seq ID No.8所示检测GAPDH基因的上下游引物序列作为内参参与检测。

设计用于检测含有外源性待插入序列的经转录形成的套索结构与Alu元件转录产物形成的含有部分Alu序列的RNA片段连接的引物对3,其中上游引物序列如Seq ID No.11所示:5′-CACAACAGTCGTGGGTCG-3′,上游引物位于外源性待插入序列上;下游引物序列如Seq ID No.13所示: 5′-TACGGGCTCGCCTGATAG-3′,下游引物位于构建入质粒中的Alu序列后的非同源序列(18bp)位置。

上述引物均通过化学合成获得。

qPCR反应体系如表9所示。

表9 qPCR反应体系

上述反应体系在冰上配制,配制好后盖上反应管,轻柔混匀后短暂离心,以确保所有组分均位于管底。每个6孔板细胞样本同时进行3次重复。

qPCR反应循环:

95℃预变性15min;(95℃变性10s,54℃退火20s,72℃延伸20s)40个循环。GAPDH引物按照相同条件进行反应。

观察GAPDH和转录产生的含有待插入序列的套索结构与含有部分Alu序列的RNA片段的连接产物的扩增曲线中的指数增长期,确认近似平行后,通过2

表10引物对3的结果(n=3,

由实验数据可知,实验1组的相对表达量明显高于对照1组,P<0.05具有统计学意义(N/A按照40.00计算),说明含有外源性待插入序列的套索结构确与Alu序列的转录产物(即含有部分Alu序列的RNA片段)连接。

从表10可以看出Alu序列的转录产物(即含有部分Alu序列的RNA片段) 确与表达的待插入序列有所连接。

实施例3DNA介导的外源性待插入序列插入基因组指定位点

MMP2基因为基质金属蛋白酶(MMP)基因家族的成员,是锌依赖性酶,能够切割细胞外基质的成分和参与信号转导的分子。该基因编码的蛋白是一种胶原酶A,IV型胶原酶,在其催化位点包含三个纤维连接蛋白II型重复序列,允许变性的IV型和V型胶原和弹性蛋白结合。与大多数MMP家族成员不同,这种蛋白的活化可以发生在细胞膜上。这种酶可以通过蛋白酶在细胞外激活,也可以通过S-谷胱甘肽在细胞内激活,而不需要蛋白质水解去除原结构域。这种蛋白被认为参与多种途径,包括在神经系统、子宫内膜月经破裂、血管化调节和转移中的作用。该基因突变与温彻斯特综合征和结节性关节病骨溶解 (NAO)综合征有关。选择性剪接导致编码不同亚型的多个转录变体。

本实施例中以将外源序列插入到MMP2基因中以证实本发明中DNA介导的基因组序列插入技术。

选取人类基因组中基因MMP2中的一段479bp的序列,序列如Seq ID No.14 所示:AGCATGGCGATGGATACCCCTTTGACGGTAAGGACGGACTCCTGGCTCAT GCCTTCGCCCCAGGCACTGGTGTTGGGGGAGACTCCCATTTTGATGACGAT GAGCTATGGACCTTGGGAGAAGGCCAAGGTGAGAAAGGGGCCCTCTGCATGCCCCAGACCTTCTCTCCTGTCCTCTCTCCACTCCATTTGCTTGGACCAGA GA

同时设计在载体上插入位点前后添加MMP2基因中插入位点上游序列和下游序列的短序列来验证不同长度的靶位点上游序列和下游序列对于插入效果的影响。

选择上述MMP2序列插入位点前后各10bp,与非同源序列及NheI酶切位点及保护碱基设计成短序列,如Seq ID No.16所示:

将MMP2-1和MMP2-2分别插入到质粒载体pSIL-eGFP中,构建质粒 pSIL-eGFP-MMP2-1和pSIL-eGFP-MMP2-2,具体过程为:

将MMP2-1、MMP2-2、质粒载体pSIL-eGFP分别进行酶切,反应体系如表 11所示:

表11酶切反应体系

反应条件为:37℃下孵育1h后,然后升温到65℃温育20min使内切酶失活,电泳,回收酶切产物。

将酶切后的MMP2-1或MMP2-2分别与酶切成线性的质粒载体pSIL-eGFP 进行连接,反应体系如表12所示:

表12连接反应体系

反应条件为:16℃孵育16h,然后升温至70℃温育10min灭活连接酶,电泳、纯化得到质粒pSIL-eGFP-MMP2-1和质粒pSIL-eGFP-MMP2-2。质粒经测序验证正确。

设计Alu表达序列,将Alu序列、非同源序列(18bp)、TTTTT、 TTTTAA*n连接到一起,这里n=6,并在序列两端添加SalI酶切位点及相应保护碱基,得到序列如Seq ID No.17所示:

将Alu2、质粒pSIL-eGFP-MMP2-1和质粒pSIL-eGFP-MMP2-2分别用SalI 进行酶切,酶切反应体系如表13所示。

表13酶切反应体系

反应条件为:37℃孵育3h,然后加热到80℃温育10min灭活内切酶,电泳、回收、收集酶切产物。

将酶切后的Alu2、分别与酶切成线性的质粒pSIL-eGFP-MMP2-1和质粒 pSIL-eGFP-MMP2-2进行连接,反应体系如表14所示。

表14连接反应体系

反应条件为:16℃下孵育16h,此后升温至70℃温育10min灭活连接酶,电泳,回收,获得质粒pSIL-eGFP-MMP2-1-Alu2及pSIL-eGFP-MMP2-2-Alu2。质粒经测序验证正确。

将pSIL-eGFP-MMP2-1-Alu2或pSIL-eGFP-MMP2-2-Alu2转染到Hela细胞中检验随机设计的外源序列的插入效率,为了提高插入效率,在Hela细胞中共转染表达ORF1p和ORF2p(LINE)的质粒pBS-L1PA1-CH-mneo,并设计相应对照组。实验组和对照组中共转染质粒如表15所示。

表15实验分组

从分组可以看出,对照1组为共转染原始pSIL-eGFP和pBS-L1PA1-CH-mneo,其中不包含基因转录框架序列和Alu2序列,实验5组为共转染pSIL-eGFP-MMP2-1-Alu2和pBS-L1PA1-CH-mneo,其中包含含有 MMP2基因上靶位点上下游长序列的基因转录框架和Alu2序列及 pBS-L1PA1-CH-mneo;实验6组为共转染pSIL-eGFP-MMP2-1和 pBS-L1PA1-CH-mneo,其中包含含有MMP2基因上靶位点上下游长序列的基因转录框架及pBS-L1PA1-CH-mneo,不包含Alu2序列;实验7组为共转染pSIL-eGFP-MMP2-2-Alu2和pBS-L1PA1-CH-mneo,其中包含含有MMP2基因上靶位点上下游短序列的基因转录框架和Alu2序列及pBS-L1PA1-CH-mneo;实验8组为转染pSIL-eGFP-MMP2-1-Alu2而不转染pBS-L1PA1-CH-mneo,其中包含含有MMP2基因上靶位点上下游长序列的基因转录框架和Alu2序列,不包含pBS-L1PA1-CH-mneo。每组设3个平行,每个平行均为一个培养有U251 (人胶质瘤)细胞的6孔板。

转染步骤为:将U251(人胶质瘤)细胞传代并铺于6孔板。传代次日,应用Entranster-H4000转染试剂进行转染。对于每板细胞的转染,取48μg或96μg (依照实验分组,若仅转染一种质粒则为48μg;若共转染两种质粒则每种质粒取48μg,总共96μg)构建好的质粒用300μL的无血清DMEM稀释,充分混匀;同时取120μL的Entranster-H4000试剂用300μL的无血清DMEM稀释,充分混匀后,室温静置5min。之后将制备好的两种液体混合并充分混匀并室温静置 15min,制成转染复合物。将转染复合物加入到每孔含2ml含10%胎牛血清的DMEM培养液进行转染。待细胞长至90%左右融合时传代,传代后重复上述操作,细胞长至90%左右融合后取材进行后续操作。

提取转染后细胞DNA:吸去细胞培养基后,用PBS冲洗两遍细胞后,加入适量0.25%胰蛋白酶进行消化,在37℃下共消化20min,每5min进行15次吹打。当细胞悬浮后,加入含有血清的完全培养基终止反应。此后按照血液/ 细胞/组织基因组DNA提取试剂盒的产品说明书进行细胞DNA的提取,紫外分光光度计测定DNA浓度。

qPCR检测:

由于GAPDH基因不含有Alu序列,拷贝数稳定,因此将GAPDH基因作为内参基因。

检测GAPDH基因的上游引物序列如Seq ID No.7所示;下游引物序列如 Seq IDNo.8所示。

设计引物对4,其上游引物序列如Seq ID No.18所示: 5′-TTTCAGGGTCTAGGTGGC-3′;下游引物序列如Seq ID No.19所示: 5′-AAATGCTTTCTCCGCTCT-3′。引物对4的上游引物序列位于完整MMP2基因中,质粒上所用插入位点(靶位点)上游序列的更上游,不存在于质粒中,仅存于基因组中;引物对4的下游引物序列位于待插入的随机设计的非同源序列(待插入序列)上。

上述引物均通过化学合成获得。

qPCR反应体系如表16所示。

表16 qPCR反应体系

细胞DNA模板分别为前述共转染后的对照1组、实验5组至实验8组中提取的DNA。

上述反应体系在冰上配制,配制好后盖上反应管,轻柔混匀后短暂离心,以确保所有组分均位于管底。每个6孔板细胞样本同时进行3次重复。

qPCR反应循环:

引物对1:95℃预变性15min;(95℃变性10s,50℃退火20s,72℃延伸 20s)40个循环。GAPDH引物按照相同条件进行反应。

观察GAPDH和检测待插入序列插入的扩增曲线中的指数增长期,确认近似平行后,通过2

表17引物对4的结果(n=3,

实验5组与其他各组两两比较(N/A按照40.00计算),其拷贝数相对量明显高于其他组,均具有统计学意义(P<0.05),说明在基因转录框架中插入位点(靶位点)上下游存在更长的序列以及在Alu元件(SINE)、ORF1p和ORF2p (LINE)的充足表达下,基因编辑的效率最高;实验6组、7组及8组的拷贝数相对量均高于对照1组(N/A按照40.00计算),均具有统计学意义(P<0.05),说明在基因转录框架中插入位点(靶位点)上下游更短的序列、细胞本身Alu 元件(SINE)低或不表达或ORF1p及ORF2p(LINE)低或不表达下,基因编辑仍有效但效率较低。综合实验结果说明经本发明技术待插入序列被有效插入至基因组上的靶位点,而基因转录框架中更长的靶位点上下游序列、ORF1p、 ORF2p蛋白(LINE)和/或Alu元件(SINE)的额外表达可以提高编辑效率。

实施例4检测基因转录框架(含有外源性待插入序列)转录形成的套索结构与含有部分SINE序列(以Alu元件为例)的RNA片段(为Alu元件的转录产物经于自然剪切位点剪切所得)的连接

1.对实施例3中实验5组及对照1组提取细胞总RNA:

具体过程为:取其中经转染后的细胞吸去细胞培养基后,用PBS冲洗两遍细胞后,加入适量0.25%胰蛋白酶进行消化,在37℃下共消化20min,每5min 进行15次吹打。当细胞悬浮后,加入含有血清的完全培养基终止反应。将含有细胞的溶液转移至RNase-Free的离心管中,300g离心5min后,收集沉淀并吸去所有上清液。按照磁珠法组织/细胞/血液总RNA提取试剂盒的说明书进行总RNA提取。

2.逆转录合成cDNA模板:

按照FastKing cDNA第一链合成试剂盒的说明书去除提取的总RNA中的基因组DNA,然后进行cDNA的合成,紫外分光光度计测定所合成cDNA的浓度,待后续检测。

3.qPCR检测:

以如Seq ID No.7和Seq ID No.8所示检测GAPDH基因的上下游引物序列作为内参参与检测。

设计用于检测含有外源性待插入序列的经转录形成的套索结构与Alu元件转录产物形成的含有部分Alu序列的RNA片段的连接的引物对5,其中上游引物序列如Seq IDNo.20所示:5′-GGCATAATGATGTGGCTGTT-3′;下游引物序列如Seq ID No.21所示:5′-TCTGTTGGCTCGCTCTTG-3′,其中,上游引物序位于外源性待插入序列上,下游引物位于构建入质粒中的Alu序列后的非同源序列(18bp)位置。

上述引物均通过化学合成获得。

qPCR反应体系如表18所示。

表18 qPCR反应体系

上述反应体系在冰上配制,配制好后盖上反应管,轻柔混匀后短暂离心,以确保所有组分均位于管底。每个6孔板细胞样本同时进行3次重复。

qPCR反应循环:

95℃预变性15min;(95℃变性10s,52℃退火20s,72℃延伸20s)40个循环。GAPDH引物按照相同条件进行反应。

观察GAPDH和转录产生的含有待插入序列的套索结构连接含有部分Alu 序列的RNA片段的扩增曲线中的指数增长期,确认近似平行后,通过2

表19引物对5的结果(n=3,

从表19可以看出实验5组的相对表达量明显高于对照1组,P<0.05具有统计学意义(N/A按照40.00计算)。因此,Alu序列的转录产物确与表达的待插入序列所形成的套索结构有所连接。

实施例5检验本发明中基因编辑技术的靶向准确性

将Seq ID No.15所示序列MMP2-1在随机设计的非同源序列(即待插入序列)上游的第5bp到第10bp的6bp替换为CGATGA,得到如Seq ID No.22所示序列:

将MMP2-3采用实施例3中的方法制备得到质粒pSIL-eGFP-MMP2-3-Alu2。

将质粒pSIL-eGFP-MMP2-3-Alu2转染到U251(人胶质瘤)细胞中,并在 U251(人胶质瘤)细胞中共转染表达ORF1p和ORF2p(LINE)的质粒 pBS-L1PA1-CH-mneo作为实验组,前述共转染pSIL-eGFP-MMP2-1-Alu2和 pBS-L1PA1-CH-mneo的细胞作为对照组,具体分组如表20所示。

表20实验分组

每组设3个平行,每个平行均为一个培养有U251(人胶质瘤)细胞的6孔板。转染及转染后提取细胞DNA的方法同实施例3。

qPCR检测:

由于GAPDH基因不含有Alu序列,拷贝数稳定,因此将GAPDH基因作为内参基因。

检测GAPDH基因的上游引物序列如Seq ID No.7所示;下游引物序列如 Seq IDNo.8所示。

设计插入序列的引物对4,其上游引物序列如Seq ID No.18所示,下游引物序列如Seq ID No.19所示。

采用实施例3的qPCR反应体系和反应循环进行qPCR。

观察GAPDH和检测待插入序列插入的扩增曲线中的指数增长期,确认近似平行后,通过2

表21引物对4的结果(n=3,

从表21可以看出,实验组的拷贝数相对量明显低于对照组(N/A按照40.00 计算),具有统计学意义(P<0.05),意味着当载体上插入位点(靶位点)的上游序列与基因组上插入位点(靶位点)的上游序列不一致时,待插入序列难以插入基因组。说明经本发明实施的基因编辑具有较高的靶向准确性。

实施例6SINE序列(以Alu序列为例)直接连接方式插入外源性待插入序列

IT15基因为亨廷顿舞蹈病的致病基因,本实施例中以将外源性序列插入到 IT15基因中以证实DNA介导的以SINE序列(以Alu序列为例)直接连接方式进行的基因组序列插入技术。

选取人类基因组中基因IT15中的一段160bp的序列,序列如Seq ID No.23 所示:

ATGCTATTCATAATCACATTCGTTTGTTTGAACCTCTTGTTATAAAAG CTTTAAAACAGTACACGACTACAACATGTGTGCAGTTACA

在插入位点处加入随机设计的非同源序列作为待插入序列,在靶位点下游序列的下游连接部分Alu序列,成为基因转录框架,为了使该基因转录框架能够插入到表达载体中,在两端添加限制性内切酶NheI酶切位点及保护碱基,得到的完整序列如Seq ID No.24所示:

这里选择部分Alu序列连接于靶位点下游序列的下游是模拟生物体内SINE (Alu元件)转录产物经细胞内作用(于SINE转录产物中的自然剪切位点处剪切)后仅保留逆转录功能结构并与pre-mRNA经剪切产生的套索结构连接的状态。

将IT15-1插入到质粒载体pBS-L1PA1-CH-mneo中,构建质粒 pBS-L1PA1-CH-mneo-IT15-1,如图17所示,具体过程为:

将IT15-1和pBS-L1PA1-CH-mneo分别进行酶切,反应体系如表22所示:

表22酶切反应体系

反应条件为:37℃下孵育1h后,然后升温到65℃温育20min使内切酶失活,电泳,回收酶切产物。

将酶切后的IT15-1与酶切成线性的质粒载体pBS-L1PA1-CH-mneo进行连接,反应体系如表23所示:

表23连接反应体系

反应条件为:16℃孵育16h,然后升温至70℃温育10min灭活连接酶,电泳、纯化得到质粒pBS-L1PA1-CH-mneo-IT15-1。质粒经测序验证正确。

由于pBS-L1PA1-CH-mneo质粒自身带有CMV启动子,因此只要将表达框架插入到CMV启动子后,即可通过RNA聚合酶II启动转录。

实验分组:将转染pBS-L1PA1-CH-mneo-IT15-1质粒的组设为实验10组;将转染未改造的pBS-L1PA1-CH-mneo质粒的组设为对照3组。每组设3个平行,每个平行均为一个培养有Hela细胞的6孔板。

转染步骤为:将Hela细胞传代并铺于6孔板。传代次日,应用 Entranster-H4000转染试剂进行转染。对于每板细胞的转染,取48μg构建好的质粒用300μL的无血清DMEM稀释,充分混匀;同时取120μL的 Entranster-H4000试剂用300μL的无血清DMEM稀释,充分混匀后,室温静置 5min。之后将制备好的两种液体混合并充分混匀并室温静置15min,制成转染复合物。将转染复合物加入到每孔含2ml含10%胎牛血清的DMEM培养液进行转染。待细胞长至90%左右融合时传代,传代后重复上述操作,细胞长至90%左右融合后取材进行后续操作。

提取转染后细胞DNA:吸去细胞培养基后,用PBS冲洗两遍细胞后,加入适量0.25%胰蛋白酶进行消化,在37℃下共消化20min,每5min进行15次吹打。当细胞悬浮后,加入含有血清的完全培养基终止反应。此后按照血液/ 细胞/组织基因组DNA提取试剂盒的产品说明书进行细胞DNA的提取,紫外分光光度计测定DNA浓度。

qPCR检测:

由于GAPDH基因不含有Alu序列,拷贝数稳定,因此将GAPDH基因作为内参基因。

检测GAPDH基因的上游引物序列如Seq ID No.7所示;下游引物序列如 Seq IDNo.8所示。

设计引物对6,其上游引物序列如Seq ID No.25所示: 5′-GAAATTGGTTTGAGCAGGAG-3′;下游引物序列如Seq ID No.26所示: 5′-CGATTGGATGGCAGTAGC-3′。引物对6的上游引物序列位于完整IT15基因中,质粒上所用插入位点(靶位点)上游序列的更上游,不存在于质粒中,仅存于基因组中,引物对6的下游引物序列位于待插入的随机设计的非同源序列(待插入序列)上。

上述引物均通过化学合成获得。

qPCR反应体系如表24所示。

表24 qPCR反应体系

细胞DNA模板分别为转染后的对照3组、实验10组中提取的DNA。

上述反应体系在冰上配制,配制好后盖上反应管,轻柔混匀后短暂离心,以确保所有组分均位于管底。每个6孔板细胞样本同时进行3次重复。

qPCR反应循环:

引物对6:95℃预变性15min;(95℃变性10s,50℃退火20s,72℃延伸 20s)40个循环。GAPDH引物按照相同条件进行反应。

观察GAPDH和检测待插入序列插入的扩增曲线中的指数增长期,确认近似平行后,通过2

表25引物对6的结果(n=3,

实验10组的拷贝数相对量明显高于对照3组(N/A按照40.00计算),具有统计学意义(P<0.05),说明待插入序列被有效插入至基因组上的靶位点。

实施例7检验本发明中基因编辑技术的靶向准确性

将Seq ID No.24所示序列IT15-1在随机设计的非同源序列(即待插入序列) 上游的第10bp到第15bp的6bp替换为GGACAT,得到如Seq ID No.27所示序列:

将IT15-2插入到质粒载体pBS-L1PA1-CH-mneo中,构建质粒 pBS-L1PA1-CH-mneo-IT15-2,方法参考实施例6。

将转染pBS-L1PA1-CH-mneo-IT15-2质粒的Hela细胞组为实验11组;将转染pBS-L1PA1-CH-mneo-IT15-1质粒的Hela细胞组为对照4组。每组设3个平行,每个平行均为一个培养有Hela细胞的6孔板。

采用实施例6方法进行转染并提取转染后细胞DNA,进行qPCR检测。

由于GAPDH基因不含有Alu序列,拷贝数稳定,因此将GAPDH基因作为内参基因。

检测GAPDH基因的上游引物序列如Seq ID No.7所示;下游引物序列如 Seq IDNo.8所示。

使用引物对6进行qPCR,反应体系和反应循环如实施例6。

观察GAPDH和检测待插入序列插入的扩增曲线中的指数增长期,确认近似平行后,通过2

表26引物对6的结果(n=3,

实验组的拷贝数相对量明显低于对照组(N/A按照40.00计算),具有统计学意义(P<0.05),意味着当载体上插入位点(靶位点)上游序列与基因组上插入位点(靶位点)上游序列不一致时,待插入序列难以插入基因组上的靶位点。

结论:说明经本发明实施的基因组序列插入具有较高的靶向准确性。

从实施例1至实施例6可以看出,DNA介导的外源性序列插入基因组指定位点的方法可对真核细胞(如细胞系或原代细胞)进行有效的基因编辑,将序列以较高的效率和准确性靶向插入至目标位点。由不同组织细胞编辑的可行性,可知该方法可应用于各种细胞、组织及生物体(活体)内等。

实施例8DNA介导的基因组上指定区域序列(待删除序列)的删除

随机选择人类基因组中基因MINK1中的一段序列,如Seq ID No.28所示:

按照待删除序列的3′序列+待删除序列5′端紧邻的上游序列+待删除序列3′端紧邻的下游序列的顺序构建序列并在两端添加NheI酶切位点及相应保护碱基,序列如Seq IDNo.29所示:

同时,用一段与MINK1基因非同源的序列来取代Seq ID No.29中待删除序列5′端紧邻的上游序列得到序列如Seq ID No.30所示:

将MINK1-1和MINK1-2分别插入到质粒载体pSIL-eGFP中,构建质粒 pSIL-eGFP-MINK1-1和pSIL-eGFP-MINK1-2,具体过程为:

将MINK1-1、MINK1-2、质粒载体pSIL-eGFP分别进行酶切,反应体系如表27所示:

表27酶切反应体系

反应条件为:37℃下孵育1h后,然后升温到65℃温育20min使内切酶失活,电泳,回收酶切产物。

将酶切后的MINK1-1或MINK1-2分别与酶切成线性的质粒载体pSIL-eGFP 进行连接,反应体系如表28所示:

表28连接反应体系

反应条件为:16℃孵育16h,然后升温至70℃温育10min灭活连接酶,电泳、纯化得到质粒pSIL-eGFP-MINK1-1和质粒pSIL-eGFP-MINK1-2。质粒经测序验证正确。

将实施例1制备的Alu1、质粒pSIL-eGFP-MINK1-1和质粒 pSIL-eGFP-MINK1-2分别用SalI进行酶切,连接,反应体系和条件同实施例 1,得到pSIL-eGFP-MINK1-1-Alu1及pSIL-eGFP-MINK1-2-Alu1。

将pSIL-eGFP-MINK1-1-Alu1或pSIL-eGFP-MINK1-2-Alu1转染到Hela细胞中检验将待删除序列删除的作用,为了提高删除效率,在Hela细胞中共转染表达ORF1p和ORF2p(LINE)的质粒pBS-L1PA1-CH-mneo,并设计相应对照组。其中,转染pSIL-eGFP-MINK1-1-Alu1+pBS-L1PA1-CH-mneo的组设为实验12组,转染pSIL-eGFP-MINK1-2-Alu1+pBS-L1PA1-CH-mneo的组设为对照 5组。每组设3个平行,每个平行均为一个培养有Hela细胞的6孔板。

按照实施例1的方法进行质粒转染并提取转染后的细胞DNA。

qPCR检测:

由于GAPDH基因不含有Alu序列,拷贝数稳定,因此将GAPDH基因作为内参基因。

以如Seq ID No.7和Seq ID No.8所示用以检测GAPDH基因拷贝数的上下游引物序列作为内参参与检测。

设计引物对7,其上游引物序列如Seq ID No.31所示: 5′-ACAGGGTATGGAGTGGAAAG-3′;下游引物序列如Seq ID No.32所示: 5′-ATAGACGGGAAAGAAGGAAC-3′。引物对7的上游引物位于基因组上 MINK1基因中的待删除序列上,不存在于质粒中,下游引物位于基因组上 MINK1基因中的待删除序列上,不存在于质粒中。

上述引物均通过化学合成获得。

qPCR反应体系如表29所示。

表29 qPCR反应体系

细胞DNA模板分别为前述共转染后的对照5组及实验12组中提取的DNA。

上述反应体系在冰上配制,配制好后盖上反应管,轻柔混匀后短暂离心,以确保所有组分均位于管底。每个6孔板细胞样本同时进行3次重复。

qPCR反应循环:

引物对7:95℃预变性15min;(95℃变性10s,50℃退火20s,72℃延伸 20s)40个循环。GAPDH引物按照相同条件进行反应。

观察GAPDH和检测待删除序列的扩增曲线中的指数增长期,确认近似平行后,通过2

表30引物对7的结果(n=3,

实验12组(N/A按照40.00计算)的拷贝数相对量明显低于对照5组,具有统计学意义(P<0.05),说明基因组上的待删除序列有所删减。

实施例9SINE序列(以Alu序列为例)直接连接方式删除序列

FMR1基因与遗传性精神发育迟滞病——脆性X综合征相关,选择其中一段序列,如Seq ID No.33所示:

按照待删除序列的3′序列+待删除序列5′端紧邻的上游序列+待删除序列3′端紧邻的下游序列+部分Alu序列的顺序构建序列并在两端添加NheI酶切位点及相应保护碱基,序列如Seq ID No.34所示:

同时,用一段与FMR1基因非同源的序列取代Seq ID No.34中待删除序列 5′端紧邻的上游序列得到序列如Seq ID No.35所示:

将FMR1-1插入到质粒载体pBS-L1PA1-CH-mneo中,构建质粒 pBS-L1PA1-CH-mneo-FMR1-1,具体过程为:

将FMR1-1和pBS-L1PA1-CH-mneo分别进行酶切,反应体系如表31所示:

表31酶切反应体系

反应条件为:37℃下孵育1h后,然后升温到65℃温育20min使内切酶失活,电泳,回收酶切产物。

将酶切后的FMR1-1或FMR1-2分别与酶切成线性的质粒载体 pBS-L1PA1-CH-mneo进行连接,反应体系如表32所示:

表32连接反应体系

反应条件为:16℃孵育16h,然后升温至70℃温育10min灭活连接酶,电泳、纯化得到质粒pBS-L1PA1-CH-mneo-FMR1-1和质粒 pBS-L1PA1-CH-mneo-FMR1-2。质粒经测序验证正确。

实验分组:将所得质粒转染至Hela细胞中。将转染 pBS-L1PA1-CH-mneo-FMR1-1质粒的组设为实验13组;将 pBS-L1PA1-CH-mneo-FMR1-2质粒的组为对照6组。每组设3个平行,每个平行均为一个培养有Hela细胞的6孔板。

转染步骤为:将Hela细胞传代并铺于6孔板。传代次日,应用 Entranster-H4000转染试剂进行转染。对于每板细胞的转染,取48μg构建好的质粒用300μL的无血清DMEM稀释,充分混匀;同时取120μL的 Entranster-H4000试剂用300μL的无血清DMEM稀释,充分混匀后,室温静置 5min。之后将制备好的两种液体混合并充分混匀并室温静置15min,制成转染复合物。将转染复合物加入到每孔含2ml含10%胎牛血清的DMEM培养液进行转染。待细胞长至90%左右融合时传代,传代后重复上述操作,细胞长至90%左右融合后取材进行后续操作。

提取转染后细胞DNA:吸去细胞培养基后,用PBS冲洗两遍细胞后,加入适量0.25%胰蛋白酶进行消化,在37℃下共消化20min,每5min进行15次吹打。当细胞悬浮后,加入含有血清的完全培养基终止反应。此后按照血液/ 细胞/组织基因组DNA提取试剂盒的产品说明书进行细胞DNA的提取,紫外分光光度计测定DNA浓度。

qPCR检测:

由于GAPDH基因不含有Alu序列,拷贝数稳定,因此将GAPDH基因作为内参基因。

检测GAPDH基因的上游引物序列如Seq ID No.7所示;下游引物序列如 Seq IDNo.8所示。

设计引物对8,其上游引物序列如Seq ID No.36所示: 5′-ACAGGGTTACAATTTGGT-3′;下游引物序列如Seq ID No.37所示: 5′-CATTTGCTCTGGAATACAC-3′。引物对8中的上游引物序列位于基因组上 FMR1基因中的待删除序列上,不存在于质粒中,引物对8中的下游引物序列位于基因组上FMR1基因中的待删除序列上,不存在于质粒中。

上述引物均通过化学合成获得。

qPCR反应体系如表33所示。

表33 qPCR反应体系

细胞DNA模板分别为前述共转染后的对照6组及实验13组中提取的DNA。

上述反应体系在冰上配制,配制好后盖上反应管,轻柔混匀后短暂离心,以确保所有组分均位于管底。每个6孔板细胞样本同时进行3次重复。

qPCR反应循环:

引物对8:95℃预变性15min;(95℃变性10s,45℃退火20s,72℃延伸 20s)40个循环。GAPDH引物按照相同条件进行反应。

观察GAPDH和检测待删除序列的扩增曲线中的指数增长期,确认近似平行后,通过2

表34引物对8的结果(n=3,

实验13组(N/A按照40.00计算)的拷贝数相对量明显低于对照6组,具有统计学意义(P<0.05),说明基因组上的待删除序列有所删减。

由上述实施例可知经本发明在基因组上任意区域的任意序列的删除是可行的。同时,当测序获得各基因CNVs末端时(即相应基因序列连接部分SINE 序列处),亦可对其进行编辑,进行插入或删除以对CNVs进行编辑并由其带来的表达变化对细胞、组织或活体的状态进行改造。

实施例10经RNA介导的外源性待插入序列插入基因组

选取人类基因组中基因IT15中的一段序列,按照NheI酶切识别位点及保护碱基+插入位点(靶位点)上游序列+待插入序列+插入位点(靶位点)下游序列+部分Alu序列+NheI酶切识别位点及保护碱基的顺序构建序列如Seq ID No.38所示:

将IT15-3插入到质粒载体pBS-L1PA1-CH-mneo中,构建质粒 pBS-L1PA1-CH-mneo-IT15-3,具体过程为:

将IT15-3和pBS-L1PA1-CH-mneo分别进行酶切,反应体系如表35所示:

表35酶切反应体系

反应条件为:37℃下孵育1h后,然后升温到65℃温育20min使内切酶失活,电泳,回收酶切产物。

将酶切后的IT15-3与酶切成线性的质粒载体pBS-L1PA1-CH-mneo进行连接,反应体系如表36所示:

表36连接反应体系

反应条件为:16℃孵育16h,然后升温至70℃温育10min灭活连接酶,电泳、纯化得到质粒pBS-L1PA1-CH-mneo-IT15-3。质粒经测序验证正确。

此后将pBS-L1PA1-CH-mneo-IT15-3和pBS-L1PA1-CH-mneo质粒分别转染入Hela细胞中。

转染步骤为:将Hela细胞传代并铺于6孔板。传代次日,应用 Entranster-H4000转染试剂进行转染。对于每板细胞的转染,取48μg构建好的质粒用300μL的无血清DMEM稀释,充分混匀;同时取120μL的 Entranster-H4000试剂用300μL的无血清DMEM稀释,充分混匀后,室温静置 5min。之后将制备好的两种液体混合并充分混匀并室温静置15min,制成转染复合物。将转染复合物加入到每孔含2ml含10%胎牛血清的DMEM培养液进行转染。待细胞长至90%左右融合时传代,传代后重复上述操作,细胞长至90%左右融合后取材进行后续操作。

提取细胞总RNA:

具体过程为:取其中经转染后的细胞吸去细胞培养基后,用PBS冲洗两遍细胞后,加入适量0.25%胰蛋白酶进行消化,在37℃下共消化20min,每5min 进行15次吹打。当细胞悬浮后,加入含有血清的完全培养基终止反应。将含有细胞的溶液转移至RNase-Free的离心管中,300g离心5min后,收集沉淀并吸去所有上清液。按照磁珠法组织/细胞/血液总RNA提取试剂盒的说明书进行总RNA提取。

在总RNA中提取mRNA:

紫外分光光度计检测之前提取的总RNA浓度,并取1000ng总RNA用不含核酸酶的ddH

实验分组:将给予从转染pBS-L1PA1-CH-mneo-IT15-3质粒的Hela细胞中提取的mRNA进行转染的组设为实验14组;将给予从转染未改造的 pBS-L1PA1-CH-mneo质粒的Hela细胞中提取的mRNA进行转染的组设为对照 7组。每组设3个平行,每个平行均为一个培养有Hela细胞的6孔板。

将所得mRNA用Lipofectamine MessengerMAX转染试剂转入细胞,转染实验14组和对照7组中的培养于6孔板上的Hela细胞。当细胞长至40%融合度时进行第一次转染。对于每孔转染的细胞,将7.5μL的Lipofectamine MessengerMAX转染试剂用125μL不含血清的DMEM溶液稀释,室温下孵育 10min。将5μg制得的mRNA与125μL不含血清的DMEM溶液混合后,与此前稀释的125μL的Lipofectamine MessengerMAX转染试剂混合后室温下孵育 5min。将所制得的混合溶液加入至每孔培养细胞的培养液中,轻柔混合。当细胞长至70%融合时,重复上述操作。

提取转染后细胞DNA:吸去细胞培养基后,用PBS冲洗两遍细胞后,加入适量0.25%胰蛋白酶进行消化,在37℃下共消化20min,每5min进行15次吹打。当细胞悬浮后,加入含有血清的完全培养基终止反应。此后按照血液/ 细胞/组织基因组DNA提取试剂盒的产品说明书进行细胞DNA的提取,紫外分光光度计测定DNA浓度。

qPCR检测:

由于GAPDH基因不含有Alu序列,拷贝数稳定,因此将GAPDH基因作为内参基因。

检测GAPDH基因的上游引物序列如Seq ID No.7所示;下游引物序列如 Seq IDNo.8所示。

使用引物对6,其上游引物序列如Seq ID No.25所示;下游引物序列如Seq IDNo.26所示。引物对6的上游引物序列位于完整IT15基因中,质粒上所用插入位点(靶位点)上游序列的更上游,不存在于质粒中,仅存于基因组中,引物对6的下游引物序列位于待插入的随机设计的非同源序列(待插入序列)上。

上述引物均通过化学合成获得。

qPCR反应体系如表37所示。

表37 qPCR反应体系

细胞DNA模板分别为转染后的对照7组、实验14组中提取的DNA。

上述反应体系在冰上配制,配制好后盖上反应管,轻柔混匀后短暂离心,以确保所有组分均位于管底。每个6孔板细胞样本同时进行3次重复。

qPCR反应循环:

引物对6:95℃预变性15min;(95℃变性10s,50℃退火20s,72℃延伸 20s)40个循环。GAPDH引物按照相同条件进行反应。

观察GAPDH和检测待插入序列插入的扩增曲线中的指数增长期,确认近似平行后,通过2

表38引物对6的结果(n=3,

实验14组的拷贝数相对量明显高于对照7组(N/A按照40.00计算),具有统计学意义(P<0.05),说明经本发明的RNA途径进行基因编辑是有效的。

由于完全RNA介导的可行性,可知若不在欲导入待编辑体系的序列中添加ORF2p和/或ORF1p的编码序列,在体外将含有插入位点(靶位点)上游序列+待插入序列+插入位点(靶位点)下游序列+SINE序列(如Alu序列)、部分 SINE序列或类SINE序列的RNA产物结合ORF2p或同时结合ORF1p和ORF2p 并转入细胞(细胞质)的RNP途径亦是可行的。

实施例11 CNVs末端进行固定和编辑

基于生物体内广泛存在的CNVs延伸现象,可推得各基因的CNVs应存在末端,具体为相应基因中的某段序列下游连接着部分SINE(Alu)序列,由不同的套索-部分SINE(Alu)序列(双链DNA)不断插入于CNV末端中的部分SINE序列前,逐渐延伸CNV。由于需要将外显子从pre-mRNA中切下,内含子的末端必定形成套索,且与其相交叠的含有外显子的套索产生概率较低,因此,对于表达量相对较低的基因,必定存在一个相对较长的时期,CNV末端位于基因中内含子的末端并与部分SINE(Alu)序列相连。

本实施例随机选取BRCA1基因中一内含子的3′序列,并将其选为下一个实施例中的待删除序列;所述BRCA1基因内含子的3′序列如Seq ID No.39所示:

按照待删除序列的3′端序列+随机设计的与BRCA1基因非同源的序列+部分Alu序列的顺序构建序列,并在两端添加NheI酶切位点及保护碱基,构建序列。

由于使Alu元件转录产物产生仅含部分Alu序列的RNA的自然剪切位点在不同文献中报道有所差异,为防止与CNV末端中的部分Alu序列不匹配导致无法插入,三种可能的部分Alu序列均被合成和导入(区别在于其5′端序列不同),构建序列如Seq ID No.40、Seq IDNo.41、Seq ID No.42所示。

Seq ID No.40序列为:

Seq ID No.41序列为:

Seq ID No.42序列为:

另设计不包含非同源序列(与BRCA1基因非同源的序列)的序列,如Seq ID No.43、Seq ID No.44和Seq ID No.45所示。

Seq ID No.43序列为:

Seq ID No.44序列为:

Seq ID No.45序列为:

将BRCA1-1-Alu3、BRCA1-1-Alu4、BRCA1-1-Alu5、BRCA1-2-Alu3、 BRCA1-2-Alu4、BRCA1-2-Alu5分别插入到pBS-L1PA1-CH-mneo中,构建 pBS-L1PA1-CH-mneo-BRCA1-1-Alu3、pBS-L1PA1-CH-mneo-BRCA1-1-Alu4、 pBS-L1PA1-CH-mneo-BRCA1-1-Alu5、pBS-L1PA1-CH-mneo-BRCA1-2-Alu3、 pBS-L1PA1-CH-mneo-BRCA1-2-Alu4和pBS-L1PA1-CH-mneo-BRCA1-2-Alu5,具体过程为:

将BRCA1-1-Alu3、BRCA1-1-Alu4、BRCA1-1-Alu5、BRCA1-2-Alu3、 BRCA1-2-Alu4、BRCA1-2-Alu5和pBS-L1PA1-CH-mneo分别进行酶切,反应体系如表39所示

表39酶切反应体系

反应条件为:37℃下孵育1h后,然后升温到65℃温育20min使内切酶失活,电泳,回收酶切产物。

将酶切后的BRCA1-1-Alu3、BRCA1-1-Alu4、BRCA1-1-Alu5、 BRCA1-2-Alu3、BRCA1-2-Alu4、BRCA1-2-Alu5分别与酶切成线性的质粒载体 pBS-L1PA1-CH-mneo进行连接,反应体系如表40所示:

表40连接反应体系

反应条件为:16℃孵育16h,然后升温至70℃温育10min灭活连接酶,电泳、纯化得到质粒pBS-L1PA1-CH-mneo-BRCA1-1-Alu3、 pBS-L1PA1-CH-mneo-BRCA1-1-Alu4、pBS-L1PA1-CH-mneo-BRCA1-1-Alu5、 pBS-L1PA1-CH-mneo-BRCA1-2-Alu3、pBS-L1PA1-CH-mneo-BRCA1-2-Alu4和 pBS-L1PA1-CH-mneo-BRCA1-2-Alu5。质粒经测序验证正确。

实验分组:将共转染pBS-L1PA1-CH-mneo-BRCA1-1-Alu3、 pBS-L1PA1-CH-mneo-BRCA1-1-Alu4和pBS-L1PA1-CH-mneo-BRCA1-1-Alu5质粒的组设为实验15组;将共转染pBS-L1PA1-CH-mneo-BRCA1-2-Alu3、 pBS-L1PA1-CH-mneo-BRCA1-2-Alu4和pBS-L1PA1-CH-mneo-BRCA1-2-Alu5质粒的组为对照8组。每组设3个平行,每个平行均为一个培养有Hela细胞的6 孔板。

转染步骤为:将Hela细胞传代并铺于6孔板。传代次日,应用 Entranster-H4000转染试剂进行转染。对于每板细胞的转染,取96μg(每种质粒各32μg)构建好的质粒用300μL的无血清DMEM稀释,充分混匀;同时取 120μL的Entranster-H4000试剂用300μL的无血清DMEM稀释,充分混匀后,室温静置5min。之后将制备好的两种液体混合并充分混匀并室温静置15min,制成转染复合物。将转染复合物加入到每孔含2ml含10%胎牛血清的DMEM培养液进行转染。待细胞长至90%左右融合时传代,传代后重复上述操作,细胞长至90%左右融合后取材进行后续操作。

提取转染后细胞DNA:吸去细胞培养基后,用PBS冲洗两遍细胞后,加入适量0.25%胰蛋白酶进行消化,在37℃下共消化20min,每5min进行15次吹打。当细胞悬浮后,加入含有血清的完全培养基终止反应。此后按照血液/ 细胞/组织基因组DNA提取试剂盒的产品说明书进行细胞DNA的提取,紫外分光光度计测定DNA浓度。

qPCR检测:

由于GAPDH基因不含有Alu序列,拷贝数稳定,因此将GAPDH基因作为内参基因。

检测GAPDH基因的上游引物序列如Seq ID No.7所示;下游引物序列如 Seq IDNo.8所示。

使用引物对9,其上游引物序列如Seq ID No.46所示: 5′-CCCCTTTATCTCCTTCTG-3′;下游引物序列如Seq ID No.47所示: 5′-ATTTCTCCCATTCCACTT-3′。引物对9的上游引物序列位于完整BRCA1 基因中的质粒上待删除序列的3′端序列的下游序列,不存在于质粒中,仅存于基因组上,引物对9的下游引物序列位于完整BRCA1基因中的质粒上待删除序列的3′端序列的下游,不存在于质粒中,仅存于基因组上。上述引物均通过化学合成获得。

qPCR反应体系如表41所示。

表41 qPCR反应体系

细胞DNA模板分别为前述共转染后的对照8组和实验15组中提取的DNA。

上述反应体系在冰上配制,配制好后盖上反应管,轻柔混匀后短暂离心,以确保所有组分均位于管底。每个6孔板细胞样本同时进行3次重复。

qPCR反应循环:

引物对9:95℃预变性15min;(95℃变性10s,46℃退火20s,72℃延伸 20s)40个循环。GAPDH引物按照相同条件进行反应。

观察GAPDH和检测待删除序列的3′端序列的下游序列插入的扩增曲线中的指数增长期,确认近似平行后,通过2

表42引物对9的结果(n=3,

实验15组的拷贝数相对量低于对照8组,具有统计学意义(P<0.05),意味着在实验15组中CNV末端的基因部分在相应完整基因中的下游序列的拷贝数更少,说明非同源序列插入至CNV末端阻碍了CNV末端的基因部分向下游延伸。

结论:可见在CNV末端中的非同源序列的插入阻碍了相应CNV的延伸。

实施例12对CNV末端进行裁剪

选取BRCA1基因其中一内含子的3′序列(位于实施例11中Seq ID No.39),按照待删除序列的3′端序列+非同源序列+待删除序列5′端紧邻的上游序列+部分Alu序列的顺序合成序列并在两端添加NheI酶切位点及保护碱基,序列如 Seq ID No.48、Seq ID No.49和Seq ID No.50所示。

Seq ID No.48序列为:

Seq ID No.49序列为:

Seq ID No.50序列为:

将BRCA1-3-Alu3、BRCA1-3-Alu4和BRCA1-3-Alu5分别插入到 pBS-L1PA1-CH-mneo中,构建pBS-L1PA1-CH-mneo-BRCA1-3-Alu3、 pBS-L1PA1-CH-mneo-BRCA1-3-Alu4和pBS-L1PA1-CH-mneo-BRCA1-3-Alu5,具体过程为:

将BRCA1-3-Alu3、BRCA1-3-Alu4、BRCA1-3-Alu5和 pBS-L1PA1-CH-mneo分别进行酶切,反应体系如表43所示

表43酶切反应体系

反应条件为:37℃下孵育1h后,然后升温到65℃温育20min使内切酶失活,电泳,回收酶切产物。

将酶切后的BRCA1-3-Alu3、BRCA1-3-Alu4和BRCA1-3-Alu5分别与酶切成线性的质粒载体pBS-L1PA1-CH-mneo进行连接,反应体系如表44所示:

表44连接反应体系

反应条件为:16℃孵育16h,然后升温至70℃温育10min灭活连接酶,电泳、纯化得到质粒pBS-L1PA1-CH-mneo-BRCA1-3-Alu3、 pBS-L1PA1-CH-mneo-BRCA1-3-Alu4和pBS-L1PA1-CH-mneo-BRCA1-3-Alu5。质粒经测序验证正确。

实验分组:将共转染pBS-L1PA1-CH-mneo-BRCA1-3-Alu3、 pBS-L1PA1-CH-mneo-BRCA1-3-Alu4、pBS-L1PA1-CH-mneo-BRCA1-3-Alu5质粒的组设为实验16组;将共转染pBS-L1PA1-CH-mneo-BRCA1-1-Alu3、 pBS-L1PA1-CH-mneo-BRCA1-1-Alu4和pBS-L1PA1-CH-mneo-BRCA1-1-Alu5质粒的组为对照9组。每组设3个平行,每个平行均为一个培养有Hela细胞的6 孔板。

转染步骤为:将Hela细胞传代并铺于6孔板。传代次日,应用 Entranster-H4000转染试剂进行转染。对于每板细胞的转染,取96μg(每种质粒各32μg)构建好的质粒用300μL的无血清DMEM稀释,充分混匀;同时取 120μL的Entranster-H4000试剂用300μL的无血清DMEM稀释,充分混匀后,室温静置5min。之后将制备好的两种液体混合并充分混匀并室温静置15min,制成转染复合物。将转染复合物加入到每孔含2ml含10%胎牛血清的DMEM培养液进行转染。待细胞长至90%左右融合时传代,传代后重复上述操作,细胞长至90%左右融合后取材进行后续操作。

提取转染后细胞DNA:吸去细胞培养基后,用PBS冲洗两遍细胞后,加入适量0.25%胰蛋白酶进行消化,在37℃下共消化20min,每5min进行15次吹打。当细胞悬浮后,加入含有血清的完全培养基终止反应。此后按照血液/ 细胞/组织基因组DNA提取试剂盒的产品说明书进行细胞DNA的提取,紫外分光光度计测定DNA浓度。

qPCR检测:

由于GAPDH基因不含有Alu序列,拷贝数稳定,因此将GAPDH基因作为内参基因。

检测GAPDH基因的上游引物序列如Seq ID No.7所示;下游引物序列如 Seq IDNo.8所示。

使用引物对10,其上游引物序列如Seq ID No.51所示: 5′-GCTTTCTCAGGGCTCTTT-3′;下游引物序列如Seq ID No.52所示: 5′-GCACCATCTCGGCTCACT-3′。引物对10的上游引物序列位于位于预期删除序列(待删除序列)上,不存在于质粒中,仅存于基因组上,引物对10的下游引物序列位于预期删除序列(待删除序列)上,不存在于质粒中,仅存于基因组上。上述引物均通过化学合成获得。

qPCR反应体系如表45所示。

表45 qPCR反应体系

细胞DNA模板分别为前述共转染后的对照9组、实验16组中提取的DNA。

上述反应体系在冰上配制,配制好后盖上反应管,轻柔混匀后短暂离心,以确保所有组分均位于管底。每个6孔板细胞样本同时进行3次重复。

qPCR反应循环:

引物对10:95℃预变性15min;(95℃变性10s,49℃退火20s,72℃延伸20s)40个循环。GAPDH引物按照相同条件进行反应。

观察GAPDH和检测待删除序列的扩增曲线中的指数增长期,确认近似平行后,通过2

表46引物对10的结果(n=3,

实验16组的拷贝数相对量低于对照9组,具有统计学意义(P<0.05),说明待删除序列被删除,CNV末端基因部分序列在实验16组中有所减少。

从实施例11可知可通过在CNV末端插入非同源序列以阻碍其继续延伸;而实施例12可见CNV末端的基因部分序列在实验组中明显少于对照组,说明 CNV末端被裁剪并提前,证明了可以通过本发明中的相关方法对CNV末端进行修改。因此亦可通过改变编辑方法中的插入点上游的引导序列(即靶位点上游序列)(当对CNV末端进行编辑时与CNV末端的基因部分序列相同),对多种或所有的CNVs进行修改。

实施例13 CNV末端裁剪后的相应基因表达改变

对实施例12中实验16组及对照9组提取细胞总RNA:

具体过程为:取其中经转染后的细胞吸去细胞培养基后,用PBS冲洗两遍细胞后,加入适量0.25%胰蛋白酶进行消化,在37℃下共消化20min,每5min 进行15次吹打。当细胞悬浮后,加入含有血清的完全培养基终止反应。将含有细胞的溶液转移至RNase-Free的离心管中,300g离心5min后,收集沉淀并吸去所有上清液。按照磁珠法组织/细胞/血液总RNA提取试剂盒的说明书进行总RNA提取。

在总RNA中提取mRNA:

紫外分光光度计检测之前提取的总RNA浓度,并取1000ng总RNA用不含核酸酶的ddH

逆转录合成cDNA模板:

按照FastKing cDNA第一链合成试剂盒的说明书进行cDNA的合成,紫外分光光度计测定所合成cDNA的浓度,待后续检测。

qPCR检测:

由于GAPDH基因在各组织中表达相对稳定,因此将GAPDH基因作为内参基因。

检测GAPDH基因表达的上游引物序列如Seq ID No.7所示;下游引物序列如Seq IDNo.8所示。

使用引物对11,其上游引物序列如Seq ID No.53所示: 5′-CAGAGGACAATGGCTTCCATG-3′;下游引物序列如Seq ID No.54所示: 5′-CTACACTGTCCAACACCCACTCTC-3′。引物对11的上游引物序列位于 BRCA1基因上,不存在于质粒中,仅存于基因组上,引物对11的下游引物序列位于BRCA1基因上,不存在于质粒中,仅存于基因组上。上述引物均通过化学合成获得。

qPCR反应体系如表47所示。

表47 qPCR反应体系

细胞DNA模板分别为前述共转染后的对照9组和实验16组中提取的 mRNA合成的cDNA。

上述反应体系在冰上配制,配制好后盖上反应管,轻柔混匀后短暂离心,以确保所有组分均位于管底。每个6孔板细胞样本同时进行3次重复。

qPCR反应循环:

引物对11:95℃预变性15min;(95℃变性10s,55℃退火20s,72℃延伸20s)40个循环。GAPDH引物按照相同条件进行反应。

观察检测GAPDH和BRCA1表达的扩增曲线中的指数增长期,确认近似平行后,通过2

表48引物对11的结果(n=3,

实验16组BRCA1基因的相对表达量低于对照9组,具有统计学意义(P <0.05),说明BRCA1基因的CNV末端裁剪导致了其表达的降低。

结论:可见BRCA1基因表达有所减少,说明对其CNV进行编辑后的确影响了相应基因的转录,进而可影响蛋白表达及细胞、组织或活体状态。

从实施例11至13可以看出,基于本发明可以对CNV末端进行固定、延伸及裁剪,并同时影响细胞的基因转录以及蛋白表达。此外,CNVs也随胚胎及个体发育和肿瘤发生等生理过程变化并在不同细胞、组织和个体中有所差异,因此对CNVs进行编辑也可改变相应的细胞、组织及活体状态。

从上述实施例可以看出,本发明利用广泛存在于真核生物中的逆转座子及其逆转录功能对基因组进行编辑,其中所涉及的SINE、LINE序列及相关的蛋白质均广泛存在于正常的生物体中,在不产生双链断裂的前提下,进行较为准确的靶向序列识别和剪切,将目的片段整合入基因组,并可由此对相应片段进行删减和替换。因不产生双链断裂,无需担心基因组双链DNA断裂的危险和非预期随机序列的引入。以SINE中的Alu序列及其功能对应的LINE中的 LINE-1为例,Alu和LINE-1广泛分布于灵长类动物的基因组中,在具体实施中,待插入序列依靠载体上待插入序列两侧的序列(靶位点上游序列和靶位点下游序列)定位于基因组上的待插入位点(靶位点),且ORF2p只有在靶位点上游序列完全匹配的条件下才可从其载体核酸的3′端顺利滑至剪切位点进行基因组上的单链剪切,这极大的提高了其靶向的准确性,避免了非预期剪切的发生,其靶向准确性理论上高于目前存在的基因编辑技术。此外尚可通过在体外产生所需的RNA及ORF1p和ORF2p等相应蛋白,在不引入DNA片段和转染非必需入核的条件下,通过RNA或RNP途径对目的序列、基因及基因组进行修改。借助ORF1p(及ORF2p)的核定位功能,转染入细胞的RNA和蛋白质可被引导至核内,有利于对因载体难以入核而难以操作的细胞进行编辑。同时,通过本发明还可对基因组上的CNVs进行编辑,使其增加、减少或稳定不变(无法继续改变),因CNVs可直接影响蛋白质表达等,对CNVs的操作可改变或稳定相应细胞的表达及状态。由于与Alu及LINE-1同源及功能近似的各类SINE 和LINE如各类MIR及LINE-2等广泛分布于真核生物中,因此本发明亦可应用于适宜的其他真核生物体系。

有别于其他的基因编辑技术,本发明中所采用的相关机制均存在于正常生物体体内,无需引入外来机制及系统,减少对待进行基因编辑的接受体系的影响。由于不引入外来体系如源自原核生物的蛋白质等,且不产生双链断裂,本发明相较于目前已有的基因编辑技术更易应用于临床。

SEQUENCE LISTING

<110> 彭双红

<120> 基因转录框架、载体系统、基因组序列编辑方法及应用

<130> DOME

<160> 54

<170> PatentIn version 3.3

<210> 1

<211> 333

<212> DNA

<213> 人工序列

<400> 1

gggccgggcg cggtggctca cgcctgtaat cccagcactt tgggaggccg aggcgggcgg 60

atcacgaggt caggagatcg agaccatccc ggctaaaacg gtgaaacccc gtctctacta 120

aaaatacaaa aaattagccg ggcgtggtgg cgggcgcctg tagtcccagc tactcgggag 180

gctgaggcag gagaatggcg tgaacccggg aggcggagct tgcagtgagc cgagatcacg 240

ccgctgcact ccaccctggg cgacagagcg agactccgtc tcaaaaaaaa aaaaaaaaaa 300

aaaaaaaaaa aagattaata actgctggag atc 333

<210> 2

<211> 217

<212> DNA

<213> 人工序列

<400> 2

actaaaaata caaaaaatta gccgggcgtg gtggcgggcg cctgtagtcc cagctactcg 60

ggaggctgag gcaggagaat ggcgtgaacc cgggaggcgg agcttgcagt gagccgagat 120

cacgccgctg cactccaccc tgggcgacag agcgagactc cgtctcaaaa aaaaaaaaaa 180

aaaaaaaaaa aaaaaagatt aataactgct ggagatc 217

<210> 3

<211> 459

<212> DNA

<213> 人工序列

<400> 3

attatgcgga tcaaacctca ccaaggccag cacataggag agatgagctt cctacagcac 60

aacaaatgtg aatgcaggtg aggatgtagt cacggattca ttatcagcaa gtggctgcag 120

ggtgcctgat ctgtgccagg gttaagcatg ctgtactttt tggcccccgt ccagcttccc 180

gctatgtgac ctttggcatt ttacttcaat gtgcctcagt ttctacatct gtaaaatggg 240

cacaatagta gtatacttca tagcattgtt ataatgatta aacaagttat atatgaaaag 300

attaaaacag tgttgctcca taataaatgc tgtttttact gtgattatta ttgttgttat 360

ccctatcatt atcatcacca tcttaaccct tccctgtttt gctcttttct ctctccctac 420

ccattgcaga ccaaagaaag atagagcaag acaagaaaa 459

<210> 4

<211> 521

<212> DNA

<213> 人工序列

<400> 4

ctagctagct agattatgcg gatcaaacct caccaaggcc agcacatagg agagatgagc 60

ttcctacagc acaacaaatg tgaatgcagg tgaggatgta gtcacggatt cattatcagc 120

aagtggctgc agggtgcctg atctgtgcca gggttaagca tgctgtactt tttggccccc 180

gtccagcttc ccgctatgtg acctttggca ttttacttca atgtgcctca gtttctacat 240

ctgtaaaatg ggcacgctac ggaataagag gaggccacaa cagtcgtggg tcgaatagta 300

gtatacttca tagcattgtt ataatgatta aacaagttat atatgaaaag attaaaacag 360

tgttgctcca taataaatgc tgtttttact gtgattatta ttgttgttat ccctatcatt 420

atcatcacca tcttaaccct tccctgtttt gctcttttct ctctccctac ccattgcaga 480

ccaaagaaag atagagcaag acaagaaaac tagctagcta g 521

<210> 5

<211> 82

<212> DNA

<213> 人工序列

<400> 5

ctagctagct agaaatgggc acgctacgga ataagaggag gccacaacag tcgtgggtcg 60

aatagtagta ctagctagct ag 82

<210> 6

<211> 456

<212> DNA

<213> 人工序列

<400> 6

acgcgtcgac gtcggccata gcggccgcgg aagggccggg cgcggtggct cacgcctgta 60

atcccagcac tttgggaggc cgaggcgggc ggatcacgag gtcaggagat cgagaccatc 120

ccggctaaaa cggtgaaacc ccgtctctac taaaaataca aaaaattagc cgggcgtggt 180

ggcgggcgcc tgtagtccca gctactcggg aggctgaggc aggagaatgg cgtgaacccg 240

ggaggcggag cttgcagtga gccgagatca cgccgctgca ctccaccctg ggcgacagag 300

cgagactccg tctcaaaaaa aaaaaaaaaa aaaaaaaaaa aaaagattaa taactgctgg 360

agatcctatc aggcgagccc gtattttttt ttaattttaa ttttaatttt aattttaatt 420

ttaaacgcgt cgacgtcggc catagcggcc gcggaa 456

<210> 7

<211> 20

<212> DNA

<213> 人工序列

<400> 7

cactgccacc cagaagactg 20

<210> 8

<211> 20

<212> DNA

<213> 人工序列

<400> 8

cctgcttcac caccttcttg 20

<210> 9

<211> 18

<212> DNA

<213> 人工序列

<400> 9

cccagggttg tcccatct 18

<210> 10

<211> 19

<212> DNA

<213> 人工序列

<400> 10

cctcctctta ttccgtagc 19

<210> 11

<211> 18

<212> DNA

<213> 人工序列

<400> 11

cacaacagtc gtgggtcg 18

<210> 12

<211> 22

<212> DNA

<213> 人工序列

<400> 12

gagggagaag tgctaaagtc ag 22

<210> 13

<211> 18

<212> DNA

<213> 人工序列

<400> 13

tacgggctcg cctgatag 18

<210> 14

<211> 479

<212> DNA

<213> 人工序列

<400> 14

agcatggcga tggatacccc tttgacggta aggacggact cctggctcat gccttcgccc 60

caggcactgg tgttggggga gactcccatt ttgatgacga tgagctatgg accttgggag 120

aaggccaagg tgagaaaggg gccctctgca tgccccagac cttctctcct gtcctctctc 180

cactccattt gcttggacca gagaggtggg aggggaggaa agtcacacat ctgggtgagt 240

cagaatcttg gtctccaaag aaggcctgga gaagtccaac ctcccccttc catgtcactc 300

tttagtggtc cgtgtgaagt atgggaacgc cgatggggag tactgcaagt tccccttctt 360

gttcaatggc aaggagtaca acagctgcac tgataccggc cgcagcgatg gcttcctctg 420

gtgctccacc acctacaact ttgagaagga tggcaagtac ggcttctgtc cccatgaag 479

<210> 15

<211> 606

<212> DNA

<213> 人工序列

<400> 15

ctagctagct agagcatggc gatggatacc cctttgacgg taaggacgga ctcctggctc 60

atgccttcgc cccaggcact ggtgttgggg gagactccca ttttgatgac gatgagctat 120

ggaccttggg agaaggccaa ggtgagaaag gggccctctg catgccccag accttctctc 180

ctgtcctctc tccactccat ttgcttggac cagagagcct gtgggccttg ctcagagcgg 240

agaaagcatg gcataatgat gtggctgttt tgtttgtaca agatccgcag acgtgtaaat 300

gttcctgcaa aaacacagac gtgggagggg aggaaagtca cacatctggg tgagtcagaa 360

tcttggtctc caaagaaggc ctggagaagt ccaacctccc ccttccatgt cactctttag 420

tggtccgtgt gaagtatggg aacgccgatg gggagtactg caagttcccc ttcttgttca 480

atggcaagga gtacaacagc tgcactgata ccggccgcag cgatggcttc ctctggtgct 540

ccaccaccta caactttgag aaggatggca agtacggctt ctgtccccat gaagctagct 600

agctag 606

<210> 16

<211> 147

<212> DNA

<213> 人工序列

<400> 16

ctagctagct aggaccagag agcctgtggg ccttgctcag agcggagaaa gcatggcata 60

atgatgtggc tgttttgttt gtacaagatc cgcagacgtg taaatgttcc tgcaaaaaca 120

cagacgtggg aggggctagc tagctag 147

<210> 17

<211> 456

<212> DNA

<213> 人工序列

<400> 17

acgcgtcgac gtcggccata gcggccgcgg aagggccggg cgcggtggct cacgcctgta 60

atcccagcac tttgggaggc cgaggcgggc ggatcacgag gtcaggagat cgagaccatc 120

ccggctaaaa cggtgaaacc ccgtctctac taaaaataca aaaaattagc cgggcgtggt 180

ggcgggcgcc tgtagtccca gctactcggg aggctgaggc aggagaatgg cgtgaacccg 240

ggaggcggag cttgcagtga gccgagatca cgccgctgca ctccaccctg ggcgacagag 300

cgagactccg tctcaaaaaa aaaaaaaaaa aaaaaaaaaa aaaagattaa taactgctgg 360

agatccaaga gcgagccaac agattttttt ttaattttaa ttttaatttt aattttaatt 420

ttaaacgcgt cgacgtcggc catagcggcc gcggaa 456

<210> 18

<211> 18

<212> DNA

<213> 人工序列

<400> 18

tttcagggtc taggtggc 18

<210> 19

<211> 18

<212> DNA

<213> 人工序列

<400> 19

aaatgctttc tccgctct 18

<210> 20

<211> 20

<212> DNA

<213> 人工序列

<400> 20

ggcataatga tgtggctgtt 20

<210> 21

<211> 18

<212> DNA

<213> 人工序列

<400> 21

tctgttggct cgctcttg 18

<210> 22

<211> 606

<212> DNA

<213> 人工序列

<400> 22

ctagctagct agagcatggc gatggatacc cctttgacgg taaggacgga ctcctggctc 60

atgccttcgc cccaggcact ggtgttgggg gagactccca ttttgatgac gatgagctat 120

ggaccttggg agaaggccaa ggtgagaaag gggccctctg catgccccag accttctctc 180

ctgtcctctc tccactccat ttgcttgcga tgaagagcct gtgggccttg ctcagagcgg 240

agaaagcatg gcataatgat gtggctgttt tgtttgtaca agatccgcag acgtgtaaat 300

gttcctgcaa aaacacagac gtgggagggg aggaaagtca cacatctggg tgagtcagaa 360

tcttggtctc caaagaaggc ctggagaagt ccaacctccc ccttccatgt cactctttag 420

tggtccgtgt gaagtatggg aacgccgatg gggagtactg caagttcccc ttcttgttca 480

atggcaagga gtacaacagc tgcactgata ccggccgcag cgatggcttc ctctggtgct 540

ccaccaccta caactttgag aaggatggca agtacggctt ctgtccccat gaagctagct 600

agctag 606

<210> 23

<211> 160

<212> DNA

<213> 人工序列

<400> 23

atgctattca taatcacatt cgtttgtttg aacctcttgt tataaaagct ttaaaacagt 60

acacgactac aacatgtgtg cagttacaga agcaggtttt agatttgctg gcgcagctgg 120

ttcagttacg ggttaattac tgtcttctgg attcagatca 160

<210> 24

<211> 461

<212> DNA

<213> 人工序列

<400> 24

ctagctagct agatgctatt cataatcaca ttcgtttgtt tgaacctctt gttataaaag 60

ctttaaaaca gtacacgact acaacatgtg tgcagttaca ggaagttcat ggatgtctat 120

cagcgcagct actgccatcc aatcgagacc ctggtggaca taagcaggtt ttagatttgc 180

tggcgcagct ggttcagtta cgggttaatt actgtcttct ggattcagat caactaaaaa 240

tacaaaaaat tagccgggcg tggtggcggg cgcctgtagt cccagctact cgggaggctg 300

aggcaggaga atggcgtgaa cccgggaggc ggagcttgca gtgagccgag atcacgccgc 360

tgcactccac cctgggcgac agagcgagac tccgtctcaa aaaaaaaaaa aaaaaaaaaa 420

aaaaaaaaga ttaataactg ctggagatcc tagctagcta g 461

<210> 25

<211> 20

<212> DNA

<213> 人工序列

<400> 25

gaaattggtt tgagcaggag 20

<210> 26

<211> 18

<212> DNA

<213> 人工序列

<400> 26

cgattggatg gcagtagc 18

<210> 27

<211> 461

<212> DNA

<213> 人工序列

<400> 27

ctagctagct agatgctatt cataatcaca ttcgtttgtt tgaacctctt gttataaaag 60

ctttaaaaca gtacacgact acaacaggac atcagttaca ggaagttcat ggatgtctat 120

cagcgcagct actgccatcc aatcgagacc ctggtggaca taagcaggtt ttagatttgc 180

tggcgcagct ggttcagtta cgggttaatt actgtcttct ggattcagat caactaaaaa 240

tacaaaaaat tagccgggcg tggtggcggg cgcctgtagt cccagctact cgggaggctg 300

aggcaggaga atggcgtgaa cccgggaggc ggagcttgca gtgagccgag atcacgccgc 360

tgcactccac cctgggcgac agagcgagac tccgtctcaa aaaaaaaaaa aaaaaaaaaa 420

aaaaaaaaga ttaataactg ctggagatcc tagctagcta g 461

<210> 28

<211> 1148

<212> DNA

<213> 人工序列

<400> 28

agagaatgag gggccccttt ttctctctgg tggctcaggc ccaactccct tcctactggg 60

gaggctcact ccctcccctt tcccctctcc ccctggaatg ccctgcctcc tgctgaaaat 120

ccctcaggaa gctcttcacc tgtcacctgt tacgggccag gtgctctgca ggttgctctg 180

gggagatggg atctgatggc cctcctgcct gggatgctgt ccgtgatcct tttacctggg 240

tttttctcta agatgctgga agatggaatc gggttcttca ggatggtggt ggggtaaagg 300

agggtgctgg ggtgtctggg tcgggccagg accacagctg gctcaggcaa gtcctgtgtg 360

tgcacgcagg gatgtgaggc aagggagcag aggtgactcc ccacactgac ccctccctct 420

gtgtcttcac agtggatttt ggggtgagtg ctcagctgga ccgcaccgtg ggcagacgga 480

acactttcat tgggactccc tactggatgg ctccagaggt catcgcctgt gatgagaacc 540

ctgatgccac ctatgattac agggtatgga gtggaaagtt gggagcatgg gggctgccaa 600

gggcgggaag caatatgggg accacggggc ctgagcaggc tggggaacag aggaaggtca 660

gatgatgtta gcagtgaggg gctggggaac atcttacggc aaggcaagtg tgggtgggaa 720

gatgggatgg gttggaaggc actgctgcag gaatgggtgt ggcccaggaa ggctcctgag 780

aggccaggat ggtgggtgaa gagaggttgc agggcagagt tgtcaggaat attcacttgt 840

tccttctttc ccgtctatag agtgatattt ggtctctagg aatcacagcc atcgagatgg 900

cagagggagc cccccgtaag ttctgagtct gccgggagtg ggaggggagg gaaaggaagg 960

gcccagagag tggctgtagg gaggaggtgg gtcctgggac cctgccgagg aagggtcctg 1020

tagctcccag tgcagtgaaa gggactgagg gtgtctcctc tgtgtccagc tctgtgtgac 1080

atgcacccca tgcgagccct cttcctcatt cctcggaacc ctccgcccag gctcaagtcc 1140

aagaagtg 1148

<210> 29

<211> 492

<212> DNA

<213> 人工序列

<400> 29

ctagctagct agagtgatat ttggtctcta ggaatcacag ccatcgagat ggcagaggga 60

gccccccgta agttctgagt ctgccagaga atgaggggcc cctttttctc tctggtggct 120

caggcccaac tcccttccta ctggggaggc tcactccctc ccctttcccc tctccccctg 180

gaatgccctg cctcctgctg aaaatccctc aggaagctct tcacctgtca cctgttacgg 240

gccaggtgct ctgcaggttg ctctggggag tgggagggga gggaaaggaa gggcccagag 300

agtggctgta gggaggaggt gggtcctggg accctgccga ggaagggtcc tgtagctccc 360

agtgcagtga aagggactga gggtgtctcc tctgtgtcca gctctgtgtg acatgcaccc 420

catgcgagcc ctcttcctca ttcctcggaa ccctccgccc aggctcaagt ccaagaagtg 480

ctagctagct ag 492

<210> 30

<211> 492

<212> DNA

<213> 人工序列

<400> 30

ctagctagct agagtgatat ttggtctcta ggaatcacag ccatcgagat ggcagaggga 60

gccccccgta agttctgagt ctgcccattg ttataatgat taaacaagtt atatatgaaa 120

agattaaaac agtgttgctc cataataaat gctgttttta ctgtgattat tattgttgtt 180

atccctatca ttatcatcac catcttaacc cttccctgtt ttgctctttt ctctctccct 240

acccattgca gaccaaagaa agatagggag tgggagggga gggaaaggaa gggcccagag 300

agtggctgta gggaggaggt gggtcctggg accctgccga ggaagggtcc tgtagctccc 360

agtgcagtga aagggactga gggtgtctcc tctgtgtcca gctctgtgtg acatgcaccc 420

catgcgagcc ctcttcctca ttcctcggaa ccctccgccc aggctcaagt ccaagaagtg 480

ctagctagct ag 492

<210> 31

<211> 20

<212> DNA

<213> 人工序列

<400> 31

acagggtatg gagtggaaag 20

<210> 32

<211> 20

<212> DNA

<213> 人工序列

<400> 32

atagacggga aagaaggaac 20

<210> 33

<211> 806

<212> DNA

<213> 人工序列

<400> 33

acttgctgag tacccaagga aagtgtgctt gtatttatgg gcgtctattt tcagagcact 60

aattattgct gaattagaac agaaatatag gaaaactgat ttttacaagg agcttcaaag 120

caatctcagg tagtttctga ttatgtatct ctgcctacct cggggtacat agacagggtt 180

acaatttggt tgaggatata tgacatgtgg tttttaaaga cacctagggg cattttaaga 240

aaatttcctc gatatctgaa aatctgtaga tttcaaaatt atgttaatca tgaaatattc 300

tgtgttgtaa tttttgtgta ggtgtattcc agagcaaatg aaaaagagcc ttgctgttgg 360

tggttagcta aagtgaggat gataaagggt gaggtaggaa aatgcctatt taaatttttt 420

tcttatattg tttccttttt ttaaacccag gttgtacatt cccgtgtgga tttctatttt 480

gaagtaatat ctaattttga gtaatttaat taaaatgttt tcactatgtg ttcagtatgt 540

ttctgttggt cataaatttt ttcacataga ttatttattt taaaataact gaatagggag 600

aacttcttat tcttacttta aaaattgtga ttagaagtga cttttattta tttctcagtt 660

ttatgtgata gaatatgcag catgtgatgc aacttacaat gaaattgtca caattgaacg 720

tctaagatct gttaatccca acaaacctgc cacaaaagat actttccata agatcaagct 780

ggatgtgcca gaagacttac ggcaaa 806

<210> 34

<211> 488

<212> DNA

<213> 人工序列

<400> 34

ctagctagct agtttatgtg atagaatatg cagcatgtga tgcaacttac aatgaaattg 60

tcacaattga acgtctaaga tctgttaatc ccaacaaacc tgccacaaaa gacttgctga 120

gtacccaagg aaagtgtgct tgtatttatg ggcgtctatt ttcagagcac taattattgc 180

tgaattagaa cagaaatata ggaaaactga tatactttcc ataagatcaa gctggatgtg 240

ccagaagact tacggcaaaa ctaaaaatac aaaaaattag ccgggcgtgg tggcgggcgc 300

ctgtagtccc agctactcgg gaggctgagg caggagaatg gcgtgaaccc gggaggcgga 360

gcttgcagtg agccgagatc acgccgctgc actccaccct gggcgacaga gcgagactcc 420

gtctcaaaaa aaaaaaaaaa aaaaaaaaaa aaaaagatta ataactgctg gagatcctag 480

ctagctag 488

<210> 35

<211> 488

<212> DNA

<213> 人工序列

<400> 35

ctagctagct agtttatgtg atagaatatg cagcatgtga tgcaacttac aatgaaattg 60

tcacaattga acgtctaaga tctgttaatc ccaacaaacc tgccacaaaa gagtgttgct 120

ccataataaa tgctgttttt actgtgatta ttattgttgt tatccctatc attatcatca 180

ccatcttaac ccttccctgt tttgctcttt tatactttcc ataagatcaa gctggatgtg 240

ccagaagact tacggcaaaa ctaaaaatac aaaaaattag ccgggcgtgg tggcgggcgc 300

ctgtagtccc agctactcgg gaggctgagg caggagaatg gcgtgaaccc gggaggcgga 360

gcttgcagtg agccgagatc acgccgctgc actccaccct gggcgacaga gcgagactcc 420

gtctcaaaaa aaaaaaaaaa aaaaaaaaaa aaaaagatta ataactgctg gagatcctag 480

ctagctag 488

<210> 36

<211> 18

<212> DNA

<213> 人工序列

<400> 36

acagggttac aatttggt 18

<210> 37

<211> 19

<212> DNA

<213> 人工序列

<400> 37

catttgctct ggaatacac 19

<210> 38

<211> 461

<212> DNA

<213> 人工序列

<400> 38

ctagctagct agatgctatt cataatcaca ttcgtttgtt tgaacctctt gttataaaag 60

ctttaaaaca gtacacgact acgaagttca tggatgtcta tcagcgcagc tactgccatc 120

caatcgagac cctggtggac ataacatgtg tgcagttaca gaagcaggtt ttagatttgc 180

tggcgcagct ggttcagtta cgggttaatt actgtcttct ggattcagat caactaaaaa 240

tacaaaaaat tagccgggcg tggtggcggg cgcctgtagt cccagctact cgggaggctg 300

aggcaggaga atggcgtgaa cccgggaggc ggagcttgca gtgagccgag atcacgccgc 360

tgcactccac cctgggcgac agagcgagac tccgtctcaa aaaaaaaaaa aaaaaaaaaa 420

aaaaaaaaga ttaataactg ctggagatcc tagctagcta g 461

<210> 39

<211> 1425

<212> DNA

<213> 人工序列

<400> 39

cccagctact tgagaggctg aggcagggag aattgcttga accaggtagg cggaggttgc 60

agtgagccaa gatcgcacca ctgcactcca gcctggggca acagagcaag actgtctcaa 120

aaaaaataaa taaataaaat aaattcttaa gaaggatatt ttggaaaact ccttacatac 180

ctaaattctt tgtttatcaa atacttggac ttagcacact cttctttgaa atggaccaat 240

aaacaacagg agcccataag caaaaagaac tcattatttt aaaaacagta actatcctta 300

caggctttct cagggctctt tctgttggat ccttccctct cacaggtcct tgctaatgat 360

ctctaggtgg acacattcta gatgagatgt ccctgtctag aatggcagca ccatgagggc 420

tatatcctca gtactaggac agcgcctggt gcttaataga tagtaaatag ttgtctaatt 480

aactgagcaa acagatagat tcatgaatta gctttttgct ttttctgtta gaaactaaag 540

gttcaggtca ggcacaatgg cgcatgtctc taatcccagc actttgggag gccgaggcgg 600

gctgatcact tgaggtcagg agttcaagac cagcctggcc aacatagtaa aaccctgttt 660

ctacaaaaat taccaaaatt agccgggcgt cttggcaagc acctgtaatg ccagctactt 720

gagaggctga ggtgggagaa tcgcttgaac ctgggaggaa gaggttgcag tgagccgaga 780

tggtgccaac ctgggtgaca gagggagact taaaaaaaaa aagaaagaaa gaaagaaaag 840

aaactaaagg ttcaaagaat cccagaaaag gaagagtcct cacaagccag taatctaggc 900

aggattactg atagtatttt tatatttgtt gtatttttat aaaatgccat agatagaggg 960

cttttttcaa cattacatca gtctaaaaat cacacatttt tatatgaact aacctaaatg 1020

tctgatgaat ctcacaacac caagtctttg aaatgtgccc atataaataa aatgttaaca 1080

gattcatgct aattttaaat atcgatagtg tttaaatgcc ttaattattt tttcactccc 1140

tagctttaaa agaaaataac caacttcaaa aggacatcac aataacatca agtctatttg 1200

ggggaatttg aggatttttt ccctcactaa catcatttgg aaataatttc atgggcatta 1260

attgcatgaa tgtggttaga ttaaaaggtg ttcagctaga acttgtagtt ccatactagg 1320

tgatttcaat tcctgtgcta aaattaattt gtatgatata ttttcattta atggaaagct 1380

tctcaaagta tttcattttc ttggtgccat ttatcgtttt tgaag 1425

<210> 40

<211> 421

<212> DNA

<213> 人工序列

<400> 40

ctagctagct agactaacat catttggaaa taatttcatg ggcattaatt gcatgaatgt 60

ggttagatta aaaggtgttc agctagaact tgtagttcca tactaggtga tttcaattcc 120

tgtgctaaaa ttaatttgta tgatatattt tcatttaatg gaaagcttct caaagtattt 180

cattttcttg gtgccattta tcgtttttga agggggggaa aaatacaaaa aattagccgg 240

gcgtgatggt gggcgcctgt agtcccagct acacgggagg ctgagacagg agaatggcgt 300

gaacccggga ggcggagctt gcagtgagcc gagatcgcac cactgcactg cagcctgggc 360

gacagagcga gactctgtct caaaaaaaaa aaaaaagaaa gaaaaaaaac tagctagcta 420

g 421

<210> 41

<211> 423

<212> DNA

<213> 人工序列

<400> 41

ctagctagct agactaacat catttggaaa taatttcatg ggcattaatt gcatgaatgt 60

ggttagatta aaaggtgttc agctagaact tgtagttcca tactaggtga tttcaattcc 120

tgtgctaaaa ttaatttgta tgatatattt tcatttaatg gaaagcttct caaagtattt 180

cattttcttg gtgccattta tcgtttttga agggggggct aaaaatacaa aaaattagcc 240

gggcgtgatg gtgggcgcct gtagtcccag ctacacggga ggctgagaca ggagaatggc 300

gtgaacccgg gaggcggagc ttgcagtgag ccgagatcgc accactgcac tgcagcctgg 360

gcgacagagc gagactctgt ctcaaaaaaa aaaaaaaaga aagaaaaaaa actagctagc 420

tag 423

<210> 42

<211> 424

<212> DNA

<213> 人工序列

<400> 42

ctagctagct agactaacat catttggaaa taatttcatg ggcattaatt gcatgaatgt 60

ggttagatta aaaggtgttc agctagaact tgtagttcca tactaggtga tttcaattcc 120

tgtgctaaaa ttaatttgta tgatatattt tcatttaatg gaaagcttct caaagtattt 180

cattttcttg gtgccattta tcgtttttga agggggggac taaaaataca aaaaattagc 240

cgggcgtgat ggtgggcgcc tgtagtccca gctacacggg aggctgagac aggagaatgg 300

cgtgaacccg ggaggcggag cttgcagtga gccgagatcg caccactgca ctgcagcctg 360

ggcgacagag cgagactctg tctcaaaaaa aaaaaaaaag aaagaaaaaa aactagctag 420

ctag 424

<210> 43

<211> 415

<212> DNA

<213> 人工序列

<400> 43

ctagctagct agactaacat catttggaaa taatttcatg ggcattaatt gcatgaatgt 60

ggttagatta aaaggtgttc agctagaact tgtagttcca tactaggtga tttcaattcc 120

tgtgctaaaa ttaatttgta tgatatattt tcatttaatg gaaagcttct caaagtattt 180

cattttcttg gtgccattta tcgtttttga agaaaaatac aaaaaattag ccgggcgtga 240

tggtgggcgc ctgtagtccc agctacacgg gaggctgaga caggagaatg gcgtgaaccc 300

gggaggcgga gcttgcagtg agccgagatc gcaccactgc actgcagcct gggcgacaga 360

gcgagactct gtctcaaaaa aaaaaaaaaa gaaagaaaaa aaactagcta gctag 415

<210> 44

<211> 417

<212> DNA

<213> 人工序列

<400> 44

ctagctagct agactaacat catttggaaa taatttcatg ggcattaatt gcatgaatgt 60

ggttagatta aaaggtgttc agctagaact tgtagttcca tactaggtga tttcaattcc 120

tgtgctaaaa ttaatttgta tgatatattt tcatttaatg gaaagcttct caaagtattt 180

cattttcttg gtgccattta tcgtttttga agctaaaaat acaaaaaatt agccgggcgt 240

gatggtgggc gcctgtagtc ccagctacac gggaggctga gacaggagaa tggcgtgaac 300

ccgggaggcg gagcttgcag tgagccgaga tcgcaccact gcactgcagc ctgggcgaca 360

gagcgagact ctgtctcaaa aaaaaaaaaa aagaaagaaa aaaaactagc tagctag 417

<210> 45

<211> 418

<212> DNA

<213> 人工序列

<400> 45

ctagctagct agactaacat catttggaaa taatttcatg ggcattaatt gcatgaatgt 60

ggttagatta aaaggtgttc agctagaact tgtagttcca tactaggtga tttcaattcc 120

tgtgctaaaa ttaatttgta tgatatattt tcatttaatg gaaagcttct caaagtattt 180

cattttcttg gtgccattta tcgtttttga agactaaaaa tacaaaaaat tagccgggcg 240

tgatggtggg cgcctgtagt cccagctaca cgggaggctg agacaggaga atggcgtgaa 300

cccgggaggc ggagcttgca gtgagccgag atcgcaccac tgcactgcag cctgggcgac 360

agagcgagac tctgtctcaa aaaaaaaaaa aaagaaagaa aaaaaactag ctagctag 418

<210> 46

<211> 18

<212> DNA

<213> 人工序列

<400> 46

cccctttatc tccttctg 18

<210> 47

<211> 18

<212> DNA

<213> 人工序列

<400> 47

atttctccca ttccactt 18

<210> 48

<211> 571

<212> DNA

<213> 人工序列

<400> 48

ctagctagct agactaacat catttggaaa taatttcatg ggcattaatt gcatgaatgt 60

ggttagatta aaaggtgttc agctagaact tgtagttcca tactaggtga tttcaattcc 120

tgtgctaaaa ttaatttgta tgatatattt tcatttaatg gaaagcttct caaagtattt 180

cattttcttg gtgccattta tcgtttttga agggggggcc cagctacttg agaggctgag 240

gcagggagaa ttgcttgaac caggtaggcg gaggttgcag tgagccaaga tcgcaccact 300

gcactccagc ctggggcaac agagcaagac tgtctcaaaa aaaataaata aataaaataa 360

attcttaaaa aaatacaaaa aattagccgg gcgtgatggt gggcgcctgt agtcccagct 420

acacgggagg ctgagacagg agaatggcgt gaacccggga ggcggagctt gcagtgagcc 480

gagatcgcac cactgcactg cagcctgggc gacagagcga gactctgtct caaaaaaaaa 540

aaaaaagaaa gaaaaaaaac tagctagcta g 571

<210> 49

<211> 573

<212> DNA

<213> 人工序列

<400> 49

ctagctagct agactaacat catttggaaa taatttcatg ggcattaatt gcatgaatgt 60

ggttagatta aaaggtgttc agctagaact tgtagttcca tactaggtga tttcaattcc 120

tgtgctaaaa ttaatttgta tgatatattt tcatttaatg gaaagcttct caaagtattt 180

cattttcttg gtgccattta tcgtttttga agggggggcc cagctacttg agaggctgag 240

gcagggagaa ttgcttgaac caggtaggcg gaggttgcag tgagccaaga tcgcaccact 300

gcactccagc ctggggcaac agagcaagac tgtctcaaaa aaaataaata aataaaataa 360

attcttaact aaaaatacaa aaaattagcc gggcgtgatg gtgggcgcct gtagtcccag 420

ctacacggga ggctgagaca ggagaatggc gtgaacccgg gaggcggagc ttgcagtgag 480

ccgagatcgc accactgcac tgcagcctgg gcgacagagc gagactctgt ctcaaaaaaa 540

aaaaaaaaga aagaaaaaaa actagctagc tag 573

<210> 50

<211> 574

<212> DNA

<213> 人工序列

<400> 50

ctagctagct agactaacat catttggaaa taatttcatg ggcattaatt gcatgaatgt 60

ggttagatta aaaggtgttc agctagaact tgtagttcca tactaggtga tttcaattcc 120

tgtgctaaaa ttaatttgta tgatatattt tcatttaatg gaaagcttct caaagtattt 180

cattttcttg gtgccattta tcgtttttga agggggggcc cagctacttg agaggctgag 240

gcagggagaa ttgcttgaac caggtaggcg gaggttgcag tgagccaaga tcgcaccact 300

gcactccagc ctggggcaac agagcaagac tgtctcaaaa aaaataaata aataaaataa 360

attcttaaac taaaaataca aaaaattagc cgggcgtgat ggtgggcgcc tgtagtccca 420

gctacacggg aggctgagac aggagaatgg cgtgaacccg ggaggcggag cttgcagtga 480

gccgagatcg caccactgca ctgcagcctg ggcgacagag cgagactctg tctcaaaaaa 540

aaaaaaaaag aaagaaaaaa aactagctag ctag 574

<210> 51

<211> 18

<212> DNA

<213> 人工序列

<400> 51

gctttctcag ggctcttt 18

<210> 52

<211> 18

<212> DNA

<213> 人工序列

<400> 52

gcaccatctc ggctcact 18

<210> 53

<211> 21

<212> DNA

<213> 人工序列

<400> 53

cagaggacaa tggcttccat g 21

<210> 54

<211> 24

<212> DNA

<213> 人工序列

<400> 54

ctacactgtc caacacccac tctc 24

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号