首页> 中国专利> 用于在有丝真菌细胞中生产感兴趣化合物的方法

用于在有丝真菌细胞中生产感兴趣化合物的方法

摘要

本发明涉及下述核苷酸序列,所述序列包含:具有经优化的密码子频率的同义核苷酸编码序列,优化使得天然密码子被同义密码子交换,所述同义密码子编码与天然密码子相同的氨基酸,并且具有较之天然密码子更高的密码子使用频率(表1中定义的);可选地,所述核苷酸序列包含控制序列,例如:定向于从5’到3’方向的一种翻译终止序列,其选自下述序列:TAAG、TAGA和TAAA,优选地,TAAA,和/或定向于从5’到3’方向的一种翻译起始编码序列,其选自下述序列:gctnccyyc,使用下述不确定的核苷酸代码:v(A/C/G);n(A/C/G/T),优选地,5’-GCT TCCTTC-3’。本发明还涉及共享的翻译起始序列:5’-mwChkyCAmv-3’,优选地,翻译起始序列选自5’-mwChkyCAAA-3’、5’-mwChkyCACA-3’和5’-mwChkyCAAG-3’构成的组。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-05-30

    授权

    授权

  • 2008-03-19

    实质审查的生效

    实质审查的生效

  • 2008-01-16

    公开

    公开

说明书

发明领域

本发明涉及在有丝真菌细胞中生产感兴趣化合物的方法,其中,已对 编码感兴趣化合物的核苷酸序列和/或与其可操作相连的控制核苷酸序列进 行了修饰,以获得编码感兴趣化合物的核苷酸序列的提高的表达和/或对感 兴趣化合物的提高的生产。

发明背景

本发明涉及用于生产感兴趣化合物的改进方法。迄今为止,已有大量 手段用于产生过量表达蛋白质和/或生产蛋白质的菌株。这包括但不限于, 制造具有多个拷贝的编码感兴趣化合物的基因的菌株,以及应用强启动子 序列。

每种特定的氨基酸由至少一种密码子及至多六种密码子编码。早前的 研究已显示,编码细胞的多肽的基因中密码子的使用在物种中有偏好 (Kanaya,S,Y.Yamada,Y.Kudo and T.Ikemura(1999)Studies of codon usage and tRNA genes at 18 unicellular organisms and quantification of Bacillus subtilis tRNAs:gene expression level and species-specific diversity of codon usage based on multivariate analysis.Gene 238:143-155)。早先的公开文件 公开了在给定的宿主细胞中对密码子使用的优化,以改进多肽生产(见 WO 97/11086的实施例)。更具体地,WO 03/70957描述了有丝真菌中优 化的密码子使用,用于生产植物多肽。在“经典”密码子优化的所有这些 情况下,天然密码子被下述密码子取代,所述密码子是自来基因的参考组 并被最频繁使用的,尽管针对每种氨基酸的密码子翻译率被设计为高的 (优化的)。但是该“经典”密码子优化忽略了tRNA仍是可获得的那些 其它密码子。

近来,在WO 03/85114中,描述了密码子使用的协调 (harmonization),其采用了基因中优化和非优化密码子的分布,假设这 些能实现蛋白质折叠。对基因应用该密码子协调方法,导致供体生物中好 (坏)的密码子被宿主生物的好(坏)密码子取代。但是,这种密码子协 调方法(WO 03/085114)忽略了非优化密码子的使用,因为它们没有被更 优的所代替。此外,该方法不能用于同源基因。

另一公开文件描述了在宿主细胞中改进多肽的另一方法,这通过使用 经改进的共享(consensus)翻译起始子序列来实现(US 6,461,837 B1); 共享序列5’-nyCnnhCACC(ATG)-3’被要求保护。

人们仍需要用于在有丝真菌细胞中生产多肽的改进方法。

附图说明

图1展示了表达载体pGBFIN-30的质粒图谱。示出了相对glaA启动 子的glaA侧翼区域,在葡糖淀粉酶启动子上有独特的SfiI和EcoRI克隆位 点,接着是HindIII和NruI克隆位点。pGVFIN-30载体来自pGBFIN-23 (其构建描述于WO99/32617中),其AscI-XhoI位点被单个NruI限制性 位点代替。可在转化A.niger菌株之前,用限制性酶NotI进行消化,除去 E.coli DNA。

图2展示了表达载体pGBFINPLA-1a的质粒图谱。图2还提供了关于 质粒pGBFINPLA-1b和pGBFINPLA-1c的代表性图谱。示出了相对于 glaA启动子和相对于A.oryzae基因组pla1基因(其编码磷脂酶A1)的 glaA侧翼区域。可在转化A.niger菌株之前,用限制性酶NotI进行消化, 除去E.coli DNA。

图3展示了表达载体pGBFINPLA-1d到pGBFINPLA1h的质粒图谱。 示出了相对于glaA启动子的变体序列和相对于A.oryzae基因组pla1基因 (其编码磷脂酶A1)的glaA侧翼区域。可在转化A.niger菌株之前,用 限制性酶NotI进行消化,除去E.coli DNA。

图4展示了表达载体pGBFINFUA-1的质粒图谱。图4还提供了关于 质粒pGBFINFUA-2和pGBFINFUA-3的代表性图谱。所有克隆来自 pGBFIN-12(描述于WO99/32617中)表达载体。示出了相对于amyA启 动子的变体序列和相对于A.niger amyA cDNA序列(其编码alpha-淀粉 酶)的glaA侧翼区域。可在转化A.niger菌株之前,用限制性酶NotI进行 消化,除去E.coli DNA。

图5展示了通过单同源重组进行的整合的流程示意图。表达载体包含 选择性amdS标记和与pla1基因相连的glaA启动子。这些特征侧翼有 glaA基因作的同源区域(分别是3’glaA和3”glaA),以在基因组glaA 基因座指导整合。

图6展示了对天然pla1编码序列、天然pla1基因组序列和合成的经 优化pla1编码序列进行的比对。基因组序列中的内含子在pla1基因组序 列中示出。经修饰的pla1编码序列中已被改变的密码子用框示出。已经修 饰的核苷酸以灰色表示。

图7展示了在用于表达八种不同构建体(pGBFINPLA-1a-h)的A. niger菌株的培养液中磷脂酶A1的活性。展示了A.niger菌株(其表达天 然的(pGBFINPLA-1a)或经修饰的pla1构建体(pGBFINPLA-1b-h))的 培养液中的平均磷脂酶A1活性,其中,翻译起始序列和/或翻译终止序列 和/或密码子使用已经按照本发明的方法被修饰。磷脂酶活性以任意单位 [AU]示出,表示为在给出的培养时间后至少五种独立分离和培养的转化子 (命名在表6中给出)的平均值。

图8展示了在用于表达三种不同构建体的A.niger菌株的培养液中磷 脂酶A1的活性。展示了三种A.niger菌株(表达天然的(pGBFINPLA- 1a)或经修饰的pla1构建体)的培养液中的平均磷脂酶A1活性,其中, 翻译起始序列和翻译终止序列(pGBFINPLA-1b),翻译起始序列、翻译 终止序列和/或密码子使用(pGBFINPLA-1e)已经按照本发明的方法被修 饰。对于2拷贝的pla1转化子(命名在表6中给出)而言,磷脂酶活性以 任意单位[AU]示出,在给出的培养时间后测量。

图9展示了在用于表达三种不同构建体的A.niger菌株的培养液中 alpha-淀粉酶的活性。展示了表达天然(pGBFINFUA-1)或经修饰的 amyA构建体的A.niger菌株的培养液中alpha-淀粉酶的活性,其中,翻译 起始序列和翻译终止序列按照本发明的方法被修饰(pGBFINFUA-2),以 及翻译起始序列、翻译终止序列和密码子使用按照本发明的方法被修饰 (pGBFINFUA-3)。alpha淀粉酶以相对单位[AU]展示,其中第4天时10 个菌株的FUA1组的7个单拷贝菌株的平均值被设置为100%。每组示出 的10个转化子是独立分离并培养的转化子(命名在表9中给出),在指 定的培养时间进行测量。

发明详述

提出了一种新手段,用于改进在有丝真菌细胞中对感兴趣化合物的生 产,该手段基于对蛋白质编码序列的修饰以及可选地,对可能对翻译效率 和/或感兴趣化合物生产的效率有影响的相关“非编码”或控制序列的修 饰。

核苷酸序列

根据本发明的第一个方面,提供了一种核苷酸序列,其包含:

-同义核苷酸编码序列,其具有经优化的密码子频率,使得天然密码 子被同义密码子替换,所述同义密码子编码与天然密码子相同的氨基酸, 并且具有较之天然密码子更高的密码子使用频率(如表1中定义的);以 及可选地,所述核苷酸序列包含例如下述这些的控制序列:

-一种翻译终止序列,其定向于从5’到3’方向,其选自下述序列: TAAG、TAGA和TAAA,优选地,TAAA,和/或

-一种翻译起始子编码序列,其定向于从5’到3’方向,其选自下述序 列:GCTACCCCC、GCTACCTCC、GCTACCCTC、GCTACCTTC、 GCTCCCCCC、GCTCCCTCC、GCTCCCCTC、GCTCCCTTC、 GCTGCCCCC、GCTGCCTCC、GCTGCCCTC、GCTGCCTTC、 GCTTCCCCC、GCTTCCTCC、GCTTCCCTC和GCTTCCTTC,优选地, 是GCT TCC TTC。

表1:关于同义密码子的优化的有丝真菌密码子频率,以%表示

  .T.     .C.   .A.   .G.   T..   Phe   0     Ser     21   Tyr   0   Cys   0   ..T   T..   Phe   100     Ser     44   Tyr   100   Cys   100   ..C   T..   Leu   0     Ser     0   终止   100   终止   0   ..A   T..   Leu   13     Ser     14   终止   0   Trp   100   ..G   C..   Leu   17     Pro     36   His   0   Arg   49   ..T   C..   Leu   38     Pro     64   His   100   Arg   51   ..C   C..   Leu   0     Pro     0   Gln   0   Arg   0   ..A   C..   Leu   32     Pro     0   Gln   100   Arg   0   ..G   A..   Ile   27     Thr     30   Asn   0   Ser   0   ..T   A..   Ile   73     Thr     70   Asn   100   Ser   21   ..C   A..   Ile   0     Thr     0   Lys   0   Arg   0   ..A   A..   Met   100     Thr     0   Lys   100   Arg   0   ..G   G..   Val   27     Ala     38   Asp   36   Gly   49   ..T

  G..   Val   54   Ala   51   Asp   64   Gly   35   ..C   G..   Val   0   Ala   0   Glu   26   Gly   16   ..A   G..   Val   19   Ala   11   Glu   74   Gly   0   ..G

根据一种优选的实施方式,所述核苷酸序列是这样的序列,其中,所 述核苷酸序列中包含的所述同义核苷酸编码序列的经优化密码子频率使 得:至少一个天然密码子、优选至少两个天然密码子、更优选至少三个天 然密码子、更优选至少四个天然密码子、更优选至少五个天然密码子,更 优选天然密码子的至少1%、2%、3%、4%、5%、10%、15%、20%、 25%、50%、75%、80%、85%、90%以及最优选至少95%被同义密码子替 换,所述同义密码子编码与天然密码子相同的氨基酸,并且较之天然密码 子具有更高的密码子使用频率(如表1所定义的)。

根据一种更优选的实施方式,所述核苷酸序列是这样的序列,其中, 所述核苷酸序列中包含的所述同义核苷酸编码序列的经优化密码子频率使 得:至少一个天然密码子、优选至少两个天然密码子、更优选至少三个天 然密码子、更优选至少四个天然密码子、更优选至少五个天然密码子,更 优选天然密码子的至少1%、2%、3%、4%、5%、10%、15%、20%、 25%、50%、75%、80%、85%、90%以及最优选至少95%被同义密码子替 换,所述同义密码子改变了密码子频率,使得采用所述频率的所述同义密 码子的百分比与列出的最优百分比之间的绝对差值在修饰之后更小,这应 用下述最优百分比:TGC编码半胱氨酸(100%);TTC编码苯丙氨酸 (100%);CAC编码组氨酸(100%);AAG编码赖氨酸(100%); AAC编码天冬酰胺(100%);CAG编码谷氨酰胺(100%);TAC编码 酪氨酸(100%);GCT(38%)、GCC(51%)或GCG(11%)编码丙氨 酸;GAC编码天冬氨酸(64%);GAG编码谷氨酸(74%)  GGT (49%)、GGC(35%)、GGA(16%)编码甘氨酸;ATT(27%)、 ATC(73%)编码异亮氨酸;TTG(13%)、CTT(17%)、CTC (38%)、CTG(32%)编码亮氨酸;CCT(36%)、CCC(64%)编码脯 氨酸;CGT(49%)、CGC(51%)编码精氨酸;TCT(21%)、TCC (44%)、TCG(14%)、AGC(21%)编码丝氨酸;ACT(30%)、 ACC(70%)编码苏氨酸,和/或GTT(27%)、GTC(54%)、GTG (19%)编码缬氨酸。

根据一种进一步更优选的实施方式,所述核苷酸序列是这样的序列, 其中,所述核苷酸序列中包含的具有经优化密码子频率的所述同义核苷酸 编码序列的密码子适合度(fitness)具有至少70%、80%、90%、95%,优 选96%、97%、98%,以及最优选>98%的适合度值,其中,密码子适合度 是通过下述函数计算的:

fitc(g)=100-1|g|·Σk=1|g||rctarget(c(k))-rcg(c(k))|·100

其中,g代表核苷酸编码序列,|g|为其长度,g(k)为其第k个密码子, rctarget(c(k))是密码子c(k)的理想比例,rcg(c(k))是核苷酸编码序列g中的真实 比例。

在本发明的上下文中,当在用于指应用本发明的方法之前的序列时, 核苷酸编码序列和控制序列在本文中被称为天然的或野生型的。一旦通过 本发明被修饰,它们将被称为经修饰的序列或同义序列。因此,同义序列 通常将被认为是重组序列。偶然情况下,自然界中存在的序列可能与同义 序列相同。

在本发明的上下文中,核苷酸编码序列和同义核苷酸编码序列可能直 接编码待生产的感兴趣的化合物。术语“感兴趣的化合物”在下文“对感 兴趣的化合物的生产”一节中有所定义。由(同义)核苷酸编码序列直接 编码的感兴趣的化合物的例子是多肽,优选地,该多肽是酶,更优选地, 是将分泌到细胞外的酶。或者,由(同义)核苷酸编码序列编码的化合物 可能并非感兴趣的化合物本身,但其可能与其它的物质一起参与对感兴趣 的化合物的生产。在这种情况下,(同义)核苷酸编码序列编码的化合物 可能是,但不限于:代谢产物生产所涉及的细胞内的酶,转运蛋白,转录 因子,结构蛋白,伴侣分子或持家基因(housekeeping gene)的产物。

在本发明的上下文中,术语“密码子”通常指编码氨基酸的核苷酸三 体。本文中使用的“同义密码子”指不具有相同的核苷酸序列但编码相同 的氨基酸(AA)的密码子。术语“密码子频率”、“密码子偏爱 (bias)”或“密码子使用”被定义为:在编码序列中使用不同的相应密 码子的频率。密码子使用基于下述事实:编码序列中的若干种密码子编码 同样的氨基酸,但是编码所述氨基酸的不同密码子的频率在各种编码序列 间可能不同。

对用于生产的宿主细胞来说同源或异源的核苷酸编码序列(编码多 肽)可能来自于例如病毒、原核生物、真菌、有丝真菌、其它真核生物或 者高等真核生物(例如哺乳动物、人类和植物)。按照表1所述的最优密 码子频率(以及“使用表1对‘经优化的密码子频率’或‘经优化的密码 子使用’的计算”段落进一步公开的),对该(天然)核苷酸编码序列加 以修饰,产生同义核苷酸序列。天然的编码序列可能选自如下的组:

-野生型核苷酸序列,其编码预定的氨基酸序列,

-使用密码子随机选择,从天然存在的氨基酸序列反向翻译的序列,

-非天然存在的氨基酸序列,其展示出与已知氨基酸序列的同源性, 例如,经改组的(shuffled)序列,

-上文提到的序列的一部分,例如,将用于融合序列中的。

具有经优化的密码子使用的同义核苷酸编码序列优选在Aspergillus、 Trichoderma、Fusarium、Chrysosporum或Penicillium宿主细胞中表达。更 优选地,同义核苷酸编码序列在Aspergillus niger、Aspergillus oryzae、 Aspergillus sojae、Aspergillus terreus、Trichoderma reesei、Chrysosporum lucknowense或Penicillium chrysogenum宿主细胞中表达。最优选的 Aspergillus niger宿主细胞是CBS513.88或其衍生物。优选地,同义编码序 列编码的产物的表达,较之相应的天然编码序列的生产有所增强,所述相 应的核酸构建体在相应的有丝真菌宿主细胞中以同样的拷贝数存在。优选 地,对核苷酸编码序列的修饰(导致产生本发明的同义核苷酸编码序列) 导致本发明的有丝真菌宿主细胞(包含给定拷贝数的同义核苷酸编码序 列)产生的感兴趣化合物的产量增加至少1%、5%、10%、25%、50%、 100%、200%、300%、400%、更优选500%,所述增加是与以同样拷贝数 存在于相应有丝真菌宿主细胞中的天然核苷酸编码序列的生产加以比较得 出的。

可通过下述方法来测定将被生产的感兴趣的化合物产量的增加:测量 本发明的有丝真菌宿主细胞生产的化合物的量,将其与相应的有丝真菌宿 主细胞生产的感兴趣的化合物加以比较。可以通过测量从(同义)核苷酸 编码序列转录的mRNA的量、mRNA编码的多肽的量、或者化合物(例 如代谢产物,对它的生产涉及同义核苷酸编码序列编码的多肽)的量等, 来进行对生产的感兴趣化合物的产量的测定。技术人员已知用来测定 mRNA的量的方法的例子包括但不限于:Northern印迹、定量PCR、实时 PCR和微阵列分析。可以使用技术人员已知的蛋白质测量试验等来测定多 肽的量。当多肽是酶时,可以使用特异于该酶的活性试验来测量多肽的 量。技术人员将知道对于特定的酶该选用何种试验。用于测定待生产的感 兴趣的化合物的产量的优选试验是特异于所关注的酶的活性试验。

考虑到表1所定义的最优密码子使用和生物的基因之间的密码子偏 爱,还可以考虑对编码同源多肽的天然编码核苷酸序列进行密码子优化, 提供较之同样宿主中天然核苷酸序列的表达而言更高的同源多肽产量。

在本发明的上下文中,核苷酸编码序列或编码序列被定义为编码多肽 的核苷酸序列。核苷酸编码序列的边界通常由定位于mRNA 5’末端的开放 读码框开始处的ATG起始密码子和定位于mRNA 3’末端的开放读码框紧 邻的下游处的终止密码子所确定。核苷酸编码序列可包括但不限于: DNA、cDNA、RNA和重组核酸(DNA、cDNA、RNA)序列。如果编码 序列意欲在真核细胞中表达,通常将聚腺苷化信号和转录终止序列定位到 编码序列的3’处。核苷酸编码序列包含转录起始子(initiator)编码序列, 以及可选地,信号序列。

为了获得核苷酸编码序列的表达,优选地,将核苷酸编码序列与控制 序列组合。在本发明的上下文中,控制序列被定义为:对表达编码多肽的 核苷酸序列有利或必需的核苷酸序列。当一起存在时,控制序列与核苷酸 编码序列可操作地相连。术语“控制序列”包括表达核苷酸编码序列必需 或有利的所有遗传元件。每种控制序列可能是核苷酸编码序列天然的或外 源的。控制序列包括但不限于:引导序列、聚腺苷化序列、前肽序列、启 动子、翻译起始子序列、翻译起始子编码序列、翻译转录终止子和翻译终 止子序列。控制序列可以与接头(linker)一起提供,例如,为了将特定限 制性位点引入的目的,以协助控制序列与编码多肽的核苷酸序列编码区域 的连接。

术语“可操作地相连”在本文中被定义为下述结构,其中,控制序列 被适当地放置于相对于(同义)核苷酸编码序列的下述位置,该位置使得 控制序列能指导(同义)核苷酸编码序列的表达。

在本发明的上下文中,术语“翻译起始子编码序列”被定义为:在 DNA编码序列开放读码框的起始子或起始密码子紧邻的下游的九个核苷 酸。起始子或起始密码子编码甲硫氨酸这个氨基酸。起始子密码子典型地 是ATG,但其还可能是任何有功能的起始密码子,例如GTG。术语“共 享的翻译起始子编码序列”在本文中被定义为:在DNA编码序列开放读 码框的起始子密码子紧邻的下游的九个核苷酸,并且其具有下述DNA序 列:5’-GCTnCCyyC-3’(即SEQ ID NO.20),其中使用下述不确定的核苷酸 代码:y(C/T)和n(A/C/G/T)。这导致了关于翻译起始子编码序列的16种 变体:GCTACCCCC、GCTACCTCC、GCTACCCTC、GCTACCTTC、 GCTCCCCCC、GCTCCCTCC、GCTCCCCTC、GCTCCCTTC、 GCTGCCCCC、GCTGCCTCC、GCTGCCCTC、GCTGCCTTC、 GCTTCCCCC、GCTTCCTCC、GCTTCCCTC、GCTTCCTTC,优选地, 翻译起始子编码序列具有核苷酸序列:5’-GCT TCC TTC-3’(即SEQ ID NO.21)。

使用共享的翻译起始子编码序列,在提到的氨基酸位置允许存在下述 氨基酸:被编码的多肽的+2处,丙氨酸;+3处,丙氨酸、丝氨酸、脯氨 酸或苏氨酸;+4处,苯丙氨酸、丝氨酸、亮氨酸或脯氨酸。在本发明中, 共享的翻译起始子编码序列可以是对于编码将被生产的多肽的核酸序列来 说外源的。或者,共享的翻译起始子可以是对真菌宿主细胞来说天然的。

在本发明的上下文中,术语“翻译终止序列”被定义为:在开放读码 框或核苷酸编码序列的3’末端的翻译终止密码子开始的四个核苷酸,其定 向于5’朝向3’的方向。优选地,翻译终止序列选自下述序列:5’-TAAG- 3’、5’-TAGA-3’和5’-TAAA-3’。更优选地,翻译终止序列是5’-TAAA- 3’。

本文中使用的术语“经优化的密码子频率”或“经优化的密码子使 用”指已被整体或部分修饰的天然核苷酸编码序列,给出按照表1(以及 “使用表1对‘经优化的密码子频率’或‘经优化的密码子使用’的计 算”段落进一步公开的)所述的密码子频率的同义核苷酸编码序列。对密 码子频率的优化可用于改进用于将在作为宿主细胞的任何有丝真菌物种中 生产的任何给定多肽的任何编码序列。优选地,有丝真菌宿主细胞是 Aspergillus、Trichoderma、Fusarium、Chrysosporum或Penicillium宿主细 胞。更优选地,有丝真菌宿主细胞是Aspergillus niger、Aspergillus oryzae、Aspergillus sojae、Aspergillus terreus、Trichoderma reesei、 Chrysosporum lucknowense或Penicillium chrysogenum宿主细胞。最优选的 Aspergillus niger宿主细胞是CBS513.88或其衍生物。关于优选宿主细胞的 更为详细的列表在“宿主细胞”一节中给出。

当已确定了多肽序列的氨基酸序列时,可以合成具有针对在宿主细胞 中的表达优化的密码子频率的、编码该多肽的核苷酸序列或同义核苷酸编 码序列,其中,天然密码子中的一个或多个已被编码同样氨基酸的同义密 码子交换,所述同义密码子具有较高的密码子使用频率(如表1所定义 的,以及“使用表1对‘经优化的密码子频率’或‘经优化的密码子使 用’的计算”段落进一步公开的)。

当出现下述情况时,认为编码多肽的核苷酸序列或同义编码序列具有 经优化的密码子频率,所述情况是:至少一个天然密码子、优选至少两个 天然密码子、更优选至少三个天然密码子、更优选至少四个天然密码子、 更优选至少五个天然密码子,或者天然密码子的至少1%、2%、3%、 4%、5%、10%、15%、20%、25%、50%、75%、80%、85%、90%以及优 选至少95%被同义密码子替换,所述同义密码子编码与天然密码子相同的 氨基酸,并且较之天然密码子具有更高的密码子使用频率,如表1所定 义。

当出现下述情况时,认为编码多肽的核苷酸序列或同义编码序列具有 经优化的密码子频率,所述情况是:至少一个天然密码子、优选至少两个 天然密码子、更优选至少三个天然密码子、更优选至少四个天然密码子、 更优选至少五个天然密码子,或者天然密码子的至少1%、2%、3%、 4%、5%、10%、15%、20%、25%、50%、75%、80%、85%、90%以及优 选至少95%被同义密码子替换,所述同义密码子改变了密码子频率,使得 采用所述频率的所述密码子的百分比与下面列出的最优百分比之间的绝对 差值在修饰之后更小,这应用下述最优百分比:TGC编码半胱氨酸 (100%);TTC编码苯丙氨酸(100%);CAC编码组氨酸(100%); AAG编码赖氨酸(100%);AAC编码天冬酰胺(100%);CAG编码谷 氨酰胺(100%);TAC编码酪氨酸(100%);GCT(38%)、GCC (51%)或GCG(11%)编码丙氨酸;GAC编码天冬氨酸(64%);GAG 编码谷氨酸(74%);GGT(49%)、GGC(35%)、GGA(16%)编码 甘氨酸;ATT(27%)、ATC(73%)编码异亮氨酸;TTG(13%)、CTT (17%)、CTC(38%)、CTG(32%)编码亮氨酸;CCT(36%)、CCC (64%)编码脯氨酸;CGT(49%)、CGC(51%)编码精氨酸;TCT (21%)、TCC(44%)、TCG(14%)、AGC(21%)编码丝氨酸;ACT (30%)、ACC(70%)编码苏氨酸,和/或GTT(27%)、GTC (54%)、GTG(19%)编码缬氨酸。

密码子适合度被定义为:基因中真实密码子比例与目标密码子比例之 间的差异,其被归一化为每种密码子出现频率的数量。令rsctarget(c(k))是密码 子的ck的理想比例(或频率),按前文所述令rscg(c(k))为基因g中的真实比 例,由此,单个密码子的适合度被定义为:

fitc(g)=100-1|g|·Σk=1|g||rctarget(c(k))-rcg(c(k))|·100

由此,密码子适合度{fitc(g)}可以为0至100%之间的值,其中最优序 列接近100%。因此,当同义编码序列的密码子适合度的值为至少70%、 80%、90%、95%,优选96%、97%、98%,以及最优选>99%时,同义核 苷酸编码序列被认为具有经优化的密码子频率。

本发明的核苷酸序列可以是合成的核苷酸序列。本文中使用的术语 “合成”基因、“合成”DNA构建体、“合成”核酸、“合成”多核苷 酸、“合成”引物等表示在自然界中没有发现的核苷酸序列;换句话说, 并不仅仅只是对于特定生物来说异源的序列,还包括下述这样的:其是异 源的,因为其在实验室中被设计和/或制造,并且以某方式对其进行了改 变,使得其不具有与其天然存在的来源、模板或同源物相同的核苷酸(或 者可能是氨基酸)序列。合成的核酸或氨基酸序列在本文中指理论序列或 者明确地、物理上产生的实施方式。根据本发明的合成序列意欲以任何形 式包括在本发明中,例如,以纸质或计算机可读形式,或物理上产生的核 酸序列、蛋白质、肽、融合肽或多个肽。

或者,天然存在的核苷酸序列可能展示出本发明的特征。此类序列的 使用被认为包括在本发明的范围内。

术语“合成的核苷酸构建体”或“合成的核酸”可以包括从完全人工 的氨基酸序列或核苷酸序列衍生或设计的核酸,其具有较之天然存在的序 列而言单个或多个核苷酸变化。可通过随机或定点诱变、DNA改组方法、 DNA重新组装(reassembly)方法、基因合成或者本领域技术人员已知的 任何手段(见,例如,Young and Dong,(2004),Nucleic Acids Research 32, (7)electronic access http://nar.oupjournals.org/cgi/reprint/32/7/e59或Gupta et al.(1968),Proc.Natl.Acad.Sci USA,60:1338-1344;Scarpulla et al.(1982), Anal.Biochem.121:356-365;Stemmer et al.(1995),Gene 164:49-53),制造 这些“合成的DNA构建体”。

或者,可以从氨基酸序列来设计合成的核苷酸序列(见实施例2)。 使用该反向工程方法,不需要天然存在的核苷酸序列(其可能是不可获得 的)。首先可以用密码子随机选择来进行反向翻译(back-translation)的 过程。随后,可对得到的核苷酸序列进行密码子使用优化。

根据另一种优选的实施方式,根据本发明的具有经优化密码子频率的 同义核苷酸编码序列是经过反向工程改造的核苷酸编码序列,其中,经优 化的密码子频率使得:至少一个密码子,至少两个密码子,至少三个密码 子,至少四个密码子,至少五个密码子,或者至少1%、2%、3%、4%、 5%、10%、15%、20%、25%、50%、75%、80%、85%、90%以及优选至 少95%的密码子较之算术平均所预测的密码子使用(即,1个密码子的情 况下,100%;2个密码子的情况下,50%;3个密码子的情况下,33.3%; 4个密码子的情况下,25%;6个密码子的情况下,16.7%)而言具有如表 1所定义的更高的密码子使用频率。

根据一种更优选的实施方式,具有经优化密码子频率的所述同义核苷 酸序列是经过反向工程改造的核苷酸编码序列,其中,所述核苷酸编码序 列的密码子适合度具有至少70%、80%、90%、95%,优选96%、97%、 98%,以及最优选>98%的适合度值,其中,密码子适合度是通过下述函数 计算的:

fitc(g)=100-1|g|·Σk=1|g||rctarget(c(k))-rcg(c(k))|·100

其中,g代表核苷酸编码序列,|g|为其长度,g(k)为其第k个密码子, rctarget(c(k))是密码子c(k)的理想比例,rcg(c(k))是核苷酸编码序列g中的真实 比例。

除可存在于本发明的核苷酸序列中的控制序列之外,核苷酸编码序列 还可包含信号序列或信号肽编码序列。

信号序列编码与多肽氨基末端相连的氨基酸序列,其可指导被表达的 多肽进入细胞分泌途径。核苷酸序列的编码序列的5’末端可天然含有下述 信号肽编码区域,该区域与编码分泌的感兴趣多肽的编码区域片断以同翻 译读码框的方式天然相连。在这种情况下,翻译起始子编码序列是信号序 列的一部分。或者,编码序列的5’末端可含有信号肽编码区域,其对于编 码分泌蛋白的编码序列部分来说是外源的。当编码序列正常情况下不含信 号肽编码区域时,外源信号肽编码区域可能是需要的。或者,外源信号肽 编码区域可简单地替换天然信号肽编码区域,以获得:相对于在正常情况 下与编码序列相连的天然信号肽编码区域而言,增强的蛋白质分泌。信号 肽编码区域可从来自Aspergillus物种的葡糖淀粉酶基因或淀粉酶基因、来 自Rhizomucor物种的脂肪酶基因或蛋白酶基因、针对来自saccharomyces cerevisiae的alpha因子的基因、来自Bacillus物种的淀粉酶基因或蛋白酶 基因、或小牛前凝乳酶原(calf preprochymosin)基因获得。但是,能指导 表达的蛋白质进入选用的宿主细胞的分泌途径的任何信号肽编码区域可用 于本发明。对于有丝真菌宿主细胞来说,优选的信号肽编码区域是从 Aspergillus oryzae TAKA淀粉酶基因(EP 238 023)、Aspergillus niger中性 淀粉酶基因、Aspergillus niger葡糖淀粉酶、Rhizomucor miehei天冬氨酸蛋 白酶基因、Humicola lanuginosa纤维素酶基因、Humicola insolens纤维素 酶、Humicola insolens角质酶、Candida antactica脂肪酶B基因或 Rhizomucor miehei脂肪酶基因及它们的突变体、截短的和杂交的信号序列 获得的信号肽编码区域。

在另一种优选的实施方式中,本发明的具有经优化编码频率的同义核 苷酸编序列包含信号序列。根据一种更优选的实施方式,本发明的信号序 列是具有经优化的密码子频率的信号序列,其中,至少一个天然密码子或 者天然密码子的至少1%、5%、10%、15%、20%、25%、50%、75%、 80%、85%、90%以及优选至少95%被同义密码子替换,所述同义密码子 编码与天然密码子相同的氨基酸,并且较之天然密码子具有更高的密码子 使用频率(如表1所定义的,以及“使用表1对‘经优化的密码子频率’ 或‘经优化的密码子使用’的计算”段落进一步公开的)。更优选地,本 发明的信号序列包含具有下述共享DNA序列的翻译起始子编码序列:5’- GCTnCCyyC-3’(即SEQ ID NO.20),或者进一步更优选地,具有核酸序 列:5’-GCT TCC TTC-3’(即SEQ ID NO.21)的翻译起始子编码序列。

在本发明的修饰应用之前,核苷酸编码序列可含有一个或多个内含 子,所述内含子含有不编码蛋白质序列中的氨基酸的核苷酸。对编码序列 表达加以优化的步骤之一可能是使用没有内含子的同义编码序列。在实施 例2中,天然核苷酸序列中存在的内含子在经修饰的构建体中不被替换。

或者,以及根据本发明的另一种优选的实施方式,在包含本发明的同 义核苷酸编码序列的核苷酸序列中(其中,未经修饰的核苷酸编码序列原 本包含一个或多个内含子),至少一个内含子被重新引入核苷酸编码序 列,优选但非必要地,引入原来的位置。在实施例1中,为用于表达,在 密码子经优化的(同义)DNA序列中,作为A.oryzae pla1 DNA序列的一 部分的内含子被替换。

翻译起始子序列

在第二个方面,本发明涉及翻译起始子序列。翻译起始子序列是编码 蛋白质起点的核酸区域,翻译起始子序列的生物活性是启动核糖体介导的 对下述多肽的生产,所述多肽的氨基酸序列是由mRNA的核苷酸序列所确 定的。在真核生物中,ATG之前的翻译起始子共享序列(6-12个核苷酸) 通常被称为Kozak共享序列,这是由于对该主题的最初工作是(Kozak,M. (1987):an analysis of 5’-noncoding sequences from 699 vertebrate messenger RNAs.Nucl.Acid Res.15(20):8125-47)做出的。原始的Kozak共享序列 CCCGCCGCCrCC(ATG)G(包括从Kozak获得的+4核苷酸),其在高等 真核生物中与对翻译的启动相关。在本发明的上下文中,术语“翻译起始 子序列”被定义为:编码多肽的DNA序列的开放读码框的起始子或起始 密码子紧邻的上游处的10个核苷酸。起始子或起始密码子编码甲硫氨酸 这种氨基酸。起始子密码子典型地是ATG,但也可能是具有功能的其它起 始密码子,例如GTG。本领域公知,尿嘧啶(U),在RNA中代替脱氧 核苷酸胸腺嘧啶(T)。

可通过下述方法定量测定转录起始子序列的生物活性,所述方法包 括:测量转录起始子序列紧邻的下游的开放读码框的转录基因产物的量, 以及将该量与从被一个参照转录起始子序列控制的同样的开放读码框测量 的量加以比较。可以通过测量mRNA的量,或者测量mRNA编码的多肽 的量来测定基因产物的量。技术人员已知的用于测定mRNA的量的方法的 例子包括但不限于Northern印迹、定量PCR、实时PCR和微阵列分析。 可以使用技术人员已知的蛋白质测量试验等,来测定转录起始子序列紧邻 的下游的开放读码框所编码的多肽的量。当转录起始子序列紧邻的下游的 开放读码框所编码的多肽是酶时,可以使用特异于该酶的活性试验来测量 多肽的量。技术人员将知道对于特定的酶该选用何种试验。用于测定转录 起始子序列的生物活性的优选试验是特异于所关注的酶的活性试验。

根据一种优选的实施方式,核苷酸序列,优选地,本发明第一个方面 的核苷酸序列,包含转录起始子序列,所述转录起始子序列包含如下述共 享翻译起始子序列所定义的核酸序列:5’-mwChkyCAmv-3’(即SEQ ID NO.16),其中使用下述不确定的核苷酸代码:m(A/C)、r(A/G)、w (A/T)、s(C/G)、y(C/T)、k(G/T)、v(A/C/G)、h(A/C/T)、d(A/G/T)、b (C/G/T)、n(A/C/G/T)。更优选地,共享翻译起始子序列是选自下述列表之 一的:5’-mwChkyCAAA-3’(即SEQ ID NO.17)、5’-mwChkyCACA-3’(即 SEQ ID NO.18)或-mwChkyCAAG-3’(即SEQ ID NO.19)。这些更优选的 序列对应于下述序列中的任何一种:AACAGCCAAA、AACAGTCAAA、 AACATCCAAA、AACATTCAAA、AACCGCCAAA、AACCGTCAAA、 AACCTCCAAA、AACCTTCAAA、AACTGCCAAA、AACTGTCAAA、 AACTTCCAAA、AACTTTCAAA、ATCAGCCAAA、ATCAGTCAAA、 ATCATCCAAA、ATCATTCAAA、ATCCGCCAAA、ATCCGTCAAA、 ATCCTCCAAA、ATCCTTCAAA、ATCTGCCAAA、ATCTGTCAAA、 ATCTTCCAAA、ATCTTTCAAA、CACAGCCAAA、CACAGTCAAA、 CACATCCAAA、CACATTCAAA、CACCGCCAAA、CACCGTCAAA、 CACCTCCAAA、CACCTTCAAA、CACTGCCAAA、CACTGTCAAA、 CACTTCCAAA、CACTTTCAAA、CTCAGCCAAA、CTCAGTCAAA、 CTCATCCAAA、CTCATTCAAA、CTCCGCCAAA、CTCCGTCAAA、 CTCCTCCAAA、CTCCTTCAAA、CTCTGCCAAA、CTCTGTCAAA、 CTCTTCCAAA、CTCTTTCAAA、AACAGCCACA、AACAGTCACA、 AACATCCACA、AACATTCACA、AACCGCCACA、AACCGTCACA、 AACCTCCACA、AACCTTCACA、AACTGCCACA、AACTGTCACA、 AACTTCCACA、AACTTTCACA、ATCAGCCACA、ATCAGTCACA、 ATCATCCACA、ATCATTCACA、ATCCGCCACA、ATCCGTCACA、 ATCCTCCACA、ATCCTTCACA、ATCTGCCACA、ATCTGTCACA、 ATCTTCCACA、ATCTTTCACA、CACAGCCACA、CACAGTCACA、 CACATCCACA、CACATTCACA、CACCGCCACA、CACCGTCACA、 CACCTCCACA、CACCTTCACA、CACTGCCACA、CACTGTCACA、 CACTTCCACA、CACTTTCACA、CTCAGCCACA、CTCAGTCACA、 CTCATCCACA、CTCATTCACA、CTCCGCCACA、CTCCGTCACA、 CTCCTCCACA、CTCCTTCACA、CTCTGCCACA、CTCTGTCACA、 CTCTTCCACA、CTCTTTCACA、AACAGCCAAG、AACAGTCAAG、 AACATCCAAG、AACATTCAAG、AACCGCCAAG、AACCGTCAAG、 AACCTCCAAG、AACCTTCAAG、AACTGCCAAG、AACTGTCAAG、 AACTTCCAAG、AACTTTCAAG、ATCAGCCAAG、ATCAGTCAAG、 ATCATCCAAG、ATCATTCAAG、ATCCGCCAAG、ATCCGTCAAG、 ATCCTCCAAG、ATCCTTCAAG、ATCTGCCAAG、ATCTGTCAAG、 ATCTTCCAAG、ATCTTTCAAG、CACAGCCAAG、CACAGTCAAG、 CACATCCAAG、CACATTCAAG、CACCGCCAAG、CACCGTCAAG、 CACCTCCAAG、CACCTTCAAG、CACTGCCAAG、CACTGTCAAG、 CACTTCCAAG、CACTTTCAAG、CTCAGCCAAG、CTCAGTCAAG、 CTCATCCAAG、CTCATTCAAG、CTCCGCCAAG、CTCCGTCAAG、 CTCCTCCAAG、CTCCTTCAAG、CTCTGCCAAG、CTCTGTCAAG、 CTCTTCCAAG或CTCTTTCAAG。

根据一种更为优选的实施方式,翻译起始子序列是5’- CACCGTCAAA-3’(即SEQ ID NO.22)或5’-CGCAGTCAAG-3’(即SEQ ID NO.23)。

本发明还包括经分离的翻译起始子序列,及具有与经分离的翻译起始 子序列相同的生物活性的其变体和亚序列。

本发明的共享翻译起始子序列优选被包含在本发明的第一方面的核苷 酸序列中。或者,本发明的共享翻译起始子序列可被包含在任何下述核苷 酸序列中,所述核苷酸序列包含编码感兴趣的化合物的核苷酸编码序列。 核苷酸编码序列可以是任何编码序列。优选地,核苷酸编码序列是如前文 所定义的同义编码序列。

此外,以及根据本发明的另一方面,提供了如“核酸构建体”一节所 定义的核酸构建体或表达载体,所述核酸构建体或表达载体包含本发明的 共享翻译起始子序列。

本发明的共享翻译起始子序列可用于任何有丝真菌细胞中,用于表达 编码将在所述细胞中生产的任何化合物的任何核酸序列。在“宿主细胞” 一节中对有丝真菌细胞进行了定义。

在本发明中,优选地,共享翻译起始子序列相对编码将被生产的多肽 的核酸序列来说是外源的,但是共享翻译起始子序列可以是有丝真菌细胞 天然的。

技术人员将理解,本发明涉及若干不同的实施方式,它们可以单独或 组合使用:

-同义核苷酸编码序列,通过使用最优密码子频率和/或对控制序列的 修饰,所述控制序列例如:

-翻译终止序列,其定向于从5’到3’方向,其选自下述序列: TAAG、TAGA和TAAA,优选地,TAAA,和/或

-翻译起始子编码序列,其定向于从5’到3’方向,其选自下述序列: GCTACCCCC、GCTACCTCC、GCTACCCTC、GCTACCTTC、 GCTCCCCCC、GCTCCCTCC、GCTCCCCTC、GCTCCCTTC、 GCTGCCCCC、GCTGCCTCC、GCTGCCCTC、GCTGCCTTC、 GCTTCCCCC、GCTTCCTCC、GCTTCCCTC和GCTTCCTTC,优选地, 是GCT TCC TTC,和/或

-翻译起始子序列,所述翻译起始子序列包含如下述共享翻译起始子 序列所定义的核酸序列:5’-mwChkyCAmv-3’,其中使用下述不确定的核 苷酸代码:m(A/C)、r(A/G)、w(A/T)、s(C/G)、y(C/T)、k(G/T)、v (A/C/G)、h(A/C/T)、d(A/G/T)、b(C/G/T)、n(A/C/G/T)。优选地,翻译起 始子序列是选自下述列表之一的:5’-mwChkyCAAA-3’、5’- mwChkyCACA-3’或-mwChkyCAAG-3’,更优选地,翻译起始子序列是5’- CACCGTCAAA-3’或5’-CGCAGTCAAG-3’。

技术人员将理解,本发明涉及多种不同的实施方式,它们可以单独使 用或者以多种不同的组合方式使用,下文公开了这些组合中的若干种。

优选地,本发明的核苷酸序列包含同义编码序列,其具有根据本文所 述的本发明的经优化密码子频率。

根据一种更为优选的实施方式,本发明的核苷酸序列包含下述同义编 码序列,其具有根据本文所公开的本发明的经优化密码子频率,所述同义 编码序列与控制序列相连,所述控制序列包含定向于5’朝向3’方向的翻译 终止序列,所述翻译终止序列选自下述列表:5’-TAAG-3’、5’-TAGA-3’和 5’-TAAA-3’。更优选地,本发明的核苷酸序列包含下述同义编码序列,其 具有根据本文所公开的本发明的经优化密码子频率,所述同义编码序列与 控制序列相连,所述控制序列包含下述翻译终止序列:5’-TAAA-3’。

根据一种进一步更优选的实施方式,本发明的核苷酸序列包含下述同 义编码序列,其具有根据本文所公开的本发明的经优化密码子频率,所述 同义编码序列与控制序列相连,所述控制序列包含一种翻译起始子序列, 所述翻译起始子序列选自下述列表:5’-mwChkyCAAA-3’、5’- mwChkyCACA-3’和5’-mwChkyCAAG-3’(m、w不确定代码已在前文公 开)。更优选地,核苷酸序列包含下述同义编码序列,其具有根据本文所 公开的本发明的经优化密码子频率,所述同义编码序列与控制序列相连, 所述控制序列包含一种翻译起始子序列,所述翻译起始子序列选自下述列 表:5’-CACCGTCAAA-3’或5’-CGCAGTCAAG-3’。进一步更优选地,核 苷酸序列包含下述同义编码序列,其具有根据本文所公开的本发明的经优 化密码子频率,所述同义编码序列与下述翻译起始子序列相连:5’- CGCAGTCAAG-3’。最优选地,核苷酸序列包含下述同义编码序列,其具 有根据本文所公开的本发明的经优化密码子频率,所述同义编码序列与下 述翻译起始子序列相连:5’-CACCGTCAAA-3’。

根据再进一步更优选的一种实施方式,本发明的核苷酸序列包含下述 同义编码序列,其具有根据本文所公开的本发明的经优化密码子频率,所 述同义编码序列与控制序列相连,所述控制序列包含一种翻译起始子序列 和/或定向于5’朝向3’方向的一种翻译终止序列,所述翻译起始子序列选 自下述列表:5’-mwChkyCAAA-3’、5’-mwChkyCACA-3’和5’- mwChkyCAAG-3’(m、w不确定代码已在前文公开),所述翻译终止序列 选自下述列表:5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。更优选地,核 苷酸序列包含下述同义编码序列,其具有根据本文所公开的本发明的经优 化密码子频率,所述同义编码序列与控制序列相连,所述控制序列包含一 种翻译起始子序列和/或下述翻译终止序列:5’-TAAA-3’,所述翻译起始子 序列选自下述列表:5’-mwChkyCAAA-3’、5’-mwChkyCACA-3’和5’- mwChkyCAAG-3’(m、w不确定代码已在前文公开)。进一步更优选地, 核苷酸序列包含下述同义编码序列,其具有根据本文所公开的本发明的经 优化密码子频率,所述同义编码序列与控制序列相连,所述控制序列包含 一种翻译起始子序列和/或定向于5’朝向3’方向的一种翻译终止序列,所 述翻译起始子序列选自下述列表:5’-CACCGTCAAA-3’或5’- CGCAGTCAAG-3’,所述翻译终止序列选自下述列表:5’-TAAG-3’、5’- TAGA-3’和5’-TAAA-3’。再进一步更优选地,核苷酸序列包含下述同义编 码序列,其具有根据本文所公开的本发明的经优化密码子频率,所述同义 编码序列与控制序列相连,所述控制序列包含一种翻译起始子序列和/或下 述翻译终止序列:5’-TAAA-3’,所述翻译起始子序列选自下述列表:5’- CACCGTCAAA-3’或5’-CGCAGTCAAG-3’。再进一步更优选地,核苷酸 序列包含下述同义编码序列,其具有根据本文所公开的本发明的经优化密 码子频率,所述同义编码序列与下述翻译起始子序列:5’- CGCAGTCAAG-3’和/或下述翻译终止序列:5’-TAAA-3’相连。最优选 地,核苷酸序列包含下述同义编码序列,其具有根据本文所公开的本发明 的经优化密码子频率,所述同义编码序列与下述翻译起始子序列:5’- CACCGTCAAA-3’和/或下述翻译终止序列:5’-TAAA-3’相连。

根据一种最优选的实施方式,本发明的核苷酸序列包含下述同义编码 序列,其具有根据本文所公开的本发明的经优化密码子频率,和/或包含下 述翻译起始子编码序列:5’-GCTTCCTTC-3’;所述同义编码序列与控制序 列相连,所述控制序列包含一种翻译起始子序列和/或定向于5’朝向3’方 向的翻译终止序列,所述翻译起始子序列选自下述列表:5’- mwChkyCAAA-3’、5’-mwChkyCACA-3’和5’-mwChkyCAAG-3’(m、w不 确定代码已在前文公开),所述翻译终止序列选自下述列表:5’-TAAG- 3’、5’-TAGA-3’和5’-TAAA-3’。更优选地,核苷酸序列包含下述同义编码 序列,其具有根据本文所公开的本发明的经优化密码子频率,和/或包含下 述翻译起始子编码序列:5’-GCTTCCTTC-3’;所述同义编码序列与控制序 列相连,所述控制序列包含一种翻译起始子序列和/或下述翻译终止序列: 5’-TAAA-3’,所述翻译起始子序列选自下述列表:5’-mwChkyCAAA-3’、 5’-mwChkyCACA-3’和5’-mwChkyCAAG-3’(m、w不确定代码已在前文 公开)。进一步更优选地,核苷酸序列包含下述同义编码序列,其具有根 据本文所公开的本发明的经优化密码子频率,和/或包含下述翻译起始子编 码序列:5’-GCTTCCTTC-3’;所述同义编码序列与控制序列相连,所述控 制序列包含一种翻译起始子序列和/或定向于5’朝向3’方向的一种翻译终 止序列,所述翻译起始子序列选自下述列表:5’-CACCGTCAAA-3’或5’- CGCAGTCAAG-3’,所述翻译终止序列选自下述列表:5’-TAAG-3’、5’- TAGA-3’和5’-TAAA-3’。再进一步更优选地,核苷酸序列包含下述同义编 码序列,其具有根据本文所公开的本发明的经优化密码子频率,和/或包含 下述翻译起始子编码序列:5’-GCTTCCTTC-3’;所述同义编码序列与控制 序列相连,所述控制序列包含翻译起始子序列和/或下述翻译终止序列: 5’-TAAA-3’,所述翻译起始子序列选自下述列表:5’-CACCGTCAAA-3’或 5’-CGCAGTCAAG-3’。再进一步更优选地,核苷酸序列包含下述同义编码 序列,其具有根据本文所公开的本发明的经优化密码子频率,和/或包含下 述翻译起始子编码序列:5’-GCTTCCTTC-3’;所述同义编码序列与下述翻 译起始子序列:5’-CGCAGTCAAG-3’和/或下述翻译终止序列:5’-TAAA- 3’相连。最优选地,核苷酸序列包含下述同义编码序列,其具有根据本文 所公开的本发明的经优化密码子频率,和/或包含下述翻译起始子编码序 列:5’-GCTTCCTTC-3’;所述同义编码序列与下述翻译起始子序列:5’- CACCGTCAAA-3’和/或下述翻译终止序列:5’-TAAA-3’相连。

或者,以及根据本发明的另一种优选的实施方式,本发明的核苷酸序 列包含下述编码序列,所述编码序列与控制序列相连,所述控制序列包含 一种翻译起始子序列,所述翻译起始子序列选自下述列表:5’- mwChkyCAAA-3’、5’-mwChkyCACA-3’和5’-mwChkyCAAG-3’(m、w不 确定代码已在前文公开)。更优选地,核苷酸序列包含下述编码序列,所 述编码序列与控制序列相连,所述控制序列包含翻译起始子序列,所述翻 译起始子序列选自下述列表:5’-CACCGTCAAA-3’或5’-CGCAGTCAAG- 3’。进一步更优选地,核苷酸序列包含下述编码序列,所述编码序列与控 制序列相连,所述控制序列包含下述翻译起始子序列:5’- CGCAGTCAAG-3’。最优选地,核苷酸序列包含下述编码序列,所述编码 序列与控制序列相连,所述控制序列包含下述翻译起始子序列:5’- CACCGTCAAA-3’。

或者,以及根据本发明的另一种更优选的实施方式,本发明的核苷酸 序列包含翻译起始子编码序列5’-GCTTCCTTC-3’和/或包含下述编码序 列,所述编码序列与控制序列相连,所述控制序列包含一种翻译起始子序 列,所述翻译起始子序列选自下述列表:5’-mwChkyCAAA-3’、5’- mwChkyCACA-3’和5’-mwChkyCAAG-3’(m、w不确定代码已在前文公 开)。更优选地,核苷酸序列包含翻译起始子编码序列5’-GCTTCCTTC- 3’和/或包含下述编码序列,所述编码序列与控制序列相连,所述控制序列 包含一种翻译起始子序列,所述翻译起始子序列选自下述列表:5’- CACCGTCAAA-3’或5’-CGCAGTCAAG-3’。进一步更优选地,核苷酸序 列包含翻译起始子编码序列5’-GCTTCCTTC-3’和/或包含下述编码序列, 所述编码序列与控制序列相连,所述控制序列包含下述翻译起始子序列: 5’-CGCAGTCAAG-3’。最优选地,核苷酸序列包含翻译起始子编码序列 5’-GCTTCCTTC-3’和/或包含下述编码序列,所述编码序列与控制序列相 连,所述控制序列包含下述翻译起始子序列:5’-CACCGTCAAA-3’。

或者,以及根据本发明的另一种更优选的实施方式,本发明的核苷酸 序列包含下述编码序列,所述编码序列与控制序列相连,所述控制序列包 含翻译起始子序列和/或定向于5’朝向3’方向的一种翻译终止序列,所述 翻译起始子序列选自下述列表:5’-mwChkyCAAA-3’、5’-mwChkyCACA- 3’和5’-mwChkyCAAG-3’(m、w不确定代码已在前文公开),所述翻译 终止序列选自下述列表:5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。更优 选地,核苷酸序列包含下述编码序列,所述编码序列与控制序列相连,所 述控制序列包含翻译起始子序列和/或下述翻译终止序列:5’-TAAA-3’,所 述翻译起始子序列选自下述列表:5’-mwChkyCAAA-3’、5’- mwChkyCACA-3’和5’-mwChkyCAAG-3’(m、w不确定代码已在前文公 开)。进一步更优选地,核苷酸序列包含下述编码序列,所述编码序列与 控制序列相连,所述控制序列包含翻译起始子序列和/或定向于5’朝向3’ 方向的一种翻译终止序列,所述翻译起始子序列选自下述列表:5’- CACCGTCAAA-3’或5’-CGCAGTCAAG-3’,所述翻译终止序列选自下述 列表:5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。再进一步更优选地,核 苷酸序列包含下述编码序列,所述编码序列与控制序列相连,所述控制序 列包含翻译起始子序列和/或下述翻译终止序列:5’-TAAA-3’,所述翻译起 始子序列选自下述列表:5’-CACCGTCAAA-3’或5’-CGCAGTCAAG-3’。 再进一步更优选地,核苷酸序列包含下述编码序列,所述编码序列与翻译 起始子序列5’-CGCAGTCAAG-3’和/或定向于5’朝向3’方向的一种翻译终 止序列相连,所述翻译终止序列选自下述列表:5’-TAAG-3’、5’-TAGA-3’ 和5’-TAAA-3’。再进一步更优选地,核苷酸序列包含下述编码序列,所述 编码序列与翻译起始子序列5’-CGCAGTCAAG-3’和/或下述翻译终止序 列:5’-TAAA-3’相连。再进一步更优选地,核苷酸序列包含下述编码序 列,所述编码序列与下述翻译起始子序列:5’-CACCGTCAAA-3’和/或定 向于5’朝向3’方向的一种翻译终止序列相连,所述翻译终止序列选自下述 列表:5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。最优选地,核苷酸序列 包含下述编码序列,所述编码序列与翻译起始子序列5’-CACCGTCAAA- 3’和/或下述翻译终止序列:5’-TAAA-3’相连。

或者,以及根据本发明的一种最优选的实施方式,本发明的核苷酸序 列包含翻译起始子编码序列:5’-GCTTCCTTC-3’和/或下述编码序列,所 述编码序列与控制序列相连,所述控制序列包含一种翻译起始子序列和/或 定向于5’朝向3’方向的一种翻译终止序列,所述翻译起始子序列选自下述 列表:5’-mwChkyCAAA-3’、5’-mwChkyCACA-3’和5’-mwChkyCAAG-3’ (m、w不确定代码已在前文公开),所述翻译终止序列选自下述列表: 5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。更优选地,核苷酸序列包含翻 译起始子编码序列:5’-GCTTCCTTC-3’和/或下述编码序列,所述编码序 列与控制序列相连,所述控制序列包含一种翻译起始子序列和/或下述翻译 终止序列:5’-TAAA-3’,所述翻译起始子序列选自下述列表:5’- mwChkyCAAA-3’、5’-mwChkyCACA-3’和5’-mwChkyCAAG-3’(m、w不 确定代码已在前文公开)。进一步更优选地,核苷酸序列包含翻译起始子 编码序列:5’-GCTTCCTTC-3’和/或下述编码序列,所述编码序列与控制 序列相连,所述控制序列包含一种翻译起始子序列和/或定向于5’朝向3’ 方向的一种翻译终止序列,所述翻译起始子序列选自下述列表:5’- CACCGTCAAA-3’或5’-CGCAGTCAAG-3’,所述翻译终止序列选自下述 列表:5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。再进一步更优选地,核 苷酸序列包含翻译起始子编码序列:5’-GCTTCCTTC-3’和/或下述编码序 列,所述编码序列与控制序列相连,所述控制序列包含翻译起始子序列和/ 或下述翻译终止序列:5’-TAAA-3’,所述翻译起始子序列选自下述列表: 5’-CACCGTCAAA-3’或5’-CGCAGTCAAG-3’。再进一步更优选地,核苷 酸序列包含翻译起始子编码序列:5’-GCTTCCTTC-3’和/或下述编码序 列,所述编码序列与翻译起始子序列5’-CGCAGTCAAG-3’和/或定向于5’ 朝向3’方向的一种翻译终止序列相连,所述翻译终止序列选自下述列表: 5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。再进一步更优选地,核苷酸序 列包含翻译起始子编码序列:5’-GCTTCCTTC-3’和/或下述编码序列,所 述编码序列与翻译起始子序列5’-CGCAGTCAAG-3’和/或下述翻译终止序 列:5’-TAAA-3’相连。最优选地,核苷酸序列包含翻译起始子编码序列: 5’-GCTTCCTTC-3’和/或下述编码序列,所述编码序列与翻译起始子序列 5’-CACCGTCAAA-3’和/或下述翻译终止序列:5’-TAAA-3’相连。

或者,以及根据本发明的另一种优选的实施方式,本发明的核苷酸序 列包含下述编码序列,所述编码序列与控制序列相连,所述控制序列包含 定向于5’朝向3’方向的一种翻译终止序列,所述翻译终止序列选自下述列 表:5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。更优选地,本发明的核苷 酸序列包含下述编码序列,所述编码序列与下述翻译终止序列:5’-TAAA- 3’相连。

或者,以及根据本发明的另一种优选的实施方式,本发明的核苷酸序 列包含下述翻译起始子编码序列:5’-GCTTCCTTC-3’和/或下述编码序 列,所述编码序列与控制序列相连,所述控制序列包含定向于5’朝向3’方 向的一种翻译终止序列,所述翻译终止序列选自下述列表:5’-TAAG-3’、 5’-TAGA-3’和5’-TAAA-3’。更优选地,本发明的核苷酸序列包含下述翻 译起始子编码序列:5’-GCTTCCTTC-3’和/或下述编码序列,所述编码序 列与下述翻译终止序列:5’-TAAA-3’相连。

除本发明第一个方面所定义的控制序列之外,可以使用其它控制序 列。此类其它控制序列可以是合适的启动子(promoter)序列,这是能被 宿主细胞识别以用于表达核酸序列的核酸序列。启动子序列含有能介导多 肽表达的转录控制序列。启动子可以是在细胞中显示出转录活性的任何核 酸序列,其包括突变体的、截短的和杂交的启动子,其可从编码对细胞来 说同源或异源的细胞外或细胞内多肽的基因获得。

控制序列还可以是合适的转录终止子序列,这是能被细胞识别用来终 止转录的序列。终止子序列与编码多肽的核酸序列的3’末端可操作地相 连。在细胞中具有功能的任何终止子可用于本发明。

优选用于有丝真菌细胞的终止子从编码A.oryzae TAKA-淀粉酶、 A.niger葡糖淀粉酶(glaA)、A.nidulans邻氨基苯甲酸合酶、A.niger alpha葡糖苷酶、trpC基因和Fusarium oxysporum胰蛋白酶类似蛋白酶 (trypsin-like protease)的基因获得。

控制序列还可以是合适的引导序列,这是mRNA的非翻译区域,其对 于通过细胞的翻译来说是重要的。引导序列与编码多肽的核酸序列的5’末 端可操作地相连。在细胞中具有功能的任何引导序列都可用于本发明。

优选用于有丝真菌细胞的引导序列可从编码A.oryzae TAKA-淀粉酶和 A.nidulans丙糖磷酸酯异构酶和A.niger glaA的基因获得。

其它控制序列可从青霉菌IPNS基因或pcbC基因、beta微管蛋白基因 获得。WO 01/021779中提到的所有控制序列通过引用并入本文。

控制序列还可以是聚腺苷化序列,这是与核酸序列3’末端可操作地相 连,并且当被转录时能被细胞作为信号识别以向经转录mRNA加上聚腺苷 残基的序列。在细胞中具有功能的任何聚腺苷化序列都可用于本发明。

优选用于有丝真菌细胞的聚腺苷化序列从编码A.oryzae TAKA-淀粉 酶、A.niger葡糖淀粉酶、A.nidulans邻氨基苯甲酸合酶、Fusarium oxysporum胰蛋白酶类似蛋白酶和A.niger alpha葡糖苷酶的基因获得。

本发明的核酸可包含在核酸构建体或表达载体中。

核酸构建体

根据第三个方面,本发明涉及核酸构建体或表达载体,其包含至少一 种如前述章节定义的核苷酸序列:

-同义核苷酸编码序列,通过使用最优密码子频率以及可选地,对控 制序列的修饰,所述控制序列例如:

-翻译终止序列,其定向于从5’到3’方向,其选自下述序列: TAAG、TAGA和TAAA,优选地,TAAA,和/或

-翻译起始子编码序列,其定向于从5’到3’方向,其选自下述序列: GCTACCCCC、GCTACCTCC、GCTACCCTC、GCTACCTTC、 GCTCCCCCC、GCTCCCTCC、GCTCCCCTC、GCTCCCTTC、 GCTGCCCCC、GCTGCCTCC、GCTGCCCTC、GCTGCCTTC、 GCTTCCCCC、GCTTCCTCC、GCTTCCCTC和GCTTCCTTC,优选地, 是GCT TCC TTC,和/或

-翻译起始子序列,所述翻译起始子序列包含如下述共享翻译起始子 序列所定义的核酸序列:5’-mwChkyCAmv-3’,其中使用下述不确定的核 苷酸代码:m(A/C)、r(A/G)、w(A/T)、s(C/G)、y(C/T)、k(G/T)、v (A/C/G)、h(A/C/T)、d(A/G/T)、b(C/G/T)、n(A/C/G/T),优选地,翻译起 始子序列是选自下述列表之一的:5’-mwChkyCAAA-3’、5’- mwChkyCACA-3’或-mwChkyCAAG-3’。这些优选的序列对应于下述序列 中的任何一种:AACAGCCAAA、AACAGTCAAA、AACATCCAAA、 AACATTCAAA、AACCGCCAAA、AACCGTCAAA、AACCTCCAAA、 AACCTTCAAA、AACTGCCAAA、AACTGTCAAA、AACTTCCAAA、 AACTTTCAAA、ATCAGCCAAA、ATCAGTCAAA、ATCATCCAAA、 ATCATTCAAA、ATCCGCCAAA、ATCCGTCAAA、ATCCTCCAAA、 ATCCTTCAAA、ATCTGCCAAA、ATCTGTCAAA、ATCTTCCAAA、 ATCTTTCAAA、CACAGCCAAA、CACAGTCAAA、CACATCCAAA、 CACATTCAAA、CACCGCCAAA、CACCGTCAAA、CACCTCCAAA、 CACCTTCAAA、CACTGCCAAA、CACTGTCAAA、CACTTCCAAA、 CACTTTCAAA、CTCAGCCAAA、CTCAGTCAAA、CTCATCCAAA、 CTCATTCAAA、CTCCGCCAAA、CTCCGTCAAA、CTCCTCCAAA、 CTCCTTCAAA、CTCTGCCAAA、CTCTGTCAAA、CTCTTCCAAA、 CTCTTTCAAA、AACAGCCACA、AACAGTCACA、AACATCCACA、 AACATTCACA、AACCGCCACA、AACCGTCACA、AACCTCCACA、 AACCTTCACA、AACTGCCACA、AACTGTCACA、AACTTCCACA、 AACTTTCACA、ATCAGCCACA、ATCAGTCACA、ATCATCCACA、 ATCATTCACA、ATCCGCCACA、ATCCGTCACA、ATCCTCCACA、 ATCCTTCACA、ATCTGCCACA、ATCTGTCACA、ATCTTCCACA、 ATCTTTCACA、CACAGCCACA、CACAGTCACA、CACATCCACA、 CACATTCACA、CACCGCCACA、CACCGTCACA、CACCTCCACA、 CACCTTCACA、CACTGCCACA、CACTGTCACA、CACTTCCACA、 CACTTTCACA、CTCAGCCACA、CTCAGTCACA、CTCATCCACA、 CTCATTCACA、CTCCGCCACA、CTCCGTCACA、CTCCTCCACA、 CTCCTTCACA、CTCTGCCACA、CTCTGTCACA、CTCTTCCACA、 CTCTTTCACA、AACAGCCAAG、AACAGTCAAG、AACATCCAAG、 AACATTCAAG、AACCGCCAAG、AACCGTCAAG、AACCTCCAAG、 AACCTTCAAG、AACTGCCAAG、AACTGTCAAG、AACTTCCAAG、 AACTTTCAAG、ATCAGCCAAG、ATCAGTCAAG、ATCATCCAAG、 ATCATTCAAG、ATCCGCCAAG、ATCCGTCAAG、ATCCTCCAAG、 ATCCTTCAAG、ATCTGCCAAG、ATCTGTCAAG、ATCTTCCAAG、 ATCTTTCAAG、CACAGCCAAG、CACAGTCAAG、CACATCCAAG、 CACATTCAAG、CACCGCCAAG、CACCGTCAAG、CACCTCCAAG、 CACCTTCAAG、CACTGCCAAG、CACTGTCAAG、CACTTCCAAG、 CACTTTCAAG、CTCAGCCAAG、CTCAGTCAAG、CTCATCCAAG、 CTCATTCAAG、CTCCGCCAAG、CTCCGTCAAG、CTCCTCCAAG、 CTCCTTCAAG、CTCTGCCAAG、CTCTGTCAAG、CTCTTCCAAG或 CTCTTTCAAG。更优选地,翻译起始子序列是5’-CACCGTCAAA-3’或 5’-CGCAGTCAAG-3’。

根据另一种优选的实施方式,核酸构建体或表达载体包含下述翻译起 始子序列,所述翻译起始子序列包含如下述共享翻译起始子序列所定义的 核酸序列:5’-mwChkyCAmv-3’,其中使用下述不确定的核苷酸代码:m (A/C)、r(A/G)、w(A/T)、s(C/G)、y(C/T)、k(G/T)、v(A/C/G)、h (A/C/T)、d(A/G/T)、b(C/G/T)、n(A/C/G/T),优选地,翻译起始子序列是 选自下述列表之一的:5’-mwChkyCAAA-3’、5’-mwChkyCACA-3’或- mwChkyCAAG-3’。这些优选的序列对应于下述序列中的任何一种: AACAGCCAAA、AACAGTCAAA、AACATCCAAA、AACATTCAAA、 AACCGCCAAA、AACCGTCAAA、AACCTCCAAA、AACCTTCAAA、 AACTGCCAAA、AACTGTCAAA、AACTTCCAAA、AACTTTCAAA、 ATCAGCCAAA、ATCAGTCAAA、ATCATCCAAA、ATCATTCAAA、 ATCCGCCAAA、ATCCGTCAAA、ATCCTCCAAA、ATCCTTCAAA、 ATCTGCCAAA、ATCTGTCAAA、ATCTTCCAAA、ATCTTTCAAA、 CACAGCCAAA、CACAGTCAAA、CACATCCAAA、CACATTCAAA、 CACCGCCAAA、CACCGTCAAA、CACCTCCAAA、CACCTTCAAA、 CACTGCCAAA、CACTGTCAAA、CACTTCCAAA、CACTTTCAAA、 CTCAGCCAAA、CTCAGTCAAA、CTCATCCAAA、CTCATTCAAA、 CTCCGCCAAA、CTCCGTCAAA、CTCCTCCAAA、CTCCTTCAAA、 CTCTGCCAAA、CTCTGTCAAA、CTCTTCCAAA、CTCTTTCAAA、 AACAGCCACA、AACAGTCACA、AACATCCACA、AACATTCACA、 AACCGCCACA、AACCGTCACA、AACCTCCACA、AACCTTCACA、 AACTGCCACA、AACTGTCACA、AACTTCCACA、AACTTTCACA、 ATCAGCCACA、ATCAGTCACA、ATCATCCACA、ATCATTCACA、 ATCCGCCACA、ATCCGTCACA、ATCCTCCACA、ATCCTTCACA、 ATCTGCCACA、ATCTGTCACA、ATCTTCCACA、ATCTTTCACA、 CACAGCCACA、CACAGTCACA、CACATCCACA、CACATTCACA、 CACCGCCACA、CACCGTCACA、CACCTCCACA、CACCTTCACA、 CACTGCCACA、CACTGTCACA、CACTTCCACA、CACTTTCACA、 CTCAGCCACA、CTCAGTCACA、CTCATCCACA、CTCATTCACA、 CTCCGCCACA、CTCCGTCACA、CTCCTCCACA、CTCCTTCACA、 CTCTGCCACA、CTCTGTCACA、CTCTTCCACA、CTCTTTCACA、 AACAGCCAAG、AACAGTCAAG、AACATCCAAG、AACATTCAAG、 AACCGCCAAG、AACCGTCAAG、AACCTCCAAG、AACCTTCAAG、 AACTGCCAAG、AACTGTCAAG、AACTTCCAAG、AACTTTCAAG、 ATCAGCCAAG、ATCAGTCAAG、ATCATCCAAG、ATCATTCAAG、 ATCCGCCAAG、ATCCGTCAAG、ATCCTCCAAG、ATCCTTCAAG、 ATCTGCCAAG、ATCTGTCAAG、ATCTTCCAAG、ATCTTTCAAG、 CACAGCCAAG、CACAGTCAAG、CACATCCAAG、CACATTCAAG、 CACCGCCAAG、CACCGTCAAG、CACCTCCAAG、CACCTTCAAG、 CACTGCCAAG、CACTGTCAAG、CACTTCCAAG、CACTTTCAAG、 CTCAGCCAAG、CTCAGTCAAG、CTCATCCAAG、CTCATTCAAG、 CTCCGCCAAG、CTCCGTCAAG、CTCCTCCAAG、CTCCTTCAAG、 CTCTGCCAAG、CTCTGTCAAG、CTCTTCCAAG或CTCTTTCAAG。更 优选地,翻译起始子序列是5’-CACCGTCAAA-3’或5’-CGCAGTCAAG- 3’。

“核酸构建体”在本文中被定义为单链或双链的核酸分子,其是从天 然存在的基因分离出的,或已经过修饰以含有以自然界中不存在的方式组 合及并置的核酸片断。当核酸构建体含有编码序列表达所需的所有控制序 列时,术语“核酸构建体”与术语“表达盒”或“表达载体”同义。

在插入进核酸构建体或表达载体之前对编码多肽的核苷酸序列进行操 作可能是人们想要的或必须的,这取决于核酸构建体或表达载体。用于利 用克隆方法修饰核酸序列的技术是本领域公知的。

本发明还涉及重组表达载体,其包含本发明的核苷酸序列、启动子以 及转录和翻译终止信号。上文所述的多种核酸和控制序列可连接到一起, 产生重组表达载体,其中可包括一个或多个方便的限制性位点,以允许在 此类位点对编码多肽的核酸序列进行插入或取代。

或者,编码多肽的核苷酸序列可通过下述方法表达:将所述核苷酸序 列或包含所述序列的核酸构建体插入到合适的用于表达的载体中。在制造 表达载体的过程中,编码序列以下述方式放置于载体中,所述方式使得编 码序列与用于表达以及可选的用于分泌的合适的控制序列可操作地相连。

重组载体可以是能方便地经历重组DNA过程并能导致编码多肽的核 酸序列表达的任何载体(例如质粒或病毒)。典型地,对载体的选择将取 决于载体与将引入该载体的有丝真菌细胞之间的兼容性。载体可以是线性 的或闭合环状的质粒。载体可以是自主复制载体,即作为其复制不依赖染 色体复制的染色体外主体存在,例如,质粒、染色体外元件、微型染色体 或人工染色体。自主保持的克隆载体可包含AMA1-序列(见,例如 Aleksenko and Clutterbuck(1997),Fungal Genet.Biol.21:373-397)。

或者,载体可以是下述载体,当其被引入真菌细胞时,其整合进基因 组,与其已整合进的染色体一起复制。整合型克隆载体可在真菌宿主细胞 的染色体中随机整合或在预定的目标位点整合。在本发明的一种优选的实 施方式中,整合型克隆载体包含下述DNA片段,该片段与有丝真菌宿主 细胞基因组中预定目标基因座中的、用于将克隆载体整合到预定基因座上 的DNA序列同源。为促进定位整合,优选在转化宿主细胞之前对克隆载 体进行线性化。线性化优选进行至如下程度:使得克隆载体的至少一端 (但优选地,任意一端)侧翼有与目标基因座同源的序列。目标基因座侧 翼的同源序列的长度优选为至少30bp,优选地,至少50bp,优选地,至 少0.1kb,进一步优选地,至少0.2kb,更优选地,至少0.5kb,进一步更 优选地,至少1kb,最优选地,至少2kb。优选地,克隆载体中与目标基 因座同源的DNA序列是从高度表达的基因座获得的,这意味着,其是从 能在有丝真菌宿主细胞中高水平表达的基因获得的。能高水平表达的基 因,即,能高度表达的基因在本文中被定义为,例如在诱导条件下,其 mRNA占细胞总mRNA的至少0.5%(w/w)的基因;或者其基因产物占 细胞总蛋白的至少1%(w/w)的基因;或者,在分泌出的基因产物的情况 下,可分泌至至少0.1g/l的水平(如EP 357 127 B1所述)。大量优选的 高度表达的真菌基因的例子是:来自Aspergilli或Trichoderm的淀粉酶、 葡糖淀粉酶、醇脱氢酶、木聚糖酶、磷酸甘油醛脱氢酶或纤维二糖水解酶 (cellobiohydrolase,cbh)基因。用于这些目的的最优选的高度表达的基 因是葡糖淀粉酶基因(优选A.niger葡糖淀粉酶基因)、A.oryzae TAKA- 淀粉酶基因、A.nidulans gpdA基因、Trichoderma reesei cbh基因(优选 地,cbh1)。可向宿主细胞中插入编码多肽的核酸序列的超过一个的拷 贝,以增加基因产物的生产。这可以通过下述方法来进行,优选地,通过 将DNA的多个拷贝整合进其基因组,更优选地,通过将DNA序列的整合 定位于前文定义的高度表达的基因座之一处。或者,这可以通过将可扩增 的选择标记基因加入核酸序列来进行,其中可通过在合适的选择试剂存在 的情况下培养所述细胞来对含有选择标记基因的扩增拷贝以及由此获得的 核酸序列的额外拷贝的细胞加以选择。为进一步增多将被过量表达的 DNA序列的拷贝数,可以使用WO98/46772所述的基因转化技术。

载体系统可以是单个载体或质粒,或两个或多个载体或质粒(它们一 起含有将被引入到有丝真菌细胞基因组中的总DNA),或转座子。

载体优选含有一种或多种选择标记,其允许对经转化的细胞进行容易 的选择。选择标记是其产物提供杀生物剂或病毒抗性、对重金属的抗性、 针对营养缺陷型的原营养型等的基因。用于有丝真菌细胞的选择标记可选 自下述组,所述组包括但不限于:amdS(乙酰胺酶)、argB(鸟氨酸氨甲 酰基转移酶)、bar(草丁膦转移酶)、bleA(脉霉素结合)、hygB(潮霉 素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清酸核苷-5′-磷酸脱羧 酶)、sC(硫酸腺苷转移酶)和trpC(邻氨基苯甲酸合酶)基因以及来自 其它物种的等同物。。用于Aspergillus和Penicillium细胞的优选者是A. nidulans或A.oryzae的amdS(EP 635574 B1、WO 97/06261)和pyrG基 因,以及Streptomyces hygroscopicus的bar基因。更优选地,使用amdS基 因,进一步更优选地,使用来自A.nidulans或A.niger的amdS基因。最 优选的选择标记基因是与A.nidulans gpdA启动子融合的A.nidulans amdS 编码序列(见EP 635574 B1)。来自其它有丝真菌的amdS基因也可使用 (WO 97/06261)。

用于将上述元件连接起来以构建本发明的重组表达载体的方法是本领 域技术人员公知的(见,例如,上文所述的Sambrook et al.,1989)。

宿主细胞

根据第四个方面,本发明涉及有丝真菌宿主细胞。本发明的有丝真菌 宿主细胞可以是技术人员已知的任何有丝真菌宿主细胞。

“有丝真菌”包括Eumycota和Oomycota亚门的所有有丝形式(如前 文Hawksworth et al.,1995所定义)。有丝真菌的特征在于几丁质、纤维 素、葡聚糖、脱乙酰几丁质、甘露聚糖和其它复杂多糖构成的菌丝体壁。 营养生长通过菌丝延长进行,碳代谢是专性需氧的。有丝真菌菌株包括但 不限于,Acremonium、Aspergillus、Aureobasidium、Cryptococcus、 Filibasidium、Fusarium、Humicola、Magnaporthe、Mucor、 Myceliophthora、Neocallimastix、Neurospora、Paecilomyces、Penicillium、 Piromyces、Schizophyllum、Talaromyces、Thermoascus、Thielavia、 Tolypocladium和Trichoderma的菌株。

公众可以从大量培养中心容易地获得Aspergillus的菌株及其有性型 (teleomorph),例如American Type Culture Collection(ATCC)、Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH(DSM)、 Centraalbureau Voor Schimmelcultures(CBS)和Agricultural Research Service Patent Culture Collection、Northern Regional Research Center(NRRL) Aspergillus niger CBS 513.88、Aspergillus oryzae ATCC 20423、IFO 4177、 ATCC 1011、ATCC 9576、ATCC14488-14491、ATCC 11601、 ATCC12892、P.chrysogenumCBS 455.95、Penicillium citrinum ATCC 38065、Penicillium chrysogenum P2、Acremonium chrysogenum ATCC 36225 或ATCC 48272、Trichoderma reesei ATCC 26921或ATCC 56765或ATCC 26921、Aspergillus sojae ATCC11906、Chrysosporium lucknowense ATCC44006及其衍生物。

优选地,本发明的有丝真菌宿主细胞包含至少一个拷贝的本发明第三 方面的核酸构建体。

根据一种优选的实施方式,在根据本发明的第一个和第二个方面对编 码和/或控制序列加以修饰之前,核酸构建体中存在的编码和/或控制序列 是有丝真菌宿主细胞异源的。

根据一种更优选的实施方式,包含给定拷贝数的本发明第三方面的核 酸构建体的、本发明的有丝真菌宿主细胞是有丝真菌细胞,其中,所述核 酸构建体编码的产物的表达,较之包含相应的天然核苷酸序列的相应的核 酸构建体所编码的同样的产物的生产有所提高,所述相应的核酸构建体在 相应的有丝真菌宿主细胞中以同样的拷贝数存在。优选地,对本发明第三 方面的核酸构建体或表达载体中存在的核苷酸序列的修饰导致本发明的有 丝真菌宿主细胞(包含给定拷贝数的本发明第三方面的核酸构建体)产生 的感兴趣化合物的产量增加至少1%、5%、10%、25%、50%、100%、 200%、300%、400%、更优选500%,所述增加是与包含相应的天然核苷 酸序列的相应的核酸构建体的生产加以比较得出的,所述相应的核酸构建 体以同样拷贝数存在于相应的有丝真菌宿主细胞中。

可通过下述方法来测定将被生产的感兴趣的化合物产量的增加:测量 本发明的有丝真菌宿主细胞生产的化合物的量,将其与相应的有丝真菌宿 主细胞生产的感兴趣的化合物加以比较。可以通过测量从(同义)核苷酸 编码序列转录的mRNA的量,mRNA编码的多肽的量,或者化合物(例 如代谢产物)(对其的生产中涉及同义核苷酸编码序列编码的多肽)的量 等,来进行对生产的感兴趣化合物的产量的测定。技术人员已知用来测定 mRNA的量的方法的例子包括但不限于:Northern印迹、定量PCR、实时 PCR和微阵列分析。可以使用技术人员已知的蛋白质测量试验等来测定多 肽的量。当多肽是酶时,可以使用特异于所关注的酶的活性试验来测量多 肽的量。技术人员将知道对于特定的酶该选用何种试验。用于测定待生产 的感兴趣的化合物的产量的优选试验是特异于所关注的酶的活性试验。

根据一种更优选的实施方式,本发明的宿主细胞是属于下述物种的细 胞,所述物种选自Aspergillus、Penicillium、Fusarium、Chrysosporum或 Trichoderma的种构成的组,最优选地,所述物种选自Aspergillus niger、 Aspergillus oryzae、Aspergillus sojae、Aspergillus terreus、Chrysosporum lucknowense、Trichoderma reesei或Penicillium chrysogenum的种构成的 组。最优选的Aspergillus niger宿主细胞是CBS513.88或其衍生物。

宿主细胞可以是野生型有丝真菌宿主细胞或变体、突变体或经过遗传 改造的有丝真菌宿主细胞。在本发明的一种优选的实施方式中,宿主细胞 是蛋白酶缺陷型的或蛋白酶较弱型的(minus)菌株。这可以是蛋白酶缺 陷型菌株Aspergillus oryzae JaL 125,其中名为“alp”的碱性蛋白酶基因缺 失(描述于WO 97/35956或EP 429 490中),或者可以是A.niger的三肽 酰-氨基肽酶(TPAP)缺陷型菌株(公开于WO 96/14404中)。此外,如 WO 01/68864所述的、具有对转录活化因子(prtT)的减少的生产的宿主 细胞也是本发明所考虑的。另一被特别关注的宿主细胞是Aspergillus oryzae BECh2,其中,亲本菌株IF04177中存在的三个TAKA淀粉酶基因 已被失活。此外,通过基因打断技术(disruption)已破坏了两个蛋白酶— —碱性蛋白酶和中性金属蛋白酶11。形成代谢产物环匹阿尼酸 (cyclopiazonic acid)和曲酸(kojic acid)的能力已被突变所破坏。BECh2 在WO 00/39322中有所描述,其从JaL228(描述于WO 98/12300中)获 得,其还是US 5,766,912中公开的IF04177的突变体,其作为A1560。

可选地,宿主细胞包含较之野生型细胞来说提高的解折叠蛋白应答 (UPR),以增加对感兴趣的多肽的生产能力。可通过 US2004/0186070A1和/或US2001/0034045A1和/或WO01/72783A2所述的 技术来提高UPR。更具体地,HAC1和/或IRE1和/或PTC2的蛋白水平已 被调节,和/或SEC61蛋白已被工程改造,以获得具有提高的UPR的宿主 细胞。

或者,或与提高的UPR组合,可对宿主细胞进行遗传修饰,以获得较 之野生型细胞展示出更低的蛋白酶表达和/或蛋白酶分泌的表型,以提高对 感兴趣的多肽的生产能力。此类表型可通过对蛋白酶表达的转录调控因子 进行缺失和/或修饰和/或失活来获得。此类转录调控因子例如是prtT。通 过调节prtT来降低蛋白酶的表达可通过US2004/0191864A1所述的技术来 进行。

或者,或与提高的UPR和/或展示出更低的蛋白酶表达和/或蛋白酶分 泌的表型组合,宿主细胞展示出草酸缺陷型表型,以提高对感兴趣的多肽 的生产产量。草酸缺陷型表型可通过WO2004/070022A2所述的技术来获 得。

或者,或与提高的UPR和/或展示出更低的蛋白酶表达和/或蛋白酶分 泌和/或草酸缺陷型的表型组合,宿主细胞展示出较之野生型细胞的表型差 异组合,以提高对感兴趣的多肽的生产产量。这些差异可包括但不限于葡 糖淀粉酶和/或中性alpha淀粉酶A和/或中性alpha淀粉酶B、alpha-1、6- 转葡糖苷酶、蛋白酶和草酸水解酶的降低的表达。通过宿主细胞展示出的 所述表型差异可通过US2004/0191864A1所述的技术进行遗传修饰来获 得。

或者,或与上述表型组合,优选地,通过宿主细胞的增加的同源重组 能力来增加核酸构建体通过同源重组靶向整合进宿主细胞基因组的效率, 即,在预定的目标基因座整合的效率。此类细胞表型优选涉及 WO2005/095624所述的hdfA或hdfB基因。WO2005/095624公开了一种优 选方法,用于获得包含增加的靶向整合效率的有丝真菌细胞。

将表达载体或核酸构建体引入有丝真菌细胞可能涉及下述方法,所述 方法由以本身已知的手段进行的原生质体形成、对原生质体的转化以及细 胞壁重建构成。用于转化Aspergillus细胞的合适方法见EP 238 023和 Yelton et al.,1984,Proceedings of the National Academy of Sciences USA 81: 1470-1474所述。用于转化Fusarium的种的方法由Malardier et.al.,1989, Gene 78:147156或WO 96/00787所述。可使用的表达载体或核酸构建体 已在相关章节中描述。

生产感兴趣的化合物

本发明可用于生产感兴趣的化合物。感兴趣的化合物优选是多肽。或 者,感兴趣的化合物可以是代谢产物。在这种情况下,根据本发明对编码 涉及代谢产物合成的酶的核苷酸序列加以修饰。术语“代谢产物”包括初 级和次级代谢产物;代谢产物可以是任何代谢产物。优选的代谢产物是柠 檬酸。另一优选的代谢产物是类胡萝卜素。代谢产物可以由一个或多个基 因编码,例如在生物合成或代谢途径中的基因。初级代谢产物是细胞的初 级或一般性代谢的产物,其与能量代谢、生长和结构相关。次级代谢产物 是次级代谢的产物(见,例如,R.B.Herbert,The Biosynthesis of Secondary Metabolites,Chapman and Hall,New York,1981)。初级代谢产物可以是, 但不限于:氨基酸、脂肪酸、核苷、核苷酸、糖、甘油三酯或维生素。次 级代谢产物可以是,但不限于:生物碱、香豆素、类黄酮、聚酮化合物 (polyketide)、奎宁、类固醇、肽或萜。次级代谢产物可以是抗生素、拒 食素、引诱剂(attractant)、杀细菌剂、杀真菌剂、激素、杀昆虫剂或灭 鼠剂。优选的抗生素是头孢菌素和beta内酰胺。

或者,感兴趣的化合物还可以是选择标记基因的产物。选择标记基因 是产物提供杀生物剂或病毒抗性、对重金属的抗性、针对营养缺陷型的原 营养型等的基因。在此情况下,根据本发明对编码选择标记基因产物的核 苷酸序列加以修饰。选择标记包括但不限于amdS(乙酰胺酶)、argB (鸟氨酸氨甲酰基转移酶)、bar(草丁膦转移酶)、hygB(潮霉素磷酸 转移酶)、niaD(硝酸还原酶)、pyrG(乳清酸核苷-5′-磷酸脱羧酶)、 sC(硫酸腺苷转移酶)、trpC(邻氨基苯甲酸合酶)、ble(脉霉素抗性蛋 白)及其等同物。

当感兴趣的化合物是多肽时,多肽可以是对细胞来说天然或异源(非 天然)的任何多肽。只要编码多肽的DNA序列和与其可操作地相连的控 制DNA序列是已知的,即可根据本发明(见DNA序列的章节),对这些 天然或非天然的DNA序列加以修饰,克隆进合适的DNA构建体或表达载 体,并转化进选用的宿主。编码异源多肽的核酸序列可从任何原核、真 核、植物或其它来源获得。就本发明的目的而言,术语“从……获得”在 本文中与给定的来源一起使用时将表示,多肽是通过该来源生产的或通过 已插入了来自该来源的基因的细胞生产的。

术语“异源多肽”在本文中被定义为野生型细胞不生产的(非天然 的)多肽。术语“多肽”在本文中不用来指特定长度的被编码产品,因此 其包括肽、寡肽和蛋白。多肽还可以是重组多肽,这是对于细胞来说天然 的多肽,其由例如下述经优化的核酸序列编码,所述核酸序列还可包含对 于该核酸序列来说外源的、在对多肽的生产中涉及的一种或多种控制序 列。多肽可以是野生型多肽或其变体。多肽还可以是杂交体多肽,其含有 从至少两种不同多肽获得的部分或完整多肽序列的组合,其中,多肽中的 一种或多种可能与细胞是异源的。多肽还包括上述多肽的天然存在的等位 基因和经工程改造的变异。

优选地,多肽分泌到有丝真菌细胞外。在一种优选的实施方式中,多 肽是抗体或其部分、抗原、凝血因子、酶、激素或激素变体、受体或其部 分、调控蛋白、结构蛋白、报道蛋白或转运蛋白、细胞内蛋白、分泌过程 涉及的蛋白、折叠过程涉及的蛋白、伴侣分子、肽氨基酸转运蛋白、糖基 化因子、转录因子。在一种优选的实施方式中,多肽是细胞外分泌的。

在一种更优选的实施方式中,酶是氧化还原酶、转移酶、水解酶、裂 合酶(lyase)、异构酶、连接酶、过氧化氢酶、纤维素酶、几丁质酶、角 质酶、脱氧核糖核酸酶、环糊精糖基转移酶、酯酶。

在一种进一步更优选的实施方式中,多肽是碳水化合物酶,例如,纤 维素酶,例如内葡聚糖酶,β-葡聚糖酶,纤维二糖水解酶或β-葡糖苷 酶,半纤维素酶或胶质水解(pectinolytic)酶,例如,木聚糖酶,木糖苷 酶,甘露聚糖酶,半乳糖酶,半乳糖苷酶,胶质甲酯酶,胶质裂解酶,果 胶酸裂解酶,内聚半乳糖醛酸酶,外聚半乳糖醛酸酶,鼠李半乳糖醛酸 酶,阿拉伯聚糖酶,阿拉伯呋喃糖苷酶,阿拉伯木聚糖水解酶,半乳糖醛 酸酶,裂合酶或淀粉水解酶;水解酶,异构酶或连接酶,磷酸酶(例如, 植酸酶),酯酶(例如脂肪酶),蛋白水解酶,氧化还原酶(例如氧化 酶),转移酶或异构酶。更优选地,想要的基因编码植酸酶。在一种进一 步更优选的实施方式中,多肽是氨肽酶、淀粉酶、碳水化合物酶、羧肽 酶、内切蛋白酶、金属蛋白酶、丝氨酸蛋白酶、过氧化氢酶、几丁质酶、 角质酶、环糊精糖基转移酶、脱氧核糖核酸酶、酯酶、alpha-半乳糖苷 酶、beta-半乳糖苷酶、葡糖淀粉酶、alpha-葡糖苷酶、beta-葡糖苷酶、卤 素过氧化物酶、蛋白水解酶、转化酶、漆酶、脂肪酶、甘露糖苷酶、变构 酶(mutanase)、氧化酶、胶质水解酶、过氧化物酶、磷脂酶、多酚氧化 酶、核糖核酸酶、转谷氨酰胺酶或葡萄糖氧化酶、己糖氧化酶、单加氧 酶。

在另一种进一步更优选的实施方式中,多肽是人胰岛素或其类似物、 人生长因子、促红细胞生成素、组织血纤维蛋白溶酶原活化因子(tPA) 或促胰岛素生成素(insulinotropin)。

多肽还可以是细胞内蛋白或酶,例如伴侣分子、蛋白酶或转录因子。 这方面的一个例子在Appl Microbiol Biotechnol.1998 Oct;50(4):447-54 (″Analysis of the role of the gene bipA,encoding the major endoplasmic reticulum chaperone protein in the secretion of homologous and heterologous proteins in black Aspergilli.Punt PJ,van Gemeren IA,Drint-Kuijvenhoven J, Hessing JG,van Muijlwijk-Harteveld GM,Beijersbergen A,Verrips CT,van den Hondel CA)中有所描述。这可用于,例如,如果该多肽(例如伴侣分 子、蛋白酶或转录因子)已知是蛋白生产中限制性因素的话,用于提高宿 主细胞作为蛋白生产者的效率。

或者,细胞内多肽是给定的次级代谢产物(例如类胡萝卜素或抗生 素)生产所涉及的酶。

本发明还可用于对对细胞来说是天然的多肽的重组生产。如果技术人 员按照前文章节所述,对编码和/或控制核苷酸序列加以修饰,可对天然多 肽进行重组生产。例如,通过使用前文定义的编码任何氨基酸的经优化密 码子频率来修饰编码序列,以提高天然或天然存在的核苷酸序列的表达水 平。可选地,可将获得的同义编码序列放置于不同启动子的控制下,以增 强多肽的表达、通过使用本发明的信号序列加速目标天然多肽向细胞外的 运输以及增加编码细胞正常生产的多肽的基因的拷贝数。在术语“异源多 肽”的范围内,本发明还包括对对细胞来说天然的多肽的上述重组生产, 包括至如下程度:此类表达涉及使用对细胞并非天然的遗传元件,或者使 用天然元件,但这些元件已被操作为按照并非正常存在于有丝真菌细胞中 的方式发挥功能。用于分离或克隆编码异源多肽的核酸序列的技术是本领 域已知的,其包括从基因组DNA的分离,从cDNA的制备及其组合。

在本发明的方法中,异源多肽还可包括融合的多肽或杂交体多肽,其 中,另一个多肽在多肽或其片段的N末端或C末端融合。融合的多肽是通 过将编码一种多肽的核酸序列(或其一部分)与编码另一种多肽的核酸序 列(或其一部分)融合产生的。

用于生产融合多肽的技术是本领域已知的,其包括,将编码多肽的编 码序列连接起来,使得它们符合读码框原则、并且使得融合的多肽的表达 处于同样的启动子和终止子的控制之下。杂交体多肽可包含从至少两种不 同多肽获得的部分或全部多肽序列的组合,其中,所述多肽中的一条或多 条对突变体真菌细胞来说可能是异源的。可通过多种方法,对编码感兴趣 的异源多肽的经分离的核酸序列进行操作,以提供所述多肽的表达。表达 应当被理解为包括生产多肽过程所涉及的任何步骤,其包括但不限于,转 录、转录后修饰、翻译、翻译后修饰和分泌。在其插入到载体之前,对编 码多肽的核酸序列的操作可能是想要的或必需的,这取决于表达载体。用 于利用克隆方法修饰核酸序列的技术是本领域公知的。

本文前述章节中描述的感兴趣的多肽可在本发明提供的有丝真菌宿主 细胞中生产。

因此,根据另一个方面,本发明涉及在本发明的有丝真菌宿主细胞中 生产感兴趣的化合物的方法,所述方法包括:

(a)在适合生产感兴趣的化合物的营养培养基中,对前述章节所定义 的有丝真菌宿主细胞加以培养;以及,

(b)从有丝真菌宿主细胞的营养培养基回收感兴趣的化合物。

使用本领域已知的方法,在适合用于生产感兴趣化合物的营养培养基 中对本发明的有丝真菌宿主细胞加以培养。例如,可通过在合适的培养基 中、允许感兴趣的化合物被表达和/或分离的条件下进行摇瓶培养、实验室 或工业发酵罐中的小规模或大规模的发酵(包括连续、分批、补料分批或 固态发酵)来培养细胞。培养发生于包含碳源和氮源以及无机盐的合适营 养培养基中,使用本领域已知的方法来进行(见,例如Bennett,J.W.and LaSure,L.,eds.,More Gene Manipulations in Fungi,Academic Press,CA, 1991)。合适的培养基可从商业供货商处获得,或者使用已公开的组成 (例如,American Type Culture Collection目录中的)来制备。如果感兴趣 的化合物分泌进营养培养基,可直接从培养基回收多肽。如果多肽不分 泌,从细胞裂解物对其进行回收。

可通过本领域已知的方法来分离得到的感兴趣的化合物。例如,可通 过传统方法从营养培养基分离多肽,这些方法包括但不限于,离心、过 滤、萃取、喷雾干燥、蒸发或沉淀。然后可通过本领域已知的大量方法对 经分离的感兴趣的化合物加以进一步纯化,所述方法包括但不限于,色谱 (例如,离子交换、亲和、疏水、层析聚焦和尺寸排除)、电泳程序(例 如制备等电聚焦)、差异溶解(例如硫酸铵沉淀)或萃取(见,例如 Protein Purification,J.-C.Janson and Lars Ryden,editors,VCH Publishers, New York,1989)。

可使用本领域已知的特异于多肽的方法来探测感兴趣的化合物。这些 探测方法可包括,使用特定抗体、形成酶产物、酶底物的消失或SDS PAGE。例如,如果感兴趣的化合物是酶,可以用酶试验来测定多肽的活 性。对很多酶来说,用于测定酶活性的程序是本领域已知的。

在本发明的方法中,本发明的有丝真菌宿主细胞(包含给定拷贝数的 本发明第三方面的核酸构建体)产生的感兴趣的化合物的产量,较之包含 相应的天然核苷酸序列的相应的核酸构建体的生产,要增加至少1%、 5%、10%、25%、50%、100%、200%、300%、400%、更优选500%,所 述相应的核酸构建体以同样拷贝数存在于相应的有丝真菌宿主细胞中。优 选地,本发明的有丝真菌宿主细胞是Aspergillus、Trichoderma、 Fusarium、Chrysosporum或Penicillium宿主细胞。更优选地,有丝真菌宿 主细胞是Aspergillus niger、Aspergillus oryzae、Aspergillus sojae、 Aspergillus terreus、Chrysosporum lucknowense、Trichoderma reesei或 Penicillium chrysogenum宿主细胞。最优选的Aspergillus niger宿主细胞是 CBS513.88或其衍生物。

在另一种优选的实施方式中,本发明的有丝真菌宿主细胞(包含给定 拷贝数的本发明第三方面的核酸构建体)产生的感兴趣的化合物的产量优 选为每升0.1g、0.2g、0.3g、0.4g、更优选地0.5g,进一步更优选地每 升有高于0.5g的感兴趣的化合物。可以通过特定试验来测定对感兴趣的 化合物的生产。优选地,本发明的有丝真菌宿主细胞是Aspergillus、 Trichoderma、Fusarium、Chrysosporum或Penicillium宿主细胞。更优选 地,有丝真菌宿主细胞是Aspergillus niger、Aspergillus oryzae、Aspergillus sojae、Aspergillus terreus、Chrysosporum lucknowense、Trichoderma reesei 或Penicillium chrysogenum宿主细胞。最优选的Aspergillus niger宿主细胞 是CBS513.88或其衍生物。

或者,根据另一种优选的实施方式,当多肽是对给定的代谢产物(例 如(beta-内酰胺)抗生素或类胡萝卜素)的生产所涉及的酶时,本发明的 有丝真菌宿主细胞用于生产给定的代谢产物。

根据本发明的另一方面,提供了相关章节所定义的任何一种核苷酸序 列在用于生产感兴趣的化合物中的用途,相关章节所定义的核酸构建体或 表达载体在用于生产感兴趣的化合物中的用途,以及相关章节所定义的任 何一种有丝真菌宿主细胞在用于生产感兴趣的化合物中的用途。

用于生产核苷酸序列的方法;计算经优化的密码子频率

根据本发明的另一方面,提供了用于生产本发明的第一个方面的核苷 酸序列的方法,所述方法包括如下步骤:

-提供具有本发明第一个方面所定义的经优化密码子频率的同义核苷 酸编码序列,以及可选地,

-将所述同义核苷酸编码序列与本发明第一个方面定义的控制序列可 操作地相连。

为提供具有经优化的编码频率的同义核苷酸编码序列,可以通过本发 明提供的方法来计算经优化的编码频率。该方法如下文所概述。

对于下文中称为组1氨基酸(AA)的氨基酸而言,仅有一种可能性。 组1由甲硫氨酸(其总是由ATG编码)和色氨酸(其总是由TGG编码) 构成。

根据0%或100%的极端频率,对下文中称为组2氨基酸的氨基酸进行 优化。该策略是清楚的。用于组2氨基酸的所有密码子被特别改变为下表 所列出的密码子。更具体地:

-半胱氨酸总是由TGC编码;

-苯丙氨酸由TTC编码;

-组氨酸由CAC编码;

-赖氨酸由AAG编码;

-天冬酰胺由AAC编码;

-谷氨酰胺由CAG编码;

-酪氨酸由TAC编码。

在下文中被称为组3氨基酸的所有其它氨基酸被若干种密码子所编 码,如表1所示;每种密码子以优选的密码子频率存在:

-丙氨酸由GCT、GCC、GCA或GCG编码;

-天冬氨酸由GAT、GAC编码;

-谷氨酸由GAA、GAG编码;

-甘氨酸由GGT、GGC、GGA、GGG编码;

-异亮氨酸由ATT、ATC、ATA编码;

-亮氨酸由TTA、TTG、CTT、CTC、CTA、CTG编码;

-脯氨酸由CCT、CCC、CCA、CCG编码;

-精氨酸由CGT、CGC、CGA、CGG、AGA、AGG编码;

-丝氨酸由TCT、TCC、TCA、TCG、AGT、AGC编码;

-苏氨酸由ACT、ACC、ACA、ACG编码;

-缬氨酸由GTT、GTC、GTA、GTG编码。

下述规则用于计算给定的编码序列中针对组3氨基酸的经优化密码子 频率:

对于组3氨基酸和它们对应的不同密码子而言,优选地,根据下述方 法来计算给定的编码序列中每种可能的密码子的最优出现率:

i.对于组3各个氨基酸中的每种,加和得到给定的序列中编码的残基 的总数,

ii.对于每种氨基酸和编码该氨基酸的密码子,将该氨基酸的总数与表 1中最优密码子分布(distribution)相乘,得到原始的密码子分布,这通常 将含有小数,

iii.通过去掉小数部分,对原始的密码子分布(ii)的值取整(round off),产生经取整的密码子分布,

iv.对于每种氨基酸,加和得到用经取整的密码子分布(iii)给出的氨 基酸总数,

v.对于经取整的密码子分布中每种不同的氨基酸,计算出总的残基缺 少数,这通过用给定的序列中被编码的残基总数(i)减去经取整的密码子 分布给出的氨基酸总数(iv)来计算,

vi.对于每种密码子,通过减法计算原始的密码子分布(ii)和经取整 的密码子分布(iii)之间的小数差异,

vii.对于每种密码子,将小数差异(vi)和表1中的最优密码子分布相 乘,给出对于每种密码子的权重值,

viii.对于每种不同的氨基酸,针对缺少的残基数(v),给具有最高权 重值(vii)的密码子选择不同的数量。

ix.计算编码多肽的给定序列中最终的最优密码子分布,这通过针对每 种密码子将经取整的密码子分布(iii)和所选的缺少的残基数(viii)加和 计算得到。

随后,对于给定序列中总数高于计算出的最优密码子分布的密码子, 进行选择,以取代为计算出的不同的相应密码子。此外,对于频率应当增 加的密码子,从频率应当减少的其它不同对应密码子候选者中进行选择 (见实施例1)。在另一种优选的方法中,人们可以考虑使用计算机算法 来选择和计算给定核苷酸序列中的密码子替换。在另一种优选的实施方式 中,对密码子替换的选择和计算可以根据计算出的密码子频率以及针对二 级结构和其它特征(例如包括进某些RNA标签或限制性位点)的标准, 以及避免某些核苷酸序列的原则来进行。“二级结构”指下述核酸序列区 域,当其为单链时,具有形成双链发卡结构或环的趋势。此类结构可阻止 转录和翻译。在WO 01/55342中提供了如何评估核酸形成二级结构的可能 性的可能方法。若干软件程序可预测二级结构。在一种优选的实施方式 中,通过最邻近(nearest-neighbor)方法来测定二级结构。关于该方法的 描述由Freier et al(Proc Natl Acad Sci USA 1986,83,9373-9377)所述,其使 用代指RNA:RNA二级结构的能量参数。该方法的应用可在Clone Manager 7程序(Sci.Ed.Central:Scientific & Educational软件,版本7.02)中进行。

根据另一种优选的方法,可仅将根据表1的经优化密码子频率应用于 编码序列的特定部分。在本发明的一种更优选的实施方式中,在根据最终 的优选密码子分布对用于替换的候选者进行随机选择,以及对新的相应密 码子候选进行随机选择之后,来进行对给定的核苷酸序列中密码子的取 代。

根据另一种优选的实施方式,可仅应用基于氨基酸序列计算得到的优 选密码子分布。通过按照计算得到的优选密码子分布,对密码子进行合适 的选择,将氨基酸序列反向翻译为核苷酸序列,得到具有经优化的密码子 频率的经修饰编码序列(实施例2)。在对经修饰的编码序列进行设计之 后,可能针对二级结构特征、富含AT的片断以及不想要的限制性位点加 以检查。在观察到这些方面的情况下,本领域技术人员知道如何交换或替 换经修饰编码序列的特定密码子,以在不改变被编码的多肽的情况下避免 特定问题。在一种优选的实施方式中,这可以通过计算机程序来进行,要 考虑到关于二级结构的特定标准、避免富含AT的区域、避免富含GC的 区域、引入限制性位点等。在另一种实施方式中,反向翻译这个过程通过 针对核苷酸序列中需要放置的每个密码子对位置加以随机选择来进行。

为提供具有想要的修饰的核苷酸序列,可以应用一般性分子生物学方 法。利用克隆方法修饰核苷酸序列的这些技术是本领域公知的。此类方法 包括,例如:随机或定点诱变、DNA改组方法、DNA重新装备方法、基 因合成或者本领域技术人员已知的其它方法(见,例如Young and Dong, (2004),Nucleic Acids Research32,(7)electronic access http://nar.oupjournals.org/cgi/reprint/32/7/e59或Gupta et al.(1968),Proc.Natl. Acad.Sci USA,60:1338-1344;Scarpulla et al.(1982),Anal.Biochem.121: 356-365;Stemmer et al.(1995),Gene 164:49-53)。

根据另一种优选的实施方式,提供了生产本发明第二方面的核苷酸序 列的方法,这通过提供具有根据本发明第二方面所述的翻译起始子序列的 核苷酸序列来实现。用于利用克隆方法修饰核酸序列的技术是本领域已知 的。

根据另一种优选的实施方式,提供了一种方法,用于生产包含同义核 苷酸编码序列的核苷酸序列,所述同义核苷酸编码序列展示出本发明第一 方面和第二方面的组合特征,所述方法包括下述过程来进行:

-使用上文所述的方法,提供具有本发明第一个方面所定义的经优化 密码子频率的同义核苷酸编码序列,

-使用上文所述的方法,提供具有根据本发明第二方面的翻译起始子 序列的核苷酸序列,以及可选地,

-将所述同义核苷酸编码序列与本发明第一个方面定义的控制序列可 操作地相连。

将通过下述实施例对本发明进行进一步描述,实施例不应被理解为限 制本发明的范围。

实施例

实验信息

菌株

WT1:该A.niger菌株被用作为野生型菌株。该菌株被保藏于CBS Institute,保藏号为CBS 513.88。

WT2:该A.niger菌株是包含编码葡糖淀粉酶的基因(glaA)缺失的 WT1菌株。WT2是通过使用EP 0 635 574所述的“MARKER-GENE FREE”方法构建的,在该专利中描述了如何在CBS 513.88基因组中缺失 glaA特定DNA序列的方法。该方案产生了不含标记基因的ΔglaA重组A. niger CBS513.88菌株,该菌株最终不具有任何外源DNA序列。

WT3:该菌株是包含导致草酸缺陷型A.niger菌株的突变的WT2菌 株。WT3是通过使用EP1590444所述的方法构建的。在该专利文献中详细 描述了如何筛选草酸缺陷型A.niger菌株。按照EP1590444实施例1和2 的方法来构建菌株WT3,菌株WT3是EP1590444的突变体菌株22(在 EP1590444中名为FINAL)。

A.niger摇瓶发酵

按照WO 99/32617中实施例“Aspergillus niger摇瓶发酵”一节所述, 在20ml预培养基中对A.niger菌株进行预培养。过夜培养后,将10ml该 培养物转移到发酵培养基1(RM1)中用于alpha淀粉酶发酵,以及转移 到发酵培养基2(FM2)中,用于磷脂酶A1发酵。发酵在含100ml发酵 培养液的500ml带盖烧瓶中,于34℃和170rpm,进行指定的天数,通常 如WO99/32617所述。

FM1培养基每升含有:70g葡萄糖、25g酪蛋白水解产物、12.5g酵 母提取物、1g KH2PO4、2g K2SO4、0.5g MgSO4·7H2O、0.03g ZnCl2、 0.02g CaCl2、0.01g MnSO4·4H2O、0.3g FeSO4·7H2O、10ml Pen-Strep (Invitrogen,目录号10378-016),用4N H2SO4调节至pH5.6。

FM2培养基每升含有:82.5g葡萄糖·1H2O、25g Maldex 15(Boom Meppel,Netherlands)、2g柠檬酸、4.5g NaH2PO4·1H2O、9g KH2PO4、 15g(NH4)2SO4、0.02g ZnCl2、0.1g MnSO4·1H2O、0.015g CuSO4·5H2O、0.015g CoCl2·6H2O、1g MgSO4·7H2O、0.1g CaCl2·2H2O、0.3g FeSO4·7H2O、30g MES(2-[N-吗啉]乙磺酸), pH=6。

PLA1磷脂酶活性

为通过分光光度方法测定Aspergillus niger培养物中的磷脂酶PLA1活 性(pla1),使用人工底物:1,2-二硫代二辛酰磷脂酰胆碱(diC8,底 物)。pla1水解A1位置的硫键,分离出硫代辛酸。硫代辛酸与4,4-二硫 代吡啶(着色剂,4-DTDP)发生反应,形成4-硫代吡啶酮。4-硫代吡啶酮 与4-巯基吡啶处于互变异构平衡,后者吸收334nm波长的辐射。测量该 波长处的消光变化。一个单位是:于37℃,pH4.0时,每分钟从1,2-二硫 代二辛酰磷脂酰胆碱释放出1nmol硫代辛酸的酶的量。

通过将1g diC8晶体溶解于每66ml乙醇加164ml乙酸盐缓冲液来制 备底物溶液。乙酸盐缓冲液包含:pH3.85的、含有0.2%Triton-X100的 0.1M乙酸盐缓冲液。着色剂是11mM的4,4-二硫代吡啶溶液。其是通过 下述方法制备的:在2ml eppendorf样品杯中称量出5.0mg 4,4-二硫代吡 啶,将其溶于1.00ml乙醇。加入1.00ml milli-Q水。

真菌alpha-淀粉酶活性

为测定A.niger培养液中的alpha-淀粉酶活性,按照厂商方案,使用 Megazyme谷物alpha-淀粉酶试剂盒(Megazyme,CERALPHA alpha淀粉酶 试验试剂盒,目录参考号K-CERA,2000-2001年)。测量的活性基于存在过 量葡糖淀粉酶和α-葡糖苷酶时对非还原末端封闭的(non-reducing- endblocked)对硝基苯麦芽庚糖苷的水解。形成的对硝基苯的量是对存在 于样品中的alpha-淀粉酶活性的指示。

实施例1  构建针对编码A.oryzae磷脂酶A1的pla1基因和编码A.nigeralpha-淀粉酶的amvA基因的Aspergillus表达构建体

JP 1998155493-A/1中公开了编码磷脂酶A1蛋白的pla1基因的DNA 序列,其还可从EMBL核苷酸序列数据库 (http://www.ebi.ac.uk/embl/index.html)以编码E16314获得。天然A. oryzae pla1基因的基因组序列示为SEQ ID NO:1。pla1的相应编码序列 示为SEQ ID NO:2。SEQ ID NO:2的翻译序列被称为SEQ ID NO:3, 其代表A.oryzae磷脂酶A1。

编码alpha-淀粉酶蛋白的amyA基因的DNA序列公开于Curr Genet. 1990 Mar;17(3):203-212(Cloning,characterization,and expression of two alpha-amylase genes from Aspergillus niger var.awamori by Korman DR, Bayliss FT,Barnett CC,Carmona CL,Kodama KH,Royer TJ,Thompson SA, Ward M,Wilson LJ,Berka RM)中,其还可从EMBL核苷酸序列数据库 (http://www.ebi.ac.uk/embl/index.html)以编码AB109452获得。天然A. niger amyA基因的基因组序列示为SEQ ID NO:28。amyA的相应编码或 cDNA序列示为SEQ ID NO:29。SEQ ID NO:29的翻译序列被称为SEQ ID NO:30,其代表A.niger alpha-淀粉酶蛋白。

为在Aspergillus物种中对pla1构建体进行表达分析,在翻译起始位 点,对基因组pla1基因和A.niger葡糖淀粉酶启动子进行融合,这伴随着 克隆位点的引入。为达到这样的目的,使用SEQ ID NO:4和SEQ ID NO:5所示的寡核苷酸,用WO 04/070022描述的在pGBFIN11中克隆的 pla1基因构建体作为模板,进行PCR来扩增基因组pla1基因,产生1.1kb 的片段,其被称为片段A。此外,引入SnaBI克隆位点。使用SEQ ID NO:6和SEQ ID NO:7所示的寡核苷酸,用pGBFIN-23载体 (WO99/32617描述的)作为模板,进行第二次PCR,产生0.4kb的glaA 启动子片段,其被称为片段B。采用示为SEQ ID NO:5和SEQ ID NO:6 的寡核苷酸以及上述片段A和B,使用PCR,通过序列重叠延伸(SOE- PCR,描述于Gene.1989 Apr15;77(1):51-9.Ho SN,Hunt HD,Horton RM, Pullen JK,Pease LR“Site-directed mutagenesis by overlap extension using the polymerase chain reaction”),将获得的两条片段A和B融合起来,产生 1.4kb的片段C。该片段C包含基因组pla1基因和glaA启动子的一部分, 用SfiI和SnaBI对其进行消化,引入用SfiI和NruI消化过的pGBFIN-30 载体(图1),产生pGBFINPLA-1a(图2)。通过序列分析验证引入及 消化的PCR片段C的序列,其序列示为SEQ ID NO:8。

为在Aspergillus物种中对A.niger amyA构建体进行表达分析,使用 PCR,以与上文所述相似的方式,扩增得到含有基因组amyA启动子和 amyA cDNA序列的片段。在两个末端都引入合适的限制性位点,以允许 在表达载体中克隆。在5’末端引入XhoI位点,在3’末端引入PacI位点。 用XhoI和PacI消化该包含alpha-淀粉酶启动子和cDNA序列的片段,引 入用XhoI和PacI消化过的pGBFIN-12载体(构建和设计见WO 99/32617 所述),产生pGBFINFUA-1(图4)。通过序列分析验证引入的PCR片 段的序列,其序列示为SEQ ID NO:31。

实施例2  用本发明的方法构建经改进的DNA序列,用于在A.niger中改进对Aspergillus oryzae的磷脂酶A1的生产

2.1为在A.niger中表达,改进A.oryzae磷脂酶A1编码序列的密码子频率或密码子使用

本发明的方法在下文中用于改进A.oryzae的PLAl基因的密码子使 用。该方法可以以相同的方式用于改进任何核苷酸序列的密码子使用。 pla1的核苷酸编码序列示为SEQ ID NO:2。

编码PLA1的天然A.oryzae基因和合成的经优化变体的密码子使用示 于下表2中。对于天然的和经优化的合成pla1基因,给出了每个密码子的 精确数量,以及每种氨基酸的分布。此外,第三列提供了建议的最优分 布,这是优化的目标。

对于组1氨基酸,仅有一种可能性。组1由甲硫氨酸(总是由ATG 编码)和色氨酸(总是由TGG编码)构成。

根据0%或100%的极端频率,对组2氨基酸进行优化。该策略是清楚 的。用于组2氨基酸的所有密码子被特别改变为两种可能的密码子的最优 变体。更具体地:对半胱氨酸,TGT被TGC替换;对苯丙氨酸,TTT被 TTC替换;对组氨酸,CAT被CAC替换;对赖氨酸,AAA被AAG替 换,对天冬酰胺,AAT被AAC替换;对谷氨酰胺,CAA被CAG替换; 对酪氨酸,TAT被TAC替换。

组3氨基酸的被若干种密码子所编码,如表1所示;每种密码子以偏 好的密码子频率存在:丙氨酸由GCT、GCC、GCA或GCG编码;天冬氨 酸由GAT、GAC编码;谷氨酸由GAA、GAG编码;甘氨酸由GGT、 GGC、GGA、GGG编码;异亮氨酸由ATT、ATC、ATA编码;亮氨酸由 TTA、TTG、CTT、CTC、CTA、CTG编码;脯氨酸由CCT、CCC、 CCA、CCG编码;精氨酸由CGT、CGC、CGA、CGG、AGA、AGG编 码;丝氨酸由TCT、TCC、TCA、TCG、AGT、AGC编码;苏氨酸由 ACT、ACC、ACA、ACG编码;缬氨酸由GTT、GTC、GTA、GTG编 码;按照下述方法对它们进行优化:

对于组3氨基酸和它们的编码密码子而言,根据下述方法来计算给定 的编码序列中每种可能的密码子的最优出现率:

i.对于组3各个氨基酸中的每种,加和得到给定的序列中编码的残基 的总数,见列A1(表3),

ii.对于每种氨基酸和编码该氨基酸的密码子,将该氨基酸的总数与表 1中最优密码子分布(distribution)相乘,得到原始的密码子分布,这通常 将含有小数,见列A2(表4),

iii.通过去掉小数部分,对原始的密码子分布(ii)的值取整(round off),产生经取整的密码子分布,见列A3(表4),

iv.对于每种氨基酸,加和得到用经取整的密码子分布(iii)给出的氨 基酸总数,见列A4(表3),

v.对于经取整的密码子分布中每种不同的氨基酸,计算出总的残基缺 少数,这通过用给定的序列中被编码的残基总数(i)减去经取整的密码子 分布给出的氨基酸总数(iv)来计算,见列A5(表3),

vi.对于每种密码子,通过减法计算原始的密码子分布(ii)和经取整 的密码子分布(iii)之间的小数差异,见列A6(表4),

vii.对于每种密码子,将小数差异(vi)和表1中的最优密码子分布相 乘,给出对于每种密码子的权重值,见列A7(表4),

viii.对于每种不同的氨基酸,针对缺少的残基数(v),给具有最高权 重值(vii)的密码子选择不同的数量,见列A8(表4),

ix.计算编码多肽的给定序列中最终的最优密码子分布,这通过针对每 种密码子将经取整的密码子分布(iii)和所选的缺少的残基数(viii)加和 计算得到,见列A9(表4)。

表2针对PLA1的密码子优化

  氨   基   酸   密码子   最优密码子分   布   [%]   PLA1   野生型   [#密码子] PLA1 野生型 %密码 子/氨基 酸] PLA1 经优化的 [#密码子] PLA1 经优化的 [%密码子/ 氨基酸]   A  Ala_GCT  Ala_GCC  Ala_GCA  Ala_GCG     38     51     0     11     10     12     9     4     28.6     34.3     25.7     11.4     14     18     0     3     40.0     51.4     0.0     8.6   C  Cys_TGT  Cys_TGC     0     100     4     2     66.7     33.3     0     6     0.0     100.0

    D  Asp_GAT  Asp_GAC     36     64     14     5     73.7     26.3     7     12     36.8     63.2     E  Glu_GAA  Glu_GAG     26     74     7     8     46.7     53.3     4     11     26.7     73.3     F  Phe_TTT  Phe_TTC     0     100     5     4     55.6     44.4     0     9     0.0     100.0     G  Gly_GGT  Gly_GGC  Gly_GGA  Gly_GGG     49     35     16     0     6     7     5     5     26.1     30.4     21.7     21.7     12     8     3     0     52.2     34.8     13.0     0.0     H  His_CAT  His_CAC     0     100     4     4     50.0     50.0     0     8     0.0     100.0     I  Ile_ATT  Ile_ATC  Ile_ATA     27     73     0     3     6     0     33.3     66.7     0.0     2     7     0     22.2     77.8     0.0     K  Lys_AAA  Lys_AAG     0     100     2     4     33.3     66.7     0     6     0.0     100.0     L  Leu_TTA  Leu_TTG  Leu_CTT  Leu_CTC  Leu_CTA  Leu_CTG     0     13     17     38     0     32     1     9     2     8     2     12     2.9     26.5     5.9     23.5     5.9     35.3     0     4     6     13     0     11     0.0     11.8     17.6     38.2     0.0     32.4     M  Met_ATG     100     1     100.0     1     100.0     N  Asn_AAT  Asn_AAC     0     100     5     13     27.8     72.2     0     18     0.0     100.0     P  Pro_CCT  Pro_CCC  Pro_CCA  Pro_CCG     36     64     0     0     3     2     2     1     37.5     25.0     25.0     12.5     3     5     0     0     37.5     62.5     0.0     0.0     Q  Gln_CAA  Gln_CAG     0     100     3     2     60.0     40.0     0     5     0.0     100.0

     R  Arg_CGT  Arg_CGC  Arg_CGA  Arg_CGG  Arg_AGA  Arg_AGG     49     51     0     0     0     0     0     2     2     3     1     0     0.0     25.0     25.0     37.5     12.5     0.0     4     4     0     0     0     0     50.0     50.0     0.0     0.0     0.0     0.0      S  Ser_TCT  Ser_TCC  Ser_TCA  Ser_TCG  Ser_AGT  Ser_AGC     21     44     0     14     0     21     5     7     5     2     4     10     15.2     21.2     15.2     6.1     12.1     30.3     7     15     0     4     0     7     21.2     45.5     0.0     12.1     0.0     21.2      T  Thr_ACT  Thr_ACC  Thr_ACA  Thr_ACG     30     70     0     0     7     8     2     7     29.2     33.3     8.3     29.2     7     17     0     0     29.2     70.8     0.0     0.0      V  Val_GTT  Val_GTC  Val GTA  Val_GTG     27     54     0     19     5     4     1     5     33.3     26.7     6.7     33.3     4     8     0     3     26.7     53.3     0.0     20.0      W  Trp_TGG     100     4     100.0     4     100.0      Y  Tyr_TAT  Tyr_TAC     0     100     6     9     40.0     60.0     0     15     0.0     100.0

表3

  氨基酸(i) i     A1     A4     A5     Ala     Asp     Glu     Gly     Ile     Leu 1 2 3 4 5 6     35     19     15     23     9     34     33     18     14     22     8     31     2     1     1     1     1     3

  Pro   Arg   Ser   Thr   Val     7     8     9     10     11     8     8     33     24     15     7     7     30     23     14     1     1     3     1     1

表4

  密码子     A2     A3     A6     A7     A8     A9   Ala_GCT   Ala_GCC   Ala_GCA   Ala_GCG   Asp_GAT   Asp_GAC   Glu_GAA   Glu_GAG   Gly_GGT   Gly_GGC   Gly_GGA   Gly_GGG   Ile_ATT   Ile_ATC   lle_ATA   Leu_TTA   Leu_TTG   Leu_CTT   Leu_CTC   Leu_CTA   Leu_CTG   Pro_CCT   Pro_CCC   Pro_CCA   Pro_CCG   Arg_CGT   Arg_CGC     13.3     17.85     0     3.85     6.84     12.16     3.9     11.1     11.27     8.05     3.68     0     2.43     6.57     0     0     4.42     5.78     12.92     0     10.88     2.88     5.12     0     0     3.92     4.08     13     17     0     3     6     12     3     11     11     8     3     0     2     6     0     0     4     5     12     0     10     2     5     0     0     3     4     0.3     0.85     0     0.85     0.84     0.16     0.9     0.1     0.27     0.05     0.68     0     0.43     0.57     0     0     0.42     0.78     0.92     0     0.88     0.88     0.12     0     0     0.92     0.08     0.114     0.434     0.000     0.094     0.302     0.102     0.234     0.074     0.132     0.018     0.109     0.000     0.116     0.416     0.000     0.000     0.055     0.133     0.350     0.000     0.282     0.317     0.077     0.000     0.000     0.451     0.041     1     1     0     0     1     0     1     0     1     0     0     0     0     1     0     0     0     1     1     0     1     1     0     0     0     1     0     14     18     0     3     7     12     4     11     12     8     3     0     2     7     0     0     4     6     13     0     11     3     5     0     0     4     4

 Arg_CGA  Arg_CGG  Arg_AGA  Arg_AGG  Ser_TCT  Ser_TCC  Ser_TCA  Ser_TCG  Ser_AGT  Ser_AGC  Thr_ACT  Thr_ACC  Thr_ACA  Thr_ACG  Val_GTT  Val_GTC  Val_GTA  Val_GTG     0     0     0     0     6.93     14.52     0     4.62     0     6.93     7.2     16.8     0     0     4.05     8.1     0     2.85     0     0     0     0     6     14     0     4     0     6     7     16     0     0     4     8     0     2     0     0     0     0     0.93     0.52     0     0.62     0     0.93     0.2     0.8     0     0     0.05     0.1     0     0.85   0.000   0.000   0.000   0.000   0.195   0.229   0.000   0.087   0.000   0.195   0.060   0.560   0.000   0.000   0.014   0.054   0.000   0.162     0     0     0     0     1     1     0     0     0     1     0     1     0     0     0     0     0     1     0     0     0     0     7     15     0     4     0     7     7     17     0     0     4     8     0     3

随后,对于pla1编码序列中总数高于计算出的最终密码子分布的密码 子,进行随机选择,以取代为计算出的不同的相应密码子。此外,对于 pla1编码序列中应当增加的密码子,从频率应当减少的其它不同对应密码 子候选者中进行随机选择。

这产生了表2所述经修饰的编码序列(或者同义编码序列或经优化的 合成序列)。从上文所述的方法产生的经优化的合成pla1序列示于图6 中。在此可以将本发明的经修饰的编码序列与天然和基因组的pla1序列加 以比对。在该经修饰的编码序列中,天然序列的三个内含子被放置在它们 本来的位置(如SEQ ID NO:1所示),这得到了SEQ ID NO:11示出的 经优化的合成序列。使用Clone Manager 7程序(Sci.Ed.Central:Scientific & Educational软件,版本7.02),针对可能出现的有害二级结构,来检查经 修饰的编码序列中的二级结构。

2.2:选择经修饰的翻译终止序列

天然pla1基因(编码A.oryzae磷脂酶A1)含有“TAG”终止密码 子,其后是引入的SnaB1限制性位点——TACGTA。在大量合成构建体 中,5’-TAGT-3’翻译终止序列被TAAA替换,之后是同样的SnaB1限制性 位点——TACGTA。这种替换已在SEQ ID NO:11、SEQ ID NO:12、 SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:35中进行。作为结果, 表达构建体pGBFINPLA-1d、pGBFINPLA-1e、pGBFINPLA-1f、 pGBFINPLA-1g和pGBFINPLA-1h具有根据本发明的经修饰的翻译终止序 列。

2.3:选择经修饰的翻译起始序列

强glaA启动子被用于酶在A.niger中的过量表达,其中使用pGBFIN 表达构建体。PglaA的包括ATG起始密码子的翻译起始序列是5’- CACCTCAGCA ATG-3’。PglaA的翻译起始序列被修饰为5’- CACCGTCAAA-3’或5’-CGCAGTCAAG-3’。这产生了EcoRI位点下游的 葡糖淀粉酶启动子序列,这可分别由SEQ ID NO:25和26确定。该替换 在SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:12、SEQ ID NO:13 和SEQ ID NO:14的序列中进行。作为结果,表达构建体pGBFINPLA- 1b、pGBFINPLA-1c、pGBFINPLA-1e、pGBFINPLA-1f和pGBFINPLA-1g 具有根据本发明的经过修饰的翻译起始序列。已在SEQ ID NO:35的序列 中对US 6,461,837 B1所述的翻译起始子序列进行了测试,得到了表达构建 体pGBFINPLA-1h。

2.4:选择经修饰的翻译起始编码序列

可以通过密码子优化和/或对翻译起始编码序列的改进的组合,来进行 对翻译起始编码序列的修饰。对编码序列中第二个密码子的取代是明显 的,因为仅有一个密码子是最优的,即,密码子被编码甘氨酸的GCT替 换。第三个密码子具有4个选择:TCC、CCC、ACC、GCC,其分别编码 丝氨酸、脯氨酸、苏氨酸和精氨酸。选择了TCC。第四个密码子可以是用 于苯丙氨酸的TCC、用于丝氨酸的TTC、用于亮氨酸的CTC或者用于脯 氨酸的CCC。选择了TTC。这导致产生了5’-ATGGCTTCCTTC-3’作为包 括起始密码子的经修饰翻译起始编码序列。这产生了EcoRI位点下游的葡 糖淀粉酶启动子序列,其具有翻译起始编码序列,如SEQ ID NO:27所 示。该经过修饰的序列用于SEQ ID NO:14。作为结果,表达构建体 pGBFINPLA-1g具有根据本发明的经过修饰的翻译起始编码序列。

2.5:组合2.1至2.4造成的修饰中的至少一种

可以通过优化密码子使用和/或共享的翻译起始子编码序列和/或控制 DNA序列(包括共享的翻译起始子序列和/或共享的翻译终止序列),来 改进编码将被生产的多肽的核苷酸的表达。对一系列的8个构建体(表 5)加以分析,以测试本发明的大量实施方式。

表5:使用至少一种经过修饰的序列获得的若干种改进的表达构建 体。翻译起始子序列变体1:CACCGTCAAA;变体2:CGCAGTCAAG。

 SEQ ID NO 翻译起始子序列 翻译起始编码序列 密码子使用 翻译终止序列   8 野生型 野生型 野生型 野生型   9 变体1 野生型 野生型 野生型   10 变体2 野生型 野生型 野生型   11 野生型 野生型 经修饰的 野生型   12 变体1 野生型 经修饰的 经修饰的(TAA ATA)   13 变体2 野生型 经修饰的 经修饰的(TAA ATA)   14 变体1 经优化的 (ATGGCTTCCTTC) 经修饰的 经修饰的(TAA ATA)   35 US 6,461,837 B1 野生型 经修饰的 经修饰的(TAA ATA)

实施例3:用本发明的方法构建经改进的DNA序列,用于在A.niger中改进对alpha-淀粉酶的生产

3.1.为在A.niger中表达,针对alpha-淀粉酶编码序列amyA改进密码子频率或密码子使用

本发明的方法在下文中用于改进A.niger的amyA基因的密码子使 用。该方法可以以同样的方式用于改进任何核苷酸序列的密码子使用。天 然amyA的核苷酸编码序列示为SEQ ID NO:29。

x.A.niger的天然amyA基因和合成的经优化变体的密码子使用示于下 表6中。对于天然和经优化的合成amyA基因,给出了每种密码子的精确 数量以及每种氨基酸的分布。此外,第三列提供了建议的优化分布,这是 优化的目标。

表6 针对amyA的密码子优化

  氨   基   酸   密码子 最优密码子分 布 [%]   amyA   野生型   [#密码子] amyA 野生型 [%密码 子/氨基 酸] amyA 经优化的 [#密码子]   amyA   经优化的   [%密码子/   氨基酸]     A  Ala_GCT  Ala_GCC  Ala_GCA  Ala_GCG     38     51     0     11     5     15     12     10     11.9     35.7     28.6     23.8     16     21     0     5     38.1     50.0     0.0     11.9     C  Cys_TGT  Cys_TGC     0     100     7     2     77.8     22.2     0     9     0.0     100.0     D  Asp_GAT  Asp_GAC     36     64     20     22     47.6     52.4     15     27     35.7     64.3     E  Glu_GAA  Glu_GAG     26     74     5     7     41.7     58.3     3     9     25.0     75.0     F  Phe_TTT  Phe_TTC     0     100     3     12     20.0     80.0     0     15     0.0     100.0     G  Gly_GGT  Gly_GGC  Gly_GGA  Gly_GGG     49     35     16     0     10     18     10     5     23.3     41.9     23.3     11.6     21     15     7     0     48.8     34.9     16.3     0.0     H  His_CAT  His_CAC     0     100     3     4     42.9     57.1     0     7     0.0     100.0

    I  Ile_ATT  Ile_ATC  Ile_ATA     27     73     0     7     19     2     25.0     67.9     7.1     7     21     0     25.0     75.0     0.0     K  Lys_AAA  Lys_AAG     0     100     7     13     35.0     65.0     0     20     0.0     100.0     L  Leu_TTA  Leu_TTG  Leu_CTT  Leu_CTC  Leu_CTA  Leu_CTG     0     13     17     38     0     32     1     10     4     13     3     6     2.7     27.0     10.8     35.1     8.1     16.2     0     5     6     14     0     12     0.0     13.5     16.2     37.8     0.0     32.4     M  Met_ATG     100     10     100.0     10     100.0     N  Asn_AAT  Asn_AAC     0     100     3     23     11.5     88.5     0     26     0.0     100.0     P  Pro_CCT  Pro_CCC  Pro_CCA  Pro_CCG     36     64     0     0     6     8     3     5     27.3     36.4     13.6     22.7     8     14     0     0     36.4     63.6     0.0     0.0     Q  Gln_CAA  Gln_CAG     0     100     5     15     25.0     75.0     0     20     0.0     100.0     R  Arg_CGT  Arg_CGC  Arg_CGA  Arg_CGG  Arg_AGA  Arg_AGG     49     51     0     0     0     0     1     2     2     2     0     3     10.0     20.0     20.0     20.0     0.0     8.1     5     5     0     0     0     0     50.0     50.0     0.0     0.0     0.0     0.0     S  Ser_TCT  Ser_TCC  Ser_TCA  Ser_TCG  Ser_AGT  Ser_AGC     21     44     0     14     0     21     4     9     4     10     4     6     10.8     24.3     10.8     27.0     10.8     16.2     8     16     0     5     0     8     21.6     43.2     0.0     13.5     0.0     21.6

    T Thr_ACT Thr_ACC Thr_ACA Thr_ACG     30     70     0     0     9     13     10     8   22.5   32.5   25.0   20.0     12     28     0     0   30.0   70.0   0.0   0.0     V Val_GTT Val_GTC Val_GTA Val_GTG     27     54     0     19     5     12     4     10   16.1   38.7   12.9   32.3     8     17     0     6   25.8   54.8   0.0   19.4     W Trp_TGG     100     12   100.0     12   100.0     Y Tyr_TAT Tyr_TAC     0     100     11     24   31.4   68.6     0     35   0.0   100.0

随后,针对原始amyA肽中的每种氨基酸,通过对建议数量的同义密 码子(表6)进行随机分布,制造出全新的核苷酸编码序列。

天然amyA基因含有“TGA”终止密码子。在制造的所有amyA构建 体中,5’-TGA-3’翻译终止序列被5’-TAAA-3’替换,5’-TAAA-3’之后是 PacI限制性位点5’-TTAATTAA-3’。

这产生了经修饰的编码序列(或同义编码序列或经优化的合成序 列),如表6所示。从上述过程得到的经优化的合成amyA序列示于SEQ ID NO:32中。使用Clone Manager 7程序(Sci.Ed.Central:Scientfic & Educational软件,版本7.02),针对可能出现的有害二级结构,来检查经修 饰的编码序列中的二级结构。

3.2:选择经修饰的翻译起始序列

在该实施例中,强amyA启动子被用于alpha淀粉酶在A.niger中的过 量表达,其中使用基于pGBFIN的表达构建体。PamyA的包括ATG起始 密码子的翻译起始序列是5’-GGCATTTATG ATG-3’或5’-GAAGGCATTT ATG-3’,取决于哪个ATG被选为起始密码子。PamyA的翻译起始序列被 修饰为5’-CACCGTCAAA ATG-3’。该替换在SEQ ID NO:33和SEQ ID NO:34的序列中进行。作为结果,表达构建体pGBFINFUA-2和 pGBFINFUA-3具有根据本发明的经过修饰的翻译起始序列。

3.3:组合3.1和3.2造成的修饰中的至少一种

可以通过优化密码子使用和/或控制DNA序列(包括共享的翻译起始 子序列和/或共享的翻译终止序列),来改进编码将被生产的多肽的核苷酸 的表达。构建一系列的3个构建体(表7),以测试本发明的大量实施方 式。

表7:使用至少一种经修饰序列获得的改进的表达构建体的概况

SEQ ID NO   翻译起始序列   密码子使用   翻译终止序列   31   野生型   野生型   经修饰的(TAA ATTAA)   33   变体1(CACCGTCAAA)   野生型   经修饰的(TAA ATTAA)   34   变体1(CACCGTCAAA)   经修饰的   经修饰的(TAA ATTAA)

实施例4  构建经修饰的表达载体以及在A.niger中对它们进行测试

4.1构建经修饰的pla1表达载体,其表达根据实施例2.1-2.5的A.oryzae磷脂酶A1

pGBFINPLA-1a的EcoRI-SnaBI片段的DNA序列示为SEQ ID NO: 8。包含葡糖淀粉酶启动子的翻译起始序列的变体的EcoRI片段的DNA序 列示为SEQ ID NO:9和SEQ ID NO:10。这些经修饰的基因片段被完整 合成,通过序列分析验证序列。

为在表达载体中克隆这些经修饰的序列,用EcoRI消化全部的合成基 因片段,引入用EcoRI消化过的pGBFINPLA-1a载体(图2)的大片段, 产生pGBFINPLA-1a的变体表达载体。检查EcoRI片段的正确定向之后, 该变体表达构建体被命名为pGBFINPLA1b和pGBFINPLA-1c,如下表8 所示。图3还提供了关于质粒pGBFINPLA-1b和pGBFINPLA-1c的示意性 图谱。

5个其它合成序列变体(包含葡糖淀粉酶启动子、pla1信号序列、磷 脂酶A1的成熟肽以及终止密码子附近的翻译终止序列的部分)的DNA序 列示为SEQ ID NO:11到SEQ ID NO:14以及SEQ ID NO:35。通过对 重叠多核苷酸的设计和合成,以及随后从大量重叠多核苷酸装配出双链序 列,对这5条经修饰的基因片段进行完全合成。通过序列分析来验证序 列。

为在表达载体中克隆这些经修饰的序列,用EcoRI和SnaBI消化全部 的合成基因片段,引入用EcoRI和NruI消化过的pGBFINPLA-1a载体 (图2)的大片段,产生pGBFINPLA-1d到pGBFINPLA-1h的变体表达载 体,如下表8所示。图3提供了关于质粒pGBFINPLA-1d到pGBFINPLA- 1h的示意性图谱。

表8:用于在A.niger中表达pla1的经修饰表达构建体

质粒名称 SEQ ID NO 翻译起始区域 密码子 翻译终止 PGBFINPLA-1a 8 CACCTCAGCA ATG TTT AGT CTC 野生型 TAG TAC PGBFINPLA-1b 9 CACCGTCAAA ATG TTT AGT CTC 野生型 TAG TAC PGBFINPLA-1c 10 CGCAGTCAAG ATG TTT AGT CTC 野生型 TAGTAC PGBFINPLA-1d 11 CACCTCAGCA ATG TTC TCT CTC 经修饰的 经修饰的 (TAA ATA) PGBFINPLA-1e 12 CACCGTCAAA ATG TTC TCT CTC 经修饰的 经修饰的 (TAA ATA) PGBFINPLA-1f 13 CGCAGTCAAG ATG TTC TCT CTC 经修饰的 经修饰的 (TAA ATA) PGBFINPLA-1g 14 CACCGTCAAA ATG GCT TCC TTC 经修饰的 经修饰的 (TAA ATA) pGBFINPLA-1h 35 CTCCTTCACC ATG TTC TCT CTC 经修饰的 经修饰的 (TAA ATA)

质粒pGBFINPLA-1a到pGBFINPLA-1f和pGBFINPLA-1h的pla1编码 序列的经翻译序列符合SEQ ID NO:3示出的氨基酸序列,其代表野生型 A.oryzae磷脂酶A1。质粒pGBFINPLA-1g的pla1编码序列的经翻译序列 符合SEQ ID NO:15示出的氨基酸序列,其代表具有经修饰的信号序列的 A.oryzae磷脂酶A1。

4.2构建经修饰的amyA表达载体,其表达根据实施例3.1-3.3的A.oryzae alpha-淀粉酶

pGBFINFUA-1(图4)的XhoI-PacI片段的DNA序列示为SEQ ID NO:31,其包含野生型anyA启动子和野生型amyA cDNA序列,该序列 具有经修饰的翻译终止序列(TAAA)。包含alpha淀粉酶启动子的翻译起 始序列的变体的DNA序列示为SEQ ID NO:33。包含alpha淀粉酶启动子 翻译起始序列变体、并组合有针对编码alpha-淀粉酶的amyA基因的密码 子经优化编码序列的DNA序列示为SEQ ID NO:34。这些经修饰的基因 片段被体外完整合成,通过序列分析验证序列。

为在表达载体中克隆这些经修饰的序列,用XhoI和PacI消化全部的 合成基因片段,引入用XhoI和PacI消化过的pGBFINFUA-1载体(图4) 的大片段,产生变体表达载体。检查正确片段的整合后,变体表达构建体 被命名为pGBFINFUA-2和pGBFINFUA-3,如下表9所示。

表9:用于在A.niger中表达alpha-淀粉酶的经修饰表达构建体

质粒名称 SEQ ID NO 翻译起始区域 密码子 翻译终止 pGBFINFUA-1 31 野生型 (GAAGGCATTT ATG) 野生型 经修饰的 (TAA ATA) pGBFINFUA-2 33 野生型 (CACCGTCAAA ATG) 野生型 经修饰的 (TAA ATA) pGBFINFUA-3 34 野生型 (CACCGTCAAA ATG) 经修饰的 经修饰的 (TAA ATA)

质粒pGBFINFUA-1到pGBFINFUA-3的amyA编码序列的经翻译序列 符合SEQ ID NO:30示出的氨基酸序列,其代表野生型A.niger alpha-淀 粉酶。

4.3使用pGBFINPIA-载体的A.oryzae磷脂酶A1的野生型和经修饰表达构建体和使用pGBFINFUA-载体的A.niger alpha-淀粉酶的野生型和经修饰表达构建体在A.niger中的表达

通过下文所述的转化,按照图5所示的策略,将按照前述段落制备的 pGBFINPLA-和pGBFINFUA-表达构建体引入A.niger。

为在WT2中引入八个pGBFINPLA-载体(表8),以及在WT3中引 入pGBFINFUA-载体(表9),按照WO98/46772和WO99/32617所述, 进行转化以及随后对转化子的筛选。简言之,分离pGBFIN构建体的线性 DNA,用于转化A.niger。按照标准程序,在乙酰胺培养基上对转化子加 以选择,并对菌落加以纯化。针对在glaA基因座处的整合,以及针对拷贝 数,使用PCR对菌落加以分析判断。对每种pGBFIN构建体,选出5至 10个具有近似的估计拷贝数(低拷贝:1-2)的独立转化子,使用转化质 粒的编号对其进行命名,例如,分别为PLA-1a-1、PLA-1b-2和FUA-1- 1、FUA-3-1。

选出的PLA-和FUA-菌株和A.niger WT2和WT3被用于进行摇瓶实 验,这在34℃和170rpm下,使用500ml带档板摇瓶,在温育摇床上进 行,每种蛋白产物在100ml上述培养基中进行。发酵2、3、4、5和/或6 天后取样。

在第一个步骤中,通过对A.niger WT2和WT3的转化子以及WT2和 WT3自己的Northern印迹分析来测定pla1和amyA的过量表达。收集的菌 丝体用于分离RNA(按照WO99/36217所述),以及进行Northern印迹分 析(按照Northern印迹分析的标准程序(Sambrook et al.,1989)来进行)

对于野生型pla1基因的所有转化子,对pla1 mRNA水平探测到了强 且相当的杂交信号,而对于WT2本身则没有(数据未示出)。这表明在 pGBFINPLA-1a到pGBFINPLA-1c的所有经转化菌株中的葡糖淀粉酶启动 子对pla1基因的转录控制是完整的,并且较之野生型glaA启动子没有改 变。此外,通过对A.niger WT 2的受关注的PLA转化子及WT2本身进行 Northern印迹分析,测量pla1经修饰构建体的pla1过量表达。对于经修饰 合成pla1基因的所有转化子,探测到了强且相当的杂交信号,而对于 WT2本身则没有(数据未示出)。这表明,在pGBFINPLA-1d到 pGBFINPLA-1h的所有经转化菌株中的葡糖淀粉酶启动子对经优化的pla1 基因的转录控制是完整的,并且合成的pla1基因被表达。

以类似的方式,通过对A.niger WT 3的受关注的FUA转化子及WT3 本身进行Northern印迹分析,测量天然和经修饰构建体的amyA过量表 达,其中使用(通用)探针,其定位于用于全部三种表达构建体中的葡糖 淀粉酶终止子的3’非翻译区域。对于amyA构建体的所有转化子而言,探 测到了强且相当的杂交信号(数据未示出)。这表明,在pGBFINFUA-1 到pGBFINFUA-3的所有经转化菌株中的alpha-淀粉酶启动子对经优化的 amyA基因的转录控制是完整的,并且合成的amyA基因被表达。

在所有A.niger PLA转化子中测量磷脂酶A1多肽的生产。如图7所 示,采用葡糖淀粉酶启动子,观察到了经修饰翻译起始位点的使用(变体 1和变体2)对于磷脂酶生产的正面影响。类似地,对密码子使用和翻译 终止序列的修饰对于磷脂酶生产的正面影响被观察到。下表10中给出了 结果概述。这清楚表明了本发明的单种修饰或者修饰组合(例如,经修饰 的翻译起始序列,例如,变体1、2或US6,461,837 B1中描述的变体,和/ 或经修饰的密码子使用,和/或经修饰的翻译终止序列)是如何能用于提高 A.niger中磷脂酶A1生产产量的。

表10 与野生型构建体相比较,对经修饰的pla1控制和编码序列的相 对平均磷脂酶活性(从图7推断)

质粒名称 SEQ ID NO 翻译起始子序列 翻译起始子编码序 列 经优化的密码 子频率 翻译终止序 列 平均产量 图7 平均产量 图8 PGBFINPLA- 1a 8  CACCTCAGCA 野生型 野生型 野生型 100% 100% PGBFINPLA- 1b 9  CACCGTCAAA 野生型 野生型 野生型 170% 130% PGBFINPLA- 1c 10  CGCAGTCAAG 野生型 野生型 野生型 130% PGBFINPLA- 1d 11  CACCTCAGCA TTCTCTCTC 经修饰的 TAAATA 170% PGBFINPLA- 1e 12  CACCGTCAAA TTCTCTCTC 经修饰的 TAAATA 230% 240% PGBFINPLA- 1f 13  CGCAGTCAAG TTCTCTCTC 经修饰的 TAAATA 260% PGBFINPLA- 1g 14  CACCGTCAAA GCTTCCTTC 经修饰的 TAAATA 230% pGBFINPLA- 1h 35  US6,461,837  B1 TTCTCTCTC 经修饰的 TAAATA  230%

如图8所示,在多拷贝(2)情况中,也清楚发现了改进。这清楚表明 了本发明的单种修饰或者修饰组合(例如经修饰的翻译起始序列和/或经修 饰的密码子使用和/或经修饰的翻译终止序列)是如何能用于提高A.niger 中磷脂酶A1生产产量的。

在全部三种不同的A.niger FUA转化子中测量alpha-淀粉酶的生产。 如图9所示,采用alpha-淀粉酶启动子,观察到了经修饰翻译起始位点的 使用(变体1)对于alpha-淀粉酶生产的正面影响。此外,还观察到了经 修饰翻译起始位点(变体1)与经修饰密码子使用和经修饰翻译终止序列 的组合对于增加的alpha-淀粉酶的正面协同影响。这些结果清楚表明了修 饰的通用效果,因为使用本发明的方法,磷脂酶生产和alpha-淀粉酶生产 都能被提高。明显地,这些实施例显示了本发明的单种修饰或者修饰组合 (例如,经修饰的翻译起始序列、经修饰的密码子使用和/或经修饰的翻译 终止序列)是如何能用于提高A.niger中磷脂酶A1生产以及有丝真菌中任 何其它感兴趣的蛋白质的生产的。

序列表

<110>帝斯曼知识产权资产管理有限公司

<120>用于在有丝真菌细胞中生产感兴趣化合物的方法

<130>24402WO

<160>35

<170>PatentIn version 3.1

<210>1

<211>1056

<212>DNA

<213>Aspergillus oryzae

<220>

<221>外显子

<222>(1)…(79)

<223>

<220>

<221>内含子

<222>(80)…(142)

<223>

<220>

<221>外显子

<222>(143)…(308)

<223>

<220>

<221>内含子

<222>(309)…(362)

<223>

<220>

<221>外显子

<222>(363)…(699)

<223>

<220>

<221>内含子

<222>(700)…(750)

<223>

<220>

<221>外显子

<222>(751)…(1056)

<223>

<400>1

atg ttt agt ctc gcg cga ttg ggg acc gtt gca ggt cta ttt tta ctg     48

Met Phe Ser Leu Ala Arg Leu Gly Thr Val Ala Gly Leu Phe Leu Leu

1               5                   10                  15

gct cag gct gcc ccg gct tca ctg cgc aga g gtatgtttat tttctccaca     99

Ala Gln Ala Ala Pro Ala Ser Leu Arg Arg

            20                  25

acttgtaaca cagcattcgc ttgagccaga ctgacggatt tag at gtc agc tct     153

                                               Asp Val Ser Ser

                                                           30

tcc ctt ctc aat aac ctg gat ctc ttt gca cag tac agc gcc gcc gca    201

Ser Leu Leu Asn Asn Leu Asp Leu Phe Ala Gln Tyr Ser Ala Ala Ala

                35                  40                  45

tac tgt gat gag aac ctg aac tct acg ggg acc aag ttg aca tgc tct    249

Tyr Cys Asp Glu Asn Leu Asn Ser Thr Gly Thr Lys Leu Thr Cys Ser

            50                  55                  60

gtt ggc aac tgt cct ttg gta gaa gcg gcc tct acc caa tca ttg gat    297

Val Gly Asn Cys Pro Leu Val Glu Ala Ala Ser Thr Gln Ser Leu Asp

        65                  70                  75

gaa ttc aac gagtaagtcacc gcaaatatac aattctagtt cataagcaac          348

Glu Phe Asn Glu

    80

tactgacaac tcag a tcg tca tcc tac ggc aac ccc gcc ggg tac ctc gcc  399

                   Ser Ser Ser Tyr Gly Asn Pro Ala Gly Tyr Leu Ala

                           85                  90

gct gat gag act aac aag ctc cta gtc ctg tcc ttc cgg ggt agc gct    447

Ala Asp Glu Thr Asn Lys Leu Leu Val Leu Ser Phe Arg Gly Ser Ala

95                  100                 105                 110

gac ttg gcc aat tgg gtc gcc aac ctg aat ttt ggt ctc gag gat gcc    495

Asp Leu Ala Asn Trp Val Ala Asn Leu Asn Phe Gly Leu Glu Asp Ala

                115                 120                 125

agc gat ctg tgt tct ggg tgc gaa gtg cac agc ggc ttc tgg aag gca    543

Ser Asp Leu Cys Ser Gly Cys Glu Val His Ser Gly Phe Trp Lys Ala

            130                 135                 140

tgg agt gaa atc gcc gac acc atc act tcc aaa gtg gaa tca gct ttg    591

Trp Ser Glu Ile Ala Asp Thr Ile Thr Ser Lys Val Glu Ser Ala Leu

        145                 150                155

tcg gat cat tcc gat tat tcc ttg gtc ttg acc gga cat agt tac ggc    639

Ser Asp His Ser Asp Tyr Ser Leu Val Leu Thr Gly His Ser Tyr Gly

    160                 165                 170

gct gcg ctg gca gcc ctc gca gcg act gct ctg cgg aac tcc ggc cat   687

Ala Ala Leu Ala Ala Leu Ala Ala Thr Ala Leu Arg Asn Ser Gly His

175                 180                 185                 190

agt gtt gag ctg gtaagttatc ctcattttgt aagtgacggt gcgccaaatc       739

Ser Val Glu Leu

tgaccaaata g tac aac tac ggt caa cct cga ctt gga aac gag gca ttg  789

             Tyr Asn Tyr Gly Gln Pro Arg Leu Gly Asn Glu Ala Leu

             195                 200                 205

gca aca tat atc acg gac caa aac aag ggt ggc aac tat cgc gtt acg   837

Ala Thr Tyr Ile Thr Asp Gln Asn Lys Gly Gly Asn Tyr Arg Val Thr

        210                 215                 220

cac act aat gat att gtg cct aaa ctg cca ccc acg ctg ctc ggg tat   885

His Thr Asn Asp Ile Val Pro Lys Leu Pro Pro Thr Leu Leu Gly Tyr

    225                 230                 235

cac cac ttc agc cca gag tac tat atc agc agc gcc gac gag gca acg   933

His His Phe Ser Pro Glu Tyr Tyr Ile Ser Ser Ala Asp Glu Ala Thr

240                 245                 250                 255

gtg acc acc act gat gtg act gag gtt acg gga atc gat gct acg ggc   981

Val Thr Thr Thr Asp Val Thr Glu Val Thr Gly lle Asp Ala Thr Gly

                260                 265                 270

ggt aat gat gga acc gac gga act agc atc gat gct cat cgg tgg tac  1029

Gly Asn Asp Gly Thr Asp Gly Thr Ser Tle Asp Ala His Arg Trp Tyr

            275                 280                 285

ttt att tat att agc gaa tgt tca tag                              1056

Phe Ile Tyr Ile Ser Glu Cys Ser

         290                295

<210>2

<211>888

<212>DNA

<213>Aspergillus oryzae

<400>2

atgtttagtc tcgcgcgatt ggggaccgtt gcaggtctat ttttactggc tcaggctgcc     60

ccggcttcac tgcgcagaga tgtcagctct tcccttctca ataacctgga tctcgttgca    120

cagtacagcg ccgccgcata ctgtgatgag aacctgaact ctacggggac caagttgaca    180

tgctctgttg gcaactgtcc tttggtagaa gcggcctcta cccaatcatt ggatgaattc    240

aacgaatcgt catcctacgg caaccccgcc gggtacctcg ccgctgatga gactaacaag    300

ctcctagtcc tgtccttccg gggtagcgct gacttggcca attgggtcgc caacctgaat    360

tttggtctcg aggatgccag cgatctgtgt tctgggtgcg aagtgcacag cggcttctgg    420

aaggcatgga gtgaaatcgc cgacaccatc acttccaaag tggaatcagc tttgtcggat    480

cattccgatt attccttggt cttgaccgga catagttacg gcgctgcgct ggcagccctc    540

gcagcgactg ctctgcggaa ctccggccat agtgttgagc tgtacaacta cggtcaacct    600

cgacttggaa acgaggcatt ggcaacatat atcacggacc aaaacaaggg tggcaactat    660

cgcgttacgc acactaatga tattgtgcct aaactgccac ccacgctgct cgggtatcac    720

cacttcagcc cagagtacta tatcagcagc gccgacgagg caacggtgac caccactgat    780

gtgactgagg ttacgggaat cgatgctacg ggcggtaatg atggaaccga cggaactagc    840

atcgatgctc atcggtggta ctttatttat attagcgaat gttcatag    888

<210>3

<211>295

<212>PRT

<213>Aspergillus oryzae

<400>3

Met Phe Ser Leu Ala Arg Leu Gly Thr Val Ala Gly Leu Phe Leu Leu

1               5                   10                  15

Ala Gln Ala Ala Pro Ala Ser Leu Arg Arg Asp Val Ser Ser Ser Leu

            20                  25                  30

Leu Asn Asn Leu Asp Leu Phe Ala Gln Tyr Ser Ala Ala Ala Tyr Cys

        35                  40                  45

Asp Glu Asn Leu Asn Ser Thr Gly Thr Lys Leu Thr Cys Ser Val Gly

    50                  55                  60

Asn Cys Pro Leu Val Glu Ala Ala Ser Thr Gln Ser Leu Asp Glu Phe

65                  70                  75                  80

Asn Glu Ser Ser Ser Tyr Gly Asn Pro Ala Gly Tyr Leu Ala Ala Asp

                85                  90                  95

Glu Thr Asn Lys Leu Leu Val Leu Ser Phe Arg Gly Ser Ala Asp Leu

            100                 105                 110

Ala Asn Trp Val Ala Asn Leu Asn Phe Gly Leu Glu Asp Ala Ser Asp

        115                 120                 125

Leu Cys Ser Gly Cys Glu Val His Ser Gly Phe Trp Lys Ala Trp Ser

    130                 135                 140

Glu Ile Ala Asp Thr Ile Thr Ser Lys Val Glu Ser Ala Leu Ser Asp

145                 150                 155                 160

His Ser Asp Tyr Ser Leu Val Leu Thr Gly His Ser Tyr Gly Ala Ala

                165                 170                 175

Leu Ala Ala Leu Ala Ala Thr Ala Leu Arg Asn Ser Gly His Ser Val

            180                 185                 190

Glu Leu Tyr Asn Tyr Gly Gln Pro Arg Leu Gly Asn Glu Ala Leu Ala

        195                 200                 205

Thr Tyr Ile Thr Asp Gln Asn Lys Gly Gly Asn Tyr Arg Val Thr His

    210                 215                 220

Thr Asn Asp Ile Val Pro Lys Leu Pro Pro Thr Leu Leu Gly Tyr His

225                 230                 235                 240

His Phe Ser Pro Glu Tyr Tyr Ile Ser Ser Ala Asp Glu Ala Thr Val

                245                 250                 255

Thr Thr Thr Asp Val Thr Glu Val Thr Gly Ile Asp Ala Thr Gly Gly

            260                 265                 270

Asn Asp Gly Thr Asp Gly Thr Ser Ile Asp Ala His Arg Trp Tyr Phe

        275                 280                 285

Ile Tyr Ile Ser Glu Cys Ser

    290             295

<210>4

<211>42

<212>DNA

<213>人工序列

<220>

<223>设计为PCR引物用于在聚合酶链式反应中产生DNA片段的寡核苷酸

<400>4

agcatcatta cacctcagca atgtttagtc tcgcgcgatt gg    42

<210>5

<211>24

<212>DNA

<213>人工序列

<220>

<223>设计为PCR引物用于在聚合酶链式反应中产生DNA片段的寡核苷酸

<400>5

ggattgattg tacgtactat gaac                        21

<210>6

<211>23

<212>DNA

<213>人工序列

<220>

<223>设计为PCR引物用于在聚合酶链式反应中产生DNA片段的寡核苷酸

<400>6

gcatcccagg ccagtgaggc cag                         23

<210>7

<211>44

<212>DNA

<213>人工序列

<220>

<223>设计为PCR引物用于在聚合酶链式反应中产生DNA片段的寡核苷酸

<400>7

ccaatcgcgc gagactaaac attgctgagg tgtaatgatg ctgg  44

<210>8

<211>1263

<212>DNA

<213>人工序列

<220>

<223>启动子片段和基因片段的重组融合构建体,通过PCR产生的

<220>

<221>启动子

<222>(1)…(204)

<220>

<221>基因

<222>(205)…(1263)

<400>8

gaattcaagc tagatgctaa gcgatattgc atggcaatat gtgttgatgc atgtgcttct     60

tccttcagct tcccctcgtg cagatgaggt ttggctataa attgaagtgg ttggtcgggg    120

ttccgtgagg ggctgaagtg cttcctccct tttagacgca actgagagcc tgagcttcat    180

ccccagcatc attacacctc agcaatgttt agtctcgcgc gattggggac cgttgcaggt    240

ctatttttac tggctcaggc tgccccggct tcactgcgca gaggtatgtt tattttctcc    300

acaacttgta acacagcatt cgcttgagcc agactgacgg atttagatgt cagetcttcc    360

cttctcaata acctggatct ctttgcacag tacagcgccg ccgcatactg tgatgagaac    420

ctgaactcta cggggaccaa gttgacatgc tctgttggca actgtccttt ggtagaagcg    480

gcctctaccc aatcattgga tgaattcaac gagtaagtca ccgcaaatat acaattctag    540

ttcataagca actactgaca actcagatcg tcatcctacg gcaaccccgc cgggtacctc    600

gccgctgatg agactaacaa gctcctagtc ctgtccttcc ggggtagcgc tgacttggcc    660

aattgggtcg ccaacctgaa ttttggtctc gaggatgcca gcgatctgtg ttctgggtgc    720

gaagtgcaca gcggcttctg gaaggcatgg agtgaaatcg ccgacaccat cacttccaaa    780

gtggaatcag ctttgtcgga tcattccgat tattccttgg tcttgaccgg acatagttac    840

ggcgctgcgc tggcagccct cgcagcgact gctctgcgga actccggcca tagtgttgag    900

ctggtaagtt atcctcattt tgtaagtgac ggtgcgccaa atctgaccaa atagtacaac    960

tacggtcaac ctcgacttgg aaacgaggca ttggcaacat atatcacgga ccaaaacaag   1020

ggtggcaact atcgcgttac gcacactaat gatattgtgc ctaaactgcc acccacgctg   1080

ctcgggtatc accacttcag cccagagtac tatatcagca gcgccgacga ggcaacggtg   1140

accaccactg atgtgactga ggttacggga atcgatgcta cgggcggtaa tgatggaacc   1200

gacggaacta gcatcgatgc tcatcggtgg tactttattt atattagcga atgttcatag   1260

tac                                                                 1263

<210>9

<211>507

<212>DNA

<213>人工序列

<220>

<223>启动子片段和基因片段的重组融合构建体,通过PCR产生的

<220>

<221>启动子

<222>(1)…(204)

<220>

<221>基因

<222>(205)…(507)

<400>9

gaattcaagc tagatgctaa gcgatattgc atggcaatat gtgttgatgc atgtgcttct     60

tccttcagct tcccctcgtg cagatgaggt ttggctataa attgaagtgg ttggtcgggg    120

ttccgtgagg ggctgaagtg cttcctccct tttagacgca actgagagcc tgagcttcat    180

ccccagcatc attacaccgt caaaatgttt agtctcgcgc gattggggac cgttgcaggt    240

ctatttttac tggctcaggc tgccccggct tcactgcgca gaggtatgtt tattttctcc    300

acaacttgta acacagcatt cgcttgagcc agactgacgg atttagatgt cagctcttcc    360

cttctcaata acctggatct ctttgcacag tacagcgccg ccgcatactg tgatgagaac    420

ctgaactcta cggggaccaa gttgacatgc tctgttggca actgtccttt ggtagaagcg    480

gcctctaccc aatcattgga tgaattc                                        507

<210>10

<211>507

<212>DNA

<213>人工序列

<220>

<223>启动子片段和基因片段的重组融合构建体,通过PCR产生的

<220>

<221>启动子

<222>(1)…(204)

<220>

<221>基因

<222>(205)…(507)

<400>10

gaattcaagc tagatgctaa gcgatattgc atggcaatat gtgttgatgc atgtgcttct     60

tccttcagct tcccctcgtg cagatgaggt ttggctataa attgaagtgg ttggtcgggg    120

ttccgtgagg ggctgaagtg cttcctccct tttagacgca actgagagcc tgagcttcat    180

ccccagcatc attacgcagt caagatgttt agtctcgcgc gattggggac cgttgcaggt    240

ctatttttac tggctcaggc tgccccggct tcactgcgca gaggtatgtt tattttctcc    300

acaacttgta acacagcatt cgcttgagcc agactgacgg atttagatgt cagctcttcc    360

cttctcaata acctggatct ctttgcacag tacagcgccg ccgcatactg tgatgagaac    420

ctgaactcta cggggaccaa gttgacatgc tctgttggca actgtccttt ggtagaagcg    480

gcctctaccc aatcattgga tgaattc                                        507

<210>11

<211>1265

<212>DNA

<213>人工序列

<220>

<223>启动子片段和基因片段的重组融合构建体,通过PCR产生的

<220>

<221>启动子

<222>(1)…(205)

<220>

<221>基因

<222>(206)…(1265)

<400>11

ggaattcaag ctagatgcta agcgatattg catggcaata tgtgttgatg catgtgcttc     60

ttccttcagc ttcccctcgt gcagatgagg tttggctata aattgaagtg gttggtcggg    120

gttccgtgag gggctgaagt gcttcctccc ttttagacgc aactgagagc ctgagcttca    180

tccccagcat cattacacct cagcaatgtt ctctctcgcc cgccttggta ccgtcgctgg    240

tctcttcctt ctcgctcagg ctgcccccgc ttccctgcgc cgtggtatgt ttattttctc    300

cacaacttgt aacacagcat tcgcttgagc cagactgacg gatttagacg tctcctcttc    360

ccttctcaac aacctggacc tcttcgctca gtacagcgcc gccgcttact gcgatgagaa    420

cctgaactct accggtacca agttgacctg ctctgttggc aactgccctc ttgtcgaggc    480

ggcctctacc cagtccttgg atgagttcaa cgagtaagtc accgcaaata tacaattcta    540

gttcataagc aactactgac aactcagatc gtcctcctac ggcaaccccg ccggttacct    600

cgccgctgac gagactaaca agctcctcgt cctgtccttc cgtggtagcg ctgaccttgc    660

caactgggtc gccaacctga acttcggtct cgaggacgcc agcgatctgt gctctggttg    720

cgaagtccac tccggcttct ggaaggcttg gtctgagatc gccgacacca tcacttccaa    780

ggtggaatcc gctttgtcgg atcactccga ttactccctc gtcttgaccg gtcactcgta    810

cggcgctgcg ctggccgccc tcgccgcgac tgctctgcgt aactccggcc actcggttga    900

gctggtaagt tatcctcatt ttgtaagtga cggtgcgcca aatctgacca aatagtacaa    960

ctacggtcag cctcgccttg gcaacgaggc cctcgccacc tacatcaccg accagac aa   1020

gggtggcaac taccgcgtta cccacactaa cgacatcgtc cctaagctgc cccccaccct   1080

gctcggttac caccacttca gccccgagta ctacatcagc agcgccgacg aggccaccgt   1140

gaccaccact gacgtgactg aggttaccgg aatcgatgct accggcggta acgatggaac   1200

cgacggaact agcatcgacg ctcaccgttg gtacttcatt tacatttccg aatgctccta   1260

aatac                                                               1265

<210>12

<211>1265

<212>DNA

<213>人工序列

<220>

<223>启动子片段和基因片段的重组融合构建体,通过PCR产生的

<220>

<221>启动子

<222>(1)…(205)

<220>

<221>基因

<222>(206)…(1265)

<400>12

ggaattcaag ctagatgcta agcgatattg catggcaata tgtgttgatg catgtgcttc    60

ttccttcagc ttcccctcgt gcagatgagg tttggctata aattgaagtg gttggtcggg    120

gttccgtgag gggctgaagt gcttcctccc ttttagacgc aactgagagc ctgagcttca    180

tccccagcat cattacaccg tcaaaatgtt ctctctcgcc cgccttggta ccgtcgctgg    240

tctcttcctt ctcgctcagg ctgcccccgc ttccctgcgc cgtggtatgt ttattttctc    300

cacaacttgt aacacagcat tcgcttgagc cagactgacg gatttagacg tctcctcttc    360

ccttctcaac aacctggacc tcttcgctca gtacagcgcc gccgcttact gcgatgagaa    420

cctgaactct accggtacca agttgacctg ctctgttggc aactgccctc ttgtcgaggc    480

ggcctctacc cagtccttgg atgagttcaa cgagtaagtc accgcaaata tacaattcta    540

gttcataagc aactactgac aactcagatc gtcctcctac ggcaaccccg ccggttacct    600

cgccgctgac gagactaaca agctcctcgt cctgtccttc cgtggtagcg ctgaccttgc    660

caactgggtc gccaacctga acttcggtct cgaggacgcc agcgatctgt gctctggttg    720

cgaagtccac tccggcttct ggaaggcttg gtctgagatc gccgacacca tcacttccaa    780

ggtggaatcc gctttgtcgg atcactccga ttactccctc gtcttgaccg gtcactcgta    840

cggcgctgcg ctggccgccc tcgccgcgac tgctctgcgt aactccggcc actcggttga    900

gctggtaagt tatcctcatt ttgtaagtga cggtgcgcca aatctgacca aatagtacaa    960

ctacggtcag cctcgccttg gcaacgaggc cctcgccacc tacatcaccg accagaacaa   1020

gggtggcaac taccgcgtta cccacactaa cgacatcgtc cctaagctgc cccccaccct   1080

gctcggttac caccacttca gccccgagta ctacatcagc agcgccgacg aggccaccgt   1140

gaccaccact gacgtgactg aggttaccgg aatcgatgct accggcggta acgatggaac   1200

cgacggaact agcatcgacg ctcaccgttg gtacttcatt tacatttccg aatgctccta   1260

aatac                                                               1265

<210>13

<211>1265

<212>DNA

<213>人工序列

<220>

<223>启动子片段和基因片段的重组融合构建体,通过PCR产生的

<220>

<221>启动子

<222>(1)…(205)

<220>

<221>基因

<222>(206)…(1265)

<400>13

ggaattcaag ctagatgcta agcgatattg catggcaata tgtgttgatg catgtgcttc     60

ttccttcagc ttcccctcgt gcagatgagg tttggctata aattgaagtg gttggtcggg    120

gttccgtgag gggctgaagt gcttcctccc ttttagacgc aactgagagc ctgagcttca    180

tccccagcat cattacgcag tcaagatgtt ctctctcgcc cgccttggta ccgtcgctgg    240

tctcttcctt ctcgctcagg ctgcccccgc ttccctgcgc cgtggtatgt ttattttctc    300

cacaacttgt aacacagcat tcgcttgagc cagactgacg gatttagacg tctcctcttc    360

ccttctcaac aacctggacc tcttcgctca gtacagcgcc gccgcttact gcgatgagaa    420

cctgaactct accggtacca agttgacctg ctctgttggc aactgccctc ttgtcgaggc    480

ggcctctacc cagtccttgg atgagttcaa cgagtaagtc accgcaaata tacaattcta    540

gttcataagc aactactgac aactcagatc gtcctcctac ggcaaccccg ccggttacct    600

cgccgctgac gagactaaca agctcctcgt cctgtccttc cgtggtagcg ctgaccttgc    660

caactgggtc gccaacctga acttcggtct cgaggacgcc agcgatctgt gctctggttg  720

cgaagtccac tccggcttct ggaaggcttg gtctgagatc gccgacacca tcacttccaa  780

ggtggaatcc gctttgtcgg atcactccga ttactccctc gtcttgaccg gtcactcgta  840

cggcgctgcg ctggccgccc tcgccgcgac tgctctgcgt aactccggcc actcggttga  900

gctggtaagt tatcctcatt ttgtaagtga cggtgcgcca aatctgacca aatagtacaa  960

ctacggtcag cctcgccttg gcaacgaggc cctcgccacc tacatcaccg accagaacaa 1020

gggtggcaac taccgcgtta cccacactaa cgacatcgtc cctaagctgc cccccaccct 1080

gctcggttac caccacttca gccccgagta ctacatcagc agcgccgacg aggccaccgt 1140

gaccaccact gacgtgactg aggttaccgg aatcgatgct accggcggta acgatggaac 1200

cgacggaact agcatcgacg ctcaccgttg gtacttcatt tacatttccg aatgctccta 1260

aatac                                                             1265

<210>14

<211>1265

<212>DNA

<213>人工序列

<220>

<223>启动子段和基因片段的重组融合构建体,通过PCR产生的

<220>

<221>启动子

<222>(1)…(205)

<220>

<221>基因

<222>(206)…(1265)

<400>14

ggaattcaag ctagatgcta agcgatattg catggcaata tgtgttgatg catgtgcttc   60

ttccttcagc ttcccctcgt gcagatgagg tttggctata aattgaagtg gttggtcggg  120

gttccgtgag gggctgaagt gcttcctccc ttttagacgc aactgagagc ctgagcttca  180

tccccagcat cattacaccg tcaaaatggc ttccttcgcc cgccttggta ccgtcgctgg  240

tctcttcctt ctcgctcagg ctgcccccgc ttccctgcgc cgtggtatgt ttattttctc  300

cacaacttgt aacacagcat tcgcttgagc cagactgacg gatttagacg tctcctcttc  360

ccttctcaac aacctggacc tcttcgctca gtacagcgcc gccgcttact gcgatgagaa  420

cctgaactct accggtacca agttgacctg ctctgttggc aactgccctc ttgtcgaggc  480

ggcctctacc cagtccttgg atgagttcaa cgagtaagtc accgcaaata tacaattcta  540

gttcataagc aactactgac aactcagatc gtcctcctac ggcaaccccg ccggttacct  600

cgccgctgac gagactaaca agctcctcgt cctgtccttc cgtggtagcg ctgaccttgc  660

caactgggtc gccaacctga acttcggtct cgaggacgcc agcgatctgt gctctggttg  720

cgaagtccac tccggcttct ggaaggcttg gtctgagatc gccgacacca tcacttccaa  780

ggtggaatcc gctttgtcgg atcactccga ttactccctc gtcttgaccg gtcactcgta  840

cggcgctgcg ctggccgccc tcgccgcgac tgctctgcgt aactccggcc actcggttga  900

gctggtaagt tatcctcatt ttgtaagtga cggtgcgcca aatctgacca aatagtacaa  960

ctacggtcag cctcgccttg gcaacgaggc cctcgccacc tacatcaccg accagaacaa 1020

gggtggcaac taccgcgtta cccacactaa cgacatcgtc cctaagctgc cccccaccct 1080

gctcggttac caccacttca gccccgagta ctacatcagc agcgccgacg aggccaccgt 1140

gaccaccact gacgtgactg aggttaccgg aatcgatgct accggcggta acgatggaac 1200

cgacggaact agcatcgacg ctcaccgttg gtacttcatt tacatttccg aatgctccta 1260

<210>15

<211>295

<212>PRT

<213>人工序列

<220>

<223>具有经修饰信号序列的来自Aspergillus oryzae的磷脂酶Al

<400>15

Met Ala Ser Phe Ala Arg Leu Gly Thr Val Ala Gly Leu Phe Leu Leu

1               5                   10                  15

Ala Gln Ala Ala Pro Ala Ser Leu Arg Arg Asp Val Ser Ser Ser Leu

            20                  25                  30

Leu Asn Asn Leu Asp Leu Phe Ala Gln Tyr Ser Ala Ala Ala Tyr Cys

        35                  40                  45

Asp Glu Asn Leu Asn Ser Thr Gly Thr Lys Leu Thr Cys Ser Val Gly

    50                  55                  60

Asn Cys Pro Leu Val Glu Ala Ala Ser Thr Gln Ser Leu Asp Glu Phc

65                  70                  75                  80

Asn Glu Ser Ser Ser Tyr Gly Asn Pro Ala Gly Tyr Leu Ala Ala Asp

                85                  90                  95

Glu Thr Asn Lys Leu Leu Val Leu Ser Phe Arg Gly Ser Ala Asp Leu

            100                 105                 110

Ala Asn Trp Val Ala Asn Leu Asn Phe Gly Leu Glu Asp Ala Ser Asp

        115                 120                 125

Leu Cys Ser Gly Cys Glu Val His Ser Gly Phe Trp Lys Ala Trp Ser

    130                 135                 140

Glu Ile Ala Asp Thr Ile Thr Ser Lys Val Glu Ser Ala Leu Ser Asp

145                 150                 155                 160

His Ser Asp Tyr Ser Leu Val Leu Thr Gly His Ser Tyr Gly Ala Ala

                165                 170                 175

Leu Ala Ala Leu Ala Ala Thr Ala Leu Arg Asn Ser Gly His Ser Val

            180                 185                 190

Glu Leu Tyr Asn Tyr Gly Gln Pro Arg Leu Gly Asn Glu Ala Leu Ala

        195                 200                 205

Thr Tyr Ile Thr Asp Gln Asn Lys Gly Gly Asn Tyr Arg Val Thr His

    210                 215                 220

Thr Asn Asp Ile Val Pro Lys Leu Pro Pro Thr Leu Leu Gly Tyr His

225                 230                 235                 240

His Phe Ser Pro Glu Tyr Tyr Ile Ser Ser Ala Asp Glu Ala Thr Val

                245                 250                 255

Thr Thr Thr Asp Val Thr Glu Val Thr Gly Ile Asp Ala Thr Gly Gly

            260                 265                 270

Asn Asp Gly Thr Asp Gly Thr Ser Ile Asp Ala His Arg Trp Tyr Phe

        275                 280                 285

Ile Tyr Ile Ser Glu Cys Ser

    290                 295

<210>16

<211>10

<212>DNA

<213>人工序列

<220>

<223>共享的翻译起始子序列

<400>16

mwchkycamv                        10

<210>17

<211>10

<212>DNA

<213>人工序列

<220>

<223>共享的翻译起始子序列

<400>17

mwchkycaaa                       10

<210>18

<211>10

<212>DNA

<213>人工序列

<220>

<223>共享的翻译起始子序列

<400>18

mwchkycaca                       10

<210>19

<211>10

<212>DNA

<213>人工序列

<220>

<223>共享的翻译起始子序列

<400>19

mwchkycaag                       10

<210>20

<211>9

<212>DNA

<213>人工序列

<220>

<223>共享的翻译起始子编码序列

<220>

<221>misc_feature

<222>(3)…(5)

<223>n=(a/c/g/t)

<400>20

gctnccyyc                   9

<210>21

<211>9

<212>DNA

<213>人工序列

<220>

<223>翻译起始子编码序列

<400>21

gcttccttc                   9

<210>22

<211>10

<212>DNA

<213>人工序列

<220>

<223>翻译起始子序列

<400>22

caccgtcaaa                 10

<210>23

<211>10

<212>DNA

<213>人工序列

<220>

<223>翻译起始子序列

<400>23

cgcagtcaag                 10

<210>24

<211>22

<212>DNA

<213>人工序列

<220>

<223>翻译起始子区域序列

<400>24

caccgtcaaa atggcttcct tc    22

<210>25

<211>207

<212>DNA

<213>人工序列

<220>

<223>具有经修饰的翻译起始子序列的启动子片段

<220>

<221>misc_feature

<222>(195)…(204)

<223>翻译起始子序列

<400>25

gaattcaagc tagatgctaa gcgatattgc atggcaatat gtgttgatgc atgtgcttct     60

tccttcagct tcccctcgtg cagatgaggt ttggctataa attgaagtgg ttggtcgggg    120

ttccgtgagg ggctgaagtg cttcctccct tttagacgca actgagagcc tgagcttcat    180

ccccagcatc attacaccgt caaaatg                                        207

<210>26

<211>207

<212>DNA

<213>人工序列

<220>

<223>具有经修饰的翻译起始子序列的启动子片段

<220>

<221>misc_feature

<222>(195)…(204)

<223>翻译起始子序列

<400>26

gaattcaagc tagatgctaa gcgatattgc atggcaatat gtgttgatgc atgtgcttct   60

tccttcagct tcccctcgtg cagatgaggt ttggctataa attgaagtgg ttggtcgggg  120

ttccgtgagg ggctgaagtg cttcctccct tttagacgca actgagagcc tgagcttcat  180

ccccagcatc attacgcagt caagatg                                      207

<210>27

<211>216

<212>DNA

<213>人工序列

<220>

<223>具有经修饰的翻译起始子区域序列的启动子片段

<220>

<221>misc_feature

<222>(195)…(216)

<223>翻译起始子区域序列

<400>27

gaattcaagc tagatgctaa gcgatattgc atggcaatat gtgttgatgc atgtgcttct     60

tccttcagct tcccctcgtg cagatgaggt ttggctataa attgaagtgg ttggtcgggg    120

ttccgtgagg ggctgaagtg cttcctccct tttagacgca actgagagcc tgagcttcat    180

ccccagcatc attacaccgt caaaatggct tccttc                              216

<210>28

<211>3965

<212>DNA

<213>Aspergillus niger

<400>28

gtttgacgcg tttgcagtgt agaagcttcc agctaccgta gattactgat acaaactcaa     60

tacactattt ctataacctt actgttcaat acagtacgat caaaatttcc ggaatattaa    120

tgttacggtt accttccata tgtagactag cgcacttggc attagggttc gaaatacgat    180

caaagagtat tggggggggt gacagcagta atgactccaa ctgtaaatcg gcttctaggc    240

gcgctccatc taaatgttct ggctgtggtg tacaggggca taaaattacg cactacccga    300

atcgatagaa ctactcattt ttatatagaa gtcagaattc atggtgtttt gatcatttta    360

aatttttata tggcgggtgg tgggcaactc gcttgcgcgg gcaactcgct taccgattac    420

gttagggctg atatttacgt aaaaatcgtc aagggatgca agaccaaagt actaaaaccc    480

cggagtcaac agcatccaag cccaagtcct tcacggagaa accccagcgt ccacatcacg    540

agcgaaggac cacctctagg catcggacgc accatccaat tagaagcagc aaagcgaaac    600

agcccaagaa aaaggtcggc ccgtcggcct tttctgcaac gctgatcacg ggcagcgatc    660

caaccaacac cctccagagt gactaggggc ggaaatttat cgggattaat ttccactcaa    720

ccacaaatca cagtcgtccc cggtattgtc ctgcagaatg caatttaaac tcttctgcga    780

atcgcttgga ttccccgccc ctggccgtag agcttaaagt atgtcccttg tcgatgcgat    840

gtatcacaac atataaatac tagcaaggga tgccatgctt ggaggatagc aaccgacaac    900

atcacatcaa gctctccctt ctctgaacaa taaaccccac agaaggcatt tatgatggtc    960

gcgtggtggt ctctatttct gtacggcctt caggtcgcgg cacctgcttt ggctgcaacg   1020

cctgcggact ggcgatcgca atccatttat ttccttctca cggatcgatt tgcaaggacg   1080

gatgggtcga cgactgcgac ttgtaatact gcggatcagg tgtgttgtta cctactagct   1140

ttcagaaaga ggaatgtaaa ctgacttgat atagaaatac tgtggtggaa catggcaggg   1200

catcatcgac aaggtaaatt gcccctttat caaaaaaaaa agaaggaaaa gcagaagaaa   1260

aataaaataa aaagaactct agtcctaacc atcacatagt tggactatat ccagggaatg   1320

ggcttcacag ccatctggat cacccccgtt acagcccagc tgccccagac caccgcatat   1380

ggagatgcct accatggcta ctggcagcag gatatgtaag tcgatttctt taaatatcta    1440

cctgtcatct tttacatcaa tatgaactaa cttgatggtt ttagatactc tctgaacgaa    1500

aactacggca ctgcagatga cttgaaggcg ctctcttcgg cccttcatga gagggggatg    1560

tatcttatgg tcgatgtggt tgctaaccat atggttcgtg gtcctttgca actgacttcg    1620

cggatatggt tcatttcagt actgacaatg agtaatatca gggctatgat ggagcgggta    1680

gctcagtcga ttacagtgtg tttaaaccgt tcagttccca agactacttc cacccgttct    1740

gtttcattca aaactatgaa gatcagactc aggttgagga ttgctggcta ggagataaca    1800

ctgtctcctt gcctgatctc gataccacca aggatgtggt caagaatgaa tggtacgact    1860

gggtgggatc attggtatcg aactactcca gtaagatatt tctccctcat tctacaactt    1920

ggctgatcga tgatacttac gaaatcagtt gacggcctcc gtatcgacac agtaaaacac    1980

gtccagaagg acttctggcc cgggtacaac aaagccgcag gcgtgtactg tatcggcgag    2040

gtgctcgacg gtgatccggc ctacacttgt ccctaccaga acgtcatgga cggcgtactg    2100

aactatccca tgtatggttc ctccaaccat gagccttctt gcaagtctca tctcctaacg    2160

aaacggctaa aaccagttac tatccactcc tcaacgcctt caagtcaacc tccggcagca    2220

tggacgacct ctacaacatg atcaacaccg tcaaatccga ctgtccagac tcaacactcc    2280

tgggcacatt cgtcgagaac cacgacaacc cacggttcgc ttcgtaagtc ttccctttta    2340

ttttccgttc ccaatttcca cacagaaccc cacctaacaa gagcaaagtt acaccaacga    2400

catagccctc gccaagaacg tcgcagcatt catcatcctc aacgacggaa tccccatcat    2460

ctacgccggc caagaacagc actacgccgg cggaaacgac cccgcgaacc gcgaagcaac    2520

ctggctctcg ggctacccga ccgacagcga gctgtacaag ttaattgcct ccgcgaacgc    2580

aatccggaac tatgccatta gcaaagatac aggattcgtg acctacaagg taagcacaac    2640

ctctaagcat accctaatgg cctatcttca gagtatctga cacaagagac taatcactgg    2700

caatacagaa ctggcccatc tacaaagacg acacaacgat cgccatgcgc aagggcacag    2760

atgggtcgca gatcgtgact atcttgtcca acaagggtgc ttcgggtgat tcgtataccc    2820

tctccttgag tggtgcgggt tacacagccg gccagcaatt gacggaggtc attggctgca    2880

cgaccgtgac ggttggttcg gatggaaatg tgcctgttcc tatggcaggt gggctaccta    2940

gggtattgta tccgactgag aagttggcag gtagcaagat ctgtagtagc tcgtgaaggg    3000

tggagagtat atgatggtac tgctattcaa tctggcattg gacagtgagt ttgagtttga    3060

tgtacataac caaggttgtg tctgtataat atatacatgt aagatacatg agcttcggtg    3120

atataataca gaagtaccat acagtaccgc gttatgaaaa cacattaatc cggatccttt    3180

cctataatag actagcgtgc ttggcattag ggttcgaaaa acaatcgaag agtataaggg    3240

gatgacagca gtaacgactc caactgtagc ccacatcttg agttcggcaa ctactgttgg    3300

cacgtgaccc tgtgccttgt ggtagctcct taactttgtc atcattcgaa gaattttcgt    3360

cccttcccag gtaccatcca aaagacaagc atccgtcgct tcactctgag atcagatgag    3420

agtaatattg ttgactgcgt ttgtgatgcg ggtgatgtcc tctgcgatcg gccgcaagct    3480

gtttagtttg ccccggatct tctgtgccga cggttgctcc ccgaattttc ttagctagtg    3540

taatcacgct attcagaaag gcttccaaga attaggccgg tagttcggcg cgtttggtgt    3600

cgtcaagctc cagcagtgct ggggcctcgg ctatgatatg gttagaatgc tcggggtggg    3660

tcacggcagg acacccgaca ctgcaacgtc taccacattt gagcgttatt ggcagacttg    3720

cggcgagata acgaccgcta gcttgtatca accaaatcca actgaaatta ttgctttgcc    3780

atcccaacag tggatttcgg aggagggagg ggggaagata tacgatgaac ggaagactgg    3840

acaagatacg ttacataaag cagtactact tgtttcaaac tgtgtacaca ccagggctct    3900

cgcttcagcg gagagtgtcg aaagattcag taaaacatcg ccaggggtga tggaaagggg    3960

ttaag                                                                3965

<210>29

<211>1497

<212>DNA

<213>Aspergillus niger

<220>

<221>CDS

<222>(1)...(1497)

<400>29

atg gtc gcg tgg tgg tct cta ttt ctg tac ggc ctt cag gtc gcg gca     48

Met Val Ala Trp Trp Ser Leu Phe Leu Tyr Gly Lcu Gln Val Ala Ala

1               5                   10                  15

cct gct ttg gct gca acg cct gcg gac tgg cga tcg caa tcc att tat     96

Pro Ala Leu Ala Ala Thr Pro Ala Asp Trp Arg Ser Gln Ser Ile Tyr

            20                  25                  30

ttc ctt ctc acg gat cga ttt gca agg acg gat ggg tcg acg act gcg    144

Phe Leu Leu Thr Asp Arg Phe Ala Arg Thr Asp Gly Ser Thr Thr Ala

        35                  40                  45

act tgt aat act gcg gat cag aaa tac tgt ggt gga aca tgg cag ggc    192

Thr Cys Asn Thr Ala Asp Gln Lys Tyr Cys Gly Gly Thr Trp Gln Gly

    50                  55                  60

atc atc gac aag ttg gac tat atc cag gga atg ggc ttc aca gcc atc    240

Ile Ile Asp Lys Leu Asp Tyr Ile Gln Gly Met Gly Phe Thr Ala Ile

65                  70                  75                  80

tgg atc acc ccc gtt aca gcc cag ctg ccc cag acc acc gca tat gga    288

Trp Ile Thr Pro Val Thr Ala Gln Leu Pro Gln Thr Thr Ala Tyr Gly

                85                  90                  95

gat gcc tac cat ggc tac tgg cag cag gat ata tac tct ctg aac gaa    336

Asp Ala Tyr His Gly Tyr Trp Gln Gln Asp Ile Tyr Ser Leu Asn Glu

            100                 105                 110

aac tac ggc act gca gat gac ttg aag gcg ctc tct tcg gcc ctt cat    384

Asn Tyr Gly Thr Ala Asp Asp Leu Lys Ala Lcu Ser Ser Ala Leu His

        115                 120                 125

gag agg ggg atg tat ctt atg gtc gat gtg gtt gct aac cat atg ggc    432

Glu Arg Gly Met Tyr Leu Met Val Asp Val Val Ala Asn His Met Gly

    130                 135                 140

tat gat gga gcg ggt agc tca gtc gat tac agt gtg ttt aaa ccg ttc    480

Tyr Asp Gly Ala Gly Ser Ser Val Asp Tyr Ser Val Phe Lys Pro Phe

145                 150                 155                 160

agt tcc caa gac tac ttc cac ccg ttc tgt ttc att caa aac tat gaa    528

Ser Ser Gln Asp Tyr Phe His Pro Phe Cys Pho Ile Gln Asn Tyr Glu

                165                 170                 175

gat cag act cag gtt gag gat tgc tgg cta gga gat aac act gtc tcc    576

Asp Gln Thr Gln Val Glu Asp Cys Trp Leu Gly Asp Asn Thr Val Ser

            180                 185                 190

ttg cct gat ctc gat acc acc aag gat gtg gtc aag aat gaa tgg tac    624

Leu Pro Asp Leu Asp Thr Thr Lys Asp Val Val Lys Asn Glu Trp Tyr

        195                 200                 205

gac tgg gtg gga tca ttg gta tcg aac tac tcc att gac ggc ctc cgt    672

Asp Trp Val Gly Ser Leu Val Ser Asn Tyr Ser Ile Asp Gly Leu Arg

    210                 215                 220

atc gac aca gta aaa cac gtc cag aag gac ttc tgg ccc ggg tac aac    720

Ile Asp Thr Val Lys His Val Gln Lys Asp Phe Trp Pro Gly Tyr Asn

225                 230                 235                 240

aaa gcc gca ggc gtg tac tgt atc ggc gag gtg ctc gac ggt gat ccg    768

Lys Ala Ala Gly Val Tyr Cys Ile Gly Glu Val Leu Asp Gly Asp Pro

                245                 250                 255

gcc tac act tgt ccc tac cag aac gtc atg gac ggc gta ctg aac tat    816

Ala Tyr Thr Cys Pro Tyr Gln Asn Val Met Asp Gly Val Leu Asn Tyr

            260                 265                 270

ccc att tac tat cca ctc ctc aac gcc ttc aag tca acc tcc ggc agc    864

Pro Ile Tyr Tyr Pro Leu Leu Asn Ala Phe Lys Ser Thr Ser Gly Ser

        275                 280                 285

atg gac gac ctc tac aac atg atc aac acc gtc aaa tcc gac tgt cca    912

Met Asp Asp Leu Tyr Asn Met Ile Asn Thr Val Lys Ser Asp Cys Pro

    290                 295                 300

gac tca aca ctc ctg ggc aca ttc gtc gag aac cac gac aac cca cgg    960

Asp Ser Thr Leu Leu Gly Thr Phe Val Glu Asn His Asp Asn Pro Arg

305                 310                 315                 320

ttc gct tct tac acc aac gac ata gcc ctc gcc aag aac gtc gca gca   1008

Phe Ala Ser Tyr Thr Asn Asp Ile Ala Leu Ala Lys Asn Val Ala Ala

                325                 330                 335

ttc atc atc ctc aac gac gga atc ccc atc atc tac gcc ggc caa gaa   1056

Phe Ile Ile Leu Asn Asp Gly Ile Pro Ile Ile Tyr Ala Gly Gln Glu

            340                 345                 350

cag cac tac gcc ggc gga aac gac ccc gcg aac cgc gaa gca acc tgg   1104

Gln His Tyr Ala Gly Gly Asn Asp Pro Ala Asn Arg Glu Ala Thr Trp

        355                 360                 365

ctc tcg ggc tac ccg acc gac agc gag ctg tac aag tta att gcc tcc   1152

Leu Ser Gly Tyr Pro Thr Asp Ser Glu Leu Tyr Lys Leu Ile Ala Ser

    370                 375                 380

gcg aac gca atc cgg aac tat gcc att agc aaa gat aca gga ttc gtg   1200

Ala Asn Ala Ile Arg Asn Tyr Ala Ile Ser Lys Asp Thr Gly Phe Val

385                 390                 395                 400

acc tac aag aac tgg ccc atc tac aaa gac gac aca acg atc gcc atg   1248

Thr Tyr Lys Asn Trp Pro Ile Tyr Lys Asp Asp Thr Thr Ile Ala Met

                405                 410                 415

cgc aag ggc aca gat ggg tcg cag atc gtg act atc ttg tcc aac aag   1296

Arg Lys Gly Thr Asp Gly Ser Gln Ile Val Thr Ile Leu Ser Asn Lys

            420                 425                 430

ggt gct tcg ggt gat tcg tat acc ctc tcc ttg agt ggt gcg ggt tac   1344

Gly Ala Ser Gly Asp Ser Tyr Thr Leu Ser Leu Ser Gly Ala Gly Tyr

        435                 440                 445

aca gcc ggc cag caa ttg acg gag gtc att ggc tgc acg acc gtg acg   1392

Thr Ala Gly Gln Gln Leu Thr Glu Val Ile Gly Cys Thr Thr Val Thr

    450                 455                 460

gtt ggt tcg gat gga aat gtg cct gtt cct atg gca ggt ggg cta cct   1440

Val Gly Ser Asp Gly Asn Val Pro Val Pro Met Ala Gly Gly Leu Pro

465                 470                 475                 480

agg gta ttg tat ccg act gag aag ttg gca ggt agc aag atc tgt agt   1488

Arg Val Leu Tyr Pro Thr Glu Lys Leu Ala Gly Ser Lys Ile Cys Ser

                485                 490                 495

agc tcg tga                                                      1497

Ser Ser

<210>30

<211>498

<212>PRT

<213>Aspergillus niger

<400>30

Met Val Ala Trp Trp Ser Leu Phe Leu Tyr Gly Leu Gln Val Ala Ala

1               5                   10                  15

Pro Ala Leu Ala Ala Thr Pro Ala Asp Trp Arg Ser Gln Ser Ile Tyr

            20                  25                  30

Phe Leu Leu Thr Asp Arg Phe Ala Arg Thr Asp Gly Ser Thr Thr Ala

        35                  40                  45

Thr Cys Asn Thr Ala Asp Gln Lys Tyr Cys Gly Gly Thr Trp Gln Gly

    50                  55                   60

Ile Ile Asp Lys Leu Asp Tyr Ile Gln Gly Met Gly Phe Thr Ala Ile

65                  70                  75                  80

Trp Ile Thr Pro Val Thr Ala Gln Leu Pro Gln Thr Thr Ala Tyr Gly

                85                  90                   95

Asp Ala Tyr His Gly Tyr Trp Gln Gln Asp Ile Tyr Ser Leu Asn Glu

            100                 105                 110

Asn Tyr Gly Thr Ala Asp Asp Leu Lys Ala Leu Ser Ser Ala Leu His

        115                 120                 125

Glu Arg Gly Met Tyr Leu Met Val Asp Val Val Ala Asn His Met Gly

    130                 135                 140

Tyr Asp Gly Ala Gly Ser Ser Val Asp Tyr Ser Val Phe Lys Pro Phe

145                 150                 155                 160

Ser Ser Gln Asp Tyr Phe His Pro Phe Cys Phe Ile Gln Asn Tyr Glu

                165                 170                 175

Asp Gln Thr Gln Val Glu Asp Cys Trp Leu Gly Asp Asn Thr Val Ser

            180                 185                 190

Leu Pro Asp Leu Asp Thr Thr Lys Asp Val Val Lys Asn Glu Trp Tyr

        195                 200                 205

Asp Trp Val Gly Ser Leu Val Ser Asn Tyr Ser Ile Asp Gly Leu Arg

    210                 215                 220

Ile Asp Thr Val Lys His Val Gln Lys Asp Phe Trp Pro Gly Tyr Asn

225                 230                 235                 240

Lys Ala Ala Gly Val Tyr Cys Ile Gly Glu Val Leu Asp Gly Asp Pro

                245                 250                 255

Ala Tyr Thr Cys Pro Tyr Gln Asn Val Met Asp Gly Val Leu Asn Tyr

            260                 265                 270

Pro Ile Tyr Tyr Pro Leu Leu Asn Ala Phe Lys Ser Thr Ser Gly Ser

        275                 280                 285

Met Asp Asp Leu Tyr Asn Met Ile Asn Thr Val Lys Ser Asp Cys Pro

    290                 295                 300

Asp Ser Thr Leu Leu Gly Thr Phe Val Glu Asn His Asp Asn Pro Arg

305                 310                 315                 320

Phe Ala Ser Tyr Thr Asn Asp Ile Ala Leu Ala Lys Asn Val Ala Ala

                325                 330                 335

Phe Ile Ile Leu Asn Asp Gly Ile Pro Ile Ile Tyr Ala Gly Gln Glu

            340                 345                 350

Gln His Tyr Ala Gly Gly Asn Asp Pro Ala Asn Arg Glu Ala Thr Trp

        355                 360                 365

Leu Ser Gly Tyr Pro Thr Asp Ser Glu Leu Tyr Lys Leu Ile Ala Ser

    370                 375                 380

Ala Asn Ala Ile Arg Asn Tyr Ala Ile Ser Lys Asp Thr Gly Phe Val

385                 390                 395                 400

Thr Tyr Lys Asn Trp Pro Ile Tyr Lys Asp Asp Thr Thr Ile Ala Met

                405                 410                 415

Arg Lys Gly Thr Asp Gly Ser Gln Ile Val Thr Ile Leu Ser Asn Lys

            420                 425                 430

Gly Ala Ser Gly Asp Ser Tyr Thr Leu Ser Leu Ser Gly Ala Gly Tyr

        435                 440                 445

Thr Ala Gly Gln Gln Leu Thr Glu Val Ile Gly Cys Thr Thr Val Thr

    450                 455                 460

Val Gly Ser Asp Gly Asn Val Pro Val Pro Met Ala Gly Gly Leu Pro

465                 470                 475                 480

Arg Val Leu Tyr Pro Thr Glu Lys Leu Ala Gly Ser Lys Ile Cys Ser

                485                 490                 495

Ser Ser

<210>31

<211>3494

<212>DNA

<213>Aspergillus niger

<400>31

ctcgagggac aacgcatcgt ttgatacact tcccgccaat atggacgttg tccagaagcc     60

tgttcagcat cgatctgggc gtctcgttct gtaagcattc tcctagttac tgatgacttt    120

cctctcttat ctgtattccg tgaaagagga gggccactgt cctctatata gtttatggat    180

ataaaaagtt tgagcttctt gccaatatga aacagatttc cccacattaa gagctgtttc    240

tctataggtt tccaatcaat attagtgccg tcaaaacgtt tgttcagatc agattgtcca    300

cgttcgttta cagatactct gactgtagta tcatctgatc tcacacgttg gttgtgacgt    360

atttttcgac gcataacatt ttcagcatcc tgtgttatct tcgcccagtg tgaactgggt    420

gctacagcca agtcctgttc agtgtccttt gacacagttc ggttgttcag agttaccttc    480

cactcaatag tataatgaat acaaggcttt cctctatgtt gcctcgtagt cctttcttcg    540

ggctcctgga agaaacccag atgattgggc tgggattgat gcaagggagt ataaggttca    600

tcaagtacat gttcaggtga tgggcaaaat acggatggcg tacgatctct accgaagtca    660

ccaggggtgg gggcatacga tggagtttgt atccacggat caggtggctg aagctgagag    720

gcatcgtcat cgtagtaagg actaaacgtc atcccctcaa ggcagtagat gccactgaga    780

agcctagtgt tgggatcatc atatgttagc ctacaccata tgggtgtccc agcaagagtg    840

tccgtgaggg aagaggtgca gctaacaaaa ccagtaaaat gatcaggttc atggacaatg    900

aactaagaca ggtacagtat tgtagcccta cccgtcttgg ttaacctggt aaggtcaaaa    960

aggatcgaac cgtggctcag tacaaacaaa aggaatgtta acagtttgcg ggagatgcaa   1020

ggcacatgct ttgtcatgtt tgacgcgttt gcagtgtaga agcttccagc taccgtagat   1080

tactgataca aactcaatac actatttcta taaccttact gttcaataca gtacgatcaa   1140

aatttccgga atattaatgt tacggttacc ttccatatgt agactagcgc acttggcatt   1200

agggttcgaa atacgatcaa agagtattgg ggggggtgac agcagtaatg actccaactg   1260

taaatcggct tctaggcgcg ctccatctaa atgttctggc tgtggtgtac aggggcataa   1320

aattacgcac tacccgaatc gatagaacta ctcattttta tatagaagtc agaattcatg   1380

gtgttttgat cattttaaat ttttatatgg cgggtggtgg gcaactcgct tgcgcgggca   1440

actcgcttac cgattacgtt agggctgata tttacgtaaa aatcgtcaag ggatgcaaga   1500

ccaaagtact aaaaccccgg agtcaacagc atccaagccc aagtccttca cggagaaacc    1560

ccagcgtcca catcacgagc gaaggaccac ctctaggcat cggacgcacc atccaattag    1620

aagcagcaaa gcgaaacagc ccaagaaaaa ggtcggcccg tcggcctttt ctgcaacgct    1680

gatcacgggc agcgatccaa ccaacaccct ccagagtgac taggggcgga aatttatcgg    1740

gattaatttc cactcaacca caaatcacag tcgtccccgg tattgtcctg cagaatgcaa    1800

tttaaactct tctgcgaatc gcttggattc cccgcccctg gccgtagagc ttaaagtatg    1860

tcccttgtcg atgcgatgta tcacaacata taaatactag caagggatgc catgcttgga    1920

ggatagcaac cgacaacatc acatcaagct ctcccttctc tgaacaataa accccacaga    1980

aggcatttat ggtcgcgtgg tggtctctat ttctgtacgg ccttcaggtc gcggcacctg    2040

ctttggctgc aacgcctgcg gactggcgat cgcaatccat ttatttcctt ctcacggatc    2100

gatttgcaag gacggatggg tcgacgactg cgacttgtaa tactgcggat cagaaatact    2160

gtggtggaac atggcagggc atcatcgaca agttggacta tatccaggga atgggcttca    2220

cagccatctg gatcaccccc gttacagccc agctgcccca gaccaccgca tatggagatg    2280

cctaccatgg ctactggcag caggatatat actctctgaa cgaaaactac ggcactgcag    2340

atgacttgaa ggcgctctct tcggcccttc atgagagggg gatgtatctt atggtcgatg    2400

tggttgctaa ccatatgggc tatgatggag cgggtagctc agtcgattac agtgtgttta    2460

aaccgttcag ttcccaagac tacttccacc cgttctgttt cattcaaaac tatgaagatc    2520

agactcaggt tgaggattgc tggctaggag ataacactgt ctccttgcct gatctcgata    2580

ccaccaagga tgtggtcaag aatgaatggt acgactgggt gggatcattg gtatcgaact    2610

actccattga cggcctccgt atcgacacag taaaacacgt ccagaaggac ttctggcccg    2700

ggtacaacaa agccgcaggc gtgtactgta tcggcgaggt gctcgacggt gatccggcct    2760

acacttgtcc ctaccagaac gtcatggacg gcgtactgaa ctatcccatt tactatccac    2820

tcctcaacgc cttcaagtca acctccggca gcatggacga cctctacaac atgatcaaca    2880

ccgtcaaatc cgactgtcca gactcaacac tcctgggcac attcgtcgag aaccacgaca    2940

acccacggtt cgcttcttac accaacgaca tagccctcgc caagaacgtc gcagcattca    3000

tcatcctcaa cgacggaatc cccatcatct acgccggcca agaacagcac tacgccggcg    3060

gaaacgaccc cgcgaaccgc gaagcaacct ggctctcggg ctacccgacc gacagcgagc    3120

tgtacaagtt aattgcctcc gcgaacgcaa tccggaacta tgccattagc aaagatacag    3180

gattcgtgac ctacaagaac tggcccatct acaaagacga cacaacgatc gccatgcgca    3240

agggcacaga tgggtcgcag atcgtgacta tcttgtccaa caagggtgct tcgggtgatt    3300

cgtataccct ctccttgagt ggtgcgggtt acacagccgg ccagcaattg acggaggtca    3360

ttggctgcac gaccgtgacg gttggttcgg atggaaatgt gcctgttcc tatggcaggtg    3420

ggctacctag ggtattgtat ccgactgaga agttggcagg tagcaagatc tgtagtagct    3480

cgtaaattaa ttaa                                                      3494

<210>32

<211>1498

<212>DNA

<213>人工序列

<220>

<223>具有经优化的编码频率的Aspergillus niger alpha淀粉酶核苷酸编码序列

<220>

<221>Gene

<222>(1)…(1494)

<223>具有经优化的编码频率的Aspergillus niger alpha淀粉酶核苷酸编码序列

<220>

<221>misc_feature

<222>(1495)…(1498)

<223>翻译终止子序列

<400>32

atggtcgcct ggtggtccct gttcctctac ggacttcagg tggctgcccc cgctctcgcc     60

gcgacccccg ccgattggcg tagccagtcg atttacttct tgcttactga ccgcttcgct    120

cgcaccgacg gttccaccac cgccacctgc aacactgcgg accagaagta ctgcggcggc    180

acttggcagg gtatcatcga caagctggat tacatccagg gtatgggatt caccgctatc    240

tggattactc ctgttaccgc tcagctcccc cagaccaccg cctacggcga tgcctaccac    300

ggttactggc agcaggacat ctactctctg aacgaaaact acggtaccgc tgacgatctc    360

aaggccttgt cttccgccct ccacgagcgt ggcatgtacc tgatggtcga cgtcgtggct    420

aaccacatgg gttacgacgg tgcgggcagc tctgtcgatt actcggtttt caagcctttc    480

tcctcccagg attacttcca ccccttctgc ttcatccaga actacgagga ccagacccag    540

gtcgaggact gctggctggg agacaacact gtttcgcttc ccgatctcga cactaccaag    600

gacgtcgtta agaacgagtg gtacgattgg gtgggtagct tggtctccaa ctacagcatt    660

gacggcctcc gcatcgacac cgtcaagcac gtccagaagg atttctggcc tggatacaac    720

aaggccgccg gtgtgtactg catcggcgaa gttctggacg gtgaccctgc ttacacctgc    780

ccctaccaga acgtcatgga tggtgtcctg aactacccca tctactaccc ccttctcaac    840

gctttcaagt ctacctccgg ctccatggac gacctctaca acatgattaa cactgttaag    900

agcgattgcc ctgactcgac cctgttgggc accttcgtgg agaaccacga taacccccgt    960

ttcgcctcct acactaacga catcgccctt gcgaagaacg tcgctgcctt catcatcctc   1020

aacgacggta ttcctatcat ctacgctggt caggagcagc actacgccgg cggaaacgat   1080

cccgctaacc gcgaagccac ctggctgtcc ggttacccca ccgactctga gctctacaag   1140

ctgatcgcta gcgccaacgc gattcgtaac tacgccatct ccaaggacac tggcttcgtc   1200

acctacaaga actggcctat ctacaaggat gacaccacta tcgctatgcg taagggtacc   1260

gacggttctc agatcgttac cattttgtcc aacaagggag ccagcggtga ttcctacacc   1320

ctctctctgt ccggcgctgg ctacactgcc ggtcagcagc ttaccgaggt catcggatgc   1380

accactgtca ccgtgggttc ggacggcaac gttcccgtcc ccatggctgg tggcctccct   1440

cgcgtcctgt accccaccga gaagctcgcc ggttctaaga tctgctccag ctcctaaa     1498

<210>33

<211>3494

<212>DNA

<213>人工序列

<220>

<223>核苷酸序列,具有含经修饰翻译起始子序列的Aspergillus niger alpha淀粉酶启动 子以及含经修饰翻译终止序列的alpha淀粉酶核苷酸编码序列

<220>

<221>Promoter

<222>(1)…(1988)

<223>Aspergillus niger的alpha淀粉酶启动子

<220>

<221>misc_feature

<222>(1979)…(1988)

<223>翻译起始子序列

<220>

<221>Gene

<222>(1989)…(3494)

<223>Aspergillus niger alpha淀粉酶的核苷酸编码序列

<400>33

ctcgagggac aacgcatcgt ttgatacact tcccgccaat atggacgttg tccagaagcc     60

tgttcagcat cgatctgggc gtctcgttct gtaagcattc tcctagttac tgatgacttt    120

cctctcttat ctgtattccg tgaaagagga gggccactgt cctctatata gtttatggat    180

ataaaaagtt tgagcttctt gccaatatga aacagatttc cccacattaa gagctgtttc    240

tctataggtt tccaatcaat attagtgccg tcaaaacgtt tgttcagatc agattgtcca    300

cgttcgttta cagatactct gactgtagta tcatctgatc tcacacgttg gttgtgacgt    360

atttttcgac gcataacatt ttcagcatcc tgtgttatct tcgcccagtg tgaactgggt    420

gctacagcca agtcctgttc agtgtccttt gacacagttc ggttgttcag agttaccttc    480

cactcaatag tataatgaat acaaggcttt cctctatgtt gcctcgtagt cctttcttcg    540

ggctcctgga agaaacccag atgattgggc tgggattgat gcaagggagt ataaggttca    600

tcaagtacat gttcaggtga tgggcaaaat acggatggcg tacgatctct accgaagtca    660

ccaggggtgg gggcatacga tggagtttgt atccacggat caggtggctg aagctgagag    720

gcatcgtcat cgtagtaagg actaaacgtc atcccctcaa ggcagtagat gccactgaga    780

agcctagtgt tgggatcatc atatgttagc ctacaccata tgggtgtccc agcaagagtg    840

tccgtgaggg aagaggtgca gctaacaaaa ccagtaaaat gatcaggttc atggacaatg    900

aactaagaca ggtacagtat tgtagcccta cccgtcttgg ttaacctggt aaggtcaaaa    960

aggatcgaac cgtggctcag tacaaacaaa aggaatgtta acagtttgcg ggagatgcaa   1020

ggcacatgct ttgtcatgtt tgacgcgttt gcagtgtaga agcttccagc taccgtagat   1080

tactgataca aactcaatac actatttcta taaccttact gttcaataca gtacgatcaa   1140

aatttccgga atattaatgt tacggttacc ttccatatgt agactagcgc acttggcatt   1200

agggttcgaa atacgatcaa agagtattgg ggggggtgac agcagtaatg actccaactg   1260

taaatcggct tctaggcgcg ctccatctaa atgttctggc tgtggtgtac aggggcataa   1320

aattacgcac tacccgaatc gatagaacta ctcattttta tatagaagtc agaattcatg   1380

gtgttttgat cattttaaat ttttatatgg cgggtggtgg gcaactcgct tgcgcgggca   1440

actcgcttac cgattacgtt agggctgata tttacgtaaa aatcgtcaag ggatgcaaga   1500

ccaaagtact aaaaccccgg agtcaacagc atccaagccc aagtccttca cggagaaacc   1560

ccagcgtcca catcacgagc gaaggaccac ctctaggcat cggacgcacc atccaattag   1620

aagcagcaaa gcgaaacagc ccaagaaaaa ggtcggcccg tcggcctttt ctgcaacgct   1680

gatcacgggc agcgatccaa ccaacaccct ccagagtgac taggggcgga aatttatcgg   1740

gattaatttc cactcaacca caaatcacag tcgtccccgg tattgtcctg cagaatgcaa   1800

tttaaactct tctgcgaatc gcttggattc cccgcccctg gccgtagagc ttaaagtatg   1860

tcccttgtcg atgcgatgta tcacaacata taaatactag caagggatgc catgcttgga   1920

ggatagcaac cgacaacatc acatcaagct ctcccttctc tgaacaataa accccacaca   1980

ccgtcaaaat ggtcgcgtgg tggtctctat ttctgtacgg ccttcaggtc gcggcacctg   2040

ctttggctgc aacgcctgcg gactggcgat cgcaatccat ttatttcctt ctcacggatc   2100

gatttgcaag gacggatggg tcgacgactg cgacttgtaa tactgcggat cagaaatact   2160

gtggtggaac atggcagggc atcatcgaca agttggacta tatccaggga atgggcttca   2220

cagccatctg gatcaccccc gttacagccc agctgcccca gaccaccgca tatggagatg   2280

cctaccatgg ctactggcag caggatatat actctctgaa cgaaaactac ggcactgcag   2340

atgacttgaa ggcgctctct tcggcccttc atgagagggg gatgtatctt atggtcgatg   2400

tggttgctaa ccatatgggc tatgatggag cgggtagctc agtcgattac agtgtgttta   2460

aaccgttcag ttcccaagac tacttccacc cgttctgttt cattcaaaac tatgaagatc   2520

agactcaggt tgaggattgc tggctaggag ataacactgt ctccttgcct gatctcgata   2580

ccaccaagga tgtggtcaag aatgaatggt acgactgggt gggatcattg gtatcgaact   2640

actccattga cggcctccgt atcgacacag taaaacacgt ccagaaggac ttctggcccg   2700

ggtacaacaa agccgcaggc gtgtactgta tcggcgaggt gctcgacggt gatccggcct   2760

acacttgtcc ctaccagaac gtcatggacg gcgtactgaa ctatcccatt tactatccac    2820

tcctcaacgc cttcaagtca acctccggca gcatggacga cctctacaac atgatcaaca    2880

ccgtcaaatc cgactgtcca gactcaacac tcctgggcac attcgtcgag aaccacgaca    2940

acccacggtt cgcttcttac accaacgaca tagccctcgc caagaacgtc gcagcattca    3000

tcatcctcaa cgacggaatc cccatcatct acgccggcca agaacagcac tacgccggcg    3060

gaaacgaccc cgcgaaccgc gaagcaacct ggctctcggg ctacccgacc gacagcgagc    3120

tgtacaagtt aattgcctcc gcgaacgcaa tccggaacta tgccattagc aaagatacag    3180

gattcgtgac ctacaagaac tggcccatct acaaagacga cacaacgatc gccatgcgca    3240

agggcacaga tgggtcgcag atcgtgacta tcttgtccaa caagggtgct tcgggtgatt    3300

cgtataccct ctccttgagt ggtgcgggtt acacagccgg ccagcaattg acggaggtca    3360

ttggctgcac gaccgtgacg gttggttcgg atggaaatgt gcctgttcct atggcaggtg    3420

ggctacctag ggtattgtat ccgactgaga agttggcagg tagcaagatc tgtagtagct    3480

cgtaaattaa ttaa                                                      3494

<210>34

<211>3494

<212>DNA

<213>人工序列

<220>

<223>核苷酸序列,其具有含经优化密码子频率和经修饰翻译起始子序列的Aspergillus niger alpha淀粉酶启动子,以及含经优化翻译终止子序列的alpha淀粉酶核苷酸编码序列

<220>

<221>Promoter

<222>(1)…(1988)

<223>Aspergillus niger的alpha淀粉酶启动子

<220>

<221>misc_feature

<222>(1979)…(1988)

<223>翻译起始子序列

<220>

<221>Gene

<222>(1989)…(3494)

<223>具有经优化编码频率的Aspergillus niger alpha淀粉酶的核苷酸编码序列

<400>34

ctcgagggac aacgcatcgt ttgatacact tcccgccaat atggacgttg tccagaagcc     60

tgttcagcat cgatctgggc gtctcgttct gtaagcattc tcctagttac tgatgacttt    120

cctctcttat ctgtattccg tgaaagagga gggccactgt cctctatata gtttatggat    180

ataaaaagtt tgagcttctt gccaatatga aacagatttc cccacattaa gagctgtttc    240

tctataggtt tccaatcaat attagtgccg tcaaaacgtt tgttcagatc agattgtcca    300

cgttcgttta cagatactct gactgtagta tcatctgatc tcacacgttg gttgtgacgt    360

atttttcgac gcataacatt ttcagcatcc tgtgttatct tcgcccagtg tgaactgggt    420

gctacagcca agtcctgttc agtgtccttt gacacagttc ggttgttcag agttaccttc    480

cactcaatag tataatgaat acaaggcttt cctctatgtt gcctcgtagt cctttcttcg    540

ggctcctgga agaaacccag atgattgggc tgggattgat gcaagggagt ataaggttca    600

tcaagtacat gttcaggtga tgggcaaaat acggatggcg tacgatctct accgaagtca    660

ccaggggtgg gggcatacga tggagtttgt atccacggat caggtggctg aagctgagag    720

gcatcgtcat cgtagtaagg actaaacgtc atcccctcaa ggcagtagat gccactgaga    780

agcctagtgt tgggatcatc atatgttagc ctacaccata tgggtgtccc agcaagagtg    840

tccgtgaggg aagaggtgca gctaacaaaa ccagtaaaat gatcaggttc atggacaatg    900

aactaagaca ggtacagtat tgtagcccta cccgtcttgg ttaacctggt aaggtcaaaa    960

aggatcgaac cgtggctcag tacaaacaaa aggaatgtta acagtttgcg ggagatgcaa   1020

ggcacatgct ttgtcatgtt tgacgcgttt gcagtgtaga agcttccagc taccgtagat   1080

tactgataca aactcaatac actatttcta taaccttact gttcaataca gtacgatcaa   1140

aatttccgga atattaatgt tacggttacc ttccatatgt agactagcgc acttggcatt   1200

agggttcgaa atacgatcaa agagtattgg ggggggtgac agcagtaatg actccaactg   1260

taaatcggct tctaggcgcg ctccatctaa atgttctggc tgtggtgtac aggggcataa   1320

aattacgcac tacccgaatc gatagaacta ctcattttta tatagaagtc agaattcatg   1380

gtgttttgat cattttaaat ttttatatgg cgggtggtgg gcaactcgct tgcgcgggca   1440

actcgcttac cgattacgtt agggctgata tttacgtaaa aatcgtcaag ggatgcaaga   1500

ccaaagtact aaaaccccgg agtcaacagc atccaagccc aagtccttca cggagaaacc   1560

ccagcgtcca catcacgagc gaaggaccac ctctaggcat cggacgcacc atccaattag   1620

aagcagcaaa gcgaaacagc ccaagaaaaa ggtcggcccg tcggcctttt ctgcaacgct   1680

gatcacgggc agcgatccaa ccaacaccct ccagagtgac taggggcgga aatttatcgg   1740

gattaatttc cactcaacca caaatcacag tcgtccccgg tattgtcctg cagaatgcaa   1800

tttaaactct tctgcgaatc gcttggattc cccgcccctg gccgtagagc ttaaagtatg   1860

tcccttgtcg atgcgatgta tcacaacata taaatactag caagggatgc catgcttgga   1920

ggatagcaac cgacaacatc acatcaagct ctcccttctc tgaacaataa accccacaca   1980

ccgtcaaaat ggtcgcctgg tggtccctgt tcctctacgg acttcaggtg gctgcccccg   2040

ctctcgccgc gacccccgcc gattggcgta gccagtcgat ttacttcttg cttactgacc   2100

gcttcgctcg caccgacggt tccaccaccg ccacctgcaa cactgcggac cagaagtact   2160

gcggcggcac ttggcagggt atcatcgaca agctggatta catccagggt atgggattca   2220

ccgctatctg gattactcct gttaccgctc agctccccca gaccaccgcc tacggcgatg   2280

cctaccacgg ttactggcag caggacatct actctctgaa cgaaaactac ggtaccgctg   2310

acgatctcaa ggccttgtct tccgccctcc acgagcgtgg catgtacctg atggtcgacg   2400

tcgtggctaa ccacatgggt tacgacggtg cgggcagctc tgtcgattac tcggttttca   2460

agcctttctc ctcccaggat tacttccacc ccttctgctt catccagaac tacgaggacc   2520

agacccaggt cgaggactgc tggctgggag acaacactgt ttcgcttccc gatctcgaca   2580

ctaccaagga cgtcgttaag aacgagtggt acgattgggt gggtagcttg gtctccaact   2640

acagcattga cggcctccgc atcgacaccg tcaagcacgt ccagaaggat ttctggcctg   2700

gatacaacaa ggccgccggt gtgtactgca tcggcgaagt tctggacggt gaccctgctt   2760

acacctgccc ctaccagaac gtcatggatg gtgtcctgaa ctaccccatc tactaccccc   2820

ttctcaacgc tttcaagtct acctccggct ccatggacga cctctacaac atgattaaca   2880

ctgttaagag cgattgccct gactcgaccc tgttgggcac cttcgtggag aaccacgata   2940

acccccgttt cgcctcctac actaacgaca tcgcccttgc gaagaacgtc gctgccttca   3000

tcatcctcaa cgacggtatt cctatcatct acgctggtca ggagcagcac tacgccggcg   3060

gaaacgatcc cgctaaccgc gaagccacct ggctgtccgg ttaccccacc gactctgagc   3120

tctacaagct gatcgctagc gccaacgcga ttcgtaacta cgccatctcc aaggacactg   3180

gcttcgtcac ctacaagaac tggcctatct acaaggatga caccactatc gctatgcgta   3240

agggtaccga cggttctcag atcgttacca ttttgtccaa caagggagcc agcggtgatt   3300

cctacaccct ctctctgtcc ggcgctggct acactgccgg tcagcagctt accgaggtca   3360

tcggatgcac cactgtcacc gtgggttcgg acggcaacgt tcccgtcccc atggctggtg   3420

gcctccctcg cgtcctgtac cccaccgaga agctcgccgg ttctaagatc tgctccagct   3480

cctaaattaa ttaa                                                     3494

<210>35

<211>1265

<212>DNA

<213>人工序列

<220>

<223>启动子片段和基因片段的重组融合构建体,通过PCR产生的

<220>

<221>启动子

<222>(1)…(205)

<220>

<221>基因

<222>(206)…(1265)

<400>35

ggaattcaag ctagatgcta agcgatattg catggcaata tgtgttgatg catgtgcttc     60

ttccttcagc ttcccctcgt gcagatgagg tttggctata aattgaagtg gttggtcggg    120

gttccgtgag gggctgaagt gcttcctccc ttttagacgc aactgagagc ctgagcttca    180

tccccagcat cattactcct tcaccatgtt ctctctcgcc cgccttggta ccgtcgctgg    240

tctcttcctt ctcgctcagg ctgcccccgc ttccctgcgc cgtggtatgt ttattttctc    300

cacaacttgt aacacagcat tcgcttgagc cagactgacg gatttagacg tctcctcttc    360

ccttctcaac aacctggacc tcttcgctca gtacagcgcc gccgcttact gcgatgagaa    420

cctgaactct accggtacca agttgacctg ctctgttggc aactgccctc ttgtcgaggc    480

ggcctctacc cagtccttgg atgagttcaa cgagtaagtc accgcaaata tacaattcta    540

gttcataagc aactactgac aactcagatc gtcctcctac ggcaaccccg ccggttacct    600

cgccgctgac gagactaaca agctcctcgt cctgtccttc cgtggtagcg ctgaccttgc    660

caactgggtc gccaacctga acttcggtct cgaggacgcc agcgatctgt gctctggttg    720

cgaagtccac tccggcttct ggaaggcttg gtctgagatc gccgacacca tcacttccaa    780

ggtggaatcc gctttgtcgg atcactccga ttactccctc gtcttgaccg gtcactcgta    840

cggcgctgcg ctggccgccc tcgccgcgac tgctctgcgt aactccggcc actcggttga    900

gctggtaagt tatcctcatt ttgtaagtga cggtgcgcca aatctgacca aatagtacaa    960

ctacggtcag cctcgccttg gcaacgaggc cctcgccacc tacatcaccg accagaacaa   1020

gggtggcaac taccgcgtta cccacactaa cgacatcgtc cctaagctgc cccccaccct   1080

gctcggttac caccacttca gccccgagta ctacatcagc agcgccgacg aggccaccgt   1140

gaccaccact gacgtgactg aggttaccgg aatcgatgct accggcggta acgatggaac   1200

cgacggaact agcatcgacg ctcaccgttg gtacttcatt tacatttccg aatgctccta   1260

aatac                                                               1265

PCT/RO/134表

申请人或代理人文件参考编号24402WO 国际申请号:

与被保藏的微生物相关的说明

(PCT Rule 13bis)

A.下文说明涉及Word文档说明书译文第8页24行提到的微生物 B.保藏证明    还有其它保藏记载于附页上() 保藏单位名称 CENTRAAL BUREAU VOOR SCHIMMEL CULTURES 保藏单位地址(包括邮政编码和国家) Uppsalalaan 8 P.O.Box 85167 NL-3508 AD Utrecht The Netherlands 保藏日期10-08-1988 编号CBS 513.88 C.其它说明(如不适用则留空白)    该信息还有附页继续说明() 我方通知贵方,根据Rule 13bis PCT,在国家专利授权公告公开之前,上 述微生物,仅可由请求人指定的专家获得样品,如果该申请被驳回、撤回 或视为撤回,这条规定将从申请日起算二十年内有效。 D.说明适用的指定国家和地区(如果说明不是针对所有国家和地区的话) E.对说明的单独补充(如不适用则留空白) 下述说明将随后提交至国际局(指明说明的常见性质,例如“保藏号”) 接收局专用 ()该表随国际申请收到 国际局专用 ()该表于下述日期被国际局收 到: 负责官员 负责官员 (签名)

PCT/RO134表(1992年7月)

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号