首页> 中国专利> 用于在有丝真菌细胞中生产感兴趣化合物的方法

用于在有丝真菌细胞中生产感兴趣化合物的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及下述核苷酸序列，所述序列包含：具有经优化的密码子频率的同义核苷酸编码序列，优化使得天然密码子被同义密码子交换，所述同义密码子编码与天然密码子相同的氨基酸，并且具有较之天然密码子更高的密码子使用频率(表1中定义的)；可选地，所述核苷酸序列包含控制序列，例如：定向于从5’到3’方向的一种翻译终止序列，其选自下述序列：TAAG、TAGA和TAAA，优选地，TAAA，和/或定向于从5’到3’方向的一种翻译起始编码序列，其选自下述序列：gctnccyyc，使用下述不确定的核苷酸代码：v(A/C/G)；n(A/C/G/T)，优选地，5’－GCT TCCTTC－3’。本发明还涉及共享的翻译起始序列：5’－mwChkyCAmv－3’，优选地，翻译起始序列选自5’－mwChkyCAAA－3’、5’－mwChkyCACA－3’和5’－mwChkyCAAG－3’构成的组。

著录项

公开/公告号CN101107354A

专利类型发明专利
公开/公告日2008-01-16

原文格式PDF
申请/专利权人帝斯曼知识产权资产管理有限公司;
展开▼

申请/专利号CN200680003084.8
发明设计人约翰尼斯·安德列什·劳博斯;瑟戈·彼得吕斯·当克斯;阿恩·斯达姆;诺埃尔·尼古拉斯·玛利亚·伊丽莎白·范佩杰;
展开▼

申请日2006-01-24
分类号C12N9/20;C12N9/30;C12N15/80;
代理机构北京东方亿思知识产权代理有限责任公司;
代理人肖善强
地址荷兰海尔伦
入库时间 2023-12-17 19:37:05

法律信息

法律状态公告日

法律状态信息

法律状态
2012-05-30

授权

授权
2008-03-19

实质审查的生效

实质审查的生效
2008-01-16

公开

公开

说明书

发明领域

本发明涉及在有丝真菌细胞中生产感兴趣化合物的方法，其中，已对编码感兴趣化合物的核苷酸序列和/或与其可操作相连的控制核苷酸序列进行了修饰，以获得编码感兴趣化合物的核苷酸序列的提高的表达和/或对感兴趣化合物的提高的生产。

发明背景

本发明涉及用于生产感兴趣化合物的改进方法。迄今为止，已有大量手段用于产生过量表达蛋白质和/或生产蛋白质的菌株。这包括但不限于，制造具有多个拷贝的编码感兴趣化合物的基因的菌株，以及应用强启动子序列。

每种特定的氨基酸由至少一种密码子及至多六种密码子编码。早前的研究已显示，编码细胞的多肽的基因中密码子的使用在物种中有偏好 (Kanaya，S，Y.Yamada，Y.Kudo and T.Ikemura(1999)Studies of codon usage and tRNA genes at 18 unicellular organisms and quantification of Bacillus subtilis tRNAs：gene expression level and species-specific diversity of codon usage based on multivariate analysis.Gene 238：143-155)。早先的公开文件公开了在给定的宿主细胞中对密码子使用的优化，以改进多肽生产(见 WO 97/11086的实施例)。更具体地，WO 03/70957描述了有丝真菌中优化的密码子使用，用于生产植物多肽。在“经典”密码子优化的所有这些情况下，天然密码子被下述密码子取代，所述密码子是自来基因的参考组并被最频繁使用的，尽管针对每种氨基酸的密码子翻译率被设计为高的 (优化的)。但是该“经典”密码子优化忽略了tRNA仍是可获得的那些其它密码子。

近来，在WO 03/85114中，描述了密码子使用的协调 (harmonization)，其采用了基因中优化和非优化密码子的分布，假设这些能实现蛋白质折叠。对基因应用该密码子协调方法，导致供体生物中好 (坏)的密码子被宿主生物的好(坏)密码子取代。但是，这种密码子协调方法(WO 03/085114)忽略了非优化密码子的使用，因为它们没有被更优的所代替。此外，该方法不能用于同源基因。

另一公开文件描述了在宿主细胞中改进多肽的另一方法，这通过使用经改进的共享(consensus)翻译起始子序列来实现(US 6,461,837 B1)；共享序列5’-nyCnnhCACC(ATG)-3’被要求保护。

人们仍需要用于在有丝真菌细胞中生产多肽的改进方法。

附图说明

图1展示了表达载体pGBFIN-30的质粒图谱。示出了相对glaA启动子的glaA侧翼区域，在葡糖淀粉酶启动子上有独特的SfiI和EcoRI克隆位点，接着是HindIII和NruI克隆位点。pGVFIN-30载体来自pGBFIN-23 (其构建描述于WO99/32617中)，其AscI-XhoI位点被单个NruI限制性位点代替。可在转化A.niger菌株之前，用限制性酶NotI进行消化，除去 E.coli DNA。

图2展示了表达载体pGBFINPLA-1a的质粒图谱。图2还提供了关于质粒pGBFINPLA-1b和pGBFINPLA-1c的代表性图谱。示出了相对于 glaA启动子和相对于A.oryzae基因组pla1基因(其编码磷脂酶A1)的 glaA侧翼区域。可在转化A.niger菌株之前，用限制性酶NotI进行消化，除去E.coli DNA。

图3展示了表达载体pGBFINPLA-1d到pGBFINPLA1h的质粒图谱。示出了相对于glaA启动子的变体序列和相对于A.oryzae基因组pla1基因 (其编码磷脂酶A1)的glaA侧翼区域。可在转化A.niger菌株之前，用限制性酶NotI进行消化，除去E.coli DNA。

图4展示了表达载体pGBFINFUA-1的质粒图谱。图4还提供了关于质粒pGBFINFUA-2和pGBFINFUA-3的代表性图谱。所有克隆来自 pGBFIN-12(描述于WO99/32617中)表达载体。示出了相对于amyA启动子的变体序列和相对于A.niger amyA cDNA序列(其编码alpha-淀粉酶)的glaA侧翼区域。可在转化A.niger菌株之前，用限制性酶NotI进行消化，除去E.coli DNA。

图5展示了通过单同源重组进行的整合的流程示意图。表达载体包含选择性amdS标记和与pla1基因相连的glaA启动子。这些特征侧翼有 glaA基因作的同源区域(分别是3’glaA和3”glaA)，以在基因组glaA 基因座指导整合。

图6展示了对天然pla1编码序列、天然pla1基因组序列和合成的经优化pla1编码序列进行的比对。基因组序列中的内含子在pla1基因组序列中示出。经修饰的pla1编码序列中已被改变的密码子用框示出。已经修饰的核苷酸以灰色表示。

图7展示了在用于表达八种不同构建体(pGBFINPLA-1a-h)的A. niger菌株的培养液中磷脂酶A1的活性。展示了A.niger菌株(其表达天然的(pGBFINPLA-1a)或经修饰的pla1构建体(pGBFINPLA-1b-h))的培养液中的平均磷脂酶A1活性，其中，翻译起始序列和/或翻译终止序列和/或密码子使用已经按照本发明的方法被修饰。磷脂酶活性以任意单位 [AU]示出，表示为在给出的培养时间后至少五种独立分离和培养的转化子 (命名在表6中给出)的平均值。

图8展示了在用于表达三种不同构建体的A.niger菌株的培养液中磷脂酶A1的活性。展示了三种A.niger菌株(表达天然的(pGBFINPLA- 1a)或经修饰的pla1构建体)的培养液中的平均磷脂酶A1活性，其中，翻译起始序列和翻译终止序列(pGBFINPLA-1b)，翻译起始序列、翻译终止序列和/或密码子使用(pGBFINPLA-1e)已经按照本发明的方法被修饰。对于2拷贝的pla1转化子(命名在表6中给出)而言，磷脂酶活性以任意单位[AU]示出，在给出的培养时间后测量。

图9展示了在用于表达三种不同构建体的A.niger菌株的培养液中 alpha-淀粉酶的活性。展示了表达天然(pGBFINFUA-1)或经修饰的 amyA构建体的A.niger菌株的培养液中alpha-淀粉酶的活性，其中，翻译起始序列和翻译终止序列按照本发明的方法被修饰(pGBFINFUA-2)，以及翻译起始序列、翻译终止序列和密码子使用按照本发明的方法被修饰 (pGBFINFUA-3)。alpha淀粉酶以相对单位[AU]展示，其中第4天时10 个菌株的FUA1组的7个单拷贝菌株的平均值被设置为100％。每组示出的10个转化子是独立分离并培养的转化子(命名在表9中给出)，在指定的培养时间进行测量。

发明详述

提出了一种新手段，用于改进在有丝真菌细胞中对感兴趣化合物的生产，该手段基于对蛋白质编码序列的修饰以及可选地，对可能对翻译效率和/或感兴趣化合物生产的效率有影响的相关“非编码”或控制序列的修饰。

核苷酸序列

根据本发明的第一个方面，提供了一种核苷酸序列，其包含：

-同义核苷酸编码序列，其具有经优化的密码子频率，使得天然密码子被同义密码子替换，所述同义密码子编码与天然密码子相同的氨基酸，并且具有较之天然密码子更高的密码子使用频率(如表1中定义的)；以及可选地，所述核苷酸序列包含例如下述这些的控制序列：

-一种翻译终止序列，其定向于从5’到3’方向，其选自下述序列： TAAG、TAGA和TAAA，优选地，TAAA，和/或

-一种翻译起始子编码序列，其定向于从5’到3’方向，其选自下述序列：GCTACCCCC、GCTACCTCC、GCTACCCTC、GCTACCTTC、 GCTCCCCCC、GCTCCCTCC、GCTCCCCTC、GCTCCCTTC、 GCTGCCCCC、GCTGCCTCC、GCTGCCCTC、GCTGCCTTC、 GCTTCCCCC、GCTTCCTCC、GCTTCCCTC和GCTTCCTTC，优选地，是GCT TCC TTC。

表1：关于同义密码子的优化的有丝真菌密码子频率，以％表示

.T. .C. .A. .G. T.. Phe 0 Ser 21 Tyr 0 Cys 0 ..T T.. Phe 100 Ser 44 Tyr 100 Cys 100 ..C T.. Leu 0 Ser 0 终止 100 终止 0 ..A T.. Leu 13 Ser 14 终止 0 Trp 100 ..G C.. Leu 17 Pro 36 His 0 Arg 49 ..T C.. Leu 38 Pro 64 His 100 Arg 51 ..C C.. Leu 0 Pro 0 Gln 0 Arg 0 ..A C.. Leu 32 Pro 0 Gln 100 Arg 0 ..G A.. Ile 27 Thr 30 Asn 0 Ser 0 ..T A.. Ile 73 Thr 70 Asn 100 Ser 21 ..C A.. Ile 0 Thr 0 Lys 0 Arg 0 ..A A.. Met 100 Thr 0 Lys 100 Arg 0 ..G G.. Val 27 Ala 38 Asp 36 Gly 49 ..T

G.. Val 54 Ala 51 Asp 64 Gly 35 ..C G.. Val 0 Ala 0 Glu 26 Gly 16 ..A G.. Val 19 Ala 11 Glu 74 Gly 0 ..G

根据一种优选的实施方式，所述核苷酸序列是这样的序列，其中，所述核苷酸序列中包含的所述同义核苷酸编码序列的经优化密码子频率使得：至少一个天然密码子、优选至少两个天然密码子、更优选至少三个天然密码子、更优选至少四个天然密码子、更优选至少五个天然密码子，更优选天然密码子的至少1％、2％、3％、4％、5％、10％、15％、20％、 25％、50％、75％、80％、85％、90％以及最优选至少95％被同义密码子替换，所述同义密码子编码与天然密码子相同的氨基酸，并且较之天然密码子具有更高的密码子使用频率(如表1所定义的)。

根据一种更优选的实施方式，所述核苷酸序列是这样的序列，其中，所述核苷酸序列中包含的所述同义核苷酸编码序列的经优化密码子频率使得：至少一个天然密码子、优选至少两个天然密码子、更优选至少三个天然密码子、更优选至少四个天然密码子、更优选至少五个天然密码子，更优选天然密码子的至少1％、2％、3％、4％、5％、10％、15％、20％、 25％、50％、75％、80％、85％、90％以及最优选至少95％被同义密码子替换，所述同义密码子改变了密码子频率，使得采用所述频率的所述同义密码子的百分比与列出的最优百分比之间的绝对差值在修饰之后更小，这应用下述最优百分比：TGC编码半胱氨酸(100％)；TTC编码苯丙氨酸 (100％)；CAC编码组氨酸(100％)；AAG编码赖氨酸(100％)； AAC编码天冬酰胺(100％)；CAG编码谷氨酰胺(100％)；TAC编码酪氨酸(100％)；GCT(38％)、GCC(51％)或GCG(11％)编码丙氨酸；GAC编码天冬氨酸(64％)；GAG编码谷氨酸(74％) GGT (49％)、GGC(35％)、GGA(16％)编码甘氨酸；ATT(27％)、 ATC(73％)编码异亮氨酸；TTG(13％)、CTT(17％)、CTC (38％)、CTG(32％)编码亮氨酸；CCT(36％)、CCC(64％)编码脯氨酸；CGT(49％)、CGC(51％)编码精氨酸；TCT(21％)、TCC (44％)、TCG(14％)、AGC(21％)编码丝氨酸；ACT(30％)、 ACC(70％)编码苏氨酸，和/或GTT(27％)、GTC(54％)、GTG (19％)编码缬氨酸。

根据一种进一步更优选的实施方式，所述核苷酸序列是这样的序列，其中，所述核苷酸序列中包含的具有经优化密码子频率的所述同义核苷酸编码序列的密码子适合度(fitness)具有至少70％、80％、90％、95％，优选96％、97％、98％，以及最优选＞98％的适合度值，其中，密码子适合度是通过下述函数计算的：

${fit}_{c} (g) = 100 - \frac{1}{| g |} \cdot Σ_{k = 1}^{| g |} | r_{c}^{t \arg et} (c (k)) - r_{c}^{g} (c (k)) | \cdot 100$

其中，g代表核苷酸编码序列，|g|为其长度，g(k)为其第k个密码子， r_c^target(c(k))是密码子c(k)的理想比例，r_c^g(c(k))是核苷酸编码序列g中的真实比例。

在本发明的上下文中，当在用于指应用本发明的方法之前的序列时，核苷酸编码序列和控制序列在本文中被称为天然的或野生型的。一旦通过本发明被修饰，它们将被称为经修饰的序列或同义序列。因此，同义序列通常将被认为是重组序列。偶然情况下，自然界中存在的序列可能与同义序列相同。

在本发明的上下文中，核苷酸编码序列和同义核苷酸编码序列可能直接编码待生产的感兴趣的化合物。术语“感兴趣的化合物”在下文“对感兴趣的化合物的生产”一节中有所定义。由(同义)核苷酸编码序列直接编码的感兴趣的化合物的例子是多肽，优选地，该多肽是酶，更优选地，是将分泌到细胞外的酶。或者，由(同义)核苷酸编码序列编码的化合物可能并非感兴趣的化合物本身，但其可能与其它的物质一起参与对感兴趣的化合物的生产。在这种情况下，(同义)核苷酸编码序列编码的化合物可能是，但不限于：代谢产物生产所涉及的细胞内的酶，转运蛋白，转录因子，结构蛋白，伴侣分子或持家基因(housekeeping gene)的产物。

在本发明的上下文中，术语“密码子”通常指编码氨基酸的核苷酸三体。本文中使用的“同义密码子”指不具有相同的核苷酸序列但编码相同的氨基酸(AA)的密码子。术语“密码子频率”、“密码子偏爱 (bias)”或“密码子使用”被定义为：在编码序列中使用不同的相应密码子的频率。密码子使用基于下述事实：编码序列中的若干种密码子编码同样的氨基酸，但是编码所述氨基酸的不同密码子的频率在各种编码序列间可能不同。

对用于生产的宿主细胞来说同源或异源的核苷酸编码序列(编码多肽)可能来自于例如病毒、原核生物、真菌、有丝真菌、其它真核生物或者高等真核生物(例如哺乳动物、人类和植物)。按照表1所述的最优密码子频率(以及“使用表1对‘经优化的密码子频率’或‘经优化的密码子使用’的计算”段落进一步公开的)，对该(天然)核苷酸编码序列加以修饰，产生同义核苷酸序列。天然的编码序列可能选自如下的组：

-野生型核苷酸序列，其编码预定的氨基酸序列，

-使用密码子随机选择，从天然存在的氨基酸序列反向翻译的序列，

-非天然存在的氨基酸序列，其展示出与已知氨基酸序列的同源性，例如，经改组的(shuffled)序列，

-上文提到的序列的一部分，例如，将用于融合序列中的。

具有经优化的密码子使用的同义核苷酸编码序列优选在Aspergillus、 Trichoderma、Fusarium、Chrysosporum或Penicillium宿主细胞中表达。更优选地，同义核苷酸编码序列在Aspergillus niger、Aspergillus oryzae、 Aspergillus sojae、Aspergillus terreus、Trichoderma reesei、Chrysosporum lucknowense或Penicillium chrysogenum宿主细胞中表达。最优选的 Aspergillus niger宿主细胞是CBS513.88或其衍生物。优选地，同义编码序列编码的产物的表达，较之相应的天然编码序列的生产有所增强，所述相应的核酸构建体在相应的有丝真菌宿主细胞中以同样的拷贝数存在。优选地，对核苷酸编码序列的修饰(导致产生本发明的同义核苷酸编码序列) 导致本发明的有丝真菌宿主细胞(包含给定拷贝数的同义核苷酸编码序列)产生的感兴趣化合物的产量增加至少1％、5％、10％、25％、50％、 100％、200％、300％、400％、更优选500％，所述增加是与以同样拷贝数存在于相应有丝真菌宿主细胞中的天然核苷酸编码序列的生产加以比较得出的。

可通过下述方法来测定将被生产的感兴趣的化合物产量的增加：测量本发明的有丝真菌宿主细胞生产的化合物的量，将其与相应的有丝真菌宿主细胞生产的感兴趣的化合物加以比较。可以通过测量从(同义)核苷酸编码序列转录的mRNA的量、mRNA编码的多肽的量、或者化合物(例如代谢产物，对它的生产涉及同义核苷酸编码序列编码的多肽)的量等，来进行对生产的感兴趣化合物的产量的测定。技术人员已知用来测定 mRNA的量的方法的例子包括但不限于：Northern印迹、定量PCR、实时 PCR和微阵列分析。可以使用技术人员已知的蛋白质测量试验等来测定多肽的量。当多肽是酶时，可以使用特异于该酶的活性试验来测量多肽的量。技术人员将知道对于特定的酶该选用何种试验。用于测定待生产的感兴趣的化合物的产量的优选试验是特异于所关注的酶的活性试验。

考虑到表1所定义的最优密码子使用和生物的基因之间的密码子偏爱，还可以考虑对编码同源多肽的天然编码核苷酸序列进行密码子优化，提供较之同样宿主中天然核苷酸序列的表达而言更高的同源多肽产量。

在本发明的上下文中，核苷酸编码序列或编码序列被定义为编码多肽的核苷酸序列。核苷酸编码序列的边界通常由定位于mRNA 5’末端的开放读码框开始处的ATG起始密码子和定位于mRNA 3’末端的开放读码框紧邻的下游处的终止密码子所确定。核苷酸编码序列可包括但不限于： DNA、cDNA、RNA和重组核酸(DNA、cDNA、RNA)序列。如果编码序列意欲在真核细胞中表达，通常将聚腺苷化信号和转录终止序列定位到编码序列的3’处。核苷酸编码序列包含转录起始子(initiator)编码序列，以及可选地，信号序列。

为了获得核苷酸编码序列的表达，优选地，将核苷酸编码序列与控制序列组合。在本发明的上下文中，控制序列被定义为：对表达编码多肽的核苷酸序列有利或必需的核苷酸序列。当一起存在时，控制序列与核苷酸编码序列可操作地相连。术语“控制序列”包括表达核苷酸编码序列必需或有利的所有遗传元件。每种控制序列可能是核苷酸编码序列天然的或外源的。控制序列包括但不限于：引导序列、聚腺苷化序列、前肽序列、启动子、翻译起始子序列、翻译起始子编码序列、翻译转录终止子和翻译终止子序列。控制序列可以与接头(linker)一起提供，例如，为了将特定限制性位点引入的目的，以协助控制序列与编码多肽的核苷酸序列编码区域的连接。

术语“可操作地相连”在本文中被定义为下述结构，其中，控制序列被适当地放置于相对于(同义)核苷酸编码序列的下述位置，该位置使得控制序列能指导(同义)核苷酸编码序列的表达。

在本发明的上下文中，术语“翻译起始子编码序列”被定义为：在 DNA编码序列开放读码框的起始子或起始密码子紧邻的下游的九个核苷酸。起始子或起始密码子编码甲硫氨酸这个氨基酸。起始子密码子典型地是ATG，但其还可能是任何有功能的起始密码子，例如GTG。术语“共享的翻译起始子编码序列”在本文中被定义为：在DNA编码序列开放读码框的起始子密码子紧邻的下游的九个核苷酸，并且其具有下述DNA序列：5’-GCTnCCyyC-3’(即SEQ ID NO.20)，其中使用下述不确定的核苷酸代码：y(C/T)和n(A/C/G/T)。这导致了关于翻译起始子编码序列的16种变体：GCTACCCCC、GCTACCTCC、GCTACCCTC、GCTACCTTC、 GCTCCCCCC、GCTCCCTCC、GCTCCCCTC、GCTCCCTTC、 GCTGCCCCC、GCTGCCTCC、GCTGCCCTC、GCTGCCTTC、 GCTTCCCCC、GCTTCCTCC、GCTTCCCTC、GCTTCCTTC，优选地，翻译起始子编码序列具有核苷酸序列：5’-GCT TCC TTC-3’(即SEQ ID NO.21)。

使用共享的翻译起始子编码序列，在提到的氨基酸位置允许存在下述氨基酸：被编码的多肽的+2处，丙氨酸；+3处，丙氨酸、丝氨酸、脯氨酸或苏氨酸；+4处，苯丙氨酸、丝氨酸、亮氨酸或脯氨酸。在本发明中，共享的翻译起始子编码序列可以是对于编码将被生产的多肽的核酸序列来说外源的。或者，共享的翻译起始子可以是对真菌宿主细胞来说天然的。

在本发明的上下文中，术语“翻译终止序列”被定义为：在开放读码框或核苷酸编码序列的3’末端的翻译终止密码子开始的四个核苷酸，其定向于5’朝向3’的方向。优选地，翻译终止序列选自下述序列：5’-TAAG- 3’、5’-TAGA-3’和5’-TAAA-3’。更优选地，翻译终止序列是5’-TAAA- 3’。

本文中使用的术语“经优化的密码子频率”或“经优化的密码子使用”指已被整体或部分修饰的天然核苷酸编码序列，给出按照表1(以及 “使用表1对‘经优化的密码子频率’或‘经优化的密码子使用’的计算”段落进一步公开的)所述的密码子频率的同义核苷酸编码序列。对密码子频率的优化可用于改进用于将在作为宿主细胞的任何有丝真菌物种中生产的任何给定多肽的任何编码序列。优选地，有丝真菌宿主细胞是 Aspergillus、Trichoderma、Fusarium、Chrysosporum或Penicillium宿主细胞。更优选地，有丝真菌宿主细胞是Aspergillus niger、Aspergillus oryzae、Aspergillus sojae、Aspergillus terreus、Trichoderma reesei、 Chrysosporum lucknowense或Penicillium chrysogenum宿主细胞。最优选的 Aspergillus niger宿主细胞是CBS513.88或其衍生物。关于优选宿主细胞的更为详细的列表在“宿主细胞”一节中给出。

当已确定了多肽序列的氨基酸序列时，可以合成具有针对在宿主细胞中的表达优化的密码子频率的、编码该多肽的核苷酸序列或同义核苷酸编码序列，其中，天然密码子中的一个或多个已被编码同样氨基酸的同义密码子交换，所述同义密码子具有较高的密码子使用频率(如表1所定义的，以及“使用表1对‘经优化的密码子频率’或‘经优化的密码子使用’的计算”段落进一步公开的)。

当出现下述情况时，认为编码多肽的核苷酸序列或同义编码序列具有经优化的密码子频率，所述情况是：至少一个天然密码子、优选至少两个天然密码子、更优选至少三个天然密码子、更优选至少四个天然密码子、更优选至少五个天然密码子，或者天然密码子的至少1％、2％、3％、 4％、5％、10％、15％、20％、25％、50％、75％、80％、85％、90％以及优选至少95％被同义密码子替换，所述同义密码子改变了密码子频率，使得采用所述频率的所述密码子的百分比与下面列出的最优百分比之间的绝对差值在修饰之后更小，这应用下述最优百分比：TGC编码半胱氨酸 (100％)；TTC编码苯丙氨酸(100％)；CAC编码组氨酸(100％)； AAG编码赖氨酸(100％)；AAC编码天冬酰胺(100％)；CAG编码谷氨酰胺(100％)；TAC编码酪氨酸(100％)；GCT(38％)、GCC (51％)或GCG(11％)编码丙氨酸；GAC编码天冬氨酸(64％)；GAG 编码谷氨酸(74％)；GGT(49％)、GGC(35％)、GGA(16％)编码甘氨酸；ATT(27％)、ATC(73％)编码异亮氨酸；TTG(13％)、CTT (17％)、CTC(38％)、CTG(32％)编码亮氨酸；CCT(36％)、CCC (64％)编码脯氨酸；CGT(49％)、CGC(51％)编码精氨酸；TCT (21％)、TCC(44％)、TCG(14％)、AGC(21％)编码丝氨酸；ACT (30％)、ACC(70％)编码苏氨酸，和/或GTT(27％)、GTC (54％)、GTG(19％)编码缬氨酸。

密码子适合度被定义为：基因中真实密码子比例与目标密码子比例之间的差异，其被归一化为每种密码子出现频率的数量。令r_sc^target(c(k))是密码子的c_k的理想比例(或频率)，按前文所述令r_sc^g(c(k))为基因g中的真实比例，由此，单个密码子的适合度被定义为：

${fit}_{c} (g) = 100 - \frac{1}{| g |} \cdot Σ_{k = 1}^{| g |} | r_{c}^{t \arg et} (c (k)) - r_{c}^{g} (c (k)) | \cdot 100$

由此，密码子适合度{fit_c(g)}可以为0至100％之间的值，其中最优序列接近100％。因此，当同义编码序列的密码子适合度的值为至少70％、 80％、90％、95％，优选96％、97％、98％，以及最优选＞99％时，同义核苷酸编码序列被认为具有经优化的密码子频率。

本发明的核苷酸序列可以是合成的核苷酸序列。本文中使用的术语 “合成”基因、“合成”DNA构建体、“合成”核酸、“合成”多核苷酸、“合成”引物等表示在自然界中没有发现的核苷酸序列；换句话说，并不仅仅只是对于特定生物来说异源的序列，还包括下述这样的：其是异源的，因为其在实验室中被设计和/或制造，并且以某方式对其进行了改变，使得其不具有与其天然存在的来源、模板或同源物相同的核苷酸(或者可能是氨基酸)序列。合成的核酸或氨基酸序列在本文中指理论序列或者明确地、物理上产生的实施方式。根据本发明的合成序列意欲以任何形式包括在本发明中，例如，以纸质或计算机可读形式，或物理上产生的核酸序列、蛋白质、肽、融合肽或多个肽。

或者，天然存在的核苷酸序列可能展示出本发明的特征。此类序列的使用被认为包括在本发明的范围内。

术语“合成的核苷酸构建体”或“合成的核酸”可以包括从完全人工的氨基酸序列或核苷酸序列衍生或设计的核酸，其具有较之天然存在的序列而言单个或多个核苷酸变化。可通过随机或定点诱变、DNA改组方法、 DNA重新组装(reassembly)方法、基因合成或者本领域技术人员已知的任何手段(见，例如，Young and Dong，(2004)，Nucleic Acids Research 32， (7)electronic access http://nar.oupjournals.org/cgi/reprint/32/7/e59或Gupta et al.(1968)，Proc.Natl.Acad.Sci USA，60：1338-1344；Scarpulla et al.(1982)， Anal.Biochem.121：356-365；Stemmer et al.(1995)，Gene 164：49-53)，制造这些“合成的DNA构建体”。

或者，可以从氨基酸序列来设计合成的核苷酸序列(见实施例2)。使用该反向工程方法，不需要天然存在的核苷酸序列(其可能是不可获得的)。首先可以用密码子随机选择来进行反向翻译(back-translation)的过程。随后，可对得到的核苷酸序列进行密码子使用优化。

根据另一种优选的实施方式，根据本发明的具有经优化密码子频率的同义核苷酸编码序列是经过反向工程改造的核苷酸编码序列，其中，经优化的密码子频率使得：至少一个密码子，至少两个密码子，至少三个密码子，至少四个密码子，至少五个密码子，或者至少1％、2％、3％、4％、 5％、10％、15％、20％、25％、50％、75％、80％、85％、90％以及优选至少95％的密码子较之算术平均所预测的密码子使用(即，1个密码子的情况下，100％；2个密码子的情况下，50％；3个密码子的情况下，33.3％； 4个密码子的情况下，25％；6个密码子的情况下，16.7％)而言具有如表 1所定义的更高的密码子使用频率。

根据一种更优选的实施方式，具有经优化密码子频率的所述同义核苷酸序列是经过反向工程改造的核苷酸编码序列，其中，所述核苷酸编码序列的密码子适合度具有至少70％、80％、90％、95％，优选96％、97％、 98％，以及最优选＞98％的适合度值，其中，密码子适合度是通过下述函数计算的：

${fit}_{c} (g) = 100 - \frac{1}{| g |} \cdot Σ_{k = 1}^{| g |} | r_{c}^{t \arg et} (c (k)) - r_{c}^{g} (c (k)) | \cdot 100$

其中，g代表核苷酸编码序列，|g|为其长度，g(k)为其第k个密码子， r_c^target(c(k))是密码子c(k)的理想比例，r_c^g(c(k))是核苷酸编码序列g中的真实比例。

除可存在于本发明的核苷酸序列中的控制序列之外，核苷酸编码序列还可包含信号序列或信号肽编码序列。

信号序列编码与多肽氨基末端相连的氨基酸序列，其可指导被表达的多肽进入细胞分泌途径。核苷酸序列的编码序列的5’末端可天然含有下述信号肽编码区域，该区域与编码分泌的感兴趣多肽的编码区域片断以同翻译读码框的方式天然相连。在这种情况下，翻译起始子编码序列是信号序列的一部分。或者，编码序列的5’末端可含有信号肽编码区域，其对于编码分泌蛋白的编码序列部分来说是外源的。当编码序列正常情况下不含信号肽编码区域时，外源信号肽编码区域可能是需要的。或者，外源信号肽编码区域可简单地替换天然信号肽编码区域，以获得：相对于在正常情况下与编码序列相连的天然信号肽编码区域而言，增强的蛋白质分泌。信号肽编码区域可从来自Aspergillus物种的葡糖淀粉酶基因或淀粉酶基因、来自Rhizomucor物种的脂肪酶基因或蛋白酶基因、针对来自saccharomyces cerevisiae的alpha因子的基因、来自Bacillus物种的淀粉酶基因或蛋白酶基因、或小牛前凝乳酶原(calf preprochymosin)基因获得。但是，能指导表达的蛋白质进入选用的宿主细胞的分泌途径的任何信号肽编码区域可用于本发明。对于有丝真菌宿主细胞来说，优选的信号肽编码区域是从 Aspergillus oryzae TAKA淀粉酶基因(EP 238 023)、Aspergillus niger中性淀粉酶基因、Aspergillus niger葡糖淀粉酶、Rhizomucor miehei天冬氨酸蛋白酶基因、Humicola lanuginosa纤维素酶基因、Humicola insolens纤维素酶、Humicola insolens角质酶、Candida antactica脂肪酶B基因或 Rhizomucor miehei脂肪酶基因及它们的突变体、截短的和杂交的信号序列获得的信号肽编码区域。

在另一种优选的实施方式中，本发明的具有经优化编码频率的同义核苷酸编序列包含信号序列。根据一种更优选的实施方式，本发明的信号序列是具有经优化的密码子频率的信号序列，其中，至少一个天然密码子或者天然密码子的至少1％、5％、10％、15％、20％、25％、50％、75％、 80％、85％、90％以及优选至少95％被同义密码子替换，所述同义密码子编码与天然密码子相同的氨基酸，并且较之天然密码子具有更高的密码子使用频率(如表1所定义的，以及“使用表1对‘经优化的密码子频率’ 或‘经优化的密码子使用’的计算”段落进一步公开的)。更优选地，本发明的信号序列包含具有下述共享DNA序列的翻译起始子编码序列：5’- GCTnCCyyC-3’(即SEQ ID NO.20)，或者进一步更优选地，具有核酸序列：5’-GCT TCC TTC-3’(即SEQ ID NO.21)的翻译起始子编码序列。

在本发明的修饰应用之前，核苷酸编码序列可含有一个或多个内含子，所述内含子含有不编码蛋白质序列中的氨基酸的核苷酸。对编码序列表达加以优化的步骤之一可能是使用没有内含子的同义编码序列。在实施例2中，天然核苷酸序列中存在的内含子在经修饰的构建体中不被替换。

或者，以及根据本发明的另一种优选的实施方式，在包含本发明的同义核苷酸编码序列的核苷酸序列中(其中，未经修饰的核苷酸编码序列原本包含一个或多个内含子)，至少一个内含子被重新引入核苷酸编码序列，优选但非必要地，引入原来的位置。在实施例1中，为用于表达，在密码子经优化的(同义)DNA序列中，作为A.oryzae pla1 DNA序列的一部分的内含子被替换。

翻译起始子序列

在第二个方面，本发明涉及翻译起始子序列。翻译起始子序列是编码蛋白质起点的核酸区域，翻译起始子序列的生物活性是启动核糖体介导的对下述多肽的生产，所述多肽的氨基酸序列是由mRNA的核苷酸序列所确定的。在真核生物中，ATG之前的翻译起始子共享序列(6-12个核苷酸) 通常被称为Kozak共享序列，这是由于对该主题的最初工作是(Kozak，M. (1987)：an analysis of 5’-noncoding sequences from 699 vertebrate messenger RNAs.Nucl.Acid Res.15(20)：8125-47)做出的。原始的Kozak共享序列 CCCGCCGCCrCC(ATG)G(包括从Kozak获得的+4核苷酸)，其在高等真核生物中与对翻译的启动相关。在本发明的上下文中，术语“翻译起始子序列”被定义为：编码多肽的DNA序列的开放读码框的起始子或起始密码子紧邻的上游处的10个核苷酸。起始子或起始密码子编码甲硫氨酸这种氨基酸。起始子密码子典型地是ATG，但也可能是具有功能的其它起始密码子，例如GTG。本领域公知，尿嘧啶(U)，在RNA中代替脱氧核苷酸胸腺嘧啶(T)。

可通过下述方法定量测定转录起始子序列的生物活性，所述方法包括：测量转录起始子序列紧邻的下游的开放读码框的转录基因产物的量，以及将该量与从被一个参照转录起始子序列控制的同样的开放读码框测量的量加以比较。可以通过测量mRNA的量，或者测量mRNA编码的多肽的量来测定基因产物的量。技术人员已知的用于测定mRNA的量的方法的例子包括但不限于Northern印迹、定量PCR、实时PCR和微阵列分析。可以使用技术人员已知的蛋白质测量试验等，来测定转录起始子序列紧邻的下游的开放读码框所编码的多肽的量。当转录起始子序列紧邻的下游的开放读码框所编码的多肽是酶时，可以使用特异于该酶的活性试验来测量多肽的量。技术人员将知道对于特定的酶该选用何种试验。用于测定转录起始子序列的生物活性的优选试验是特异于所关注的酶的活性试验。

根据一种优选的实施方式，核苷酸序列，优选地，本发明第一个方面的核苷酸序列，包含转录起始子序列，所述转录起始子序列包含如下述共享翻译起始子序列所定义的核酸序列：5’-mwChkyCAmv-3’(即SEQ ID NO.16)，其中使用下述不确定的核苷酸代码：m(A/C)、r(A/G)、w (A/T)、s(C/G)、y(C/T)、k(G/T)、v(A/C/G)、h(A/C/T)、d(A/G/T)、b (C/G/T)、n(A/C/G/T)。更优选地，共享翻译起始子序列是选自下述列表之一的：5’-mwChkyCAAA-3’(即SEQ ID NO.17)、5’-mwChkyCACA-3’(即 SEQ ID NO.18)或-mwChkyCAAG-3’(即SEQ ID NO.19)。这些更优选的序列对应于下述序列中的任何一种：AACAGCCAAA、AACAGTCAAA、 AACATCCAAA、AACATTCAAA、AACCGCCAAA、AACCGTCAAA、 AACCTCCAAA、AACCTTCAAA、AACTGCCAAA、AACTGTCAAA、 AACTTCCAAA、AACTTTCAAA、ATCAGCCAAA、ATCAGTCAAA、 ATCATCCAAA、ATCATTCAAA、ATCCGCCAAA、ATCCGTCAAA、 ATCCTCCAAA、ATCCTTCAAA、ATCTGCCAAA、ATCTGTCAAA、 ATCTTCCAAA、ATCTTTCAAA、CACAGCCAAA、CACAGTCAAA、 CACATCCAAA、CACATTCAAA、CACCGCCAAA、CACCGTCAAA、 CACCTCCAAA、CACCTTCAAA、CACTGCCAAA、CACTGTCAAA、 CACTTCCAAA、CACTTTCAAA、CTCAGCCAAA、CTCAGTCAAA、 CTCATCCAAA、CTCATTCAAA、CTCCGCCAAA、CTCCGTCAAA、 CTCCTCCAAA、CTCCTTCAAA、CTCTGCCAAA、CTCTGTCAAA、 CTCTTCCAAA、CTCTTTCAAA、AACAGCCACA、AACAGTCACA、 AACATCCACA、AACATTCACA、AACCGCCACA、AACCGTCACA、 AACCTCCACA、AACCTTCACA、AACTGCCACA、AACTGTCACA、 AACTTCCACA、AACTTTCACA、ATCAGCCACA、ATCAGTCACA、 ATCATCCACA、ATCATTCACA、ATCCGCCACA、ATCCGTCACA、 ATCCTCCACA、ATCCTTCACA、ATCTGCCACA、ATCTGTCACA、 ATCTTCCACA、ATCTTTCACA、CACAGCCACA、CACAGTCACA、 CACATCCACA、CACATTCACA、CACCGCCACA、CACCGTCACA、 CACCTCCACA、CACCTTCACA、CACTGCCACA、CACTGTCACA、 CACTTCCACA、CACTTTCACA、CTCAGCCACA、CTCAGTCACA、 CTCATCCACA、CTCATTCACA、CTCCGCCACA、CTCCGTCACA、 CTCCTCCACA、CTCCTTCACA、CTCTGCCACA、CTCTGTCACA、 CTCTTCCACA、CTCTTTCACA、AACAGCCAAG、AACAGTCAAG、 AACATCCAAG、AACATTCAAG、AACCGCCAAG、AACCGTCAAG、 AACCTCCAAG、AACCTTCAAG、AACTGCCAAG、AACTGTCAAG、 AACTTCCAAG、AACTTTCAAG、ATCAGCCAAG、ATCAGTCAAG、 ATCATCCAAG、ATCATTCAAG、ATCCGCCAAG、ATCCGTCAAG、 ATCCTCCAAG、ATCCTTCAAG、ATCTGCCAAG、ATCTGTCAAG、 ATCTTCCAAG、ATCTTTCAAG、CACAGCCAAG、CACAGTCAAG、 CACATCCAAG、CACATTCAAG、CACCGCCAAG、CACCGTCAAG、 CACCTCCAAG、CACCTTCAAG、CACTGCCAAG、CACTGTCAAG、 CACTTCCAAG、CACTTTCAAG、CTCAGCCAAG、CTCAGTCAAG、 CTCATCCAAG、CTCATTCAAG、CTCCGCCAAG、CTCCGTCAAG、 CTCCTCCAAG、CTCCTTCAAG、CTCTGCCAAG、CTCTGTCAAG、 CTCTTCCAAG或CTCTTTCAAG。

根据一种更为优选的实施方式，翻译起始子序列是5’- CACCGTCAAA-3’(即SEQ ID NO.22)或5’-CGCAGTCAAG-3’(即SEQ ID NO.23)。

本发明还包括经分离的翻译起始子序列，及具有与经分离的翻译起始子序列相同的生物活性的其变体和亚序列。

本发明的共享翻译起始子序列优选被包含在本发明的第一方面的核苷酸序列中。或者，本发明的共享翻译起始子序列可被包含在任何下述核苷酸序列中，所述核苷酸序列包含编码感兴趣的化合物的核苷酸编码序列。核苷酸编码序列可以是任何编码序列。优选地，核苷酸编码序列是如前文所定义的同义编码序列。

此外，以及根据本发明的另一方面，提供了如“核酸构建体”一节所定义的核酸构建体或表达载体，所述核酸构建体或表达载体包含本发明的共享翻译起始子序列。

本发明的共享翻译起始子序列可用于任何有丝真菌细胞中，用于表达编码将在所述细胞中生产的任何化合物的任何核酸序列。在“宿主细胞” 一节中对有丝真菌细胞进行了定义。

在本发明中，优选地，共享翻译起始子序列相对编码将被生产的多肽的核酸序列来说是外源的，但是共享翻译起始子序列可以是有丝真菌细胞天然的。

技术人员将理解，本发明涉及若干不同的实施方式，它们可以单独或组合使用：

-同义核苷酸编码序列，通过使用最优密码子频率和/或对控制序列的修饰，所述控制序列例如：

-翻译终止序列，其定向于从5’到3’方向，其选自下述序列： TAAG、TAGA和TAAA，优选地，TAAA，和/或

-翻译起始子编码序列，其定向于从5’到3’方向，其选自下述序列： GCTACCCCC、GCTACCTCC、GCTACCCTC、GCTACCTTC、 GCTCCCCCC、GCTCCCTCC、GCTCCCCTC、GCTCCCTTC、 GCTGCCCCC、GCTGCCTCC、GCTGCCCTC、GCTGCCTTC、 GCTTCCCCC、GCTTCCTCC、GCTTCCCTC和GCTTCCTTC，优选地，是GCT TCC TTC，和/或

技术人员将理解，本发明涉及多种不同的实施方式，它们可以单独使用或者以多种不同的组合方式使用，下文公开了这些组合中的若干种。

优选地，本发明的核苷酸序列包含同义编码序列，其具有根据本文所述的本发明的经优化密码子频率。

根据一种更为优选的实施方式，本发明的核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，所述同义编码序列与控制序列相连，所述控制序列包含定向于5’朝向3’方向的翻译终止序列，所述翻译终止序列选自下述列表：5’-TAAG-3’、5’-TAGA-3’和 5’-TAAA-3’。更优选地，本发明的核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，所述同义编码序列与控制序列相连，所述控制序列包含下述翻译终止序列：5’-TAAA-3’。

根据一种进一步更优选的实施方式，本发明的核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，所述同义编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列，所述翻译起始子序列选自下述列表：5’-mwChkyCAAA-3’、5’- mwChkyCACA-3’和5’-mwChkyCAAG-3’(m、w不确定代码已在前文公开)。更优选地，核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，所述同义编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列，所述翻译起始子序列选自下述列表：5’-CACCGTCAAA-3’或5’-CGCAGTCAAG-3’。进一步更优选地，核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，所述同义编码序列与下述翻译起始子序列相连：5’- CGCAGTCAAG-3’。最优选地，核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，所述同义编码序列与下述翻译起始子序列相连：5’-CACCGTCAAA-3’。

根据再进一步更优选的一种实施方式，本发明的核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，所述同义编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列和/或定向于5’朝向3’方向的一种翻译终止序列，所述翻译起始子序列选自下述列表：5’-mwChkyCAAA-3’、5’-mwChkyCACA-3’和5’- mwChkyCAAG-3’(m、w不确定代码已在前文公开)，所述翻译终止序列选自下述列表：5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。更优选地，核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，所述同义编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列和/或下述翻译终止序列：5’-TAAA-3’，所述翻译起始子序列选自下述列表：5’-mwChkyCAAA-3’、5’-mwChkyCACA-3’和5’- mwChkyCAAG-3’(m、w不确定代码已在前文公开)。进一步更优选地，核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，所述同义编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列和/或定向于5’朝向3’方向的一种翻译终止序列，所述翻译起始子序列选自下述列表：5’-CACCGTCAAA-3’或5’- CGCAGTCAAG-3’，所述翻译终止序列选自下述列表：5’-TAAG-3’、5’- TAGA-3’和5’-TAAA-3’。再进一步更优选地，核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，所述同义编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列和/或下述翻译终止序列：5’-TAAA-3’，所述翻译起始子序列选自下述列表：5’- CACCGTCAAA-3’或5’-CGCAGTCAAG-3’。再进一步更优选地，核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，所述同义编码序列与下述翻译起始子序列：5’- CGCAGTCAAG-3’和/或下述翻译终止序列：5’-TAAA-3’相连。最优选地，核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，所述同义编码序列与下述翻译起始子序列：5’- CACCGTCAAA-3’和/或下述翻译终止序列：5’-TAAA-3’相连。

根据一种最优选的实施方式，本发明的核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，和/或包含下述翻译起始子编码序列：5’-GCTTCCTTC-3’；所述同义编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列和/或定向于5’朝向3’方向的翻译终止序列，所述翻译起始子序列选自下述列表：5’- mwChkyCAAA-3’、5’-mwChkyCACA-3’和5’-mwChkyCAAG-3’(m、w不确定代码已在前文公开)，所述翻译终止序列选自下述列表：5’-TAAG- 3’、5’-TAGA-3’和5’-TAAA-3’。更优选地，核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，和/或包含下述翻译起始子编码序列：5’-GCTTCCTTC-3’；所述同义编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列和/或下述翻译终止序列： 5’-TAAA-3’，所述翻译起始子序列选自下述列表：5’-mwChkyCAAA-3’、 5’-mwChkyCACA-3’和5’-mwChkyCAAG-3’(m、w不确定代码已在前文公开)。进一步更优选地，核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，和/或包含下述翻译起始子编码序列：5’-GCTTCCTTC-3’；所述同义编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列和/或定向于5’朝向3’方向的一种翻译终止序列，所述翻译起始子序列选自下述列表：5’-CACCGTCAAA-3’或5’- CGCAGTCAAG-3’，所述翻译终止序列选自下述列表：5’-TAAG-3’、5’- TAGA-3’和5’-TAAA-3’。再进一步更优选地，核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，和/或包含下述翻译起始子编码序列：5’-GCTTCCTTC-3’；所述同义编码序列与控制序列相连，所述控制序列包含翻译起始子序列和/或下述翻译终止序列： 5’-TAAA-3’，所述翻译起始子序列选自下述列表：5’-CACCGTCAAA-3’或 5’-CGCAGTCAAG-3’。再进一步更优选地，核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，和/或包含下述翻译起始子编码序列：5’-GCTTCCTTC-3’；所述同义编码序列与下述翻译起始子序列：5’-CGCAGTCAAG-3’和/或下述翻译终止序列：5’-TAAA- 3’相连。最优选地，核苷酸序列包含下述同义编码序列，其具有根据本文所公开的本发明的经优化密码子频率，和/或包含下述翻译起始子编码序列：5’-GCTTCCTTC-3’；所述同义编码序列与下述翻译起始子序列：5’- CACCGTCAAA-3’和/或下述翻译终止序列：5’-TAAA-3’相连。

或者，以及根据本发明的另一种优选的实施方式，本发明的核苷酸序列包含下述编码序列，所述编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列，所述翻译起始子序列选自下述列表：5’- mwChkyCAAA-3’、5’-mwChkyCACA-3’和5’-mwChkyCAAG-3’(m、w不确定代码已在前文公开)。更优选地，核苷酸序列包含下述编码序列，所述编码序列与控制序列相连，所述控制序列包含翻译起始子序列，所述翻译起始子序列选自下述列表：5’-CACCGTCAAA-3’或5’-CGCAGTCAAG- 3’。进一步更优选地，核苷酸序列包含下述编码序列，所述编码序列与控制序列相连，所述控制序列包含下述翻译起始子序列：5’- CGCAGTCAAG-3’。最优选地，核苷酸序列包含下述编码序列，所述编码序列与控制序列相连，所述控制序列包含下述翻译起始子序列：5’- CACCGTCAAA-3’。

或者，以及根据本发明的另一种更优选的实施方式，本发明的核苷酸序列包含翻译起始子编码序列5’-GCTTCCTTC-3’和/或包含下述编码序列，所述编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列，所述翻译起始子序列选自下述列表：5’-mwChkyCAAA-3’、5’- mwChkyCACA-3’和5’-mwChkyCAAG-3’(m、w不确定代码已在前文公开)。更优选地，核苷酸序列包含翻译起始子编码序列5’-GCTTCCTTC- 3’和/或包含下述编码序列，所述编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列，所述翻译起始子序列选自下述列表：5’- CACCGTCAAA-3’或5’-CGCAGTCAAG-3’。进一步更优选地，核苷酸序列包含翻译起始子编码序列5’-GCTTCCTTC-3’和/或包含下述编码序列，所述编码序列与控制序列相连，所述控制序列包含下述翻译起始子序列： 5’-CGCAGTCAAG-3’。最优选地，核苷酸序列包含翻译起始子编码序列 5’-GCTTCCTTC-3’和/或包含下述编码序列，所述编码序列与控制序列相连，所述控制序列包含下述翻译起始子序列：5’-CACCGTCAAA-3’。

或者，以及根据本发明的另一种更优选的实施方式，本发明的核苷酸序列包含下述编码序列，所述编码序列与控制序列相连，所述控制序列包含翻译起始子序列和/或定向于5’朝向3’方向的一种翻译终止序列，所述翻译起始子序列选自下述列表：5’-mwChkyCAAA-3’、5’-mwChkyCACA- 3’和5’-mwChkyCAAG-3’(m、w不确定代码已在前文公开)，所述翻译终止序列选自下述列表：5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。更优选地，核苷酸序列包含下述编码序列，所述编码序列与控制序列相连，所述控制序列包含翻译起始子序列和/或下述翻译终止序列：5’-TAAA-3’，所述翻译起始子序列选自下述列表：5’-mwChkyCAAA-3’、5’- mwChkyCACA-3’和5’-mwChkyCAAG-3’(m、w不确定代码已在前文公开)。进一步更优选地，核苷酸序列包含下述编码序列，所述编码序列与控制序列相连，所述控制序列包含翻译起始子序列和/或定向于5’朝向3’ 方向的一种翻译终止序列，所述翻译起始子序列选自下述列表：5’- CACCGTCAAA-3’或5’-CGCAGTCAAG-3’，所述翻译终止序列选自下述列表：5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。再进一步更优选地，核苷酸序列包含下述编码序列，所述编码序列与控制序列相连，所述控制序列包含翻译起始子序列和/或下述翻译终止序列：5’-TAAA-3’，所述翻译起始子序列选自下述列表：5’-CACCGTCAAA-3’或5’-CGCAGTCAAG-3’。再进一步更优选地，核苷酸序列包含下述编码序列，所述编码序列与翻译起始子序列5’-CGCAGTCAAG-3’和/或定向于5’朝向3’方向的一种翻译终止序列相连，所述翻译终止序列选自下述列表：5’-TAAG-3’、5’-TAGA-3’ 和5’-TAAA-3’。再进一步更优选地，核苷酸序列包含下述编码序列，所述编码序列与翻译起始子序列5’-CGCAGTCAAG-3’和/或下述翻译终止序列：5’-TAAA-3’相连。再进一步更优选地，核苷酸序列包含下述编码序列，所述编码序列与下述翻译起始子序列：5’-CACCGTCAAA-3’和/或定向于5’朝向3’方向的一种翻译终止序列相连，所述翻译终止序列选自下述列表：5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。最优选地，核苷酸序列包含下述编码序列，所述编码序列与翻译起始子序列5’-CACCGTCAAA- 3’和/或下述翻译终止序列：5’-TAAA-3’相连。

或者，以及根据本发明的一种最优选的实施方式，本发明的核苷酸序列包含翻译起始子编码序列：5’-GCTTCCTTC-3’和/或下述编码序列，所述编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列和/或定向于5’朝向3’方向的一种翻译终止序列，所述翻译起始子序列选自下述列表：5’-mwChkyCAAA-3’、5’-mwChkyCACA-3’和5’-mwChkyCAAG-3’ (m、w不确定代码已在前文公开)，所述翻译终止序列选自下述列表： 5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。更优选地，核苷酸序列包含翻译起始子编码序列：5’-GCTTCCTTC-3’和/或下述编码序列，所述编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列和/或下述翻译终止序列：5’-TAAA-3’，所述翻译起始子序列选自下述列表：5’- mwChkyCAAA-3’、5’-mwChkyCACA-3’和5’-mwChkyCAAG-3’(m、w不确定代码已在前文公开)。进一步更优选地，核苷酸序列包含翻译起始子编码序列：5’-GCTTCCTTC-3’和/或下述编码序列，所述编码序列与控制序列相连，所述控制序列包含一种翻译起始子序列和/或定向于5’朝向3’ 方向的一种翻译终止序列，所述翻译起始子序列选自下述列表：5’- CACCGTCAAA-3’或5’-CGCAGTCAAG-3’，所述翻译终止序列选自下述列表：5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。再进一步更优选地，核苷酸序列包含翻译起始子编码序列：5’-GCTTCCTTC-3’和/或下述编码序列，所述编码序列与控制序列相连，所述控制序列包含翻译起始子序列和/ 或下述翻译终止序列：5’-TAAA-3’，所述翻译起始子序列选自下述列表： 5’-CACCGTCAAA-3’或5’-CGCAGTCAAG-3’。再进一步更优选地，核苷酸序列包含翻译起始子编码序列：5’-GCTTCCTTC-3’和/或下述编码序列，所述编码序列与翻译起始子序列5’-CGCAGTCAAG-3’和/或定向于5’ 朝向3’方向的一种翻译终止序列相连，所述翻译终止序列选自下述列表： 5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。再进一步更优选地，核苷酸序列包含翻译起始子编码序列：5’-GCTTCCTTC-3’和/或下述编码序列，所述编码序列与翻译起始子序列5’-CGCAGTCAAG-3’和/或下述翻译终止序列：5’-TAAA-3’相连。最优选地，核苷酸序列包含翻译起始子编码序列： 5’-GCTTCCTTC-3’和/或下述编码序列，所述编码序列与翻译起始子序列 5’-CACCGTCAAA-3’和/或下述翻译终止序列：5’-TAAA-3’相连。

或者，以及根据本发明的另一种优选的实施方式，本发明的核苷酸序列包含下述编码序列，所述编码序列与控制序列相连，所述控制序列包含定向于5’朝向3’方向的一种翻译终止序列，所述翻译终止序列选自下述列表：5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’。更优选地，本发明的核苷酸序列包含下述编码序列，所述编码序列与下述翻译终止序列：5’-TAAA- 3’相连。

或者，以及根据本发明的另一种优选的实施方式，本发明的核苷酸序列包含下述翻译起始子编码序列：5’-GCTTCCTTC-3’和/或下述编码序列，所述编码序列与控制序列相连，所述控制序列包含定向于5’朝向3’方向的一种翻译终止序列，所述翻译终止序列选自下述列表：5’-TAAG-3’、 5’-TAGA-3’和5’-TAAA-3’。更优选地，本发明的核苷酸序列包含下述翻译起始子编码序列：5’-GCTTCCTTC-3’和/或下述编码序列，所述编码序列与下述翻译终止序列：5’-TAAA-3’相连。

除本发明第一个方面所定义的控制序列之外，可以使用其它控制序列。此类其它控制序列可以是合适的启动子(promoter)序列，这是能被宿主细胞识别以用于表达核酸序列的核酸序列。启动子序列含有能介导多肽表达的转录控制序列。启动子可以是在细胞中显示出转录活性的任何核酸序列，其包括突变体的、截短的和杂交的启动子，其可从编码对细胞来说同源或异源的细胞外或细胞内多肽的基因获得。

控制序列还可以是合适的转录终止子序列，这是能被细胞识别用来终止转录的序列。终止子序列与编码多肽的核酸序列的3’末端可操作地相连。在细胞中具有功能的任何终止子可用于本发明。

优选用于有丝真菌细胞的终止子从编码A.oryzae TAKA-淀粉酶、 A.niger葡糖淀粉酶(glaA)、A.nidulans邻氨基苯甲酸合酶、A.niger alpha葡糖苷酶、trpC基因和Fusarium oxysporum胰蛋白酶类似蛋白酶 (trypsin-like protease)的基因获得。

控制序列还可以是合适的引导序列，这是mRNA的非翻译区域，其对于通过细胞的翻译来说是重要的。引导序列与编码多肽的核酸序列的5’末端可操作地相连。在细胞中具有功能的任何引导序列都可用于本发明。

优选用于有丝真菌细胞的引导序列可从编码A.oryzae TAKA-淀粉酶和 A.nidulans丙糖磷酸酯异构酶和A.niger glaA的基因获得。

其它控制序列可从青霉菌IPNS基因或pcbC基因、beta微管蛋白基因获得。WO 01/021779中提到的所有控制序列通过引用并入本文。

控制序列还可以是聚腺苷化序列，这是与核酸序列3’末端可操作地相连，并且当被转录时能被细胞作为信号识别以向经转录mRNA加上聚腺苷残基的序列。在细胞中具有功能的任何聚腺苷化序列都可用于本发明。

优选用于有丝真菌细胞的聚腺苷化序列从编码A.oryzae TAKA-淀粉酶、A.niger葡糖淀粉酶、A.nidulans邻氨基苯甲酸合酶、Fusarium oxysporum胰蛋白酶类似蛋白酶和A.niger alpha葡糖苷酶的基因获得。

本发明的核酸可包含在核酸构建体或表达载体中。

核酸构建体

根据第三个方面，本发明涉及核酸构建体或表达载体，其包含至少一种如前述章节定义的核苷酸序列：

-同义核苷酸编码序列，通过使用最优密码子频率以及可选地，对控制序列的修饰，所述控制序列例如：

-翻译终止序列，其定向于从5’到3’方向，其选自下述序列： TAAG、TAGA和TAAA，优选地，TAAA，和/或

-翻译起始子序列，所述翻译起始子序列包含如下述共享翻译起始子序列所定义的核酸序列：5’-mwChkyCAmv-3’，其中使用下述不确定的核苷酸代码：m(A/C)、r(A/G)、w(A/T)、s(C/G)、y(C/T)、k(G/T)、v (A/C/G)、h(A/C/T)、d(A/G/T)、b(C/G/T)、n(A/C/G/T)，优选地，翻译起始子序列是选自下述列表之一的：5’-mwChkyCAAA-3’、5’- mwChkyCACA-3’或-mwChkyCAAG-3’。这些优选的序列对应于下述序列中的任何一种：AACAGCCAAA、AACAGTCAAA、AACATCCAAA、 AACATTCAAA、AACCGCCAAA、AACCGTCAAA、AACCTCCAAA、 AACCTTCAAA、AACTGCCAAA、AACTGTCAAA、AACTTCCAAA、 AACTTTCAAA、ATCAGCCAAA、ATCAGTCAAA、ATCATCCAAA、 ATCATTCAAA、ATCCGCCAAA、ATCCGTCAAA、ATCCTCCAAA、 ATCCTTCAAA、ATCTGCCAAA、ATCTGTCAAA、ATCTTCCAAA、 ATCTTTCAAA、CACAGCCAAA、CACAGTCAAA、CACATCCAAA、 CACATTCAAA、CACCGCCAAA、CACCGTCAAA、CACCTCCAAA、 CACCTTCAAA、CACTGCCAAA、CACTGTCAAA、CACTTCCAAA、 CACTTTCAAA、CTCAGCCAAA、CTCAGTCAAA、CTCATCCAAA、 CTCATTCAAA、CTCCGCCAAA、CTCCGTCAAA、CTCCTCCAAA、 CTCCTTCAAA、CTCTGCCAAA、CTCTGTCAAA、CTCTTCCAAA、 CTCTTTCAAA、AACAGCCACA、AACAGTCACA、AACATCCACA、 AACATTCACA、AACCGCCACA、AACCGTCACA、AACCTCCACA、 AACCTTCACA、AACTGCCACA、AACTGTCACA、AACTTCCACA、 AACTTTCACA、ATCAGCCACA、ATCAGTCACA、ATCATCCACA、 ATCATTCACA、ATCCGCCACA、ATCCGTCACA、ATCCTCCACA、 ATCCTTCACA、ATCTGCCACA、ATCTGTCACA、ATCTTCCACA、 ATCTTTCACA、CACAGCCACA、CACAGTCACA、CACATCCACA、 CACATTCACA、CACCGCCACA、CACCGTCACA、CACCTCCACA、 CACCTTCACA、CACTGCCACA、CACTGTCACA、CACTTCCACA、 CACTTTCACA、CTCAGCCACA、CTCAGTCACA、CTCATCCACA、 CTCATTCACA、CTCCGCCACA、CTCCGTCACA、CTCCTCCACA、 CTCCTTCACA、CTCTGCCACA、CTCTGTCACA、CTCTTCCACA、 CTCTTTCACA、AACAGCCAAG、AACAGTCAAG、AACATCCAAG、 AACATTCAAG、AACCGCCAAG、AACCGTCAAG、AACCTCCAAG、 AACCTTCAAG、AACTGCCAAG、AACTGTCAAG、AACTTCCAAG、 AACTTTCAAG、ATCAGCCAAG、ATCAGTCAAG、ATCATCCAAG、 ATCATTCAAG、ATCCGCCAAG、ATCCGTCAAG、ATCCTCCAAG、 ATCCTTCAAG、ATCTGCCAAG、ATCTGTCAAG、ATCTTCCAAG、 ATCTTTCAAG、CACAGCCAAG、CACAGTCAAG、CACATCCAAG、 CACATTCAAG、CACCGCCAAG、CACCGTCAAG、CACCTCCAAG、 CACCTTCAAG、CACTGCCAAG、CACTGTCAAG、CACTTCCAAG、 CACTTTCAAG、CTCAGCCAAG、CTCAGTCAAG、CTCATCCAAG、 CTCATTCAAG、CTCCGCCAAG、CTCCGTCAAG、CTCCTCCAAG、 CTCCTTCAAG、CTCTGCCAAG、CTCTGTCAAG、CTCTTCCAAG或 CTCTTTCAAG。更优选地，翻译起始子序列是5’-CACCGTCAAA-3’或 5’-CGCAGTCAAG-3’。

根据另一种优选的实施方式，核酸构建体或表达载体包含下述翻译起始子序列，所述翻译起始子序列包含如下述共享翻译起始子序列所定义的核酸序列：5’-mwChkyCAmv-3’，其中使用下述不确定的核苷酸代码：m (A/C)、r(A/G)、w(A/T)、s(C/G)、y(C/T)、k(G/T)、v(A/C/G)、h (A/C/T)、d(A/G/T)、b(C/G/T)、n(A/C/G/T)，优选地，翻译起始子序列是选自下述列表之一的：5’-mwChkyCAAA-3’、5’-mwChkyCACA-3’或- mwChkyCAAG-3’。这些优选的序列对应于下述序列中的任何一种： AACAGCCAAA、AACAGTCAAA、AACATCCAAA、AACATTCAAA、 AACCGCCAAA、AACCGTCAAA、AACCTCCAAA、AACCTTCAAA、 AACTGCCAAA、AACTGTCAAA、AACTTCCAAA、AACTTTCAAA、 ATCAGCCAAA、ATCAGTCAAA、ATCATCCAAA、ATCATTCAAA、 ATCCGCCAAA、ATCCGTCAAA、ATCCTCCAAA、ATCCTTCAAA、 ATCTGCCAAA、ATCTGTCAAA、ATCTTCCAAA、ATCTTTCAAA、 CACAGCCAAA、CACAGTCAAA、CACATCCAAA、CACATTCAAA、 CACCGCCAAA、CACCGTCAAA、CACCTCCAAA、CACCTTCAAA、 CACTGCCAAA、CACTGTCAAA、CACTTCCAAA、CACTTTCAAA、 CTCAGCCAAA、CTCAGTCAAA、CTCATCCAAA、CTCATTCAAA、 CTCCGCCAAA、CTCCGTCAAA、CTCCTCCAAA、CTCCTTCAAA、 CTCTGCCAAA、CTCTGTCAAA、CTCTTCCAAA、CTCTTTCAAA、 AACAGCCACA、AACAGTCACA、AACATCCACA、AACATTCACA、 AACCGCCACA、AACCGTCACA、AACCTCCACA、AACCTTCACA、 AACTGCCACA、AACTGTCACA、AACTTCCACA、AACTTTCACA、 ATCAGCCACA、ATCAGTCACA、ATCATCCACA、ATCATTCACA、 ATCCGCCACA、ATCCGTCACA、ATCCTCCACA、ATCCTTCACA、 ATCTGCCACA、ATCTGTCACA、ATCTTCCACA、ATCTTTCACA、 CACAGCCACA、CACAGTCACA、CACATCCACA、CACATTCACA、 CACCGCCACA、CACCGTCACA、CACCTCCACA、CACCTTCACA、 CACTGCCACA、CACTGTCACA、CACTTCCACA、CACTTTCACA、 CTCAGCCACA、CTCAGTCACA、CTCATCCACA、CTCATTCACA、 CTCCGCCACA、CTCCGTCACA、CTCCTCCACA、CTCCTTCACA、 CTCTGCCACA、CTCTGTCACA、CTCTTCCACA、CTCTTTCACA、 AACAGCCAAG、AACAGTCAAG、AACATCCAAG、AACATTCAAG、 AACCGCCAAG、AACCGTCAAG、AACCTCCAAG、AACCTTCAAG、 AACTGCCAAG、AACTGTCAAG、AACTTCCAAG、AACTTTCAAG、 ATCAGCCAAG、ATCAGTCAAG、ATCATCCAAG、ATCATTCAAG、 ATCCGCCAAG、ATCCGTCAAG、ATCCTCCAAG、ATCCTTCAAG、 ATCTGCCAAG、ATCTGTCAAG、ATCTTCCAAG、ATCTTTCAAG、 CACAGCCAAG、CACAGTCAAG、CACATCCAAG、CACATTCAAG、 CACCGCCAAG、CACCGTCAAG、CACCTCCAAG、CACCTTCAAG、 CACTGCCAAG、CACTGTCAAG、CACTTCCAAG、CACTTTCAAG、 CTCAGCCAAG、CTCAGTCAAG、CTCATCCAAG、CTCATTCAAG、 CTCCGCCAAG、CTCCGTCAAG、CTCCTCCAAG、CTCCTTCAAG、 CTCTGCCAAG、CTCTGTCAAG、CTCTTCCAAG或CTCTTTCAAG。更优选地，翻译起始子序列是5’-CACCGTCAAA-3’或5’-CGCAGTCAAG- 3’。

“核酸构建体”在本文中被定义为单链或双链的核酸分子，其是从天然存在的基因分离出的，或已经过修饰以含有以自然界中不存在的方式组合及并置的核酸片断。当核酸构建体含有编码序列表达所需的所有控制序列时，术语“核酸构建体”与术语“表达盒”或“表达载体”同义。

在插入进核酸构建体或表达载体之前对编码多肽的核苷酸序列进行操作可能是人们想要的或必须的，这取决于核酸构建体或表达载体。用于利用克隆方法修饰核酸序列的技术是本领域公知的。

本发明还涉及重组表达载体，其包含本发明的核苷酸序列、启动子以及转录和翻译终止信号。上文所述的多种核酸和控制序列可连接到一起，产生重组表达载体，其中可包括一个或多个方便的限制性位点，以允许在此类位点对编码多肽的核酸序列进行插入或取代。

或者，编码多肽的核苷酸序列可通过下述方法表达：将所述核苷酸序列或包含所述序列的核酸构建体插入到合适的用于表达的载体中。在制造表达载体的过程中，编码序列以下述方式放置于载体中，所述方式使得编码序列与用于表达以及可选的用于分泌的合适的控制序列可操作地相连。

重组载体可以是能方便地经历重组DNA过程并能导致编码多肽的核酸序列表达的任何载体(例如质粒或病毒)。典型地，对载体的选择将取决于载体与将引入该载体的有丝真菌细胞之间的兼容性。载体可以是线性的或闭合环状的质粒。载体可以是自主复制载体，即作为其复制不依赖染色体复制的染色体外主体存在，例如，质粒、染色体外元件、微型染色体或人工染色体。自主保持的克隆载体可包含AMA1-序列(见，例如 Aleksenko and Clutterbuck(1997)，Fungal Genet.Biol.21：373-397)。

或者，载体可以是下述载体，当其被引入真菌细胞时，其整合进基因组，与其已整合进的染色体一起复制。整合型克隆载体可在真菌宿主细胞的染色体中随机整合或在预定的目标位点整合。在本发明的一种优选的实施方式中，整合型克隆载体包含下述DNA片段，该片段与有丝真菌宿主细胞基因组中预定目标基因座中的、用于将克隆载体整合到预定基因座上的DNA序列同源。为促进定位整合，优选在转化宿主细胞之前对克隆载体进行线性化。线性化优选进行至如下程度：使得克隆载体的至少一端 (但优选地，任意一端)侧翼有与目标基因座同源的序列。目标基因座侧翼的同源序列的长度优选为至少30bp，优选地，至少50bp，优选地，至少0.1kb，进一步优选地，至少0.2kb，更优选地，至少0.5kb，进一步更优选地，至少1kb，最优选地，至少2kb。优选地，克隆载体中与目标基因座同源的DNA序列是从高度表达的基因座获得的，这意味着，其是从能在有丝真菌宿主细胞中高水平表达的基因获得的。能高水平表达的基因，即，能高度表达的基因在本文中被定义为，例如在诱导条件下，其 mRNA占细胞总mRNA的至少0.5％(w/w)的基因；或者其基因产物占细胞总蛋白的至少1％(w/w)的基因；或者，在分泌出的基因产物的情况下，可分泌至至少0.1g/l的水平(如EP 357 127 B1所述)。大量优选的高度表达的真菌基因的例子是：来自Aspergilli或Trichoderm的淀粉酶、葡糖淀粉酶、醇脱氢酶、木聚糖酶、磷酸甘油醛脱氢酶或纤维二糖水解酶 (cellobiohydrolase，cbh)基因。用于这些目的的最优选的高度表达的基因是葡糖淀粉酶基因(优选A.niger葡糖淀粉酶基因)、A.oryzae TAKA- 淀粉酶基因、A.nidulans gpdA基因、Trichoderma reesei cbh基因(优选地，cbh1)。可向宿主细胞中插入编码多肽的核酸序列的超过一个的拷贝，以增加基因产物的生产。这可以通过下述方法来进行，优选地，通过将DNA的多个拷贝整合进其基因组，更优选地，通过将DNA序列的整合定位于前文定义的高度表达的基因座之一处。或者，这可以通过将可扩增的选择标记基因加入核酸序列来进行，其中可通过在合适的选择试剂存在的情况下培养所述细胞来对含有选择标记基因的扩增拷贝以及由此获得的核酸序列的额外拷贝的细胞加以选择。为进一步增多将被过量表达的 DNA序列的拷贝数，可以使用WO98/46772所述的基因转化技术。

载体系统可以是单个载体或质粒，或两个或多个载体或质粒(它们一起含有将被引入到有丝真菌细胞基因组中的总DNA)，或转座子。

载体优选含有一种或多种选择标记，其允许对经转化的细胞进行容易的选择。选择标记是其产物提供杀生物剂或病毒抗性、对重金属的抗性、针对营养缺陷型的原营养型等的基因。用于有丝真菌细胞的选择标记可选自下述组，所述组包括但不限于：amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰基转移酶)、bar(草丁膦转移酶)、bleA(脉霉素结合)、hygB(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清酸核苷-5′-磷酸脱羧酶)、sC(硫酸腺苷转移酶)和trpC(邻氨基苯甲酸合酶)基因以及来自其它物种的等同物。。用于Aspergillus和Penicillium细胞的优选者是A. nidulans或A.oryzae的amdS(EP 635574 B1、WO 97/06261)和pyrG基因，以及Streptomyces hygroscopicus的bar基因。更优选地，使用amdS基因，进一步更优选地，使用来自A.nidulans或A.niger的amdS基因。最优选的选择标记基因是与A.nidulans gpdA启动子融合的A.nidulans amdS 编码序列(见EP 635574 B1)。来自其它有丝真菌的amdS基因也可使用 (WO 97/06261)。

用于将上述元件连接起来以构建本发明的重组表达载体的方法是本领域技术人员公知的(见，例如，上文所述的Sambrook et al.，1989)。

宿主细胞

根据第四个方面，本发明涉及有丝真菌宿主细胞。本发明的有丝真菌宿主细胞可以是技术人员已知的任何有丝真菌宿主细胞。

“有丝真菌”包括Eumycota和Oomycota亚门的所有有丝形式(如前文Hawksworth et al.，1995所定义)。有丝真菌的特征在于几丁质、纤维素、葡聚糖、脱乙酰几丁质、甘露聚糖和其它复杂多糖构成的菌丝体壁。营养生长通过菌丝延长进行，碳代谢是专性需氧的。有丝真菌菌株包括但不限于，Acremonium、Aspergillus、Aureobasidium、Cryptococcus、 Filibasidium、Fusarium、Humicola、Magnaporthe、Mucor、 Myceliophthora、Neocallimastix、Neurospora、Paecilomyces、Penicillium、 Piromyces、Schizophyllum、Talaromyces、Thermoascus、Thielavia、 Tolypocladium和Trichoderma的菌株。

公众可以从大量培养中心容易地获得Aspergillus的菌株及其有性型 (teleomorph)，例如American Type Culture Collection(ATCC)、Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH(DSM)、 Centraalbureau Voor Schimmelcultures(CBS)和Agricultural Research Service Patent Culture Collection、Northern Regional Research Center(NRRL) Aspergillus niger CBS 513.88、Aspergillus oryzae ATCC 20423、IFO 4177、 ATCC 1011、ATCC 9576、ATCC14488-14491、ATCC 11601、 ATCC12892、P.chrysogenumCBS 455.95、Penicillium citrinum ATCC 38065、Penicillium chrysogenum P2、Acremonium chrysogenum ATCC 36225 或ATCC 48272、Trichoderma reesei ATCC 26921或ATCC 56765或ATCC 26921、Aspergillus sojae ATCC11906、Chrysosporium lucknowense ATCC44006及其衍生物。

优选地，本发明的有丝真菌宿主细胞包含至少一个拷贝的本发明第三方面的核酸构建体。

根据一种优选的实施方式，在根据本发明的第一个和第二个方面对编码和/或控制序列加以修饰之前，核酸构建体中存在的编码和/或控制序列是有丝真菌宿主细胞异源的。

根据一种更优选的实施方式，包含给定拷贝数的本发明第三方面的核酸构建体的、本发明的有丝真菌宿主细胞是有丝真菌细胞，其中，所述核酸构建体编码的产物的表达，较之包含相应的天然核苷酸序列的相应的核酸构建体所编码的同样的产物的生产有所提高，所述相应的核酸构建体在相应的有丝真菌宿主细胞中以同样的拷贝数存在。优选地，对本发明第三方面的核酸构建体或表达载体中存在的核苷酸序列的修饰导致本发明的有丝真菌宿主细胞(包含给定拷贝数的本发明第三方面的核酸构建体)产生的感兴趣化合物的产量增加至少1％、5％、10％、25％、50％、100％、 200％、300％、400％、更优选500％，所述增加是与包含相应的天然核苷酸序列的相应的核酸构建体的生产加以比较得出的，所述相应的核酸构建体以同样拷贝数存在于相应的有丝真菌宿主细胞中。

可通过下述方法来测定将被生产的感兴趣的化合物产量的增加：测量本发明的有丝真菌宿主细胞生产的化合物的量，将其与相应的有丝真菌宿主细胞生产的感兴趣的化合物加以比较。可以通过测量从(同义)核苷酸编码序列转录的mRNA的量，mRNA编码的多肽的量，或者化合物(例如代谢产物)(对其的生产中涉及同义核苷酸编码序列编码的多肽)的量等，来进行对生产的感兴趣化合物的产量的测定。技术人员已知用来测定 mRNA的量的方法的例子包括但不限于：Northern印迹、定量PCR、实时 PCR和微阵列分析。可以使用技术人员已知的蛋白质测量试验等来测定多肽的量。当多肽是酶时，可以使用特异于所关注的酶的活性试验来测量多肽的量。技术人员将知道对于特定的酶该选用何种试验。用于测定待生产的感兴趣的化合物的产量的优选试验是特异于所关注的酶的活性试验。

根据一种更优选的实施方式，本发明的宿主细胞是属于下述物种的细胞，所述物种选自Aspergillus、Penicillium、Fusarium、Chrysosporum或 Trichoderma的种构成的组，最优选地，所述物种选自Aspergillus niger、 Aspergillus oryzae、Aspergillus sojae、Aspergillus terreus、Chrysosporum lucknowense、Trichoderma reesei或Penicillium chrysogenum的种构成的组。最优选的Aspergillus niger宿主细胞是CBS513.88或其衍生物。

宿主细胞可以是野生型有丝真菌宿主细胞或变体、突变体或经过遗传改造的有丝真菌宿主细胞。在本发明的一种优选的实施方式中，宿主细胞是蛋白酶缺陷型的或蛋白酶较弱型的(minus)菌株。这可以是蛋白酶缺陷型菌株Aspergillus oryzae JaL 125，其中名为“alp”的碱性蛋白酶基因缺失(描述于WO 97/35956或EP 429 490中)，或者可以是A.niger的三肽酰-氨基肽酶(TPAP)缺陷型菌株(公开于WO 96/14404中)。此外，如 WO 01/68864所述的、具有对转录活化因子(prtT)的减少的生产的宿主细胞也是本发明所考虑的。另一被特别关注的宿主细胞是Aspergillus oryzae BECh2，其中，亲本菌株IF04177中存在的三个TAKA淀粉酶基因已被失活。此外，通过基因打断技术(disruption)已破坏了两个蛋白酶— —碱性蛋白酶和中性金属蛋白酶11。形成代谢产物环匹阿尼酸 (cyclopiazonic acid)和曲酸(kojic acid)的能力已被突变所破坏。BECh2 在WO 00/39322中有所描述，其从JaL228(描述于WO 98/12300中)获得，其还是US 5,766,912中公开的IF04177的突变体，其作为A1560。

可选地，宿主细胞包含较之野生型细胞来说提高的解折叠蛋白应答 (UPR)，以增加对感兴趣的多肽的生产能力。可通过 US2004/0186070A1和/或US2001/0034045A1和/或WO01/72783A2所述的技术来提高UPR。更具体地，HAC1和/或IRE1和/或PTC2的蛋白水平已被调节，和/或SEC61蛋白已被工程改造，以获得具有提高的UPR的宿主细胞。

或者，或与提高的UPR组合，可对宿主细胞进行遗传修饰，以获得较之野生型细胞展示出更低的蛋白酶表达和/或蛋白酶分泌的表型，以提高对感兴趣的多肽的生产能力。此类表型可通过对蛋白酶表达的转录调控因子进行缺失和/或修饰和/或失活来获得。此类转录调控因子例如是prtT。通过调节prtT来降低蛋白酶的表达可通过US2004/0191864A1所述的技术来进行。

或者，或与提高的UPR和/或展示出更低的蛋白酶表达和/或蛋白酶分泌的表型组合，宿主细胞展示出草酸缺陷型表型，以提高对感兴趣的多肽的生产产量。草酸缺陷型表型可通过WO2004/070022A2所述的技术来获得。

或者，或与提高的UPR和/或展示出更低的蛋白酶表达和/或蛋白酶分泌和/或草酸缺陷型的表型组合，宿主细胞展示出较之野生型细胞的表型差异组合，以提高对感兴趣的多肽的生产产量。这些差异可包括但不限于葡糖淀粉酶和/或中性alpha淀粉酶A和/或中性alpha淀粉酶B、alpha-1、6- 转葡糖苷酶、蛋白酶和草酸水解酶的降低的表达。通过宿主细胞展示出的所述表型差异可通过US2004/0191864A1所述的技术进行遗传修饰来获得。

或者，或与上述表型组合，优选地，通过宿主细胞的增加的同源重组能力来增加核酸构建体通过同源重组靶向整合进宿主细胞基因组的效率，即，在预定的目标基因座整合的效率。此类细胞表型优选涉及 WO2005/095624所述的hdfA或hdfB基因。WO2005/095624公开了一种优选方法，用于获得包含增加的靶向整合效率的有丝真菌细胞。

将表达载体或核酸构建体引入有丝真菌细胞可能涉及下述方法，所述方法由以本身已知的手段进行的原生质体形成、对原生质体的转化以及细胞壁重建构成。用于转化Aspergillus细胞的合适方法见EP 238 023和 Yelton et al.，1984，Proceedings of the National Academy of Sciences USA 81： 1470-1474所述。用于转化Fusarium的种的方法由Malardier et.al.，1989， Gene 78：147156或WO 96/00787所述。可使用的表达载体或核酸构建体已在相关章节中描述。

生产感兴趣的化合物

本发明可用于生产感兴趣的化合物。感兴趣的化合物优选是多肽。或者，感兴趣的化合物可以是代谢产物。在这种情况下，根据本发明对编码涉及代谢产物合成的酶的核苷酸序列加以修饰。术语“代谢产物”包括初级和次级代谢产物；代谢产物可以是任何代谢产物。优选的代谢产物是柠檬酸。另一优选的代谢产物是类胡萝卜素。代谢产物可以由一个或多个基因编码，例如在生物合成或代谢途径中的基因。初级代谢产物是细胞的初级或一般性代谢的产物，其与能量代谢、生长和结构相关。次级代谢产物是次级代谢的产物(见，例如，R.B.Herbert，The Biosynthesis of Secondary Metabolites，Chapman and Hall，New York，1981)。初级代谢产物可以是，但不限于：氨基酸、脂肪酸、核苷、核苷酸、糖、甘油三酯或维生素。次级代谢产物可以是，但不限于：生物碱、香豆素、类黄酮、聚酮化合物 (polyketide)、奎宁、类固醇、肽或萜。次级代谢产物可以是抗生素、拒食素、引诱剂(attractant)、杀细菌剂、杀真菌剂、激素、杀昆虫剂或灭鼠剂。优选的抗生素是头孢菌素和beta内酰胺。

或者，感兴趣的化合物还可以是选择标记基因的产物。选择标记基因是产物提供杀生物剂或病毒抗性、对重金属的抗性、针对营养缺陷型的原营养型等的基因。在此情况下，根据本发明对编码选择标记基因产物的核苷酸序列加以修饰。选择标记包括但不限于amdS(乙酰胺酶)、argB (鸟氨酸氨甲酰基转移酶)、bar(草丁膦转移酶)、hygB(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清酸核苷-5′-磷酸脱羧酶)、 sC(硫酸腺苷转移酶)、trpC(邻氨基苯甲酸合酶)、ble(脉霉素抗性蛋白)及其等同物。

当感兴趣的化合物是多肽时，多肽可以是对细胞来说天然或异源(非天然)的任何多肽。只要编码多肽的DNA序列和与其可操作地相连的控制DNA序列是已知的，即可根据本发明(见DNA序列的章节)，对这些天然或非天然的DNA序列加以修饰，克隆进合适的DNA构建体或表达载体，并转化进选用的宿主。编码异源多肽的核酸序列可从任何原核、真核、植物或其它来源获得。就本发明的目的而言，术语“从……获得”在本文中与给定的来源一起使用时将表示，多肽是通过该来源生产的或通过已插入了来自该来源的基因的细胞生产的。

术语“异源多肽”在本文中被定义为野生型细胞不生产的(非天然的)多肽。术语“多肽”在本文中不用来指特定长度的被编码产品，因此其包括肽、寡肽和蛋白。多肽还可以是重组多肽，这是对于细胞来说天然的多肽，其由例如下述经优化的核酸序列编码，所述核酸序列还可包含对于该核酸序列来说外源的、在对多肽的生产中涉及的一种或多种控制序列。多肽可以是野生型多肽或其变体。多肽还可以是杂交体多肽，其含有从至少两种不同多肽获得的部分或完整多肽序列的组合，其中，多肽中的一种或多种可能与细胞是异源的。多肽还包括上述多肽的天然存在的等位基因和经工程改造的变异。

优选地，多肽分泌到有丝真菌细胞外。在一种优选的实施方式中，多肽是抗体或其部分、抗原、凝血因子、酶、激素或激素变体、受体或其部分、调控蛋白、结构蛋白、报道蛋白或转运蛋白、细胞内蛋白、分泌过程涉及的蛋白、折叠过程涉及的蛋白、伴侣分子、肽氨基酸转运蛋白、糖基化因子、转录因子。在一种优选的实施方式中，多肽是细胞外分泌的。

在一种更优选的实施方式中，酶是氧化还原酶、转移酶、水解酶、裂合酶(lyase)、异构酶、连接酶、过氧化氢酶、纤维素酶、几丁质酶、角质酶、脱氧核糖核酸酶、环糊精糖基转移酶、酯酶。

在一种进一步更优选的实施方式中，多肽是碳水化合物酶，例如，纤维素酶，例如内葡聚糖酶，β-葡聚糖酶，纤维二糖水解酶或β-葡糖苷酶，半纤维素酶或胶质水解(pectinolytic)酶，例如，木聚糖酶，木糖苷酶，甘露聚糖酶，半乳糖酶，半乳糖苷酶，胶质甲酯酶，胶质裂解酶，果胶酸裂解酶，内聚半乳糖醛酸酶，外聚半乳糖醛酸酶，鼠李半乳糖醛酸酶，阿拉伯聚糖酶，阿拉伯呋喃糖苷酶，阿拉伯木聚糖水解酶，半乳糖醛酸酶，裂合酶或淀粉水解酶；水解酶，异构酶或连接酶，磷酸酶(例如，植酸酶)，酯酶(例如脂肪酶)，蛋白水解酶，氧化还原酶(例如氧化酶)，转移酶或异构酶。更优选地，想要的基因编码植酸酶。在一种进一步更优选的实施方式中，多肽是氨肽酶、淀粉酶、碳水化合物酶、羧肽酶、内切蛋白酶、金属蛋白酶、丝氨酸蛋白酶、过氧化氢酶、几丁质酶、角质酶、环糊精糖基转移酶、脱氧核糖核酸酶、酯酶、alpha-半乳糖苷酶、beta-半乳糖苷酶、葡糖淀粉酶、alpha-葡糖苷酶、beta-葡糖苷酶、卤素过氧化物酶、蛋白水解酶、转化酶、漆酶、脂肪酶、甘露糖苷酶、变构酶(mutanase)、氧化酶、胶质水解酶、过氧化物酶、磷脂酶、多酚氧化酶、核糖核酸酶、转谷氨酰胺酶或葡萄糖氧化酶、己糖氧化酶、单加氧酶。

在另一种进一步更优选的实施方式中，多肽是人胰岛素或其类似物、人生长因子、促红细胞生成素、组织血纤维蛋白溶酶原活化因子(tPA) 或促胰岛素生成素(insulinotropin)。

多肽还可以是细胞内蛋白或酶，例如伴侣分子、蛋白酶或转录因子。这方面的一个例子在Appl Microbiol Biotechnol.1998 Oct；50(4)：447-54 (″Analysis of the role of the gene bipA，encoding the major endoplasmic reticulum chaperone protein in the secretion of homologous and heterologous proteins in black Aspergilli.Punt PJ，van Gemeren IA，Drint-Kuijvenhoven J， Hessing JG，van Muijlwijk-Harteveld GM，Beijersbergen A，Verrips CT，van den Hondel CA)中有所描述。这可用于，例如，如果该多肽(例如伴侣分子、蛋白酶或转录因子)已知是蛋白生产中限制性因素的话，用于提高宿主细胞作为蛋白生产者的效率。

或者，细胞内多肽是给定的次级代谢产物(例如类胡萝卜素或抗生素)生产所涉及的酶。

本发明还可用于对对细胞来说是天然的多肽的重组生产。如果技术人员按照前文章节所述，对编码和/或控制核苷酸序列加以修饰，可对天然多肽进行重组生产。例如，通过使用前文定义的编码任何氨基酸的经优化密码子频率来修饰编码序列，以提高天然或天然存在的核苷酸序列的表达水平。可选地，可将获得的同义编码序列放置于不同启动子的控制下，以增强多肽的表达、通过使用本发明的信号序列加速目标天然多肽向细胞外的运输以及增加编码细胞正常生产的多肽的基因的拷贝数。在术语“异源多肽”的范围内，本发明还包括对对细胞来说天然的多肽的上述重组生产，包括至如下程度：此类表达涉及使用对细胞并非天然的遗传元件，或者使用天然元件，但这些元件已被操作为按照并非正常存在于有丝真菌细胞中的方式发挥功能。用于分离或克隆编码异源多肽的核酸序列的技术是本领域已知的，其包括从基因组DNA的分离，从cDNA的制备及其组合。

在本发明的方法中，异源多肽还可包括融合的多肽或杂交体多肽，其中，另一个多肽在多肽或其片段的N末端或C末端融合。融合的多肽是通过将编码一种多肽的核酸序列(或其一部分)与编码另一种多肽的核酸序列(或其一部分)融合产生的。

用于生产融合多肽的技术是本领域已知的，其包括，将编码多肽的编码序列连接起来，使得它们符合读码框原则、并且使得融合的多肽的表达处于同样的启动子和终止子的控制之下。杂交体多肽可包含从至少两种不同多肽获得的部分或全部多肽序列的组合，其中，所述多肽中的一条或多条对突变体真菌细胞来说可能是异源的。可通过多种方法，对编码感兴趣的异源多肽的经分离的核酸序列进行操作，以提供所述多肽的表达。表达应当被理解为包括生产多肽过程所涉及的任何步骤，其包括但不限于，转录、转录后修饰、翻译、翻译后修饰和分泌。在其插入到载体之前，对编码多肽的核酸序列的操作可能是想要的或必需的，这取决于表达载体。用于利用克隆方法修饰核酸序列的技术是本领域公知的。

本文前述章节中描述的感兴趣的多肽可在本发明提供的有丝真菌宿主细胞中生产。

因此，根据另一个方面，本发明涉及在本发明的有丝真菌宿主细胞中生产感兴趣的化合物的方法，所述方法包括：

(a)在适合生产感兴趣的化合物的营养培养基中，对前述章节所定义的有丝真菌宿主细胞加以培养；以及，

(b)从有丝真菌宿主细胞的营养培养基回收感兴趣的化合物。

使用本领域已知的方法，在适合用于生产感兴趣化合物的营养培养基中对本发明的有丝真菌宿主细胞加以培养。例如，可通过在合适的培养基中、允许感兴趣的化合物被表达和/或分离的条件下进行摇瓶培养、实验室或工业发酵罐中的小规模或大规模的发酵(包括连续、分批、补料分批或固态发酵)来培养细胞。培养发生于包含碳源和氮源以及无机盐的合适营养培养基中，使用本领域已知的方法来进行(见，例如Bennett，J.W.and LaSure，L.，eds.，More Gene Manipulations in Fungi，Academic Press，CA， 1991)。合适的培养基可从商业供货商处获得，或者使用已公开的组成 (例如，American Type Culture Collection目录中的)来制备。如果感兴趣的化合物分泌进营养培养基，可直接从培养基回收多肽。如果多肽不分泌，从细胞裂解物对其进行回收。

可通过本领域已知的方法来分离得到的感兴趣的化合物。例如，可通过传统方法从营养培养基分离多肽，这些方法包括但不限于，离心、过滤、萃取、喷雾干燥、蒸发或沉淀。然后可通过本领域已知的大量方法对经分离的感兴趣的化合物加以进一步纯化，所述方法包括但不限于，色谱 (例如，离子交换、亲和、疏水、层析聚焦和尺寸排除)、电泳程序(例如制备等电聚焦)、差异溶解(例如硫酸铵沉淀)或萃取(见，例如 Protein Purification，J.-C.Janson and Lars Ryden，editors，VCH Publishers， New York，1989)。

可使用本领域已知的特异于多肽的方法来探测感兴趣的化合物。这些探测方法可包括，使用特定抗体、形成酶产物、酶底物的消失或SDS PAGE。例如，如果感兴趣的化合物是酶，可以用酶试验来测定多肽的活性。对很多酶来说，用于测定酶活性的程序是本领域已知的。

在本发明的方法中，本发明的有丝真菌宿主细胞(包含给定拷贝数的本发明第三方面的核酸构建体)产生的感兴趣的化合物的产量，较之包含相应的天然核苷酸序列的相应的核酸构建体的生产，要增加至少1％、 5％、10％、25％、50％、100％、200％、300％、400％、更优选500％，所述相应的核酸构建体以同样拷贝数存在于相应的有丝真菌宿主细胞中。优选地，本发明的有丝真菌宿主细胞是Aspergillus、Trichoderma、 Fusarium、Chrysosporum或Penicillium宿主细胞。更优选地，有丝真菌宿主细胞是Aspergillus niger、Aspergillus oryzae、Aspergillus sojae、 Aspergillus terreus、Chrysosporum lucknowense、Trichoderma reesei或 Penicillium chrysogenum宿主细胞。最优选的Aspergillus niger宿主细胞是 CBS513.88或其衍生物。

在另一种优选的实施方式中，本发明的有丝真菌宿主细胞(包含给定拷贝数的本发明第三方面的核酸构建体)产生的感兴趣的化合物的产量优选为每升0.1g、0.2g、0.3g、0.4g、更优选地0.5g，进一步更优选地每升有高于0.5g的感兴趣的化合物。可以通过特定试验来测定对感兴趣的化合物的生产。优选地，本发明的有丝真菌宿主细胞是Aspergillus、 Trichoderma、Fusarium、Chrysosporum或Penicillium宿主细胞。更优选地，有丝真菌宿主细胞是Aspergillus niger、Aspergillus oryzae、Aspergillus sojae、Aspergillus terreus、Chrysosporum lucknowense、Trichoderma reesei 或Penicillium chrysogenum宿主细胞。最优选的Aspergillus niger宿主细胞是CBS513.88或其衍生物。

或者，根据另一种优选的实施方式，当多肽是对给定的代谢产物(例如(beta-内酰胺)抗生素或类胡萝卜素)的生产所涉及的酶时，本发明的有丝真菌宿主细胞用于生产给定的代谢产物。

根据本发明的另一方面，提供了相关章节所定义的任何一种核苷酸序列在用于生产感兴趣的化合物中的用途，相关章节所定义的核酸构建体或表达载体在用于生产感兴趣的化合物中的用途，以及相关章节所定义的任何一种有丝真菌宿主细胞在用于生产感兴趣的化合物中的用途。

用于生产核苷酸序列的方法；计算经优化的密码子频率

根据本发明的另一方面，提供了用于生产本发明的第一个方面的核苷酸序列的方法，所述方法包括如下步骤：

-提供具有本发明第一个方面所定义的经优化密码子频率的同义核苷酸编码序列，以及可选地，

-将所述同义核苷酸编码序列与本发明第一个方面定义的控制序列可操作地相连。

为提供具有经优化的编码频率的同义核苷酸编码序列，可以通过本发明提供的方法来计算经优化的编码频率。该方法如下文所概述。

对于下文中称为组1氨基酸(AA)的氨基酸而言，仅有一种可能性。组1由甲硫氨酸(其总是由ATG编码)和色氨酸(其总是由TGG编码) 构成。

根据0％或100％的极端频率，对下文中称为组2氨基酸的氨基酸进行优化。该策略是清楚的。用于组2氨基酸的所有密码子被特别改变为下表所列出的密码子。更具体地：

-半胱氨酸总是由TGC编码；

-苯丙氨酸由TTC编码；

-组氨酸由CAC编码；

-赖氨酸由AAG编码；

-天冬酰胺由AAC编码；

-谷氨酰胺由CAG编码；

-酪氨酸由TAC编码。

在下文中被称为组3氨基酸的所有其它氨基酸被若干种密码子所编码，如表1所示；每种密码子以优选的密码子频率存在：

-丙氨酸由GCT、GCC、GCA或GCG编码；

-天冬氨酸由GAT、GAC编码；

-谷氨酸由GAA、GAG编码；

-甘氨酸由GGT、GGC、GGA、GGG编码；

-异亮氨酸由ATT、ATC、ATA编码；

-亮氨酸由TTA、TTG、CTT、CTC、CTA、CTG编码；

-脯氨酸由CCT、CCC、CCA、CCG编码；

-精氨酸由CGT、CGC、CGA、CGG、AGA、AGG编码；

-丝氨酸由TCT、TCC、TCA、TCG、AGT、AGC编码；

-苏氨酸由ACT、ACC、ACA、ACG编码；

-缬氨酸由GTT、GTC、GTA、GTG编码。

下述规则用于计算给定的编码序列中针对组3氨基酸的经优化密码子频率：

对于组3氨基酸和它们对应的不同密码子而言，优选地，根据下述方法来计算给定的编码序列中每种可能的密码子的最优出现率：

i.对于组3各个氨基酸中的每种，加和得到给定的序列中编码的残基的总数，

ii.对于每种氨基酸和编码该氨基酸的密码子，将该氨基酸的总数与表 1中最优密码子分布(distribution)相乘，得到原始的密码子分布，这通常将含有小数，

iii.通过去掉小数部分，对原始的密码子分布(ii)的值取整(round off)，产生经取整的密码子分布，

iv.对于每种氨基酸，加和得到用经取整的密码子分布(iii)给出的氨基酸总数，

v.对于经取整的密码子分布中每种不同的氨基酸，计算出总的残基缺少数，这通过用给定的序列中被编码的残基总数(i)减去经取整的密码子分布给出的氨基酸总数(iv)来计算，

vi.对于每种密码子，通过减法计算原始的密码子分布(ii)和经取整的密码子分布(iii)之间的小数差异，

vii.对于每种密码子，将小数差异(vi)和表1中的最优密码子分布相乘，给出对于每种密码子的权重值，

viii.对于每种不同的氨基酸，针对缺少的残基数(v)，给具有最高权重值(vii)的密码子选择不同的数量。

ix.计算编码多肽的给定序列中最终的最优密码子分布，这通过针对每种密码子将经取整的密码子分布(iii)和所选的缺少的残基数(viii)加和计算得到。

随后，对于给定序列中总数高于计算出的最优密码子分布的密码子，进行选择，以取代为计算出的不同的相应密码子。此外，对于频率应当增加的密码子，从频率应当减少的其它不同对应密码子候选者中进行选择 (见实施例1)。在另一种优选的方法中，人们可以考虑使用计算机算法来选择和计算给定核苷酸序列中的密码子替换。在另一种优选的实施方式中，对密码子替换的选择和计算可以根据计算出的密码子频率以及针对二级结构和其它特征(例如包括进某些RNA标签或限制性位点)的标准，以及避免某些核苷酸序列的原则来进行。“二级结构”指下述核酸序列区域，当其为单链时，具有形成双链发卡结构或环的趋势。此类结构可阻止转录和翻译。在WO 01/55342中提供了如何评估核酸形成二级结构的可能性的可能方法。若干软件程序可预测二级结构。在一种优选的实施方式中，通过最邻近(nearest-neighbor)方法来测定二级结构。关于该方法的描述由Freier et al(Proc Natl Acad Sci USA 1986，83，9373-9377)所述，其使用代指RNA:RNA二级结构的能量参数。该方法的应用可在Clone Manager 7程序(Sci.Ed.Central：Scientific & Educational软件，版本7.02)中进行。

根据另一种优选的方法，可仅将根据表1的经优化密码子频率应用于编码序列的特定部分。在本发明的一种更优选的实施方式中，在根据最终的优选密码子分布对用于替换的候选者进行随机选择，以及对新的相应密码子候选进行随机选择之后，来进行对给定的核苷酸序列中密码子的取代。

根据另一种优选的实施方式，可仅应用基于氨基酸序列计算得到的优选密码子分布。通过按照计算得到的优选密码子分布，对密码子进行合适的选择，将氨基酸序列反向翻译为核苷酸序列，得到具有经优化的密码子频率的经修饰编码序列(实施例2)。在对经修饰的编码序列进行设计之后，可能针对二级结构特征、富含AT的片断以及不想要的限制性位点加以检查。在观察到这些方面的情况下，本领域技术人员知道如何交换或替换经修饰编码序列的特定密码子，以在不改变被编码的多肽的情况下避免特定问题。在一种优选的实施方式中，这可以通过计算机程序来进行，要考虑到关于二级结构的特定标准、避免富含AT的区域、避免富含GC的区域、引入限制性位点等。在另一种实施方式中，反向翻译这个过程通过针对核苷酸序列中需要放置的每个密码子对位置加以随机选择来进行。

为提供具有想要的修饰的核苷酸序列，可以应用一般性分子生物学方法。利用克隆方法修饰核苷酸序列的这些技术是本领域公知的。此类方法包括，例如：随机或定点诱变、DNA改组方法、DNA重新装备方法、基因合成或者本领域技术人员已知的其它方法(见，例如Young and Dong， (2004)，Nucleic Acids Research32，(7)electronic access http://nar.oupjournals.org/cgi/reprint/32/7/e59或Gupta et al.(1968)，Proc.Natl. Acad.Sci USA，60：1338-1344；Scarpulla et al.(1982)，Anal.Biochem.121： 356-365；Stemmer et al.(1995)，Gene 164：49-53)。

根据另一种优选的实施方式，提供了生产本发明第二方面的核苷酸序列的方法，这通过提供具有根据本发明第二方面所述的翻译起始子序列的核苷酸序列来实现。用于利用克隆方法修饰核酸序列的技术是本领域已知的。

根据另一种优选的实施方式，提供了一种方法，用于生产包含同义核苷酸编码序列的核苷酸序列，所述同义核苷酸编码序列展示出本发明第一方面和第二方面的组合特征，所述方法包括下述过程来进行：

-使用上文所述的方法，提供具有本发明第一个方面所定义的经优化密码子频率的同义核苷酸编码序列，

-使用上文所述的方法，提供具有根据本发明第二方面的翻译起始子序列的核苷酸序列，以及可选地，

-将所述同义核苷酸编码序列与本发明第一个方面定义的控制序列可操作地相连。

将通过下述实施例对本发明进行进一步描述，实施例不应被理解为限制本发明的范围。

实施例

实验信息

菌株

WT1：该A.niger菌株被用作为野生型菌株。该菌株被保藏于CBS Institute，保藏号为CBS 513.88。

WT2：该A.niger菌株是包含编码葡糖淀粉酶的基因(glaA)缺失的 WT1菌株。WT2是通过使用EP 0 635 574所述的“MARKER-GENE FREE”方法构建的，在该专利中描述了如何在CBS 513.88基因组中缺失 glaA特定DNA序列的方法。该方案产生了不含标记基因的ΔglaA重组A. niger CBS513.88菌株，该菌株最终不具有任何外源DNA序列。

WT3：该菌株是包含导致草酸缺陷型A.niger菌株的突变的WT2菌株。WT3是通过使用EP1590444所述的方法构建的。在该专利文献中详细描述了如何筛选草酸缺陷型A.niger菌株。按照EP1590444实施例1和2 的方法来构建菌株WT3，菌株WT3是EP1590444的突变体菌株22(在 EP1590444中名为FINAL)。

A.niger摇瓶发酵

按照WO 99/32617中实施例“Aspergillus niger摇瓶发酵”一节所述，在20ml预培养基中对A.niger菌株进行预培养。过夜培养后，将10ml该培养物转移到发酵培养基1(RM1)中用于alpha淀粉酶发酵，以及转移到发酵培养基2(FM2)中，用于磷脂酶A1发酵。发酵在含100ml发酵培养液的500ml带盖烧瓶中，于34℃和170rpm，进行指定的天数，通常如WO99/32617所述。

FM1培养基每升含有：70g葡萄糖、25g酪蛋白水解产物、12.5g酵母提取物、1g KH₂PO₄、2g K₂SO₄、0.5g MgSO₄·7H₂O、0.03g ZnCl₂、 0.02g CaCl₂、0.01g MnSO₄·4H₂O、0.3g FeSO₄·7H₂O、10ml Pen-Strep (Invitrogen，目录号10378-016)，用4N H₂SO₄调节至pH5.6。

FM2培养基每升含有：82.5g葡萄糖·1H₂O、25g Maldex 15(Boom Meppel，Netherlands)、2g柠檬酸、4.5g NaH₂PO₄·1H₂O、9g KH₂PO₄、 15g(NH₄)₂SO₄、0.02g ZnCl₂、0.1g MnSO₄·1H₂O、0.015g CuSO₄·5H₂O、0.015g CoCl₂·6H₂O、1g MgSO₄·7H₂O、0.1g CaCl₂·2H₂O、0.3g FeSO₄·7H₂O、30g MES(2-[N-吗啉]乙磺酸)， pH＝6。

PLA1磷脂酶活性

为通过分光光度方法测定Aspergillus niger培养物中的磷脂酶PLA1活性(pla1)，使用人工底物：1，2-二硫代二辛酰磷脂酰胆碱(diC8，底物)。pla1水解A1位置的硫键，分离出硫代辛酸。硫代辛酸与4，4-二硫代吡啶(着色剂，4-DTDP)发生反应，形成4-硫代吡啶酮。4-硫代吡啶酮与4-巯基吡啶处于互变异构平衡，后者吸收334nm波长的辐射。测量该波长处的消光变化。一个单位是：于37℃，pH4.0时，每分钟从1，2-二硫代二辛酰磷脂酰胆碱释放出1nmol硫代辛酸的酶的量。

通过将1g diC8晶体溶解于每66ml乙醇加164ml乙酸盐缓冲液来制备底物溶液。乙酸盐缓冲液包含：pH3.85的、含有0.2％Triton-X100的 0.1M乙酸盐缓冲液。着色剂是11mM的4，4-二硫代吡啶溶液。其是通过下述方法制备的：在2ml eppendorf样品杯中称量出5.0mg 4，4-二硫代吡啶，将其溶于1.00ml乙醇。加入1.00ml milli-Q水。

真菌alpha-淀粉酶活性

为测定A.niger培养液中的alpha-淀粉酶活性，按照厂商方案，使用 Megazyme谷物alpha-淀粉酶试剂盒(Megazyme，CERALPHA alpha淀粉酶试验试剂盒，目录参考号K-CERA，2000-2001年)。测量的活性基于存在过量葡糖淀粉酶和α-葡糖苷酶时对非还原末端封闭的(non-reducing- endblocked)对硝基苯麦芽庚糖苷的水解。形成的对硝基苯的量是对存在于样品中的alpha-淀粉酶活性的指示。

实施例1 构建针对编码A.oryzae磷脂酶A1的pla1基因和编码A.nigeralpha-淀粉酶的amvA基因的Aspergillus表达构建体

JP 1998155493-A/1中公开了编码磷脂酶A1蛋白的pla1基因的DNA 序列，其还可从EMBL核苷酸序列数据库 (http://www.ebi.ac.uk/embl/index.html)以编码E16314获得。天然A. oryzae pla1基因的基因组序列示为SEQ ID NO：1。pla1的相应编码序列示为SEQ ID NO：2。SEQ ID NO：2的翻译序列被称为SEQ ID NO：3，其代表A.oryzae磷脂酶A1。

编码alpha-淀粉酶蛋白的amyA基因的DNA序列公开于Curr Genet. 1990 Mar；17(3)：203-212(Cloning，characterization，and expression of two alpha-amylase genes from Aspergillus niger var.awamori by Korman DR， Bayliss FT，Barnett CC，Carmona CL，Kodama KH，Royer TJ，Thompson SA， Ward M，Wilson LJ，Berka RM)中，其还可从EMBL核苷酸序列数据库 (http://www.ebi.ac.uk/embl/index.html)以编码AB109452获得。天然A. niger amyA基因的基因组序列示为SEQ ID NO：28。amyA的相应编码或 cDNA序列示为SEQ ID NO：29。SEQ ID NO：29的翻译序列被称为SEQ ID NO：30，其代表A.niger alpha-淀粉酶蛋白。

为在Aspergillus物种中对pla1构建体进行表达分析，在翻译起始位点，对基因组pla1基因和A.niger葡糖淀粉酶启动子进行融合，这伴随着克隆位点的引入。为达到这样的目的，使用SEQ ID NO：4和SEQ ID NO：5所示的寡核苷酸，用WO 04/070022描述的在pGBFIN11中克隆的 pla1基因构建体作为模板，进行PCR来扩增基因组pla1基因，产生1.1kb 的片段，其被称为片段A。此外，引入SnaBI克隆位点。使用SEQ ID NO：6和SEQ ID NO：7所示的寡核苷酸，用pGBFIN-23载体 (WO99/32617描述的)作为模板，进行第二次PCR，产生0.4kb的glaA 启动子片段，其被称为片段B。采用示为SEQ ID NO：5和SEQ ID NO：6 的寡核苷酸以及上述片段A和B，使用PCR，通过序列重叠延伸(SOE- PCR，描述于Gene.1989 Apr15；77(1)：51-9.Ho SN，Hunt HD，Horton RM， Pullen JK，Pease LR“Site-directed mutagenesis by overlap extension using the polymerase chain reaction”)，将获得的两条片段A和B融合起来，产生 1.4kb的片段C。该片段C包含基因组pla1基因和glaA启动子的一部分，用SfiI和SnaBI对其进行消化，引入用SfiI和NruI消化过的pGBFIN-30 载体(图1)，产生pGBFINPLA-1a(图2)。通过序列分析验证引入及消化的PCR片段C的序列，其序列示为SEQ ID NO：8。

为在Aspergillus物种中对A.niger amyA构建体进行表达分析，使用 PCR，以与上文所述相似的方式，扩增得到含有基因组amyA启动子和 amyA cDNA序列的片段。在两个末端都引入合适的限制性位点，以允许在表达载体中克隆。在5’末端引入XhoI位点，在3’末端引入PacI位点。用XhoI和PacI消化该包含alpha-淀粉酶启动子和cDNA序列的片段，引入用XhoI和PacI消化过的pGBFIN-12载体(构建和设计见WO 99/32617 所述)，产生pGBFINFUA-1(图4)。通过序列分析验证引入的PCR片段的序列，其序列示为SEQ ID NO：31。

实施例2 用本发明的方法构建经改进的DNA序列，用于在A.niger中改进对Aspergillus oryzae的磷脂酶A1的生产

2.1为在A.niger中表达，改进A.oryzae磷脂酶A1编码序列的密码子频率或密码子使用

本发明的方法在下文中用于改进A.oryzae的PLAl基因的密码子使用。该方法可以以相同的方式用于改进任何核苷酸序列的密码子使用。 pla1的核苷酸编码序列示为SEQ ID NO：2。

编码PLA1的天然A.oryzae基因和合成的经优化变体的密码子使用示于下表2中。对于天然的和经优化的合成pla1基因，给出了每个密码子的精确数量，以及每种氨基酸的分布。此外，第三列提供了建议的最优分布，这是优化的目标。

对于组1氨基酸，仅有一种可能性。组1由甲硫氨酸(总是由ATG 编码)和色氨酸(总是由TGG编码)构成。

根据0％或100％的极端频率，对组2氨基酸进行优化。该策略是清楚的。用于组2氨基酸的所有密码子被特别改变为两种可能的密码子的最优变体。更具体地：对半胱氨酸，TGT被TGC替换；对苯丙氨酸，TTT被 TTC替换；对组氨酸，CAT被CAC替换；对赖氨酸，AAA被AAG替换，对天冬酰胺，AAT被AAC替换；对谷氨酰胺，CAA被CAG替换；对酪氨酸，TAT被TAC替换。

组3氨基酸的被若干种密码子所编码，如表1所示；每种密码子以偏好的密码子频率存在：丙氨酸由GCT、GCC、GCA或GCG编码；天冬氨酸由GAT、GAC编码；谷氨酸由GAA、GAG编码；甘氨酸由GGT、 GGC、GGA、GGG编码；异亮氨酸由ATT、ATC、ATA编码；亮氨酸由 TTA、TTG、CTT、CTC、CTA、CTG编码；脯氨酸由CCT、CCC、 CCA、CCG编码；精氨酸由CGT、CGC、CGA、CGG、AGA、AGG编码；丝氨酸由TCT、TCC、TCA、TCG、AGT、AGC编码；苏氨酸由 ACT、ACC、ACA、ACG编码；缬氨酸由GTT、GTC、GTA、GTG编码；按照下述方法对它们进行优化：

对于组3氨基酸和它们的编码密码子而言，根据下述方法来计算给定的编码序列中每种可能的密码子的最优出现率：

i.对于组3各个氨基酸中的每种，加和得到给定的序列中编码的残基的总数，见列A1(表3)，

ii.对于每种氨基酸和编码该氨基酸的密码子，将该氨基酸的总数与表 1中最优密码子分布(distribution)相乘，得到原始的密码子分布，这通常将含有小数，见列A2(表4)，

iii.通过去掉小数部分，对原始的密码子分布(ii)的值取整(round off)，产生经取整的密码子分布，见列A3(表4)，

iv.对于每种氨基酸，加和得到用经取整的密码子分布(iii)给出的氨基酸总数，见列A4(表3)，

v.对于经取整的密码子分布中每种不同的氨基酸，计算出总的残基缺少数，这通过用给定的序列中被编码的残基总数(i)减去经取整的密码子分布给出的氨基酸总数(iv)来计算，见列A5(表3)，

vi.对于每种密码子，通过减法计算原始的密码子分布(ii)和经取整的密码子分布(iii)之间的小数差异，见列A6(表4)，

vii.对于每种密码子，将小数差异(vi)和表1中的最优密码子分布相乘，给出对于每种密码子的权重值，见列A7(表4)，

viii.对于每种不同的氨基酸，针对缺少的残基数(v)，给具有最高权重值(vii)的密码子选择不同的数量，见列A8(表4)，

ix.计算编码多肽的给定序列中最终的最优密码子分布，这通过针对每种密码子将经取整的密码子分布(iii)和所选的缺少的残基数(viii)加和计算得到，见列A9(表4)。

表2针对PLA1的密码子优化

氨基酸密码子最优密码子分布 [％] PLA1 野生型 [#密码子] PLA1 野生型％密码子/氨基酸] PLA1 经优化的 [#密码子] PLA1 经优化的 [％密码子/ 氨基酸] A Ala_GCT Ala_GCC Ala_GCA Ala_GCG 38 51 0 11 10 12 9 4 28.6 34.3 25.7 11.4 14 18 0 3 40.0 51.4 0.0 8.6 C Cys_TGT Cys_TGC 0 100 4 2 66.7 33.3 0 6 0.0 100.0

D Asp_GAT Asp_GAC 36 64 14 5 73.7 26.3 7 12 36.8 63.2 E Glu_GAA Glu_GAG 26 74 7 8 46.7 53.3 4 11 26.7 73.3 F Phe_TTT Phe_TTC 0 100 5 4 55.6 44.4 0 9 0.0 100.0 G Gly_GGT Gly_GGC Gly_GGA Gly_GGG 49 35 16 0 6 7 5 5 26.1 30.4 21.7 21.7 12 8 3 0 52.2 34.8 13.0 0.0 H His_CAT His_CAC 0 100 4 4 50.0 50.0 0 8 0.0 100.0 I Ile_ATT Ile_ATC Ile_ATA 27 73 0 3 6 0 33.3 66.7 0.0 2 7 0 22.2 77.8 0.0 K Lys_AAA Lys_AAG 0 100 2 4 33.3 66.7 0 6 0.0 100.0 L Leu_TTA Leu_TTG Leu_CTT Leu_CTC Leu_CTA Leu_CTG 0 13 17 38 0 32 1 9 2 8 2 12 2.9 26.5 5.9 23.5 5.9 35.3 0 4 6 13 0 11 0.0 11.8 17.6 38.2 0.0 32.4 M Met_ATG 100 1 100.0 1 100.0 N Asn_AAT Asn_AAC 0 100 5 13 27.8 72.2 0 18 0.0 100.0 P Pro_CCT Pro_CCC Pro_CCA Pro_CCG 36 64 0 0 3 2 2 1 37.5 25.0 25.0 12.5 3 5 0 0 37.5 62.5 0.0 0.0 Q Gln_CAA Gln_CAG 0 100 3 2 60.0 40.0 0 5 0.0 100.0

R Arg_CGT Arg_CGC Arg_CGA Arg_CGG Arg_AGA Arg_AGG 49 51 0 0 0 0 0 2 2 3 1 0 0.0 25.0 25.0 37.5 12.5 0.0 4 4 0 0 0 0 50.0 50.0 0.0 0.0 0.0 0.0 S Ser_TCT Ser_TCC Ser_TCA Ser_TCG Ser_AGT Ser_AGC 21 44 0 14 0 21 5 7 5 2 4 10 15.2 21.2 15.2 6.1 12.1 30.3 7 15 0 4 0 7 21.2 45.5 0.0 12.1 0.0 21.2 T Thr_ACT Thr_ACC Thr_ACA Thr_ACG 30 70 0 0 7 8 2 7 29.2 33.3 8.3 29.2 7 17 0 0 29.2 70.8 0.0 0.0 V Val_GTT Val_GTC Val GTA Val_GTG 27 54 0 19 5 4 1 5 33.3 26.7 6.7 33.3 4 8 0 3 26.7 53.3 0.0 20.0 W Trp_TGG 100 4 100.0 4 100.0 Y Tyr_TAT Tyr_TAC 0 100 6 9 40.0 60.0 0 15 0.0 100.0

表3

氨基酸(i) i A1 A4 A5 Ala Asp Glu Gly Ile Leu 1 2 3 4 5 6 35 19 15 23 9 34 33 18 14 22 8 31 2 1 1 1 1 3

Pro Arg Ser Thr Val 7 8 9 10 11 8 8 33 24 15 7 7 30 23 14 1 1 3 1 1

表4

密码子 A2 A3 A6 A7 A8 A9 Ala_GCT Ala_GCC Ala_GCA Ala_GCG Asp_GAT Asp_GAC Glu_GAA Glu_GAG Gly_GGT Gly_GGC Gly_GGA Gly_GGG Ile_ATT Ile_ATC lle_ATA Leu_TTA Leu_TTG Leu_CTT Leu_CTC Leu_CTA Leu_CTG Pro_CCT Pro_CCC Pro_CCA Pro_CCG Arg_CGT Arg_CGC 13.3 17.85 0 3.85 6.84 12.16 3.9 11.1 11.27 8.05 3.68 0 2.43 6.57 0 0 4.42 5.78 12.92 0 10.88 2.88 5.12 0 0 3.92 4.08 13 17 0 3 6 12 3 11 11 8 3 0 2 6 0 0 4 5 12 0 10 2 5 0 0 3 4 0.3 0.85 0 0.85 0.84 0.16 0.9 0.1 0.27 0.05 0.68 0 0.43 0.57 0 0 0.42 0.78 0.92 0 0.88 0.88 0.12 0 0 0.92 0.08 0.114 0.434 0.000 0.094 0.302 0.102 0.234 0.074 0.132 0.018 0.109 0.000 0.116 0.416 0.000 0.000 0.055 0.133 0.350 0.000 0.282 0.317 0.077 0.000 0.000 0.451 0.041 1 1 0 0 1 0 1 0 1 0 0 0 0 1 0 0 0 1 1 0 1 1 0 0 0 1 0 14 18 0 3 7 12 4 11 12 8 3 0 2 7 0 0 4 6 13 0 11 3 5 0 0 4 4

Arg_CGA Arg_CGG Arg_AGA Arg_AGG Ser_TCT Ser_TCC Ser_TCA Ser_TCG Ser_AGT Ser_AGC Thr_ACT Thr_ACC Thr_ACA Thr_ACG Val_GTT Val_GTC Val_GTA Val_GTG 0 0 0 0 6.93 14.52 0 4.62 0 6.93 7.2 16.8 0 0 4.05 8.1 0 2.85 0 0 0 0 6 14 0 4 0 6 7 16 0 0 4 8 0 2 0 0 0 0 0.93 0.52 0 0.62 0 0.93 0.2 0.8 0 0 0.05 0.1 0 0.85 0.000 0.000 0.000 0.000 0.195 0.229 0.000 0.087 0.000 0.195 0.060 0.560 0.000 0.000 0.014 0.054 0.000 0.162 0 0 0 0 1 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 7 15 0 4 0 7 7 17 0 0 4 8 0 3

随后，对于pla1编码序列中总数高于计算出的最终密码子分布的密码子，进行随机选择，以取代为计算出的不同的相应密码子。此外，对于 pla1编码序列中应当增加的密码子，从频率应当减少的其它不同对应密码子候选者中进行随机选择。

这产生了表2所述经修饰的编码序列(或者同义编码序列或经优化的合成序列)。从上文所述的方法产生的经优化的合成pla1序列示于图6 中。在此可以将本发明的经修饰的编码序列与天然和基因组的pla1序列加以比对。在该经修饰的编码序列中，天然序列的三个内含子被放置在它们本来的位置(如SEQ ID NO：1所示)，这得到了SEQ ID NO：11示出的经优化的合成序列。使用Clone Manager 7程序(Sci.Ed.Central：Scientific & Educational软件，版本7.02)，针对可能出现的有害二级结构，来检查经修饰的编码序列中的二级结构。

2.2：选择经修饰的翻译终止序列

天然pla1基因(编码A.oryzae磷脂酶A1)含有“TAG”终止密码子，其后是引入的SnaB1限制性位点——TACGTA。在大量合成构建体中，5’-TAGT-3’翻译终止序列被TAAA替换，之后是同样的SnaB1限制性位点——TACGTA。这种替换已在SEQ ID NO：11、SEQ ID NO：12、 SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：35中进行。作为结果，表达构建体pGBFINPLA-1d、pGBFINPLA-1e、pGBFINPLA-1f、 pGBFINPLA-1g和pGBFINPLA-1h具有根据本发明的经修饰的翻译终止序列。

2.3：选择经修饰的翻译起始序列

强glaA启动子被用于酶在A.niger中的过量表达，其中使用pGBFIN 表达构建体。PglaA的包括ATG起始密码子的翻译起始序列是5’- CACCTCAGCA ATG-3’。PglaA的翻译起始序列被修饰为5’- CACCGTCAAA-3’或5’-CGCAGTCAAG-3’。这产生了EcoRI位点下游的葡糖淀粉酶启动子序列，这可分别由SEQ ID NO：25和26确定。该替换在SEQ ID NO：9、SEQ ID NO：10、SEQ ID NO：12、SEQ ID NO：13 和SEQ ID NO：14的序列中进行。作为结果，表达构建体pGBFINPLA- 1b、pGBFINPLA-1c、pGBFINPLA-1e、pGBFINPLA-1f和pGBFINPLA-1g 具有根据本发明的经过修饰的翻译起始序列。已在SEQ ID NO：35的序列中对US 6,461,837 B1所述的翻译起始子序列进行了测试，得到了表达构建体pGBFINPLA-1h。

2.4：选择经修饰的翻译起始编码序列

可以通过密码子优化和/或对翻译起始编码序列的改进的组合，来进行对翻译起始编码序列的修饰。对编码序列中第二个密码子的取代是明显的，因为仅有一个密码子是最优的，即，密码子被编码甘氨酸的GCT替换。第三个密码子具有4个选择：TCC、CCC、ACC、GCC，其分别编码丝氨酸、脯氨酸、苏氨酸和精氨酸。选择了TCC。第四个密码子可以是用于苯丙氨酸的TCC、用于丝氨酸的TTC、用于亮氨酸的CTC或者用于脯氨酸的CCC。选择了TTC。这导致产生了5’-ATGGCTTCCTTC-3’作为包括起始密码子的经修饰翻译起始编码序列。这产生了EcoRI位点下游的葡糖淀粉酶启动子序列，其具有翻译起始编码序列，如SEQ ID NO：27所示。该经过修饰的序列用于SEQ ID NO：14。作为结果，表达构建体 pGBFINPLA-1g具有根据本发明的经过修饰的翻译起始编码序列。

2.5：组合2.1至2.4造成的修饰中的至少一种

可以通过优化密码子使用和/或共享的翻译起始子编码序列和/或控制 DNA序列(包括共享的翻译起始子序列和/或共享的翻译终止序列)，来改进编码将被生产的多肽的核苷酸的表达。对一系列的8个构建体(表 5)加以分析，以测试本发明的大量实施方式。

表5：使用至少一种经过修饰的序列获得的若干种改进的表达构建体。翻译起始子序列变体1：CACCGTCAAA；变体2：CGCAGTCAAG。

SEQ ID NO 翻译起始子序列翻译起始编码序列密码子使用翻译终止序列 8 野生型野生型野生型野生型 9 变体1 野生型野生型野生型 10 变体2 野生型野生型野生型 11 野生型野生型经修饰的野生型 12 变体1 野生型经修饰的经修饰的(TAA ATA) 13 变体2 野生型经修饰的经修饰的(TAA ATA) 14 变体1 经优化的 (ATGGCTTCCTTC) 经修饰的经修饰的(TAA ATA) 35 US 6,461,837 B1 野生型经修饰的经修饰的(TAA ATA)

实施例3：用本发明的方法构建经改进的DNA序列，用于在A.niger中改进对alpha-淀粉酶的生产

3.1.为在A.niger中表达，针对alpha-淀粉酶编码序列amyA改进密码子频率或密码子使用

本发明的方法在下文中用于改进A.niger的amyA基因的密码子使用。该方法可以以同样的方式用于改进任何核苷酸序列的密码子使用。天然amyA的核苷酸编码序列示为SEQ ID NO：29。

x.A.niger的天然amyA基因和合成的经优化变体的密码子使用示于下表6中。对于天然和经优化的合成amyA基因，给出了每种密码子的精确数量以及每种氨基酸的分布。此外，第三列提供了建议的优化分布，这是优化的目标。

表6 针对amyA的密码子优化

氨基酸密码子最优密码子分布 [％] amyA 野生型 [#密码子] amyA 野生型 [％密码子/氨基酸] amyA 经优化的 [#密码子] amyA 经优化的 [％密码子/ 氨基酸] A Ala_GCT Ala_GCC Ala_GCA Ala_GCG 38 51 0 11 5 15 12 10 11.9 35.7 28.6 23.8 16 21 0 5 38.1 50.0 0.0 11.9 C Cys_TGT Cys_TGC 0 100 7 2 77.8 22.2 0 9 0.0 100.0 D Asp_GAT Asp_GAC 36 64 20 22 47.6 52.4 15 27 35.7 64.3 E Glu_GAA Glu_GAG 26 74 5 7 41.7 58.3 3 9 25.0 75.0 F Phe_TTT Phe_TTC 0 100 3 12 20.0 80.0 0 15 0.0 100.0 G Gly_GGT Gly_GGC Gly_GGA Gly_GGG 49 35 16 0 10 18 10 5 23.3 41.9 23.3 11.6 21 15 7 0 48.8 34.9 16.3 0.0 H His_CAT His_CAC 0 100 3 4 42.9 57.1 0 7 0.0 100.0

I Ile_ATT Ile_ATC Ile_ATA 27 73 0 7 19 2 25.0 67.9 7.1 7 21 0 25.0 75.0 0.0 K Lys_AAA Lys_AAG 0 100 7 13 35.0 65.0 0 20 0.0 100.0 L Leu_TTA Leu_TTG Leu_CTT Leu_CTC Leu_CTA Leu_CTG 0 13 17 38 0 32 1 10 4 13 3 6 2.7 27.0 10.8 35.1 8.1 16.2 0 5 6 14 0 12 0.0 13.5 16.2 37.8 0.0 32.4 M Met_ATG 100 10 100.0 10 100.0 N Asn_AAT Asn_AAC 0 100 3 23 11.5 88.5 0 26 0.0 100.0 P Pro_CCT Pro_CCC Pro_CCA Pro_CCG 36 64 0 0 6 8 3 5 27.3 36.4 13.6 22.7 8 14 0 0 36.4 63.6 0.0 0.0 Q Gln_CAA Gln_CAG 0 100 5 15 25.0 75.0 0 20 0.0 100.0 R Arg_CGT Arg_CGC Arg_CGA Arg_CGG Arg_AGA Arg_AGG 49 51 0 0 0 0 1 2 2 2 0 3 10.0 20.0 20.0 20.0 0.0 8.1 5 5 0 0 0 0 50.0 50.0 0.0 0.0 0.0 0.0 S Ser_TCT Ser_TCC Ser_TCA Ser_TCG Ser_AGT Ser_AGC 21 44 0 14 0 21 4 9 4 10 4 6 10.8 24.3 10.8 27.0 10.8 16.2 8 16 0 5 0 8 21.6 43.2 0.0 13.5 0.0 21.6

T Thr_ACT Thr_ACC Thr_ACA Thr_ACG 30 70 0 0 9 13 10 8 22.5 32.5 25.0 20.0 12 28 0 0 30.0 70.0 0.0 0.0 V Val_GTT Val_GTC Val_GTA Val_GTG 27 54 0 19 5 12 4 10 16.1 38.7 12.9 32.3 8 17 0 6 25.8 54.8 0.0 19.4 W Trp_TGG 100 12 100.0 12 100.0 Y Tyr_TAT Tyr_TAC 0 100 11 24 31.4 68.6 0 35 0.0 100.0

随后，针对原始amyA肽中的每种氨基酸，通过对建议数量的同义密码子(表6)进行随机分布，制造出全新的核苷酸编码序列。

天然amyA基因含有“TGA”终止密码子。在制造的所有amyA构建体中，5’-TGA-3’翻译终止序列被5’-TAAA-3’替换，5’-TAAA-3’之后是 PacI限制性位点5’-TTAATTAA-3’。

这产生了经修饰的编码序列(或同义编码序列或经优化的合成序列)，如表6所示。从上述过程得到的经优化的合成amyA序列示于SEQ ID NO：32中。使用Clone Manager 7程序(Sci.Ed.Central：Scientfic & Educational软件，版本7.02)，针对可能出现的有害二级结构，来检查经修饰的编码序列中的二级结构。

3.2：选择经修饰的翻译起始序列

在该实施例中，强amyA启动子被用于alpha淀粉酶在A.niger中的过量表达，其中使用基于pGBFIN的表达构建体。PamyA的包括ATG起始密码子的翻译起始序列是5’-GGCATTTATG ATG-3’或5’-GAAGGCATTT ATG-3’，取决于哪个ATG被选为起始密码子。PamyA的翻译起始序列被修饰为5’-CACCGTCAAA ATG-3’。该替换在SEQ ID NO：33和SEQ ID NO：34的序列中进行。作为结果，表达构建体pGBFINFUA-2和 pGBFINFUA-3具有根据本发明的经过修饰的翻译起始序列。

3.3：组合3.1和3.2造成的修饰中的至少一种

可以通过优化密码子使用和/或控制DNA序列(包括共享的翻译起始子序列和/或共享的翻译终止序列)，来改进编码将被生产的多肽的核苷酸的表达。构建一系列的3个构建体(表7)，以测试本发明的大量实施方式。

表7：使用至少一种经修饰序列获得的改进的表达构建体的概况

SEQ ID NO 翻译起始序列密码子使用翻译终止序列 31 野生型野生型经修饰的(TAA ATTAA) 33 变体1(CACCGTCAAA) 野生型经修饰的(TAA ATTAA) 34 变体1(CACCGTCAAA) 经修饰的经修饰的(TAA ATTAA)

实施例4 构建经修饰的表达载体以及在A.niger中对它们进行测试

4.1构建经修饰的pla1表达载体，其表达根据实施例2.1-2.5的A.oryzae磷脂酶A1

pGBFINPLA-1a的EcoRI-SnaBI片段的DNA序列示为SEQ ID NO： 8。包含葡糖淀粉酶启动子的翻译起始序列的变体的EcoRI片段的DNA序列示为SEQ ID NO：9和SEQ ID NO：10。这些经修饰的基因片段被完整合成，通过序列分析验证序列。

为在表达载体中克隆这些经修饰的序列，用EcoRI消化全部的合成基因片段，引入用EcoRI消化过的pGBFINPLA-1a载体(图2)的大片段，产生pGBFINPLA-1a的变体表达载体。检查EcoRI片段的正确定向之后，该变体表达构建体被命名为pGBFINPLA1b和pGBFINPLA-1c，如下表8 所示。图3还提供了关于质粒pGBFINPLA-1b和pGBFINPLA-1c的示意性图谱。

5个其它合成序列变体(包含葡糖淀粉酶启动子、pla1信号序列、磷脂酶A1的成熟肽以及终止密码子附近的翻译终止序列的部分)的DNA序列示为SEQ ID NO：11到SEQ ID NO：14以及SEQ ID NO：35。通过对重叠多核苷酸的设计和合成，以及随后从大量重叠多核苷酸装配出双链序列，对这5条经修饰的基因片段进行完全合成。通过序列分析来验证序列。

为在表达载体中克隆这些经修饰的序列，用EcoRI和SnaBI消化全部的合成基因片段，引入用EcoRI和NruI消化过的pGBFINPLA-1a载体 (图2)的大片段，产生pGBFINPLA-1d到pGBFINPLA-1h的变体表达载体，如下表8所示。图3提供了关于质粒pGBFINPLA-1d到pGBFINPLA- 1h的示意性图谱。

表8：用于在A.niger中表达pla1的经修饰表达构建体

质粒名称 SEQ ID NO 翻译起始区域密码子翻译终止 PGBFINPLA-1a 8 CACCTCAGCA ATG TTT AGT CTC 野生型 TAG TAC PGBFINPLA-1b 9 CACCGTCAAA ATG TTT AGT CTC 野生型 TAG TAC PGBFINPLA-1c 10 CGCAGTCAAG ATG TTT AGT CTC 野生型 TAGTAC PGBFINPLA-1d 11 CACCTCAGCA ATG TTC TCT CTC 经修饰的经修饰的 (TAA ATA) PGBFINPLA-1e 12 CACCGTCAAA ATG TTC TCT CTC 经修饰的经修饰的 (TAA ATA) PGBFINPLA-1f 13 CGCAGTCAAG ATG TTC TCT CTC 经修饰的经修饰的 (TAA ATA) PGBFINPLA-1g 14 CACCGTCAAA ATG GCT TCC TTC 经修饰的经修饰的 (TAA ATA) pGBFINPLA-1h 35 CTCCTTCACC ATG TTC TCT CTC 经修饰的经修饰的 (TAA ATA)

质粒pGBFINPLA-1a到pGBFINPLA-1f和pGBFINPLA-1h的pla1编码序列的经翻译序列符合SEQ ID NO：3示出的氨基酸序列，其代表野生型 A.oryzae磷脂酶A1。质粒pGBFINPLA-1g的pla1编码序列的经翻译序列符合SEQ ID NO：15示出的氨基酸序列，其代表具有经修饰的信号序列的 A.oryzae磷脂酶A1。

4.2构建经修饰的amyA表达载体，其表达根据实施例3.1-3.3的A.oryzae alpha-淀粉酶

pGBFINFUA-1(图4)的XhoI-PacI片段的DNA序列示为SEQ ID NO：31，其包含野生型anyA启动子和野生型amyA cDNA序列，该序列具有经修饰的翻译终止序列(TAAA)。包含alpha淀粉酶启动子的翻译起始序列的变体的DNA序列示为SEQ ID NO：33。包含alpha淀粉酶启动子翻译起始序列变体、并组合有针对编码alpha-淀粉酶的amyA基因的密码子经优化编码序列的DNA序列示为SEQ ID NO：34。这些经修饰的基因片段被体外完整合成，通过序列分析验证序列。

为在表达载体中克隆这些经修饰的序列，用XhoI和PacI消化全部的合成基因片段，引入用XhoI和PacI消化过的pGBFINFUA-1载体(图4) 的大片段，产生变体表达载体。检查正确片段的整合后，变体表达构建体被命名为pGBFINFUA-2和pGBFINFUA-3，如下表9所示。

表9：用于在A.niger中表达alpha-淀粉酶的经修饰表达构建体

质粒名称 SEQ ID NO 翻译起始区域密码子翻译终止 pGBFINFUA-1 31 野生型 (GAAGGCATTT ATG) 野生型经修饰的 (TAA ATA) pGBFINFUA-2 33 野生型 (CACCGTCAAA ATG) 野生型经修饰的 (TAA ATA) pGBFINFUA-3 34 野生型 (CACCGTCAAA ATG) 经修饰的经修饰的 (TAA ATA)

质粒pGBFINFUA-1到pGBFINFUA-3的amyA编码序列的经翻译序列符合SEQ ID NO：30示出的氨基酸序列，其代表野生型A.niger alpha-淀粉酶。

4.3使用pGBFINPIA-载体的A.oryzae磷脂酶A1的野生型和经修饰表达构建体和使用pGBFINFUA-载体的A.niger alpha-淀粉酶的野生型和经修饰表达构建体在A.niger中的表达

通过下文所述的转化，按照图5所示的策略，将按照前述段落制备的 pGBFINPLA-和pGBFINFUA-表达构建体引入A.niger。

为在WT2中引入八个pGBFINPLA-载体(表8)，以及在WT3中引入pGBFINFUA-载体(表9)，按照WO98/46772和WO99/32617所述，进行转化以及随后对转化子的筛选。简言之，分离pGBFIN构建体的线性 DNA，用于转化A.niger。按照标准程序，在乙酰胺培养基上对转化子加以选择，并对菌落加以纯化。针对在glaA基因座处的整合，以及针对拷贝数，使用PCR对菌落加以分析判断。对每种pGBFIN构建体，选出5至 10个具有近似的估计拷贝数(低拷贝：1-2)的独立转化子，使用转化质粒的编号对其进行命名，例如，分别为PLA-1a-1、PLA-1b-2和FUA-1- 1、FUA-3-1。

选出的PLA-和FUA-菌株和A.niger WT2和WT3被用于进行摇瓶实验，这在34℃和170rpm下，使用500ml带档板摇瓶，在温育摇床上进行，每种蛋白产物在100ml上述培养基中进行。发酵2、3、4、5和/或6 天后取样。

在第一个步骤中，通过对A.niger WT2和WT3的转化子以及WT2和 WT3自己的Northern印迹分析来测定pla1和amyA的过量表达。收集的菌丝体用于分离RNA(按照WO99/36217所述)，以及进行Northern印迹分析(按照Northern印迹分析的标准程序(Sambrook et al.，1989)来进行)

对于野生型pla1基因的所有转化子，对pla1 mRNA水平探测到了强且相当的杂交信号，而对于WT2本身则没有(数据未示出)。这表明在 pGBFINPLA-1a到pGBFINPLA-1c的所有经转化菌株中的葡糖淀粉酶启动子对pla1基因的转录控制是完整的，并且较之野生型glaA启动子没有改变。此外，通过对A.niger WT 2的受关注的PLA转化子及WT2本身进行 Northern印迹分析，测量pla1经修饰构建体的pla1过量表达。对于经修饰合成pla1基因的所有转化子，探测到了强且相当的杂交信号，而对于 WT2本身则没有(数据未示出)。这表明，在pGBFINPLA-1d到 pGBFINPLA-1h的所有经转化菌株中的葡糖淀粉酶启动子对经优化的pla1 基因的转录控制是完整的，并且合成的pla1基因被表达。

以类似的方式，通过对A.niger WT 3的受关注的FUA转化子及WT3 本身进行Northern印迹分析，测量天然和经修饰构建体的amyA过量表达，其中使用(通用)探针，其定位于用于全部三种表达构建体中的葡糖淀粉酶终止子的3’非翻译区域。对于amyA构建体的所有转化子而言，探测到了强且相当的杂交信号(数据未示出)。这表明，在pGBFINFUA-1 到pGBFINFUA-3的所有经转化菌株中的alpha-淀粉酶启动子对经优化的 amyA基因的转录控制是完整的，并且合成的amyA基因被表达。

在所有A.niger PLA转化子中测量磷脂酶A1多肽的生产。如图7所示，采用葡糖淀粉酶启动子，观察到了经修饰翻译起始位点的使用(变体 1和变体2)对于磷脂酶生产的正面影响。类似地，对密码子使用和翻译终止序列的修饰对于磷脂酶生产的正面影响被观察到。下表10中给出了结果概述。这清楚表明了本发明的单种修饰或者修饰组合(例如，经修饰的翻译起始序列，例如，变体1、2或US6,461,837 B1中描述的变体，和/ 或经修饰的密码子使用，和/或经修饰的翻译终止序列)是如何能用于提高 A.niger中磷脂酶A1生产产量的。

表10 与野生型构建体相比较，对经修饰的pla1控制和编码序列的相对平均磷脂酶活性(从图7推断)

质粒名称 SEQ ID NO 翻译起始子序列翻译起始子编码序列经优化的密码子频率翻译终止序列平均产量图7 平均产量图8 PGBFINPLA- 1a 8 CACCTCAGCA 野生型野生型野生型 100％ 100％ PGBFINPLA- 1b 9 CACCGTCAAA 野生型野生型野生型 170％ 130％ PGBFINPLA- 1c 10 CGCAGTCAAG 野生型野生型野生型 130％ PGBFINPLA- 1d 11 CACCTCAGCA TTCTCTCTC 经修饰的 TAAATA 170％ PGBFINPLA- 1e 12 CACCGTCAAA TTCTCTCTC 经修饰的 TAAATA 230％ 240％ PGBFINPLA- 1f 13 CGCAGTCAAG TTCTCTCTC 经修饰的 TAAATA 260％ PGBFINPLA- 1g 14 CACCGTCAAA GCTTCCTTC 经修饰的 TAAATA 230％ pGBFINPLA- 1h 35 US6,461,837 B1 TTCTCTCTC 经修饰的 TAAATA 230％

如图8所示，在多拷贝(2)情况中，也清楚发现了改进。这清楚表明了本发明的单种修饰或者修饰组合(例如经修饰的翻译起始序列和/或经修饰的密码子使用和/或经修饰的翻译终止序列)是如何能用于提高A.niger 中磷脂酶A1生产产量的。

在全部三种不同的A.niger FUA转化子中测量alpha-淀粉酶的生产。如图9所示，采用alpha-淀粉酶启动子，观察到了经修饰翻译起始位点的使用(变体1)对于alpha-淀粉酶生产的正面影响。此外，还观察到了经修饰翻译起始位点(变体1)与经修饰密码子使用和经修饰翻译终止序列的组合对于增加的alpha-淀粉酶的正面协同影响。这些结果清楚表明了修饰的通用效果，因为使用本发明的方法，磷脂酶生产和alpha-淀粉酶生产都能被提高。明显地，这些实施例显示了本发明的单种修饰或者修饰组合 (例如，经修饰的翻译起始序列、经修饰的密码子使用和/或经修饰的翻译终止序列)是如何能用于提高A.niger中磷脂酶A1生产以及有丝真菌中任何其它感兴趣的蛋白质的生产的。

序列表

<110>帝斯曼知识产权资产管理有限公司

<120>用于在有丝真菌细胞中生产感兴趣化合物的方法

<130>24402WO

<160>35

<170>PatentIn version 3.1

<210>1

<211>1056

<212>DNA

<213>Aspergillus oryzae

<220>

<221>外显子

<222>(1)…(79)

<223>

<220>

<221>内含子

<222>(80)…(142)

<223>

<220>

<221>外显子

<222>(143)…(308)

<223>

<220>

<221>内含子

<222>(309)…(362)

<223>

<220>

<221>外显子

<222>(363)…(699)

<223>

<220>

<221>内含子

<222>(700)…(750)

<223>

<220>

<221>外显子

<222>(751)…(1056)

<223>

<400>1

atg ttt agt ctc gcg cga ttg ggg acc gtt gca ggt cta ttt tta ctg 48

Met Phe Ser Leu Ala Arg Leu Gly Thr Val Ala Gly Leu Phe Leu Leu

1 5 10 15

gct cag gct gcc ccg gct tca ctg cgc aga g gtatgtttat tttctccaca 99

Ala Gln Ala Ala Pro Ala Ser Leu Arg Arg

20 25

acttgtaaca cagcattcgc ttgagccaga ctgacggatt tag at gtc agc tct 153

Asp Val Ser Ser

tcc ctt ctc aat aac ctg gat ctc ttt gca cag tac agc gcc gcc gca 201

Ser Leu Leu Asn Asn Leu Asp Leu Phe Ala Gln Tyr Ser Ala Ala Ala

35 40 45

tac tgt gat gag aac ctg aac tct acg ggg acc aag ttg aca tgc tct 249

Tyr Cys Asp Glu Asn Leu Asn Ser Thr Gly Thr Lys Leu Thr Cys Ser

50 55 60

gtt ggc aac tgt cct ttg gta gaa gcg gcc tct acc caa tca ttg gat 297

Val Gly Asn Cys Pro Leu Val Glu Ala Ala Ser Thr Gln Ser Leu Asp

65 70 75

gaa ttc aac gagtaagtcacc gcaaatatac aattctagtt cataagcaac 348

Glu Phe Asn Glu

tactgacaac tcag a tcg tca tcc tac ggc aac ccc gcc ggg tac ctc gcc 399

Ser Ser Ser Tyr Gly Asn Pro Ala Gly Tyr Leu Ala

85 90

gct gat gag act aac aag ctc cta gtc ctg tcc ttc cgg ggt agc gct 447

Ala Asp Glu Thr Asn Lys Leu Leu Val Leu Ser Phe Arg Gly Ser Ala

95 100 105 110

gac ttg gcc aat tgg gtc gcc aac ctg aat ttt ggt ctc gag gat gcc 495

Asp Leu Ala Asn Trp Val Ala Asn Leu Asn Phe Gly Leu Glu Asp Ala

115 120 125

agc gat ctg tgt tct ggg tgc gaa gtg cac agc ggc ttc tgg aag gca 543

Ser Asp Leu Cys Ser Gly Cys Glu Val His Ser Gly Phe Trp Lys Ala

130 135 140

tgg agt gaa atc gcc gac acc atc act tcc aaa gtg gaa tca gct ttg 591

Trp Ser Glu Ile Ala Asp Thr Ile Thr Ser Lys Val Glu Ser Ala Leu

145 150 155

tcg gat cat tcc gat tat tcc ttg gtc ttg acc gga cat agt tac ggc 639

Ser Asp His Ser Asp Tyr Ser Leu Val Leu Thr Gly His Ser Tyr Gly

160 165 170

gct gcg ctg gca gcc ctc gca gcg act gct ctg cgg aac tcc ggc cat 687

Ala Ala Leu Ala Ala Leu Ala Ala Thr Ala Leu Arg Asn Ser Gly His

175 180 185 190

agt gtt gag ctg gtaagttatc ctcattttgt aagtgacggt gcgccaaatc 739

Ser Val Glu Leu

tgaccaaata g tac aac tac ggt caa cct cga ctt gga aac gag gca ttg 789

Tyr Asn Tyr Gly Gln Pro Arg Leu Gly Asn Glu Ala Leu

195 200 205

gca aca tat atc acg gac caa aac aag ggt ggc aac tat cgc gtt acg 837

Ala Thr Tyr Ile Thr Asp Gln Asn Lys Gly Gly Asn Tyr Arg Val Thr

210 215 220

cac act aat gat att gtg cct aaa ctg cca ccc acg ctg ctc ggg tat 885

His Thr Asn Asp Ile Val Pro Lys Leu Pro Pro Thr Leu Leu Gly Tyr

225 230 235

cac cac ttc agc cca gag tac tat atc agc agc gcc gac gag gca acg 933

His His Phe Ser Pro Glu Tyr Tyr Ile Ser Ser Ala Asp Glu Ala Thr

240 245 250 255

gtg acc acc act gat gtg act gag gtt acg gga atc gat gct acg ggc 981

Val Thr Thr Thr Asp Val Thr Glu Val Thr Gly lle Asp Ala Thr Gly

260 265 270

ggt aat gat gga acc gac gga act agc atc gat gct cat cgg tgg tac 1029

Gly Asn Asp Gly Thr Asp Gly Thr Ser Tle Asp Ala His Arg Trp Tyr

275 280 285

ttt att tat att agc gaa tgt tca tag 1056

Phe Ile Tyr Ile Ser Glu Cys Ser

290 295

<210>2

<211>888

<212>DNA

<213>Aspergillus oryzae

<400>2

atgtttagtc tcgcgcgatt ggggaccgtt gcaggtctat ttttactggc tcaggctgcc 60

ccggcttcac tgcgcagaga tgtcagctct tcccttctca ataacctgga tctcgttgca 120

cagtacagcg ccgccgcata ctgtgatgag aacctgaact ctacggggac caagttgaca 180

tgctctgttg gcaactgtcc tttggtagaa gcggcctcta cccaatcatt ggatgaattc 240

aacgaatcgt catcctacgg caaccccgcc gggtacctcg ccgctgatga gactaacaag 300

ctcctagtcc tgtccttccg gggtagcgct gacttggcca attgggtcgc caacctgaat 360

tttggtctcg aggatgccag cgatctgtgt tctgggtgcg aagtgcacag cggcttctgg 420

aaggcatgga gtgaaatcgc cgacaccatc acttccaaag tggaatcagc tttgtcggat 480

cattccgatt attccttggt cttgaccgga catagttacg gcgctgcgct ggcagccctc 540

gcagcgactg ctctgcggaa ctccggccat agtgttgagc tgtacaacta cggtcaacct 600

cgacttggaa acgaggcatt ggcaacatat atcacggacc aaaacaaggg tggcaactat 660

cgcgttacgc acactaatga tattgtgcct aaactgccac ccacgctgct cgggtatcac 720

cacttcagcc cagagtacta tatcagcagc gccgacgagg caacggtgac caccactgat 780

gtgactgagg ttacgggaat cgatgctacg ggcggtaatg atggaaccga cggaactagc 840

atcgatgctc atcggtggta ctttatttat attagcgaat gttcatag 888

<210>3

<211>295

<212>PRT

<213>Aspergillus oryzae

<400>3

Met Phe Ser Leu Ala Arg Leu Gly Thr Val Ala Gly Leu Phe Leu Leu

1 5 10 15

Ala Gln Ala Ala Pro Ala Ser Leu Arg Arg Asp Val Ser Ser Ser Leu

20 25 30

Leu Asn Asn Leu Asp Leu Phe Ala Gln Tyr Ser Ala Ala Ala Tyr Cys

35 40 45

Asp Glu Asn Leu Asn Ser Thr Gly Thr Lys Leu Thr Cys Ser Val Gly

50 55 60

Asn Cys Pro Leu Val Glu Ala Ala Ser Thr Gln Ser Leu Asp Glu Phe

65 70 75 80

Asn Glu Ser Ser Ser Tyr Gly Asn Pro Ala Gly Tyr Leu Ala Ala Asp

85 90 95

Glu Thr Asn Lys Leu Leu Val Leu Ser Phe Arg Gly Ser Ala Asp Leu

100 105 110

Ala Asn Trp Val Ala Asn Leu Asn Phe Gly Leu Glu Asp Ala Ser Asp

115 120 125

Leu Cys Ser Gly Cys Glu Val His Ser Gly Phe Trp Lys Ala Trp Ser

130 135 140

Glu Ile Ala Asp Thr Ile Thr Ser Lys Val Glu Ser Ala Leu Ser Asp

145 150 155 160

His Ser Asp Tyr Ser Leu Val Leu Thr Gly His Ser Tyr Gly Ala Ala

165 170 175

Leu Ala Ala Leu Ala Ala Thr Ala Leu Arg Asn Ser Gly His Ser Val

180 185 190

Glu Leu Tyr Asn Tyr Gly Gln Pro Arg Leu Gly Asn Glu Ala Leu Ala

195 200 205

Thr Tyr Ile Thr Asp Gln Asn Lys Gly Gly Asn Tyr Arg Val Thr His

210 215 220

Thr Asn Asp Ile Val Pro Lys Leu Pro Pro Thr Leu Leu Gly Tyr His

225 230 235 240

His Phe Ser Pro Glu Tyr Tyr Ile Ser Ser Ala Asp Glu Ala Thr Val

245 250 255

Thr Thr Thr Asp Val Thr Glu Val Thr Gly Ile Asp Ala Thr Gly Gly

260 265 270

Asn Asp Gly Thr Asp Gly Thr Ser Ile Asp Ala His Arg Trp Tyr Phe

275 280 285

Ile Tyr Ile Ser Glu Cys Ser

290 295

<210>4

<211>42

<212>DNA

<213>人工序列

<220>

<223>设计为PCR引物用于在聚合酶链式反应中产生DNA片段的寡核苷酸

<400>4

agcatcatta cacctcagca atgtttagtc tcgcgcgatt gg 42

<210>5

<211>24

<212>DNA

<213>人工序列

<220>

<223>设计为PCR引物用于在聚合酶链式反应中产生DNA片段的寡核苷酸

<400>5

ggattgattg tacgtactat gaac 21

<210>6

<211>23

<212>DNA

<213>人工序列

<220>

<223>设计为PCR引物用于在聚合酶链式反应中产生DNA片段的寡核苷酸

<400>6

gcatcccagg ccagtgaggc cag 23

<210>7

<211>44

<212>DNA

<213>人工序列

<220>

<223>设计为PCR引物用于在聚合酶链式反应中产生DNA片段的寡核苷酸

<400>7

ccaatcgcgc gagactaaac attgctgagg tgtaatgatg ctgg 44

<210>8

<211>1263

<212>DNA

<213>人工序列

<220>

<223>启动子片段和基因片段的重组融合构建体，通过PCR产生的

<220>

<221>启动子

<222>(1)…(204)

<220>

<221>基因

<222>(205)…(1263)

<400>8

gaattcaagc tagatgctaa gcgatattgc atggcaatat gtgttgatgc atgtgcttct 60

tccttcagct tcccctcgtg cagatgaggt ttggctataa attgaagtgg ttggtcgggg 120

ttccgtgagg ggctgaagtg cttcctccct tttagacgca actgagagcc tgagcttcat 180

ccccagcatc attacacctc agcaatgttt agtctcgcgc gattggggac cgttgcaggt 240

ctatttttac tggctcaggc tgccccggct tcactgcgca gaggtatgtt tattttctcc 300

acaacttgta acacagcatt cgcttgagcc agactgacgg atttagatgt cagetcttcc 360

cttctcaata acctggatct ctttgcacag tacagcgccg ccgcatactg tgatgagaac 420

ctgaactcta cggggaccaa gttgacatgc tctgttggca actgtccttt ggtagaagcg 480

gcctctaccc aatcattgga tgaattcaac gagtaagtca ccgcaaatat acaattctag 540

ttcataagca actactgaca actcagatcg tcatcctacg gcaaccccgc cgggtacctc 600

gccgctgatg agactaacaa gctcctagtc ctgtccttcc ggggtagcgc tgacttggcc 660

aattgggtcg ccaacctgaa ttttggtctc gaggatgcca gcgatctgtg ttctgggtgc 720

gaagtgcaca gcggcttctg gaaggcatgg agtgaaatcg ccgacaccat cacttccaaa 780

gtggaatcag ctttgtcgga tcattccgat tattccttgg tcttgaccgg acatagttac 840

ggcgctgcgc tggcagccct cgcagcgact gctctgcgga actccggcca tagtgttgag 900

ctggtaagtt atcctcattt tgtaagtgac ggtgcgccaa atctgaccaa atagtacaac 960

tacggtcaac ctcgacttgg aaacgaggca ttggcaacat atatcacgga ccaaaacaag 1020

ggtggcaact atcgcgttac gcacactaat gatattgtgc ctaaactgcc acccacgctg 1080

ctcgggtatc accacttcag cccagagtac tatatcagca gcgccgacga ggcaacggtg 1140

accaccactg atgtgactga ggttacggga atcgatgcta cgggcggtaa tgatggaacc 1200

gacggaacta gcatcgatgc tcatcggtgg tactttattt atattagcga atgttcatag 1260

tac 1263

<210>9

<211>507

<212>DNA

<213>人工序列

<220>

<223>启动子片段和基因片段的重组融合构建体，通过PCR产生的

<220>

<221>启动子

<222>(1)…(204)

<220>

<221>基因

<222>(205)…(507)

<400>9

gaattcaagc tagatgctaa gcgatattgc atggcaatat gtgttgatgc atgtgcttct 60

tccttcagct tcccctcgtg cagatgaggt ttggctataa attgaagtgg ttggtcgggg 120

ttccgtgagg ggctgaagtg cttcctccct tttagacgca actgagagcc tgagcttcat 180

ccccagcatc attacaccgt caaaatgttt agtctcgcgc gattggggac cgttgcaggt 240

ctatttttac tggctcaggc tgccccggct tcactgcgca gaggtatgtt tattttctcc 300

acaacttgta acacagcatt cgcttgagcc agactgacgg atttagatgt cagctcttcc 360

cttctcaata acctggatct ctttgcacag tacagcgccg ccgcatactg tgatgagaac 420

ctgaactcta cggggaccaa gttgacatgc tctgttggca actgtccttt ggtagaagcg 480

gcctctaccc aatcattgga tgaattc 507

<210>10

<211>507

<212>DNA

<213>人工序列

<220>

<223>启动子片段和基因片段的重组融合构建体，通过PCR产生的

<220>

<221>启动子

<222>(1)…(204)

<220>

<221>基因

<222>(205)…(507)

<400>10

gaattcaagc tagatgctaa gcgatattgc atggcaatat gtgttgatgc atgtgcttct 60

tccttcagct tcccctcgtg cagatgaggt ttggctataa attgaagtgg ttggtcgggg 120

ttccgtgagg ggctgaagtg cttcctccct tttagacgca actgagagcc tgagcttcat 180

ccccagcatc attacgcagt caagatgttt agtctcgcgc gattggggac cgttgcaggt 240

ctatttttac tggctcaggc tgccccggct tcactgcgca gaggtatgtt tattttctcc 300

acaacttgta acacagcatt cgcttgagcc agactgacgg atttagatgt cagctcttcc 360

cttctcaata acctggatct ctttgcacag tacagcgccg ccgcatactg tgatgagaac 420

ctgaactcta cggggaccaa gttgacatgc tctgttggca actgtccttt ggtagaagcg 480

gcctctaccc aatcattgga tgaattc 507

<210>11

<211>1265

<212>DNA

<213>人工序列

<220>

<223>启动子片段和基因片段的重组融合构建体，通过PCR产生的

<220>

<221>启动子

<222>(1)…(205)

<220>

<221>基因

<222>(206)…(1265)

<400>11

ggaattcaag ctagatgcta agcgatattg catggcaata tgtgttgatg catgtgcttc 60

ttccttcagc ttcccctcgt gcagatgagg tttggctata aattgaagtg gttggtcggg 120

gttccgtgag gggctgaagt gcttcctccc ttttagacgc aactgagagc ctgagcttca 180

tccccagcat cattacacct cagcaatgtt ctctctcgcc cgccttggta ccgtcgctgg 240

tctcttcctt ctcgctcagg ctgcccccgc ttccctgcgc cgtggtatgt ttattttctc 300

cacaacttgt aacacagcat tcgcttgagc cagactgacg gatttagacg tctcctcttc 360

ccttctcaac aacctggacc tcttcgctca gtacagcgcc gccgcttact gcgatgagaa 420

cctgaactct accggtacca agttgacctg ctctgttggc aactgccctc ttgtcgaggc 480

ggcctctacc cagtccttgg atgagttcaa cgagtaagtc accgcaaata tacaattcta 540

gttcataagc aactactgac aactcagatc gtcctcctac ggcaaccccg ccggttacct 600

cgccgctgac gagactaaca agctcctcgt cctgtccttc cgtggtagcg ctgaccttgc 660

caactgggtc gccaacctga acttcggtct cgaggacgcc agcgatctgt gctctggttg 720

cgaagtccac tccggcttct ggaaggcttg gtctgagatc gccgacacca tcacttccaa 780

ggtggaatcc gctttgtcgg atcactccga ttactccctc gtcttgaccg gtcactcgta 810

cggcgctgcg ctggccgccc tcgccgcgac tgctctgcgt aactccggcc actcggttga 900

gctggtaagt tatcctcatt ttgtaagtga cggtgcgcca aatctgacca aatagtacaa 960

ctacggtcag cctcgccttg gcaacgaggc cctcgccacc tacatcaccg accagac aa 1020

gggtggcaac taccgcgtta cccacactaa cgacatcgtc cctaagctgc cccccaccct 1080

gctcggttac caccacttca gccccgagta ctacatcagc agcgccgacg aggccaccgt 1140

gaccaccact gacgtgactg aggttaccgg aatcgatgct accggcggta acgatggaac 1200

cgacggaact agcatcgacg ctcaccgttg gtacttcatt tacatttccg aatgctccta 1260

aatac 1265

<210>12

<211>1265

<212>DNA

<213>人工序列

<220>

<223>启动子片段和基因片段的重组融合构建体，通过PCR产生的

<220>

<221>启动子

<222>(1)…(205)

<220>

<221>基因

<222>(206)…(1265)

<400>12

ggaattcaag ctagatgcta agcgatattg catggcaata tgtgttgatg catgtgcttc 60

ttccttcagc ttcccctcgt gcagatgagg tttggctata aattgaagtg gttggtcggg 120

gttccgtgag gggctgaagt gcttcctccc ttttagacgc aactgagagc ctgagcttca 180

tccccagcat cattacaccg tcaaaatgtt ctctctcgcc cgccttggta ccgtcgctgg 240