首页> 中国专利> 犹他游动放线菌的基因组学

犹他游动放线菌的基因组学

摘要

本发明描述了所述野生型基因组的DNA序列以及在此基础上引入至野生型菌株和进一步开发的菌株的所有遗传修饰。因此,已完成对所述开发的菌株,包括最新的生产菌株的首次基因型表征,这是本发明的主要部分。此外,在所述已确定的DNA序列的基础上,鉴定了潜在的基因,并且所述潜在的基因与其功能注释一起构成了本发明的另一部分。特别是,在整个菌株开发的过程中,受诱变修饰影响的可能有助于生产产量提高的所述基因序列和DNA序列,以及由其衍生的蛋白质序列是本发明的贡献。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-03

    授权

    授权

  • 2013-10-16

    实质审查的生效 IPC(主分类):C07K14/365 申请日:20110801

    实质审查的生效

  • 2013-09-11

    公开

    公开

说明书

1963年John Couch第一次描述了革兰氏阳性原核生物犹他游动放 线菌(Actinoplanes utahensis)(Couch,J.N.,Elisha Mitchell Sci.Soc., 1963,79:53-70)。此后,1977年,在犹他游动放线菌培养物的上清物中 首次发现阿卡波糖和其同系物(Schmidt et al.,Naturwissenschaften, 1977,64:535-536)。两年后,发现了阿卡波糖在人肠内作为α-葡萄糖苷 酶抑制物的医学效果(Caspary et al.,Res.Exp.Med.,1979,175:1-6), 在同一年,其用于治疗2-型糖尿病的潜在应用得到普及(Frommer et al., J.Med.Plant Res.,1979,35:195-217)。

自1990年以来,所述α-葡萄糖苷酶抑制剂阿卡波糖便被生产并销 售用于2-型糖尿病的治疗。在不断增加阿卡波糖产率方面,从犹他游动 放线菌野生型菌株开始,已通过优化发酵工艺以及生产菌株本身不断地 改进生产。已通过众多的诱变实验推动了菌株开发,所述诱变实验是阿 卡波糖产量不断提高的主要原因。

由诱变实验引发的所述生物中的遗传修饰到目前为止只能通过表 型特征(例如,阿卡波糖产率的提高)来识别。更确切的说,不断提高 的生产产率的遗传基础到目前为止是完全未知的。然而,对于理解导致 产量增加的机制,该知识具有重大意义。此外,其构成了对所述生物进 一步、定向遗传修饰的方法的最重要先决条件,所述方法优化犹他游动 放线菌至甚至更大的程度。

本发明描述了野生型基因组的DNA序列以及在此基础上引入野生 型菌株和进一步开发的菌株的所有遗传修饰。因此,已完成对所开发的 菌株(包括最新的生产菌株)的首次基因型表征,这是本发明的主要部 分。此外,在所述已确定的DNA序列的基础上,鉴定了潜在的基因, 并且所述潜在的基因与其功能注释一起构成了本发明的另一部分。特别 是,在整个菌株开发的过程中,受诱变修饰影响的可能有助于生产产率 提高的所述基因序列和DNA序列,以及由其衍生的蛋白质序列是本发 明的贡献。

材料和方法

如上简述,对最初从土壤样品中分离的犹他游动放线菌野生型菌株 SE50-100进行了一系列的诱变实验。这些实验的目的是鉴别突变体, 这些突变体具有改进的阿卡波糖产量以及与工业发酵生产有关的其他 参数,例如高生长速率、优化的营养需求和消耗以及较低的不利副产物 的形成。最初基于野生型菌株,对选自先前实验的所述突变体菌株连续 地进行进一步的诱变实验。在菌株开发的过程中,具有优秀属性的多个 突变体被选作新的生产菌株并转入大规模生产。从它们中选择七个菌株 (包括所述最新的生产菌株以及所述野生型菌株),由比勒费尔德大学 生物技术中心(Bielefeld University’s Center for Biotechnology  (CeBiTec),33615Bielefeld,Germany)进行测 序。表1以其开发的时间顺序列出在该项目中已使用的全部七个菌株。

表1以其时间顺序列出该研究使用的全部犹他游动放线菌菌株

菌株培养

为了检验其阿卡波糖生产力,如前所述(Schmidtet al., Naturwissenschaften,1977,64:535-536)进行菌株的培养。为了分离 DNA,在两步摇瓶体系中培养所述游动放线菌属(Actinoplanes)菌株。 除无机盐以外,所述培养基包含作为碳源的淀粉水解产物和作为氮源的 酵母提取物。在28℃下在旋转摇荡器上分别进行预培养和主要培养3 天和4天。然后通过离心收集所述生物质。

菌株诱变

通过对较高产菌株的逐步筛选方法进行所述阿卡波糖生产菌的菌 株开发。该方法使用通过化学或物理手段进行随机突变方法。用于诱导 突变的化学品是烷化剂或用作移码诱变剂的嵌入染料。用365nm的UV 光对细胞进行物理处理以引起诱变。在适合的缓冲液体系中使用菌丝体 的片段进行诱变处理。在所述处理后,将所述生物材料在液体培养基中 进行短期培养以使得所诱导的改变有表型表现,然后铺到琼脂平板上。 在小规模摇瓶实验中对经历所述诱变处理而幸存的克隆的随机选择检 验其阿卡波糖生产力。选择该类突变周期中获得的最佳突变体克隆用于 接下来的突变步骤。几个这样的突变和选择步骤导致生产力的逐渐提高。

基因组DNA的制备

通过对一般性描述的步骤(Maniatis T.,Fritsch E.F.,Sambrook J., Molecular Cloning–A Laboratory Manual,Cold Spring Harbor Press, 1982)的修改进行了犹他游动放线菌菌株SE50-100基因组DNA的制备。 在Christ离心机中通过离心(10min,4.000rpm,4℃)收集50mL新 鲜培养的培养物的菌丝。相同条件下,在含有15%蔗糖(Merck KGaA,

Darmstadt,Germany,cat.7651)、25mM TrisHCl pH7.2(Merck KGaA, Darmstadt,Germany,cat.1.08382.1000)和25mM EDTA(Merck KGaA, Darmstadt,Germany,cat.8418)的缓冲液中洗涤所述片状沉淀物4 次。最后,在4.5mL的相同缓冲液中再悬浮所述片状沉淀物,加入溶 菌酶(Merck KGaA,Darmstadt,Germany,cat.1.05281.0010)和RNAse (Qiagen,Hilden,Germany,cat.19101)至终浓度分别为5mg/mL 和50μg/mL,并在37℃下孵育所述混合物45分钟。在加入SDS(Serva, Heidelberg,Germany,cat.20767)和蛋白酶K(Qiagen,Hilden,Germany, cat.19133)至终浓度分别为0.5%和2μg/mL后,在50℃下继续所述孵 育5分钟。加入NaCl(Merck KGaA,Darmstadt,Germany, cat.1.06404.1000)至终浓度为300mM,用WFI调整所述体积至8mL。 将所述溶菌产物进行三次连续的酚/SEVAG提取(SEVAG是24份氯仿 [Merck KGaA,Darmstadt,Germany,cat.1.02445.1000]和1份异戊醇 [Merck KGaA,Darmstadt,Germany,cat.1.979.1000]的混合物),通 过用10mL SEVAG洗涤所述DNA溶液以除去酚。通过加入0.1体积的 3M乙酸钠(pH4.8)(Merck KGaA,Darmstadt,Germany,cat.6268) 和1体积的冷异丙醇(Merck KGaA,Darmstadt,Germany, cat.1.09634.1011)沉淀所述DNA。通过离心使所述DNA成片状沉淀(25 分钟,4.000rpm,4℃;Christ离心机),将所述DNA片状沉淀用70% 乙醇(Merck KGaA,Darmstadt,Germany,cat.1.00983.1011)彻底 洗涤(5次)(10分钟,4000rpm,4℃;Christ离心机)并风干。最后, 将所述片状沉淀于4℃下在200μL Tris pH8.5中再悬浮过夜,并通过测 量260nm和280nm下的光密度以测定所述DNA浓度。通过将所述 DNA溶液的等分试样(10μL)在1%的琼脂糖胶中进行电泳来分析所 制备的DNA的大小,作为质量检验。

F粘粒文库构建

F粘粒通常在需要较小的插入物大小时用于制备基因组文库。所述 插入物的平均大小是40kb并通过随机剪切产生,这产生了比其他文库 类型更加均匀的基因组覆盖。由于其均匀的覆盖范围,F粘粒是全基因 组测序项目中用于填补缺口的极好候选。由IIT Biotech GmbH, .25,33615Bielefeld,Germany对基因组DNA进行了 野生型犹他游动放线菌的F粘粒文库构建。为了在大肠杆菌(E.Coli) EPI300细胞中进行构建,使用了CopyControlTM克隆系统(EPICENTRE  Biotechnologies,726Post Road,Madison,WI53713,USA)。所述试剂盒 获自Biozym Scientific GmbH,Steinbrinksweg27,31840Hessisch  Oldendorf,Germany。

F粘粒文库测序

由IIT Biotech GmbH,.25,33615Bielefeld, Germany在3730xl DNA-分析仪(Applied Biosystems,850Lincoln  Centre Drive,Foster City,CA94404,USA)上进行对野生型犹他游动 放线菌的F粘粒文库测序。所述设备在96毛细管中进行平行的Sanger 测序(Sanger et al.,J.Mol.Biol.,1975,94(3):441-448)。将得到的 flowgram文件进行碱基调用并存储为FASTA格式。这两种文件后来均 用于缺口填补和质量评价。

高通量基因组测序

基因组测序仪FLX

所述基因组测序仪FLX(GS FLX)系统(454Life Sciences,15  Commercial Street,Branford,CT06405,USA)用于所述犹他游动放 线菌野生型菌株SE50-100以及所述最新的生产菌株SN19910-37-21的 焦磷酸测序。在GS FLX平台上使用了两种不同的方案和试剂系列:

1.具有长配对末端(PE)方案的标准系列。用于所述PE-文库构 建的基因组DNA片段大小是2.5-3.0kb。所述方案产生2×100个碱基 的平均读段(read)长度和约100Mb的测序碱基的总数。

2.具有全基因组鸟枪法(WGS)方案的钛系列。用于所述WGS 文库构建的基因组DNA片段大小是500-800bp。所述方案产生400-500 个碱基的读段长度和范围为400-600Mb的测序碱基的总数。

方案的详细信息在制造商手册中提供,即GS FLX Sequencing  Method Manual(2007年12月)、GS FLX Paired End DNA Library  Preparation Method Manual(2007年12月)、GS FLX Titanium  Sequencing Method Manual(2008年10月)和GS FLX Titanium General  Library Preparation Method Manual(2008年10月)。

基因组分析仪IIx

包括簇工作站(Cluster-Station)和配对-末端-模块 (Paired-End-Module)的基因组分析仪IIx(GA IIx)系统(Illumina, Inc.,9885Towne Centre Drive,San Diego,CA92121,USA)被用于 所述先前五个生产菌株SN223-29-47、C445-P47、SN12755-48、 SC3687-18-43和SC7177-40-17的边合成边测序。对于全部五个菌株, 使用基因组DNA片段大小为约330bp以及阅读长度为2×36个碱基的 配对末端方案。依照以下制造商手册进行文库制备、簇生成和测序: Paired-End sequencing Sample Preparation Guide(部分#1005063Rev.B  2009年9月)、Using the Paired-End Cluster Generation Kit v2on the  Cluster Station and Paired-End Module(部分#1005629Rev.C2009年2 月)和Using SBS Sequencing Kit v3on the Genome Analyzer(部分# 1005637Rev.A2008年11月)。

野生型草图基因组拼接

使用Newbler assembler软件(gsAssembler version2.0.00.22,454 Life Science)进行对由GS FLX平台产生的所有野生型犹他游动放线菌 读段的自动拼接。拼接算法的详细信息参见Genome Sequencer FLX  System Software ManualPartC,版本2.3(2009年10月)。

野生型基因组完成

为了填补在Newbler程序进行自动从头拼接后仍存在的邻近序列 (重叠群)之间的剩余缺口,使用了可视拼接软件包Consed(Gordon  et al.,Genome Research,1998,8:195-202)。在图形用户界面中,选 择在连续重叠群末端的引物对。然后,将这些引物对用于从源自先前构 建的F粘粒文库的克隆中扩增所需序列,以桥连连续重叠群之间的缺口。

在确定这些F粘粒读段的DNA序列后,借助不同的程序功能对所 有合适的读段进行手工拼接。详细地说,先将F粘粒读段与重叠群的 5'端比对,通过其5'剩余部分将其延伸。此后,将邻近重叠群的3’端 与该延伸片段比对,跨越先前存在的缺口并连接两个重叠群。

在一个F粘粒读段的长度或质量不足以跨越所述缺口的情况下,进 行了多轮引物选择、测序和手工拼接。

野生型基因组注释

编码序列(CDS)的鉴定

通过一系列的计算分析鉴定了所述野生型基因组上的潜在的基因 和部分基因序列(参见附录)。所有使用的程序是GenDB注释流程 (GenDB annotation-pipeline)的一部分(Meyer et al.,Nucleic Acids  Research,2003,31(8):2187-95)。为了鉴定CDS,使用了内在、外在和 组合方法以达到最佳结果。

负责CDS的内在预测的程序是Glimmer(Delcher et al.,Nucleic  Acid Research,1999,27:4636-41)。它首先从具有取自待分析基因组的 最佳特征的CDS中建立训练集。在该集的基础上,计算内插式马尔可 夫模型(Markov Model),该模型用于实际的搜索运行(search-run), 以鉴定基因组序列的全部CDS。Glimmer倾向于计算出比真实存在的 更多的CDS。

通过CRITICA(Badger et al.,Mol.Biol.Evol.,1999,16:512-24)进 行所述外在CDS预测。CRITICA先利用了BLASTN算法(Altschul et al., J.Mol.Biol.,1990,215(3):403-10),目的是确定基因组序列列表,所述基 因组序列显示与公开DNA数据库中的序列至少微弱的相似性。如果所 翻译的氨基酸序列具有比基于DNA相似性预期的更高的相似性,那么 这被解释为作为保守编码序列的证据。CRITICA将这些结果和基于六 核苷酸分布的内在分析结合起来,以提高对先前未知序列的预测。尽管 这样,在公开数据库中没有存储的同系物序列的情况下,CRITICA仍 倾向于预测较少的CDS。

Reganor软件(McHardy et al.,Bioinformatics,2004,20(10):1622-31) 被用于优化由Glimmer和CRITICA计算的结果。它结合了这两个程序 的结果,从而使它们各自的缺点最小化。此外,由CRITICA预测的 CDS形成了所述结合的结果的基础,并由Glimmer计算的内在预测加 以补充。

注释和功能预测

通过多种不同的软件包分析已鉴定的开放阅读框,以从它们的 RNA序列和/或氨基酸序列得到关于其潜在功能的结论。除了它们的功 能预测以外,还计算了其他特性和结构特征。

借助与公开的和/或专有的核苷酸数据库和蛋白数据库比较,将基 于同源性的搜索应用于鉴定保守序列。如果在基因的整个主要部分发现 了显著的序列相似性,那么可得出结论:所述基因在犹他游动放线菌中 应具有相似的功能。用于注释犹他游动放线菌基因列表的基于同源性的 方法也称为BLASTX(Coulson,Trends in Biotechnology,1994, 12:76-80)。BLASTX将给定的核苷酸序列翻译成三个正向和三个反向 互补阅读框,然后将它们与蛋白数据库比较(例如National Center for  Biotechnology Information(NCBI)的公开非冗余蛋白数据库(nr-aa))。

在酶学委员会(EC)编号(Webb,Edwin C.,San Diego:International  Union of Biochemistry and Molecular Biology by Academic Press,1992, ISBN0-12-227164-5)的基础上进行了酶分类。对于其他功能性基因预 测,使用了蛋白(COG)分类系统的直系同源群的簇(Tatusov et al., Science,1997,278(5338):631-7和Tatusov et al.,Nucleic Acids Res.2001, 29(1):22-8)。

为了鉴定潜在跨膜蛋白,使用了软件TMHMM(Krogh et al.,J.Mol. Biol.,2001,305(3):567-80和Sonnhammer et al.,Proc.Int. Conf.Intell.Syst.Mol.Biol.,1998,6:175-82)。它利用隐马氏模型(Hidden Markov Model)来预测跨膜螺旋和跨膜蛋白的其他特性。使用其获得 的信息,膜相关功能预测获得了显著更强的确定性。

软件SignalP(Bendtsen et al.,J.Mol.Biol.,2004,340:783-95和 Nielsen et al.,protein Engineering,2997,10:1-6)被用于预测所述已鉴定 CDS的分泌能力。这可借助隐马氏模型和神经网络完成,在氨基酸序 列内搜索潜在信号肽切割位点的出现和位臵。所得分数可被解释为对所 翻译蛋白的分泌的概率量度。SignalP仅得到那些通过经典信号肽结合 机制分泌的那些蛋白。

为了从犹他游动放线菌中鉴定不通过经典方式分泌的其他蛋白,使 用了软件SecretomeP(Bendtsen et al.,BMC Microbiology,2005,5:58)。 使用已知在exoproteome中存在并缺少信号肽的分泌蛋白训练了潜在 的神经网络。所述已翻译基因的最终分泌能力来自SignalP和 SecretomeP预测的组合结果。

为了揭示多顺反子转录单元,开发了所有权软件,所述软件通过其 相对于邻近基因的方向和接近距离来预测共同转录的基因(获自 Salgado et al.,Proc.Natl.Acad.Sci.USA,2000,97(12):6652-7)。根据这 些预测,可确定操纵子结构并在其基础上,可获得含有高概率的启动子 和操纵元件的其他序列区域。

单链DNA分子或RNA分子的二级结构由RNAshapes软件计算 (Steffen et al.,Bioinformatics,2006,22(4):500-503)。所述结果用于内在 预测分别指示操纵子和基因末端的转录终止子。

生产菌株参考拼接

通过将从全部六个生产菌株获得的读段映射到野生型参考基因组 上来实现所述读段的拼接。为了该任务,考虑到两种的读段类型(分别 源于基因组测序仪FLX(读段-长度400-500个碱基WGS)和基因组分析 仪IIx(读段长度2×36个碱基PE)系统),使用了两种不同的软件程 序。

gsMapper软件(2.3版,454Life Science)被用于将基因组测序仪 FLX平台的读段与所述野生型参考基因组比对。所述程序实施启发式 探索以在所述参考序列内发现每个读段的最好比对位臵。在比对全部读 段后,对参考连续比对上的读段进行多重比对,以形成重叠群。从重叠 群的多重比对中,使用多重比对中读段的流信号(flow-signal)产生一 致的碱基调用(basecall)序列,产生每个碱基的质量和臵信度。映射 算法的详细信息参见Genome Sequencer FLX System Software Manual  PartC,版本2.3(2009年10月)。

作为CLC基因组学工作台(CLC bio,Finlandsgade10-12, Katrinebjerg,8200Aarhus N,Denmark)的一部分,具有PE信息的短 读段拼接算法被用于比对基因组分析仪IIx平台的读段与所述参考基因 组。映射算法的详细信息参见CLC Genomics Workbench User Manual  3.7.1。

生产菌株中突变的鉴定

在借助gsAssembler软件(2.3版,454Life Science)的参考拼接过程 的过程中,自动确定了野生型菌株SE50-100与最新的生产菌株 SN19910-37-2之间的遗传变异。确定单核苷酸多态性(SNP)以及结构 变异的算法的详细信息可见于Genome Sequencer FLX System Software  Manual PartC,版本2.3(2009年10月)。

使用CLC基因组学工作台(CLC bio,Finlandsgade10-12  Katrinebjerg,8200Aarhus N,Denmark)确定所述野生型菌株与所述五 个先前的生产菌株之间的突变。使用了用于SNP和缺失/插入多态性 (DIP)的高通量数据分析的专门算法,该算法详细地描述于CLC  Genomics Workbench User Manual3.7.1。

犹他游动放线菌野生型菌株的测序、拼接和注释

通过三次高通量运行的测序信息的组合确定了犹他游动放线菌野 生型菌株SE50-100的基因组序列草图。这些使用两次双末端测序(PE) 和一次全基因组鸟枪(WGS)方法在基因组测序仪FLX系统上进行。 这些测序产生约2百万读段的成功的核苷酸序列确定,这总共占约4.07 亿个测序碱基(每次运行结果的详细信息参见表2)。

表2示出用于犹他游动放线菌野生型菌株SE50-100的三次高通量测序 运行的结果。进行了两次双末端测序(PE)和一次全基因组鸟枪(WGS) 运行。

然后,将所述测序的读段成功地(99.65%)拼接成长度超过500 个碱基的476个连续序列(重叠群)。考虑到所得9,122,632个碱基的基 因组草图大小,完成43.88倍的基因组覆盖。由于有480,030(91.48%) 个成功映射的双末端测序读段,这些重叠群可能已被确定顺序和定向到 11个框架(顺序和方向从双末端测序信息中获知的多个重叠群)内。表 3给出得到犹他游动放线菌野生型菌株SE50-100的初步基因组序列草 图的拼接过程的成功率和错误率的更进一步信息。

图3示出成功拼接的读段、碱基和推断读段错误的结果。所述推断读段 错误从所述读段与最终拼接的重叠群一致序列之间的错配计算出,衡量 错误调用的碱基的频率。

值得注意的是,先前公开的阿卡波糖簇的基因组序列(Wehmeier, Biocat.Biotrans.,2003,21:279–285和Wehmeier and Piepersberg, Appl.Microbiol.Biotechnol.,2004,63:613-625)与上述测序结果不一致。 总共发现了37个单核苷酸多态性(SNP)和24个缺失/插入多态性被先 前测序尝试人为地引入至野生型序列(参见图1)。对这些有缺陷的测 序结果的校正导致acbC基因较小的延长(42个碱基)以及acbE基因 内许多暂时移码的校正。然而,这对所述基因的整体注释和全阿卡波糖 簇没有影响。

图1示出通过本文描述的所进行的高通量测序校正的阿卡波糖簇 的先前错误测序结果。

通过F粘粒文库测序完成基因组序列草图。

为了获得野生型菌株SE50-100的全基因组框架,确定了999个随 机选择的F粘粒克隆的末端插入序列(图2)。没有发现11个基于双末 端测序的框架与基于F粘粒文库的全基因组框架之间的不一致,这确证 了测序运行的质量以及拼接过程的精确性。总共600个读段获自所选择 的克隆,覆盖所述基因组草图的大多数剩余缺口。通过手工拼接这些读 段,分别桥连和填补了重叠群之间的411个缺口。剩余的64个重叠群 形成单一的环状框架,由于长重复DNA序列和/或F粘粒文库内未覆盖 区域,可能不能用该方法桥连。结果改进了犹他游动放线菌野生型菌株 SE50-100的基因组序列,并被臵于本文档的附录中。

图2描述了用于构建基因组框架的F粘粒克隆的环状映射(灰色)。 以黑色标出基于双末端测序信息的所述11个框架。

基于所述改进的基因组序列,计算出71.29%的鸟嘌呤-胞嘧啶(G+C) 含量,该含量对于与放线菌(actinobacteria)密切相关的游动放线菌属 是典型的(Ventura et al.,Microbiol.Mol.Biol.Rev.,2007,71(3): 495-548)。

野生型犹他游动放线菌基因组的注释

在改进的基因组序列的基础上,进行了全基因组注释,产生对平均 基因长度为985个核苷酸的8,027个推定编码序列(CDS)的确定。在 此基础上,犹他游动放线菌显示出86.35%的编码密度,并且编码DNA 区域(71.68%)和非编码DNA区域(68.70%)之间具有约3%的显著 的G+C含量差别。通过检查结构基因组成,预测了1,793个推定的多 顺反子转录单元,含有5980个基因(74.50%),每个操纵子的平均数 目是3.34个基因。全部核苷酸序列以及它们的氨基酸翻译物臵于本文 档的附录中。表4总结了所述基因预测方法的结果。

表4示出用于犹他游动放线菌野生型菌株的基因预测软件的结果。

多种不同的程序被用于对已鉴定开放阅读框进行功能注释。由于外 部蛋白质数据库比对,2,839个CDS(35.67%)可以用酶学委员会(EC) 编号表征为酶。另外,具有典型跨膜穿过区的701个CDS(8.73%)被 鉴定,被分类为膜相关蛋白。预测了总数为600的蛋白信号肽,由此被 分泌至胞外培养基的概率高。对于另外的657个蛋白,提出了其他的分 泌机制。然而,这些预测可导致异常高的分泌蛋白数目。此外,应用了 蛋白的直系同源群簇(COG)的分类系统,显示出3,983(49.62%)个 CDS被分配到一个或多个COG类别。附表9提供所述COG类别和其 细分类别的更全面概述,而一般注释的结果总结在表5中。全部注释后, 2,684个基因(33.44%)仍没有相关功能。然而,在公开数据库中发现 了它们与其他序列的远相似性。对于434(5.41%)个孤儿基因,在数 据库中甚至没有远相关的序列。

表5列出犹他游动放线菌野生型菌株的功能基因注释的结果。

已注释的野生型基因组在图3中以环状图示出。除了正链(最外层 环)和反链(第二层环)上描绘的基因以外,还画出了G+C含量(第 三层环)和G+C偏斜(GC skew)(第四层环)。此外,标记出了高度 重要的若干位点,包括复制起点、先前描述的海藻糖(Lee et al.,Appl. Microbiol.Biotechnol.,2008,80:767-778)和阿卡波糖簇——由约25个 连续核糖体蛋白组成的值得注意的蛋白簇,以及整合接合元件 (integrative and conjugative element,ICE)的位臵。

图3示出野生型犹他游动放线菌SE50-100染色体的环状基因组图。 在最外层环上,描绘了正向的基因。在第二层环载有反链上的基因。在 第三层环和第四层环上分别示出G+C含量和所述G+C偏斜。

表6列出犹他游动放线菌SE50-100基因组的一般特征。

特征                  基因组

总大小(bp)          9,122,632

G+C含量(%)          71.29

CDS数目               8,027

孤儿基因数目          434

编码密度(%)                     86.35

平均基因长度(bp)                985

rRNA数目                          4×16S-23S-5S

转座酶(transposease)基因数目    39

借助进一步的外部数据库搜索,最同源的基因和所述基因来源的生 物已被指定至每个开放阅读框。与上述详细注释一起,附表10列出每 个CDS的这些信息。

对于许多基因,将更详细的手工注释添加到了上述(半)自动信息 中。这些基因包括但不限于阿卡波糖簇的全部成员(Wehmeier and  Pipersberg,Appl.Microbiol.Biotechnol.,2004,63:613-625)、海藻糖簇 的全部成员(Lee et al.,Appl.Microbiol.Biotechnol.,2008,80:767-778) 以及某些类别的蛋白例如淀粉降解酶、淀粉合成酶、糖差向异构酶;参 与麦芽糖摄取、转运和代谢的基因;分泌蛋白;纤维素酶;和参与氮代 谢的基因;以及孢子生成相关基因和他们的蛋白翻译物。

犹他游动放线菌野生型菌株的代谢潜力

通过使用注释EC编号,分析犹他游动放线菌的代谢能力成为可能。 将EC编号映射至京都基因和基因组百科全书(Kyoto Encyclopedia of  Genes and Genomes(KEGG))的经典通路上揭示了有关中心代谢的所 有主要通路(例如糖酵解、TCA循环和戊糖-磷酸通路)的可用性。然 而,为了利用恩特纳-杜德洛夫通路(Entner-Dudoroff-pathway),对于 催化6-磷酸-D-葡萄糖酸成2-脱氢-3-脱氧-D-葡萄糖酸-6P,缺失关键酶 磷酸葡糖酸脱水酶。

犹他游动放线菌生产菌株的基因组测序

除了野生型菌株SE50-100以外,测序了最新的生产菌株 SN19910-37-21以及五个先前的菌株,目的是揭示这些菌株中导致阿卡 波糖产量增加的遗传差异。在基因组测序仪FLX(GS FLX)系统上测 序所述最新的菌株,而用基因组分析仪IIx(GA IIx)仅基于双末端测 序数据测序了所述先前的菌株。在表7中总结所述结果。总共测序了 56亿个碱基。

表7以阿卡波糖产量为顺序列出所有已测序的犹他游动放线菌生 产菌株。

突变菌株和野生型菌株之间遗传变异的鉴定

对先前完成的野生型基因组进行知识后件参考映射获得了全部六 个生产菌株的拼接。此外,可确定所述生产菌株和所述野生型菌株之间 的全部遗传变异。值得注意的是,没有发生大的缺失突变,因为所述野 生型基因组被源自所述生产菌株的读段基本完全覆盖。然而,在所述野 生型基因组和最新的生产菌株之间发现了1,826个单核苷酸多态性 (SNP)和128个缺失/插入多态性(DIP)。如表8所列的,引入每个 基因组的SNP的数目随着菌株开发的时间顺序而增加。在附表11中, 与生产菌株一起列出所有突变和它们的精确转换,这示出它们的首次出 现。

表8列出在所述相应生产菌株和野生型犹他游动放线菌基因组之 间检测到的单核苷酸多肽性(SNP)和缺失/插入多态性(DIP)的数目。

所述基于核苷酸转换的SNP不是高斯分布的,但显示出超过100 倍的对G→A和C→T两种转换的偏爱。图4描绘了这些发现。

图4示出野生型和最新的生产菌株之间SNP突变的转换频率。

通过对比已注释的基因座位和SNP和DIP引入的位臵,发现了如 图5中可见,在核苷酸水平上这些突变影响1,896个基因(23.62%)。 其中,376个基因仍编码相同的蛋白序列,仅有沉默突变。在另一方面, 816个基因的蛋白序列在个别位臵改变,大部分氨基酸序列未改变。然 而,704个剩余基因发生了改变其长度和/或阅读框的突变。详细地说, 429个基因被预测具有与野生型相比增加的长度,而275个基因变短了。

图5可视化了发生突变事件的1896个基因。在最外层环上,列出 正向基因。在第二层环上,描绘了反向基因。第三层环和第四层环分别

表示G+C含量和G+C偏斜。

中心代谢的修饰

受诱变事件影响的酶编码基因有可能对整体代谢以及具体通路(如 编码阿卡波糖形成的通路)有影响。因为这个原因,这些基因按照其 EC编号被映射至KEGG数据库的经典通路上,以鉴定由诱变实验引入 的功能丧失。虽然所述中心代谢的多个酶受SNP的影响,但是只有少 数基因发生可导致可能的功能丧失的突变。此外,对于它们中的每个严 重改变的基因,至少一个用相同EC编号注释的其他基因仍是可用的, 这可能帮助敲除掉的基因。

阿卡波糖簇的修饰和先前的生产菌株的用途

通过对先前的生产菌株进行测序,有可能通过它们被首次引入的菌 株的时间向后追踪突变。如图6描绘的,该分析对阿卡波糖簇的序列尤 其具有启发性。随着突变实验的进行,所述簇发生的13个SNP被贯序 引入。两个SNP被引入至基因acbW和acbV之间的基因间区。此外, 两个SNP被引入至acbD基因。所述acbD编码蛋白——一种阿卡维基 转移酶(acarviosyltransferase)——被认为在胞外空间用麦芽糊精装载 阿卡波糖,然后通过阿卡波糖输入蛋白复合体再输入。另一个突变位于 编码所述阿卡波糖输入蛋白复合体的主题(subject)结合蛋白的acbH 基因内。

图6示出所述阿卡波糖簇和在所描绘的先前的生产菌株的开发过 程中其中引入的突变

已鉴定COG类别的总结

表10示出犹他游动放线菌野生型菌株SE50-100的COG分类的基因的详 细信息。对于每个COG类别和它的子类别,列出注释基因的数目和绝对 百分比。

所有有注释的基因

表11列出犹他游动放线菌野生型菌株SE50-100的所有注释的基因

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号