首页> 中国专利> 鉴定具有相互作用的组分的生物分子的方法、系统和软件

鉴定具有相互作用的组分的生物分子的方法、系统和软件

摘要

本发明提供了用于快速并有效搜索生物学上相关的数据空间的方法。更特别地,本发明提供了用于从复杂的生物分子文库或多组此类文库的中鉴定具有期望的特性的生物分子或最适于获得此类特性的生物分子的方法。本发明还提供了用于对序列-活性关系建模的方法,包括但不限于递加或递减技术(stepwise?addition?or?substraction?techniques)、贝叶斯回归、集成回归(ensemble?regression)和其他方法。本发明还提供了用于执行本文提供的方法的数字化系统和软件。

著录项

  • 公开/公告号CN105144190A

    专利类型发明专利

  • 公开/公告日2015-12-09

    原文格式PDF

  • 申请/专利权人 科德克希思公司;

    申请/专利号CN201480018421.5

  • 发明设计人 格雷戈里·艾伦·科普;

    申请日2014-01-29

  • 分类号G06G7/58(20060101);

  • 代理机构11262 北京安信方达知识产权代理有限公司;

  • 代理人王思琪;郑霞

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-18 12:45:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-05-01

    授权

    授权

  • 2016-03-02

    实质审查的生效 IPC(主分类):G06G7/58 申请日:20140129

    实质审查的生效

  • 2015-12-09

    公开

    公开

说明书

相关申请的交叉引用

该申请基于35U.S.C.§119(e)要求2013年1月31日提交的题为“鉴定 具有相互作用的组分的生物分子的方法、系统和软件”的美国临时专利申请 号61/759,276和2013年3月15日提交的题为“使用乘法型模型(MODELOF MULTIPLICATIVEFORM)鉴定生物分子的方法、系统和软件”的美国临时 专利申请号61/799,377的权益,其被为了所有目的通过引用全部并入本文。

背景

本公开内容涉及分子生物学、分子进化、生物信息学和数字化系统的 领域。更具体地,本公开内容涉及用于通过计算预测生物分子的活性和/ 或指导定向进化的方法。还提供了用于执行这些方法的系统,包括数字化 系统和系统软件。本公开内容的方法在优化用于工业和治疗用途的蛋白方 面具备实用性。

蛋白设计长久以来被认为是艰巨的任务,只因为一个原因,构成可搜 索的序列空间的可能分子的激增。蛋白的序列空间是巨大的并且利用本领 域已知的现有方法不可能探索详尽。由于这种复杂性,很多近似的方法已 被用于设计更好的蛋白;其中首当其冲的是定向进化法。如今,蛋白的定 向进化被通过往往迭代进行的多种高通量筛选和重组方式来主导。

并行地,已提出了多种计算技术用于搜索序列-活性空间。虽然每种计 算技术在特定情况下具有优势,但是有效地搜索序列空间以鉴定功能性蛋 白的新方法是高度期望的。

概述

本公开内容展现了用于生成并利用序列-活性模型的技术,所述序列- 活性模型使用非线性项,特别是解释序列中的两个或更多个亚单位之间的 相互作用的项。序列-活性模型将生物分子的活性、特征或特性描述为多个 生物序列的函数。这些非线性项可以是涉及两个或更多个变量的乘法的“交 叉乘积”项,所述两个或更多个变量中的每一个代表参与相互作用的亚单位 的存在(或不存在)。一些实施方案涉及选择最佳地描述序列的活性的非线 性项的技术。注意,存在远多于亚单位之间存在的实际相互作用的可能的 非线性交互作用项。因此,为了避免过度拟合,通常只有有限数目的非线 性项被考虑并且所使用的那些非线性项应反映明显地影响活性的相互作 用。

本公开内容的一方面提供了制作序列-活性模型的方法,所述序列-活 性模型能够帮助鉴定具有增强的期望活性的生物分子,所述方法包括:(a) 接收针对多个生物分子的序列和活性数据;(b)由所述序列和活性数据制作 基础模型,其中所述基础模型将活性预测为序列的亚单位的存在或不存在 的函数;(c)通过对所述基础模型加上或减去至少一个新交互作用项来制作 至少一个新模型,其中所述新交互作用项代表两个或更多个相互作用的亚 单位之间的相互作用;(d)确定所述至少一个新模型将活性预测为亚单位的 存在或不存在的函数的能力;和(e)基于在(d)中确定的所述至少一个新模型 的预测活性的能力以及对添加新交互作用项的偏倚来决定是否对所述基 础模型加上或减去所述新交互作用项。然后所得到的模型可被用于多种应 用,诸如用于蛋白文库的定向进化以鉴定具有期望的生物活性和特性的蛋 白。

在一些实施方案中,其中所述方法确定了新的交互作用项应被添加至 基础模型以产生更新的模型,所述方法还包括搜索能进一步改进更新的模 型的另外的交互作用项的另外的步骤。特别地,所述方法包括:(f)使用更 新的模型代替基础模型来重复(c),并加上或减去与(c)中加上或减去的交互 作用项不同的交互作用项;以及(g)使用更新的模型代替基础模型来重复(d) 和(e)。在一些实施方案中,所述方法还包括(h)使用另外的更新的模型重复 (f)和(g)。在多个实施方案中,序列可以是完整的基因组、完整的染色体、 染色体片段、对于相互作用的基因的基因序列的集合、基因、核酸序列、 蛋白、多糖等。在一个或更多个实施方案中,序列的亚单位可以是染色体、 染色体片段、单体型、基因、核苷酸、密码子、突变、氨基酸、碳水化合 物(单体、二体、三体或寡聚)等。

在符合实施方案的一个或更多个实施方式中,提供了用于找出蛋白变 体文库中待被修饰的氨基酸残基的方法。在这些实施方案中,多个生物分 子构成蛋白变体文库的训练组(trainingset)。蛋白变体文库可包括来自多种 来源的蛋白。在一个实例中,成员包括天然存在的蛋白,诸如由一个基因 家族的成员编码的蛋白。在另一个实例中,序列包括通过利用基于重组的 多样性生成机制获得的蛋白。例如,可对编码用于该目的的一种或更多种 天然存在的亲本蛋白的全长或部分的核酸进行DNA片段化介导的重组、 合成的寡核苷酸介导的重组或其组合。又在另一个实例中,这些成员可通 过实施鉴定系统地变异的(systematicallyvaried)序列的实验设计(DOE)方案 获得。

在一些实施方案中,至少一个交互作用项是交叉乘积项,包含代表一 个相互作用残基的存在的一个变量和代表另一个相互作用残基的存在的 另一个变量的乘积。序列-活性模型的形式可以是至少一个交叉乘积项和一 个或更多个线性项的和,每个线性项代表蛋白变体文库的训练组中的可变 残基的作用。所述至少一个交叉乘积项可通过包括递加或递减多个项(而 不是置换)的多种技术从一组可能的交叉乘积项中选择。

在一个或更多个实施方案中,利用贝叶斯回归技术,包括交叉乘积项 的模型被应用至给定的数据,其中先前的知识被用于确定该模型的后验概 率分布。

在一个或更多个实施方案中,生成了两个或更多个新模型,其各自包 括至少一个不同的交互作用项。在此类实施方案中,所述方法还包括制作 基于两个或更多个新模型的集成模型。所述集成模型包括来自所述两个或 更多个新模型的交互作用项。集成模型根据所述两个或更多个新模型预测 感兴趣的活性的能力对交互作用项加权。

序列-活性模型可通过很多不同的技术由训练组产生。在某些实施方案 中,所述模型为回归模型,诸如偏最小二乘模型、贝叶斯回归模型或主成 分回归模型。在另一个实施方案中,所述模型为神经网络。

使用序列-活性模型鉴定固定的或变异的残基可涉及很多不同的可能 的分析技术中的任一种。在一些情形中,“参考序列”被用来定义变异。此 类序列可以是通过所述模型预测的具有期望活性的最高值(或多个最高值 中的一个)的序列。在另一种情形中,参考序列可以是初始蛋白变体文库的 成员。根据参考序列,所述方法可选择实现变异的子序列。另外地或可选 地,序列-活性模型按影响期望的活性的次序排列残基的位置(或处于特定 位置的特定残基)。

该方法的一个目的可以是为了生成新的蛋白变体文库。作为该过程的 一部分,该方法可鉴定待被用来生成该新的文库的序列。此类序列包括在 以上(e)、(g)或(h)中鉴定的残基上的变异,或者此类序列是被用来随后引入 这些变异的前体。这些序列可通过进行诱变或基于重组的多样性生成机制 来修饰以生成新的蛋白变体文库。这可形成定向进化程序的一部分。新的 文库还可被用于开发新的序列-活性模型。分析新的蛋白变体文库以评价对 特定活性,诸如稳定性、催化活性、治疗活性、对病原体或毒素的耐受性、 毒性等的影响。

在一些实施方案中,所述方法涉及选择用于产生新的蛋白变体文库的 一个或更多个成员。然后可在表达系统中合成和/或表达这些成员中的一个 或更多个。在特定的实施方案中,所述方法以以下方式继续:(i)提供表达 系统,新的蛋白变体文库的选定的成员可由该表达系统表达;以及(ii)表达 新的蛋白变体文库的该选定的成员。

在一些实施方案中,所述方法采用核苷酸序列产生这些模型并预测活 性,而不使用氨基酸序列。多组核苷酸例如密码子中的变异影响这些核苷 酸序列编码的多肽的活性。在一些实施方案中,所述模型可提供取决于所 采用的表达肽的宿主的对优先表达(与编码相同氨基酸的其他密码子相 比)的密码子的偏好。

本公开内容的另一方面涉及包括机器可读的介质的设备和计算机程 序产品,用于执行以上描述的方法和软件系统的程序指令和/或数据排列被 提供于所述机器可读的介质上。经常地,程序指令作为用于执行特定方法 的操作的代码提供。如果被用来实现本公开内容的特征,数据则可作为数 据结构、数据库表、数据对象或其他合适地设置的特定信息提供。本文描 述的任何方法或系统可整体地或部分地呈现为被提供在任何合适的机器 可读的介质上的此类程序指令和/或数据。

这些和其他特征在下文的详述中并且结合以下附图被更详细地描述。

附图简述

图1示出了用于制作序列-活性模型的常规逐步法。

图2是描绘生成一代或更多代蛋白变体文库的操作顺序的流程图,其 中所述操作利用序列活性模型,诸如图1中获得的那些序列-活性模型中之 一,指导蛋白变体文库的生成。所生成的变体文库可提供序列和活性数据 以制作一个或更多个新的序列-活性模型,形成被指导的进化的建模-搜索 循环。

图3A-3H是展示比较特定线性和非线性模型的预测性能力的实例的 图。

图4A-4B示出了实施递加和递减法来制作序列-活性模型的程序的流 程图。图4A示出了用于制作模型的递加法的特定实例;而图4B示出了用 于制作模型的递减法的特定实例。

图5根据一个实施方案示出了在序列变体的定向进化中执行贝叶斯回 归的程序的流程图。

图6根据一个实施方案示出了在序列变体的定向进化中执行集成回归 的程序的流程图。

图7是根据一个实施方案描绘生成蛋白变体文库的靴襻(bootstrap)p- 值法的流程图。

图8是示例性数字化装置的示意图。

详述

I.定义

除非本文另外定义,否则本文使用的所有技术和科学术语具有如本领 域普通技术人员通常理解的相同含义。包含本文包括的术语的多本科学词 典是本领域技术人员熟知并可获得的。与本文描述的方法和材料相似或等 同的任何方法和材料在本文公开的实施方案的实践中具备实用性。

通过整体地参考说明书更充分地理解下文紧接着定义的术语。这些定 义只是为了描述特定的实施方案并帮助理解本说明书中描述的复杂概念 的目的。这些定义并非意图限制本公开内容的全部范围。特别地,应理解, 本公开内容不限于所描述的特定序列、组合物、算法、系统、方法学、操 作说明和试剂,因为这些可根据本领域技术人员使用它们的背景而变化。

如本说明书和所附的权利要求书中使用的单数形式“一个(a)”、“一个 (an)”和“该(the)”包括复数的指代对象,除非该部分内容和上下文明确相反 指示。因此,例如,提及“一个装置(adevice)”包括两个或更多个此类装置 的组合,诸如此类。

除非另外指明,“或”的连接意图以其作为布尔逻辑算符的正确含义使 用,包括交替地选择特征(A或B,其中相互地,选择A则排除B)和一起 选择特征(A或B,其中A和B均被选择)。在该文本中的一些地方,术语“和 /或”被用于相同的目的,其将不应被解释为意味着,“或”被用来指相互排 除的选择项。

“生物分子(bio-molecule)”或“生物分子(biologicalmolecule)”指通常在 生物有机体中发现的分子。在一些实施方案中,生物分子包含具有多个亚 单位的聚合生物大分子(即,“生物聚合物”)。典型的生物分子包括但不限 于,与天然存在的聚合物诸如RNA(由核苷酸亚单位形成)、DNA(由核苷 酸亚单位形成)和肽或多肽(由氨基酸亚单位形成)共有一些结构特征的分 子,包括例如RNA、RNA类似物、DNA、DNA类似物、多肽、多肽类似 物、肽核酸(PNA)、RNA和DNA的组合(例如,嵌合体(chimeraplast))等。 不期望生物分子局限于任何特定的分子,因为任何合适的生物分子在本发 明中具备实用性,包括但不限于,例如,脂质、碳水化合物或由一种或更 多种遗传学上可编码的分子(例如,一种或更多种酶或酶通路)组成的其他 有机分子等。

术语“多核苷酸”和“核酸”指,脱氧核糖核苷酸或核糖核苷酸及其单链 或双链形式的聚合物(例如,寡核苷酸、多核苷酸等)。这些术语包括但不 限于单链、双链或三链的DNA,基因组DNA,cDNA,RNA,DNA-RNA 杂合体,包含嘌呤和嘧啶碱基的聚合物,和/或其他天然的、化学上或生物 化学上修饰的碱基、非天然的或衍生的核苷酸碱基。以下为多核苷酸的非 限制性实例:基因、基因片段、染色体片段、EST、外显子、内含子、mRNA、 tRNA、rRNA、核糖体、cDNA、重组多核苷酸、支化的多核苷酸、质粒、 载体、任何序列的分离的DNA、任何序列的分离的RNA、核酸探针和引 物。在一些实施方案中,多核苷酸包括修饰的核苷酸,诸如甲基化的核苷 酸和核苷酸类似物、尿嘧啶(uracyl)、其它糖类和连接基团诸如氟核糖 (fluororibose)和硫代酯(thioate)和/或核苷酸分支。在一些可选的实施方 案中,核苷酸的序列被非核苷酸组分中断。

除非被明确限制,该术语包括含有与参考核酸具有相似的结合特性并 且以与天然存在的核苷酸相似的方式被代谢的天然核苷酸的已知类似物 的核酸。除非另外指明,特定的核酸序列还隐含地包括其保守性修饰的变 体(例如,简并密码子的替换)和互补序列以及明确指示的序列。特别地, 简并密码子替换可通过生成其中一个或更多个选择的(或全部的)密码子的 第三位被混合碱基和/或脱氧肌苷残基取代的序列来实现(Batzer等人(1991) NucleicAcidRes.19:5081;Ohtsuka等人(1985)J.Biol.Chem.260:2605-2608; Rossolini等人(1994)Mol.Cell.Probes8:91-98)。术语核酸与例如寡核苷酸、 多核苷酸、cDNA和mRNA可互换地使用。

术语“蛋白”、“多肽”和“肽”在可互换地用来表示,不管长度或翻译后 修饰(例如,糖基化、磷酸化、脂质化、豆蔻酰化、泛素化等)如何,通过 酰胺键共价连接的至少两个氨基酸的聚合物。在一些情形中,所述聚合物 具有至少约30个氨基酸残基,并且通常至少约50个氨基酸残基。更通常 地,它们含有至少约100个氨基酸残基。这些术语包括常规被认为是全长 蛋白或肽的片段的组合物。D-氨基酸和L-氨基酸以及D-氨基酸和L-氨基 酸的混合物被包括在该定义内。本文所述的多肽不局限于遗传学编码的氨 基酸。事实上,除了遗传学编码的氨基酸,本文所述的多肽可以全部或部 分地由天然存在的和/或合成的非编码的氨基酸组成。在一些实施方案中, 多肽为全长的原型(ancestral)多肽或亲本多肽的一部分,与全长亲本多肽的 氨基酸序列相比包含氨基酸添加或缺失(例如,空位)或取代,同时仍然保 持功能活性(例如,催化活性)。

如本文所用,术语“纤维素酶”是指能够将纤维素(β-1,4-葡聚糖或β-D- 葡糖苷键)水解成较短的纤维素链、低聚糖、纤维二糖和/或葡萄糖的一类 酶。在一些实施方案中,术语“纤维素酶”包括β-葡糖苷酶、内切葡聚糖酶、 纤维二糖水解酶、纤维二糖脱氢酶、内切木聚糖酶、β-木糖苷酶、阿拉伯 呋喃糖酶、α-葡糖醛酸酶、乙酰基木聚糖酯酶、阿魏酸酯酶、和/或α-葡糖 醛酸酯酶(alpha-glucuronylesterase)。

在一些实施方案中,术语“纤维素酶”包括半纤维素水解酶,包括但不 限于内切木聚糖酶、β-木糖苷酶、阿拉伯呋喃糖酶、α-葡糖醛酸酶、乙酰 基木聚糖酯酶、阿魏酸酯酶和α-葡糖醛酸酯酶。“产生纤维素酶的真菌细 胞”为表达并分泌至少一种纤维素水解酶的真菌细胞。在一些实施方案中, 产生纤维素酶的真菌细胞表达并分泌纤维素水解酶的混合物。“分解纤维素 的”、“纤维素水解的”、“纤维素降解的”和相似的术语指协同地起到将纤维 素分解成可溶性二糖或低聚糖诸如纤维二糖(其然后被β-葡糖苷酶进一步 水解成葡萄糖)的作用的酶,诸如内切葡聚糖酶或纤维二糖水解酶(后者也 称为“外切葡聚糖酶”)。在一些实施方案中,纤维素酶为选自β-葡糖苷酶 (BGL)、1型纤维二糖水解酶(CBH1)、2型纤维二糖水解酶(CBH2)、糖苷 水解酶61s(GH61)和/或内切葡聚糖酶(EG)的重组纤维素酶。在一些实施方 案中,纤维素酶为选自β-葡糖苷酶(BGL)、1型纤维二糖水解酶(CBH1)、2 型纤维二糖水解酶(CBH2)、糖苷水解酶61s(GH61)和/或内切葡聚糖酶(EG) 的重组毁丝霉属(Myceliophthora)纤维素酶。在一些另外的实施方案中,纤 维素酶为选自EG1b、EG2、EG3、EG4、EG5、EG6、CBH1a、CBH1b、 CBH2a、CBH2b、GH61a和/或BGL的重组纤维素酶。

本文使用的术语“序列”指包括但不限于以下的任何生物序列的顺序和 身份:完整的基因组、完整的染色体、染色体片段、对于相互作用的基因 的基因序列的集合、基因、核酸序列、蛋白、多糖等。在一些背景中,序 列指蛋白中的氨基酸残基的顺序和身份(即,蛋白序列或蛋白字符串),或 指核酸中核苷酸的顺序和身份(即,核酸序列或核酸字符串)。序列可由字 符串表示。“核酸序列”指构成核酸的核苷酸的顺序和身份。“蛋白序列”指 构成蛋白或肽的氨基酸的顺序和身份。

“密码子”指三个连续的核苷酸的特定序列,其为遗传密码的一部分并 限定蛋白中的特定氨基酸或者蛋白合成的起始或终止。

“天然序列”或“野生型序列”指从天然存在的来源分离的多核苷酸或多 肽。具有与天然形式相同的序列的天然多肽或多核苷酸的重组形式被包括 在“天然序列”内。

术语“基因”被广泛地用来指DNA或与生物功能有关的其他核酸的任 何片段。因此,基因包括编码序列以及任选地其表达所需的调控序列。基 因还任选地包括,例如,形成其他蛋白的识别序列的未被表达的核酸片段。 基因可从多种来源获得,包括从感兴趣的来源克隆或从已知的或预测的序 列信息合成,并且可包含被设计为具有期望的参数的序列。

“基序”指在生物分子内或之间的亚单位形式。例如,术语“基序”可被 用来指,非编码的生物分子的亚单位形式或编码呈现的生物分子的亚单位 形式。

术语“染色体”被用来指细胞中存在的DNA及相关蛋白的有组织的结 构,包括含有许多基因、调控元件和其它核苷酸序列的单片缠绕的DNA。 该术语还被用来指具有结构的DNA序列。

“筛选”指确定一个或更多个生物分子的一个或更多个特性的方法。例 如,典型的筛选方法包括确定一个或更多个文库的一个或更多个成员的一 个或更多个特性的那些筛选方法。“表达系统”是用于表达由基因或其它核 酸编码的蛋白或肽的系统。

“宿主细胞”或“重组宿主细胞”指含有至少一个重组核酸分子的细胞。 因此,例如在一些实施方案中,重组宿主细胞表达在天然形式的(即,非重 组的)细胞内未发现的基因。

“定向进化”、“导向进化”或“人工进化”指通过人工选择、重组或其他 操作人工地改变一个或更多个生物分子的序列(或表示该序列的字符串)的 体外或体内方法。在一些实施方案中,定向进化发生在繁殖性群体中,其 中存在(1)个体差异,有一些差异是(2)可遗传的,其中一些差异(3)在适应 性(fitness)方面不同。繁殖成功通过选择预先确定的特性诸如有益特性的结 果来确定。繁殖性群体可以是例如,物质群体或计算机系统中的虚拟群体。

在某些实施方案中,定向进化方法通过重组编码亲本蛋白变体文库的 变体的基因来生成蛋白变体文库。所述方法可使用含有编码亲代变体文库 的蛋白的序列或亚序列的寡核苷酸。亲代变体文库的一些寡核苷酸可以是 密切相关的,只在选择替代性氨基酸的密码子方面不同,所述替代氨基酸 被选择为通过与其他变体重组而被改变。所述方法可被执行一个或多个循 环,直到实现期望的结果。如果使用多个循环,则每个循环包括筛选步骤 以鉴定待用于随后的重组循环的具有可接受表现的那些变体。

“重排”和“基因重排”指通过重组亲本多核苷酸的片段的集合通过一系 列链延伸循环来引入多样性的定向进化方法。在某些实施方案中,一个或 更多个链延伸循环是自引发的;即,除了片段自身之外不添加引物而进行。 每个循环包括,通过杂交使单链片段退火,随后通过链延伸延长退火的片 段,以及变性。在重排进程中,在有时被称作“模板转换”的过程中,增长 的核酸链通常暴露于多个不同的退火配偶体(partner)。如本文使用的,“模 板转换”指使来自一个核酸的一个核酸结构域与来自第二核酸的第二结构 域转换的能力(即,第一核酸和第二核酸在重排程序中充当模板)。

模板转换经常产生嵌合序列,所述嵌合序列因不同起源的片段之间的 交叉的引入造成。交叉通过转换的模板在多个循环的退火、延伸和变性期 间的重组产生。因此,重排通常导致变体多核苷酸序列的产生。在一些实 施方案中,变体序列构成变体的“文库”。在这些文库的一些实施方案中, 变体包含来自两个或更多个亲本多核苷酸的序列片段。

当使用两个或更多个亲本多核苷酸时,各个亲本多核苷酸是足够同源 的以使得来自不同亲本的片段在重排循环中使用的退火条件下杂交。在一 些实施方案中,重排允许具有相对有限的同源性的亲本多核苷酸重组。经 常地,各个亲本多核苷酸具有不同的和/或独特的结构域和/或感兴趣的其 他序列特征。当使用具有不同的序列特征的亲本多核苷酸时,重排可产生 高度多样性的变体多核苷酸。

多种重排技术在本领域是已知的。参见,例如,美国专利号6,917,882、 7,776,598、8,029,988、7,024,312和7,795,030,其都被通过引用全部并入 本文。

“片段”为核苷酸或氨基酸序列的任何部分。片段可利用本领域已知的 任何合适的方法产生,包括但不限于,裂解多肽或多核苷酸序列。在一些 实施方案中,片段通过使用裂解多核苷酸的核酸酶产生。在一些另外的实 施方案中,片段利用化学技术和/或生物合成技术生成。在一些实施方案中, 片段包含至少一个亲本序列的亚序列,所述亚序列利用互补核酸的部分链 延长生成。

“亲本多肽”、“亲本多核苷酸”、“亲本核酸”和“亲本”通常被用来指在 多样性生成程序诸如定向进化中用作起点的野生型多肽、野生型多核苷酸 或变体。在一些实施方案中,亲本本身经由重排或其他多样性生成程序产 生。在一些实施方案中,定向进化中使用的突变体与亲本多肽直接相关。 在一些实施方案中,亲本多肽在暴露于极端温度、pH和/或溶剂条件时是 稳定的并可充当生成用于重排的变体的基础。在一些实施方案中,亲本多 肽对于极端温度、pH和/或溶剂条件是不稳定的,并且亲本多肽被演变以 制备稳健的变体。

“亲本核酸”编码亲本多肽。

如本文使用的“突变体”、“变体”和“变体序列”指在一些方面与标准或 参考序列不同的生物序列。差异可被称为“突变”。在一些实施方案中,突 变体为已通过至少一个取代、插入、交换(cross-over)、缺失和/或其他遗传 操作被改变的氨基酸(即,多肽)序列或多核苷酸序列。为了本公开内容的 目的,突变体和变体不限于特定的产生所述突变体和变体的方法。在一些 实施方案中,突变体或变体序列与亲本序列相比具有增加的、减少的或基 本上相似的活性或特性。在一些实施方案中,变体多肽与野生型多肽(例如 亲本多肽)的氨基酸序列相比包含一个或更多个已突变的氨基酸残基。在一 些实施方案中,在变体多肽占多数时,与亲本多肽相比,所述多肽的一个 或更多个氨基酸残基被保持不变、是不变的、或未被突变。在一些实施方 案中,亲本多肽被用作生成具有提高的稳定性、活性或其他特性的变体的 基础。

“诱变”是将突变引入标准或参考序列,例如亲本核酸或亲本多肽的程 序。

“文库”或“群体”指至少两个不同分子、字符串和/或模型,诸如核酸序 列(例如,基因、寡核苷酸等)或来自其的表达产物(例如,酶或其他蛋白) 的集合。文库或群体通常包括很多不同的分子。例如,文库或群体通常包 括至少约10个不同的分子。大的文库通常包括至少约100个不同的分子, 更通常地至少约1000个不同的分子。对于一些应用,文库包括至少约10000 或更多个不同的分子。在某些实施方案中,文库包括通过定向进化程序产 生的很多变异或嵌合的核酸或蛋白。

当来自两种核酸的每一种的序列被组合在子代核酸中时,所述两种核 酸被“重组”。当两种核酸均是重组的底物时,所述两种核酸被“直接”重组。

“选择”是指,其中一种或更多种生物分子被鉴定为具有一种或更多种 感兴趣的特性的程序。因此,例如,技术人员可筛选文库以确定一个或更 多个文库成员的一种或更多种特性。如果一个或更多个该文库的成员被鉴 定为拥有感兴趣的特性,则其被选择。选择可包括对文库成员的分离,但 所述分离不是必需的。另外,选择和筛选可以并且经常是同时的。

“因变量”表示输出或结果,或者被测试以查看其是否是所述结果。“自 变量”表示输入或原因,或被测试以查看其是否是所述原因。因变量可被研 究以查看其是否随着自变量变化而变化以及变化多少。

在如下的简单的随机线性模型中:

yi=a+bxi+ei

其中,项yi是因变量的第i个值并且xi是自变量的第i个值。项ei被 称为“误差”且包含不由自变量解释的因变量的变异性。

自变量也被称为“预测变量”、“回归量”、“控制变量”、“操纵变量”、“解 释变量”或“输入变量”。

“正交的/正交性”指与模型中的其他自变量或其他关系不相关的自变 量。

术语“序列-活性模型”指描述一方面的生物分子的活性、特征或特性与 另一方面的多种生物序列之间的关系的任何数学模型。

术语“编码字符串”指对生物分子的一种表示方式,所述表示方式保存 了关于该分子的序列/结构信息。在一些实施方案中,编码字符串包含关于 变体文库中的序列突变的信息。生物分子的编码字符串连同生物分子的活 性信息可被用作序列活性模型的训练组。生物分子的非序列特性可被储存 或以其他方式与针对生物分子的编码字符串相关。

“参考序列”为从其产生序列变异的序列。在一些情形中,“参考序列” 被用来限定变异。此类序列可以是被模型预测为具有期望的活性的最高值 (或最高值中的一个)的序列。在另一种情形中,参考序列可以是原始蛋白 变体文库的成员。在特定实施方案中,参考序列为亲本蛋白或亲本核酸的 序列。

“训练组”指一个或更多个模型所符合或基于其建立的一组序列活性数 据或观察值。例如,对于蛋白序列-活性模型,训练组包括原始的或改进的 蛋白变体文库的残基序列。通常,这些数据包括完整的或部分的残基序列 信息,以及文库中每个蛋白的活性值。在一些情形中,在训练组中同时提 供有多种类型的活性(例如,速率常数数据和热稳定性数据)。所述活性有 时是有益的特性。

术语“观察值”是关于蛋白或其他生物实体的的信息,所述信息可被用 于训练组来生成诸如序列活性模型的模型。术语“观察值”可指任何测序的 且测定的生物分子,包括蛋白变体。在特定实施方案中,每个观察值是对 于文库中变体的活性值和相关序列。通常,生成序列-活性模型使用的观察 值越多,该序列-活性模型的预测力越好。

如本文使用的,术语“有益特性”意图指为蛋白或目的组合物或与蛋白 有关的方法提供某种益处的表型或其他可鉴定的特征。有益特性的实例包 括当与亲本蛋白比较时,变体蛋白的催化特性、结合特性、暴露于极端温 度、pH等时的稳定性、对刺激的敏感性、抑制力等特性的增加或降低。其 他有益特性可包括响应特定刺激改变的曲线。下文列出了有益特性的另外 的实例。有益特性的值可用作用于序列活性模型的训练组中使用的观察对 象的活性值。

“下一代测序”或“高通量测序”是使测序过程并行化的测序技术,一次 产生数千计或数百万计的序列。合适的下一代测序方法的实例包括但不限 于,单分子实时测序(例如,PacificBiosciences,MenloPark,California)、离 子半导体测序(例如,IonTorrent,SouthSanFrancisco,California)、焦磷酸测 序(例如,454,Branford,Connecticut)、连接测序(例如,SOLidsequencingof LifeTechnologies,Carlsbad,California)、合成测序和可逆性末端终止测序 (例如,Illumina,SanDiego,California)、诸如透射电子显微术的核酸成像技 术等。在本公开内容的详述中描述了对示例性技术的进一步说明。

“预测力”指一种模型在多种条件下正确地预测数据的因变量的值的能 力。例如,序列活性模型的预测力指模型由序列信息预测活性的能力。

“交叉验证”指,用于测试模型预测感兴趣的值(即自变量的值)的能力 的普遍性的方法。所述方法利用一组数据制作模型,并利用不同的一组数 据测试模型的误差。第一组数据被视为训练组,而第二组数据为验证组。

“系统方差”指以不同的组合被改变的一个项或一组项的不同描述符。

“系统地变化的数据”指由以不同的组合被改变的一个项或一组项的不 同描述符产生、推导或得到的数据。很多不同的描述符可同时但以不同的 组合被改变。例如,从其中氨基酸的组合已被改变的多肽收集的活性数据 是系统地变化的数据。

如本文使用的,术语“系统地变异的序列”指其中每个残基见于多种背 景的一组序列。原则上,系统变异的水平可通过序列彼此正交(即,与平均 值相比最大程度地不同)的程度来定量。

术语“切换(toggling)”指将多个氨基酸残基类型引入优化的文库中的蛋 白变体序列中的特定位置。

术语“回归”和“回归分析”指用来理解自变量中与因变量有关的那些自 变量,并被用来探索这些关系的形式的技术。在有限的情形中,回归分析 可被用来推导自变量和因变量之间的因果关系。它是用于估计变量之间的 关系的统计技术。当焦点是关于因变量和一个或更多个自变量之间的关系 时,其包括很多用于对若干个变量建模和分析的技术。更特别地,回归分 析帮助技术人员理解当任一个自变量变化而其他自变量保持固定时,因变 量的典型值(typicalvalue)如何改变。回归技术可被用于从包括多个观察值 的训练组生成序列活性模型,所述多个观察值可包括序列和活性信息。

偏最小二乘法或PLS是通过将预测变量(例如,活性)和可观察变量(例 如,序列)投射到新的空间而发现线性回归模型的方法族。PLS也被称为潜 在结构投射法。X(自变量)和Y(因变量)数据均被投射至新的空间。PLS被 用来找出两个矩阵(X和Y)之间的基本关系。潜在变量方法被用来对X和Y 空间中的协方差结构建模。PLS模型将尝试找出在X空间中的多维方向, 所述多维方向解释Y空间中的最大多维变化的方向。当预测器(predictor) 的矩阵具有比观察值更多的变量时并且当在X中存在多重共线性时,PLS 回归是特别适合的。

“描述符”指用来描述或辨识一个项的事物。例如,字符串中的字符可 以是该字符串表示的多肽中的氨基酸的描述符。

在回归模型中,因变量通过项的和与自变量相关。每个项包括自变量 和相关回归系数的乘积。在纯粹的线性回归模型的实例中,回归系数由以 下表达形式中的β表示:

yi=β1xi1+...+βpxipi=xiTβ+εi

其中yi是因变量,xi是自变量,εi是误差变量,并且T表示转置矩阵 (transpose),即向量xi和β的内积。

“主成分回归”(PCR)指估计回归系数时使用主成分分析的回归分析。在 PCR中,使用自变量的主成分,而不是直接将因变量对自变量回归。PCR 在回归中通常只使用主成分的子集。

“主成分分析”(PCA)指使用正交变换将可能相关的变量的一组观察值 转换成称为主成分的线性不相关的变量的一组值的数学程序。主成分的数 目小于或等于最初变量的数目。该转换以使得第一主成分具有最大的可能 方差(即,在数据中占尽可能多的变化性),并且每个之后的成分在其与之 前的成分正交(即,与之不相关)的约束下转而具有最高的可能方差的方式 被定义。

“神经网络”为含有互相连接的处理单元或“神经元”的组的模型,所述 处理单元或“神经元”使用联结法(connectionistapproach)计算处理信息。神 经网络被用来对输入和输出之间的复杂关系建模并被用来找出数据中的 模式。大多数神经网络以非线性、分散式、平行的方式处理数据。在大多 数情形中,神经网络是在学习阶段期间改变其结构的自适应系统(adaptive system)。处理元件统一且平行地执行多种功能,而不存在对被分配了多个 单元的子任务的清晰描述。

通常,神经网络包括简单处理单元的网络,所述网络呈现出通过处理 元件和元件参数之间的关系确定的复杂性整体行为。神经网络与被设计为 改变网络中的联系强度的算法一起使用以产生期望的信号流。所述强度在 训练或学习期间被改变。

“随机森林”指分类树预测因子的组合,使得每棵树依赖于独立取样的 随机向量的值,并且森林中所有的树具有相同的分布。随机森林是由在决 策树的每个分叉处具有随机选择特征的许多未修剪的学习决策树组成的 学习整体。随机森林生长出大量的分类树,每个分类树对最受欢迎的类别 投票。然后随机森林通过从森林中的所有预测树中选取最受欢迎的投票类 别来对变量分类。

具有不确定的量p的“先验概率分布”或“先验”是在感兴趣的数据(例 如,蛋白序列的训练组)被考虑之前表示关于p的不确定性的概率分布。未 知的量可以是参数、系数、变量、潜在变量等(例如,多元回归模型中的系 数)。

不确定的量p的“后验概率分布”或“后验”是在感兴趣的数据被考虑之 后表示关于p的不确定性的概率分布。

术语“贝叶斯线性回归”指,其中在贝叶斯推理的背景中进行统计分析 的线性回归方法。将关于线性回归模型的先验知识(priorbelief),包括模型 参数的先验概率分布函数与根据贝叶斯定理的数据的似然函数结合以获 得关于参数的后验概率分布。

“过度拟合”指当统计模型描述随机误差或噪声时,而不是描述潜在关 系时发生的情况。过度拟合通常发生当模型极度复杂时,诸如相对于观察 对象的数目具有太多的参数。已被过度拟合的模型通常将具有差的预测性 能,因为其会夸大数据中的小幅波动。在一些实施方案中,数学模型被用 来描述一个或更多个自变量(IV)和一个因变量(DV)之间关系。该模型可被 写为DV=IV的代数表达式。“代数表达式”可包括变量、系数、常数和运算 符号,诸如加号和减号。4x2+3xy+7y+5为二变量代数表达式。

在一些实施方案中,代数表达式或数学模型的“项”为被加号或减号隔 开的元素。在该上下文中,以上实例具有四个项4x2、3xy、7y和5。项可 由变量和系数(4x2、3xy和7y)或常数(5)组成。在代数表达式中,变量可具 有多个值来表示系统的变化情况。例如,其可以是表示行驶中的汽车的速 度的连续变量,或表示氨基酸类型的具有多个非连续值的离散变量。变量 可以是表示实体的存在或不存在,例如特定位置处特定类型的残基的存在 或不存在的比特值变量。在以上代数表达式中,变量为x和y。

在一些实施方案中,表达式的“项”可以是表达式的由其他符号诸如由 乘号划分开的元素。

“系数”指被因变量或含有因变量的表达式乘的标量值。在以上实例中, “系数”为代数表达式中的项的数字部分。在4x2+3xy+7y+5中,第一项 的系数为4。第二项的系数为3,且第三项的系数为7。如果一个项只由变 量组成,则其系数为1。

“常数”为在代数表达式中只含有数字的项。即,其为无变量的项。在 表达式4x2+3xy+7y+5中,常数项为“5”。

“线性项”为具有1的次的项,或升至1的幂的单变量。在以上实例中, 项7y为线性项,因为其次为1(y1或仅y)。与之相比,项4x2是二次项,因 为x具有2的次,并且3xy为二元二次项,因为x和y各自具有1的次, 乘积导致2的次。

在文本的一些地方,“线性项”和“非交互作用项”在本文可互换使用来 指回归模型的包含单自变量和相关系数的乘积的项,其中单个IV表示单 个残基的存在/不存在。

在一些实施方案中,当“非线性项”、“交叉乘积项”和“交互作用项”指 包含回归模型的两个或更多个自变量和相关系数的乘积的项时,它们在本 公开内容中可互换使用。更通常地,“非线性项”被用来指示具有多于或少 于1的次的项,例如自变量的幂函数或指数函数。非线性项的一些实例包 括xy、x2、x1/3、xy和ex。因此,在该文本的一些地方,“非线性项”涉及比 包括两个自变量的乘积的项更广的含义。

在一些实施方案中,交互作用项可体现为包括两个或更多个IV的非 线性函数的项,所述非线性函数例如乘积函数、幂函数或两个或更多个IV 的指数函数,每个IV表示在特定位置处特定类型的残基的存在。例如, 在y=ax1+bx2+cx1x2中,变量x1和x2可表示在一个特定位置处两个特定 残基的存在/不存在,并且项cx1x2为表示两个特定残基的相互作用的影响 的交互作用项。在其他实施方案中,交互作用项可体现为包括表示两个或 更多个残基的相互作用的单IV的项。例如,在y=ax1+bx2+cz中,变量 x1和x2可表示在特定位置处两个特定残基的存在/不存在,并且项cz为表 示这两个特定残基的相互作用的影响的交互作用项。在该在后的实例中, 交互作用项cz不是交叉乘积项。尽管在技术上cz为线性项,但是其在本 文中不被如此标记以避免与线性项、非线性项ax1和bx2混淆。如本公开内 容使用的,术语“线性模型”指只包括线性项的模型。与之相比,术语“非线 性模型”指包含线性和非线性项两者的模型。在一些实施方案中,非线性模 型包括以交叉乘积项体现的交互作用项。

更通常地,线性模型或线性系统满足次1的叠加原理和齐次性。叠加 原理规定,对于所有的线性系统,在给定的地点和时间由两个或更多个刺 激引起的净响应是每个刺激单独引起的响应的和。这也被称为相加性。如 果输入A产生响应X,而输入B产生响应Y,那么输入(A+B)产生响应 (X+Y)。次1的齐次性指,其输出或因变量(DV)随其输入或自变量成比例 地改变的任何模型。相反地,“非线性模型”是不满足次1的叠加原理或齐 次性的模型。

“相互作用亚单位”指对序列的模拟活性具有协同作用的该序列的两个 或更多个亚单位,所述协同作用区分且不同于亚单位对模拟活性的单独影 响。

术语“基础模型”被用来指,在改进模型的过程开始时提供的序列-活性 模型。

术语“更新的模型”被用来指,从基础模型直接或间接地获得的序列- 活性模型,其与基础模型和/或其所来源的另一个模型相比具有提高的预测 力。

模型的“似然函数”或“似然性”为统计模型的参数的函数。提供某些观 察结果的一组参数值的似然性等于提供那些参数值的那些观察结果的概 率,即L(θ|x)=P(x|θ)。

“蒙特卡罗模拟”为依赖大量的随机抽样获得模仿真实现象的数值结果 的模拟。例如,从区间(0,1]抽取大量的伪随机均匀变量,并将小于或等于 0.50的值指定为正面而将大于0.05的值指定为反面,是对重复掷硬币行为 的蒙特卡罗模拟。

“Metropolis算法”或“Metropolis–Hastings算法”为用于从概率分布获得 随机样品的序列的马尔可夫链蒙特卡罗(MCMC)法,对于概率分布,直接 抽样是困难的。该抽样序列可被用来估计所述分布(即,生成直方图),或 用来计算积分(例如,期望值)。Metropolis–Hastings或其他MCMC算法通 常被用于从多维分布中抽样,特别是当维数高时。Metropolis–Hastings算 法的目的是,渐进地生成根据期望分布P(x)的状态x并利用随机过程实现 它。该算法的思想是调节该随机过程以使得其渐进地收敛至独特的分布 P(x)。

“马尔可夫链”是具有马尔可夫特性的随机变量X1,X2,X3...的序列。换 言之,给定当前状态,则未来和过去状态是独立的。形式上是,

Pr(Xn+1=x|X1=x1,X2=x2....,Xn=xn)=Pr(Xn+1=x|Xn=xn).

Xi的可能值形成称为链的状态空间的可计算组S。“马尔可夫链”系统 是在有限的或可计算数目的可能状态之间经历从一个状态转换成另一个 状态的数学系统。它是通常表征为无记忆的随机过程:下一个状态只取决 于当前的状态而不取决于其之前的事件的序列。

“赤池信息量准则”(AIC)是对统计模型的相对拟合优度的测量,并且其 经常被用作在有限组的模型中选择模型的标准。AIC建立在信息熵的概念 上,事实上当给定的模型被用来描述真实性时提供对信息丢失的相对测 量。其可被说成是描述模型结构中偏差和方差之间的权衡,或不严格地讲, 模型的准确性和复杂性之间的权衡。AIC可如以下被计算: AIC=-2logeL+2k,其中L是函数的最大似然性且k是待建立的模型的自由 参数的数目。

“贝叶斯信息准则”为在有限组的模型中选择模型的准则,且与AIC紧 密相关。BIC可按照下式计算:BIC=-2logeL+kloge(n),其中n为数据观察 值的数目。由于观察值的数目增加,BIC往往比AIC对更多的自由参数的 额外数目罚分。

“遗传算法”是模仿进化过程的程序。遗传算法(GA)被用于很多领域来 解决未被完全表征或太复杂以致不能被完全表征的问题,但是对于所述问 题一些分析评价是可获得的。即,GA被用来解决可通过一些对解的相对 值(或至少一个可能的解相对于另一个解的相对值)的定量测量来评价的问 题。在本公开内容的上下文中,遗传算法为在计算机中选择或操作字符串 的过程,通常其中该字符串对应于一个或更多个生物分子(例如,核酸、蛋 白等)。

术语“遗传操作”(或GO)指生物的和/或计算的遗传操作,其中任何类 型的字符串的任何群体中(以及由此而来的由此类字符编码的物理对象的 任何物理特性中)的所有改变可被描述为随机和/或预先确定地应用有限组 的逻辑代数函数的结果。GO的实例包括但不限于扩增、交换、重组、突 变、连接、片段化等。

“集成模型”为其项包括一组模型的所有项的模型,其中集成模型的项 的系数基于该组中的各个模型的相应项的加权系数。系数的加权基于各个 模型的预测力和/或符合度。

II.生成改进的蛋白变体文库

在探索蛋白序列的引导型进化方法中,序列-活性模型被用来引导蛋白 变体的生成。本公开内容的一方面提供了用于制备序列-活性模型的多种方 法,所述多种方法基于蛋白文库并可用来搜寻新的且改进了的蛋白文库。 该部分首先提供了用于搜寻新的且改进了的蛋白的方法的概览,然后提供 了与选择起始文库、建立序列-活性模型和使用该模型引导新蛋白的探索有 关的问题的进一步的细节。

该公开内容提供了涉及氨基酸残基序列和蛋白活性的示例性实例,但 应当理解,本文描述的方法还可对其他生物序列和活性实施。例如,在多 个实施方案中,序列可以是完整的基因组、完整的染色体、染色体片段、 对于相互作用的基因的基因序列的集合、基因、核酸序列、蛋白、多糖等。 在一个或更多个实施方案中,序列的亚单位可以是染色体、染色体片段、 单倍型、基因、核苷酸、密码子、突变体、氨基酸、单体碳水化合物、二 聚碳水化合物、三聚碳水化合物或寡聚碳水化合物等。

通常,在特定的一轮序列定向进化的开始,获得待测序或测定的蛋白 变体的训练组。既定的一轮定向进化产生很多变体蛋白,所述变体蛋白与 该轮定向进化开始时使用的亲本肽或多个亲本肽相比发生一个或更多个 突变而不同。测定该轮定向进化期间产生的变体蛋白的活性。选择具有期 望的活性和/或与亲本肽相比具有提高的活性的那些肽被用于至少另外的 一轮定向进化。

被测序和测定的蛋白变体还可用来制作序列-活性模型。通常,如果事 实上对它们进行测序,则它们将被用于序列活性模型。每个被测序和测定 的蛋白变体被称为“观察对象”。通常,生成序列-活性模型使用的观察对象 越多,该序列-活性模型的预测力越好。

在下一代大规模平行测序技术出现之前,经济地对任何一轮定量进化 中产生的多于10至30个变体肽测序是困难的。现在随着下一代测序的应 用,在一轮定向进化中产生的许多更多的变体蛋白可被测序。结果,可使 用大得多的训练组数据的集制作序列活-性模型。现在,序列活性模型可使 用这样的训练组产生,其不仅包括一轮中表现最好的肽,而且包括进一步 的多轮定向进化不感兴趣但是其序列活性信息可被应用于制作更稳健的 序列活性模型的一些肽。

在一些实施方案中,通常期望制作具有良好的预测任意序列的活性的 能力的序列-活性模型。预测力可通过预测的精确性以及模型精确地预测活 性的一致性来表征。另外,可通过其在宽广范围的序列空间精确地预测活 性的能力来表征模型。例如,预测力可根据对于肽的给定的测试和/或验证 组,计算的和实际的活性之间的残差(residual)来表征。具有较高的普遍性 预测力的模型往往遍布不同的验证数据组产生较小且更一致的残差。与测 试数据组过度符合的模型往往对于验证数据产生较大且不太一致的残差, 如通过以下实例表明的。本公开内容的一方面提供了有效地找出遍布不同 的数据组具有高的预测力的模型的方法。

A.搜寻改进的蛋白变体的程序的概述

如本文描述的序列-活性模型可被用来协助鉴定经历定向进化的起始 变体文库中的一个或更多个亲本“基因”。在一轮进化进行之后,鉴定新的 变体文库,提供新的一组观察值,然后新的一组观察值可作为数据反馈以 制作新的或精化的序列-活性模型。这种在基于新的观察值制作序列-活性 模型和基于序列-活性模型进行定向进化之间交替的程序可形成建模-探索 的迭代循环,该程序可被重复直到得到期望的蛋白和文库。

由于序列-活性模型和变体文库之间的反馈循环,在探索具有改进的活 性的蛋白中,更好的模型和更好的变体文库彼此依赖。因此,建模和/或测 序领域的瓶颈和改进可影响到这两个领域。在本发明的一些实施方案中, 因更好的建模技术得到的建模效率的改进提供更好的模型以引导序列探 寻。在一些实施方案中,下一代测序技术被用来改进体外(invitro)测序速 率,以及被用来提供交叉验证数据以经由计算机模拟(insilico)改进计算模 型。

在本发明的一些实施方案中,有用的序列-活性模型需要稳健的数学建 模技术和大量的“观察值”。这些观察值是训练组中提供的用于模型的数据。 特别地,每个观察值是文库中变体的活性值和相关序列。在过去,测序是 开发大的训练组的限制步骤,并且因此也是开发更加稳健的序列-活性模型 的限制步骤。在目前通常使用的方法中,生成了可能具有数以百计的变体 的变体文库。但是,事实上这些变体中只有少部分被测序。在一轮典型的 定向进化中,事实上只有具有最高活性的约10至30个变体被测序。理想 地,文库中更大比例的变体会被测序,包括具有相对低的活性的一些变体。 下一代测序工具已经大大改进了测序速率,使得在训练组中包括低活性的 变体和高活性的变体成为可能。在一些实施方案中,包括具有一定范围的 活性水平的变体导致产生表现更好的模型和/或在对宽广范围的序列和活 性空间的预测能力方面更好的模型。

本文提及的一些线性序列-活性回归模型包括不同的残基作为自变量 来预测任何感兴趣的活性。这些线性序列-活性回归模型不包括解释两个或 更多个残基之间的相互作用的项。如果两个残基之间的相互作用对活性具 有协同作用,那么线性模型可提供与这两个相互作用残基相关的系数的人 为地夸大的值。结果,使用模型工作的人员可能错误地得出结论,通过简 单地按照相对高的系数值建议的进行残基取代,得到的肽的活性将高于预 期。这是因为,由于使用线性模型,研究者不能理解,与残基取代关联的 增加的活性主要是该取代与另一取代相互作用的结果。如果研究者理解了 这种相互作用的重要性,那么他或她会同时进行这两个取代并得到线性模 型所暗示的活性的增加。

如果两个残基相互作用以非线性方式抑制活性,那么线性模型将比如 果以单纯地彼此分离的方式考虑这两个残基将会是适当的值低的值归因 于与这两个残基有关的系数。换言之,对于相互作用的残基进行一种取代 而不进行另一个将产生比线性模型所暗示的大的活性的结果。

由于当残基间相互作用对活性具有强烈影响时,线性模型可能是不恰 当的,所以具有解释残基间的相互作用的非线性交互作用项的非线性模型 对于活性的精确预测经常是必需的。然而,利用非线性项的模型提出了计 算方面的挑战和对经验主义的挑战。最值得注意的是,在开发/利用模型方 面存在有许许多多可能的交互作用项要考虑,这需要相当大量的计算。更 大的限制是,制作具有相当数量的残基-残基交互作用项的模型所需的观察 值的潜在数目。另外,给定特定数目的可得的观察值,对于模型创建技术 可能存在过度拟合数据的倾向。为了解决该挑战,谨慎地选择并限制序列 -活性模型中提供的交互作用项是很多模型的开发中重要考虑的。

图1展示了,显示制作序列-活性模型的程序的一种实施方式的流程 图。如所描绘的,程序100在提供变体基因的序列和活性数据(“观察值”) 的模块103处开始。序列数据可例如从包含原始的或改进的蛋白变体文库 的残基序列的训练组获得。通常,这些数据包括完整的或部分的残基序列 信息,以及文库中每个蛋白的活性值。在一些情形中,多种类型的活性(例 如,速率常数数据和热稳定性数据)被共同提供在训练组中。由期望的结果 确定的其他的数据来源也可被考虑。一些合适的数据来源包括但不限于, 描述与正在构建的序列活性模型有关的特定肽的信息的参考文献。另外的 信息来源包括但不限于同一项目中的较早的或不同的多轮定向进化。事实 上,期望的是(利用任何合适的方法,包括但不限于本文提供的那些方法) 源自先前的多轮定向进化的信息将在后期产生的文库、变体等的开发方面 具备实用性。

在很多实施方案中,蛋白变体文库的个体成员体现大量的序列和活 性。这有利于生成在序列空间的广泛区域可应用的序列-活性模型。用于生 成如此多样化的文库的技术包括但不限于蛋白序列的系统变异和如本文 描述的定向进化技术。但是,在一些可选的实施方案中,从特定基因家族 (例如,在多个物种或有机体中发现的特定激酶)的基因序列产生模型是期 望的。由于在该家族的所有成员中很多残基将是相同的,该模型仅描述变 异的那些残基。因此,在一些实施方案中,基于此类相对小的训练组(与 所有可能变体的组相比)的统计模型在局部上是有效的。即,这些模型只 对给定变体的给定观察值有效。在一些实施方案中,目标不是找到全部符 合的函数,因为应认识到,在一些模型中,这超出了所考虑的模型系统的 能力和/或需要。

活性数据可利用本领域已知的任何合适的方法获得,包括但不限于被 得当地设计以计算感兴趣的一种活性/多种活性的量级(magnitude)的测定 和/或筛选方法。此类技术是熟知的并且对于本发明不是必需的。设计合适 的测定或筛选方法的原理是本领域广泛理解和知晓的。用于获得蛋白序列 的技术也是熟知的且对于本发明不是关键的。如所提到的,可使用下一代 测序技术。用在本文描述的实施方案上的活性可以是蛋白的稳定性(例如, 热稳定性)。但是,很多重要的实施方案考虑其他的活性诸如催化活性、对 病原体和/或毒素的抗性、治疗活性、毒性等。事实上,不期望本发明被限 制于任何特定的测定/筛选方法和/或测序方法,因为本领域已知的任何合 适的方法在本发明中具备实用性。

在已生成或获得训练组数据之后,所述程序利用它生成将活性预测为 序列信息的函数的基础序列活性模型。参见模块105。该模型当被提供以 特定蛋白的序列信息时,其是预测该蛋白的相对活性的方程式、算法或其 他工具。换言之,蛋白序列信息是输入,而活性预测是输出。在一些实施 方案中,基础模型不包括任何交互作用项。在此类情形中,基础模型可被 描述为“线性模型”。在其他实施方案中,基础模型包括所有可获得的交互 作用项,在该情形中,基础模型可被描述为非线性模型或交互作用模型。

对于很多实施方案,基础模型可对多个残基对活性的贡献排序。下文 讨论了全部落在机器学习的范畴之下的产生此类模型的方法(例如,偏最小 二乘回归(PLS)、主成分回归(PCR)和多元线性回归(MLR)、贝叶斯线性回 归),以及自变量的形式(序列信息)、因变量的形式(活性)和模型自身的形 式(例如,线性一阶表达式)。

产生基础序列活性模型之后,所述程序对基础模型项迭代地加上或减 去来自可用的交互作用项的集合的交互作用项,并评价所得到的新模型相 比基础模型的改进以产生最终模型。参见模块107。当基础模型包括所有 可用的交互作用项时,所述程序以逐步的方式减去这些项。当基础模型不 包括交互作用项时,所述程序以逐步的方式加上这些项。

在评价新的模型时,本公开内容的方法不只考虑了模型对于给定的一 组数据考虑的方差,还考虑了该模型预测新数据的能力。在一些实施方案 中,该模型的选择途径对与具有较少系数/参数的模型相比具有较多系数/ 参数的等同模型罚分,以避免将该模型过度符合到给定的数据组。选择方 法的实例包括但不限于赤池信息量准则(AIC)和贝叶斯信息准则(BIC)及其 变化形式。

在一系列嵌套模型中,如在具有渐进地多于基础模型的交互作用项(和 相关系数)的回归模型中,即使额外的系数是假的,较复杂的模型也提供与 较简单的模型同样好或比之更好的拟合,因为较复杂的模型享有额外的自 由度。本公开内容的某些实施方案采用在拟合优度的增益超过被假参数的 消耗所抵消的程度上对较复杂的模型的模型选择方法罚分。

下文展示了按照模块105和107中的运算产生序列-活性模型的示例性 算法。此类技术包括但不限于对模型中包括另外的交互作用项有偏倚的逐 步技术(step-wisetechniques)。但是,不期望本公开内容被限制于这些特定 的实例。

在一方面,本公开内容提供了制作能有助于鉴定影响期望的活性的生 物分子的序列活性模型的方法。在一些实施方案中,所述方法包括:(a)接 收针对多个生物分子的序列数据和活性数据;(b)根据序列数据和活性数据 制作基础模型,其中所述基础模型将活性预测为序列的亚单位的存在或不 存在的函数;(c)通过对所述基础模型加上或减去至少一个新的交互作用项 来制作至少一个新模型,其中所述新的交互作用项代表两个或更多个相互 作用的亚单位之间的相互作用;(d)确定所述至少一个新模型将活性预测为 亚单位的存在或不存在的函数的能力;和(e)基于在(d)中确定的所述至少一 个新模型的预测活性的能力以及对添加所述新的交互作用项的偏倚来决 定是否对所述基础模型加上或减去所述新交互作用项。然后所得到的模型 可被用于多种应用,诸如用于蛋白文库的定向进化以鉴定具有期望的生物 活性和特性的蛋白。

在一些实施方中,其中所述方法确定了新的交互作用项应被添加至基 础模型以产生更新的模型,所述方法还包括:(f)使用更新的模型取代基础 模型重复(c),并加上或减去与(c)中加上或减去的交互作用项不同的交互作 用项;以及(g)使用更新的模型取代基础模型重复(d)和(e)。在一些实施方案 中,所述方法还包括:(h)利用进一步更新的模型重复(f)和(g)。

在选择用于训练组的观察对象并选择用于产生序列-活性模型的数学 技术之后,基础模型被创建。基础模型的制备通常不考虑其预测能力。如 本文所描述的,其按照用于从可用的多个观察对象(即,观察对象组)产生 基础模型所定义的程序简单地产生。如以上指出的,序列模型可描述多种 序列,虽然在一些实施方案中,该模型描述了蛋白。在后一种情形中,基 础模型仅仅是具有针对用于生成训练组的肽的集合中存在的每个突变的 一个项的线性模型。在这些实施方案中,基础模型不包括任何代表肽中的 残基之间的相互作用的项。在一些实施方案中,基础模型不包括单独的针 对观察组中存在的每个和各个突变的项。

在替代性方法中,基础模型不仅包括孤立地描述每个突变的项,还另 外地包括针对所有潜在的相互作用残基的项。在极端的情形中,所指出的 突变之间的每个可想到的相互作用被用于基础模型。这包括针对突变之间 的每种和各种成对相互作用的项,以及针对每个和各个可能的三残基相互 作用的项,以及针对各个可能的四残基相互作用的项等。一些实施方案只 包括成对相互作用,或包括成对相互作用和三向相互作用。三向相互作用 为三个不同的亚单位之间的影响活性的相互作用。

在使用简单线性模型作为基础模型的一个或更多个实施方案中,随后 的改进该模型的努力包括添加代表不同的相互作用的新的项。在替代性实 施方案中,其中基础模型包括所有的线性和非线性项,随后改进该模型的 努力包括选择性地去除一些非线性、交互作用项。

在本发明的一个或更多个实施方案中,改进基础模型的程序在确定所 得到的模型是否充分地改进了该模型的质量时包括对基础模型迭代地加 或减交互作用项。在每个迭代中,当前模型的预测力被确定并与另一个模 型例如基础模型或更新的模型相比较。

在预测力的测量已经考虑了模型推广到其他数据组的能力的实施方 案中,单独的该测量即可确定候选模型是否应被选择。例如,诸如AIC或 BIC的测量考虑模型的似然性(或剩余误差)和参数数目两者。模型的“似然 函数”或“似然性”是统计模型的参数的函数。提供一些观察结果的一组参数 值的似然性等于提供那些参数值的那些观察结果的概率,即L(θ|x)= P(x|θ)。模型似然性的示例性计算被描述下文以下的一个部分。如果具有较 多参数的模型捕获与具有较少参数的模型相同量的数据差异性,则诸如 AIC和BIC的测量偏倚具有较多参数的模型。如果预测力的测量只考虑剩 余误差,那么剩余误差改进的量级必须被考虑以确定是否将与当前迭代相 关的改变整合到目前最佳的更新的模型中。这可通过将改进的量级与阈值 相比来完成。如果量级小于阈值,则在当前迭代中正在考虑的改变不被接 受。可选地,如果改进的量级超过阈值,那么正在考虑的改变被整合到更 新的模型中并且所述更新的模型充当新的最佳模型继续用于剩余的迭代。

在某些实施方案中,每个迭代考虑对正在考虑的当前最佳模型加或减 单一迭代项。在相加模型的情形中,即基础模型只包含线性项的情形,所 有可用的交互作用项的集可被考虑。这些交互作用项中的每一个被连续地 考虑,直到所述程序完成并最终获得最佳模型。

在一些情形中,在确定所述程序已经有效地收敛并且不可能进一步改 进之后,所述模型生成程序终止于所述集中的所有可用的交互作用项被考 虑之前。

图2示出了在一个程序(参见,200)中,为了探索蛋白序列和活性空间 的目的,模型如何能够被反复地用于引导新的蛋白变体文库的创建。在最 终的模型产生之后,该最终模型被用于鉴定被预测为影响活性的多个残基 位置(例如,位置35)或特定的残基值(例如,在位置35处的谷氨酸)。参见 模块207。除了鉴定此类位置之外,该模型可被用来对这些残基位置或残 基值基于其对期望的活性(多种活性?)的贡献“排序”。例如,该模型可预 测位置35处的谷氨酸对活性具有最显著的、积极的影响;位置208处的 苯丙氨酸对活性具有第二最显著的、积极的影响等。在下文描述的一种特 定方法中,PLS或PCR回归系数被采用对特定残基的重要性排序。在另一 种特定的方法中,PLS荷载矩阵被用来对特定残基位置的重要性排序。

在所述程序已鉴定到影响活性的残基之后,它们中的一些被选择用于 如在模块209所示(图2)的变异。这是为了探索序列空间的目的而进行的。 残基使用很多不同的选择方案中的任一种方案来选择,下文描述了这些方 案中的一些方案。在一个例证性实例中,被预测为对活性具有最有利的影 响的特定残基被保留(即,未变异的)。然而,一定数目的被预测为具有较 小影响的其他残基被选择用于变异。在另一个例证性实例中,发现对活性 具有最大影响的残基位置被选择用于变异,但是只在其被发现在训练组的 高表现成员中不同时。例如,在该方法中,如果所述模型预测残基位置197 对活性具有最大的影响,但是所有的或大多数的具有高活性的蛋白在该位 置具有亮氨酸,则位置197不被选择用于变异。换言之,下一代文库中所 有的或大多数蛋白会在位置197处具有亮氨酸。但是,如果一些“好的”蛋 白在该位置处具有缬氨酸但是其他的蛋白具有亮氨酸,那么该程序会选择 改变该位置处的氨基酸。在一些情形中,会发现两个或更多个相互作用残 基的组合对活性具有最大影响。因此,在一些策略中,这些残基是被共同 改变的。

在鉴定了用于变异的残基后,所述方法接下来产生具有指定的残基变 异的新的变体文库。参见模块211(图2)。多种方法学可用于该目的。在一 个实例中,进行基于体外或体内重组的多样性生成机制产生新的变体文 库。这些程序可使用含有用于编码亲代变体文库的蛋白的序列或亚序列的 寡核苷酸。这些寡核苷酸中的一些是密切相关的,只是在选择被选定的用 于在209处的改变的替代氨基酸的密码子的方面不同。基于重组的多样性 生成机制可进行一个或多个循环。如果使用多个循环,则每个循环都包括 筛选步骤以鉴定哪些变体具有待用于随后的重组循环的可接受的表现。这 是一种形式的定向进化。但是,不期望本发明被局限于基于重组的多样性 生成方法的任何特定方法,因为任何合适的方法/技术在本发明中具备实用 性。

在另外的例证性实例中,选择“参考”蛋白序列并且在图2的209处被 选择的残基被“切换”以鉴定变体文库的各个成员。如此鉴定的新蛋白通过 适当的技术合成以产生新的文库。在一个实例中,参考序列可以是训练组 的表现最佳的成员或是通过PLS或PCR模型预测的“最佳”序列。

在另一个例证性实例中,在一个亲本序列中选择一轮定向进化中用于 变异的残基。亲本可利用从在先的一轮定向进化得到的模型或通过利用鉴 定具有最佳测定表现的文库成员的数据来鉴定。用于下一轮定向进化的寡 核苷酸可被限定为包括所选择的亲本的骨架的部分,具有通过用于当前的 一轮进化的序列活性模型根据算法预测的一个或更多个突变。这些寡核苷 酸可利用任何合适的方法产生,包括但不限于合成方法。

新的文库产生之后,如在模块213中所示(图2),针对活性对其进行筛 选。理想地,新的文库提供活性优于之前的文库中观察到的活性的一个或 更多个成员。但是,即使没有该优势,新的文库可提供有益的信息。其成 员可被用于生成解释209中选择的变异的影响的改进的模型(图2),并且从 而跨越序列空间的更宽的区域更精确地预测活性。另外,所述文库可代表 序列空间从局部最优通向整体最优(例如,在活性方面)的渠道。

取决于程序200(图2)的目标,在一些实施方案中,产生一系列新的蛋 白变体文库是期望的,每一个蛋白变体文库提供训练组的新成员。然后, 更新的训练组被用于产生改进的模型。为了获得该改进的模型,程序200 被示为具有如模块215中所示的决策操作,该决策操作决定是否还应产生 另一个蛋白变体文库。多种准则可被用于做该决定。决策准则的实例包括 但不限于,至今为止产生的蛋白变体文库的数目、来自当前文库的最佳蛋 白的活性、期望的活性的量级和在目前的新文库中观察到的提高的度。

假定所述序程被用来继续处理新文库,所述程序则返回到操作模块 100(图2),在这里由针对当前的蛋白变体文库而获得的序列和活性数据产 生新的序列活性模型。换言之,针对当前的蛋白变体文库的序列和活性数 据用作新的模型的训练组的一部分(或其可作为完整训练组)。其后,按照 上文描述的执行模块207、209、211、213和215中所示的操作(图2),但 是是对于新的模型。

当确定该方法已达到终点时,图2中示出的循环结束且不产生新的文 库。在那时,所述程序完全终止,或在一些实施方案中,选择来自一个或 更多个文库的一个或更多个序列用于开发和/或生产。参见模块217。

B.产生观察值

蛋白变体文库是多种蛋白的组,文库中的这些蛋白具有一个或更多个 因成员而异的残基。这些文库可利用本文描述的方法和/或本领域已知的任 何合适的方式产生。这些文库在提供用来产生根据本发明的多个实施方案 的序列活性模型的训练组的数据方面具备实用性。蛋白变体文库中包含的 蛋白的数目往往取决于与其生成相关的应用程式(application)和花费。不期 望本发明受限于本发明的方法中使用的蛋白文库中的任何特定数目的蛋 白。也不期望本发明受限于任何特定的一个或多个蛋白变体文库。

在一个实例中,蛋白变体文库由一种或更多种天然存在的蛋白产生, 所述蛋白可由一个基因家族编码。可使用其他起点,包括但不限于已知蛋 白或新型合成蛋白的重组体。文库可通过多种技术从这些种子(seed)蛋白或 起始蛋白产生。在一种情形中,文库通过如Stemmer(1994)Proceedingsof theNationalAcademyofSciences,USA,10747-10751和WO95/22625(其均 被通过引用并入本文)中描述的DNA片段化介导的重组、如Ness等人 (2002)NatureBiotechnology20:1251-1255和WO00/42561(其均被通过引 用并入本文)中描述的合成的寡核苷酸介导的重组、或编码一个或更多个亲 本蛋白的一部分或全长的核酸来产生。也可利用这些方法的组合(例如, DNA片段和合成的寡核苷酸的重组)以及例如均被通过引用并入本文的 WO97/20078和WO98/27230中描述的其他基于重组的方法。用于产生蛋 白变体文库的任何合适的方法在本发明中具备实用性。实际上,不期望本 发明受限于用于产生变体文库的任何特定方法。

在一些实施方案中,单个的“起始”序列(其可以是“祖”序列)可被采用用 于定义建模过程中使用的一组突变体的目的。在一些实施方案中,至少一 个起始序列是野生型序列。

在某些实施方案中,突变(a)在文献中被鉴定为影响底物特异性、选择 性、稳定性或其它有利特性,和/或(b)通过计算被预测为改进蛋白的折叠形 式(例如,压紧蛋白的内部残基)、配体结合、亚基相互作用、多个不同的 同源体之间的家族重排等。可选地,突变可自然地地引入起始序列并表达 待筛选有利特性的产物。定点诱变是对于引入突变有用的技术的一个实 例,但是任何合适的方法具备实用性。因此,可选地或另外,突变可通过 基因合成、饱和随机诱变、残基的半合成组合文库、定向进化、重现性序 列重组(recursivesequencerecombination)(“RSR”)(参见例如美国专利申请 号2006/0223143,其被通过引用全部并入本文)、基因重排、易错PCR和/ 或任何其他合适的方法来提供。合适的饱和诱变程序的一个实例被描述于 美国公布的专利申请号20100093560,其被通过引用全部并入本文。

起始序列不必与野生型蛋白的氨基酸序列相同。但是,在一些实施方 案中,起始序列是野生型蛋白的序列。在一些实施方案中,起始序列包含 野生型蛋白中不存在的突变。在一些实施方案中,起始序列是源自具有共 同特性的一组蛋白,例如一个家族的蛋白的共有序列。

可用作亲本序列来源的多个家族或多种类别的酶的非限制性的代表 性清单包括但不限于以下:氧化还原酶(E.C.1);转移酶(E.C.2);水解酶 (E.C.3)、裂解酶(E.C.4);异构酶(E.C.5)和连接酶(E.C.6)。氧化还原酶的更 具体但非限制性的亚组包括,脱氢酶(例如,醇脱氢酶(羰基还原酶)、木酮 糖还原酶、醛还原酶、法尼醇脱氢酶、乳酸脱氢酶、阿拉伯糖脱氢酶、葡 萄糖脱氢酶、果糖脱氢酶、木糖还原酶和琥珀酸盐/酯脱氢酶)、氧化酶(例 如,葡萄糖氧化酶、己糖氧化酶、半乳糖氧化酶和漆酶)、单胺氧化酶、脂 肪氧合酶、过氧物酶、醛脱氢酶、还原酶、长链酰基-[酰基-载体-蛋白]还 原酶、酰基-CoA脱氢酶、烯-还原酶、合酶(例如,谷氨酸合酶)、硝酸盐还 原酶、单加氧酶和双加氧酶和过氧化氢酶。转移酶的更具体但非限制性的 亚组包括甲基转移酶、脒基转移酶和羧基转移酶、转酮醇酶、转醛缩酶、 酰基转移酶、糖基转移酶、转氨酶、转谷氨酰胺酶和聚合酶。水解酶的更 具体但非限制性的亚组包括酯水解酶、肽酶、糖基化酶、淀粉酶、纤维素 酶、半纤维素酶、木聚糖酶、几丁质酶、葡萄糖苷酶、葡聚糖酶、葡糖淀 粉酶、酰化酶、半乳糖苷酶、支链淀粉酶、植酸酶、乳糖酶、阿拉伯糖苷 酶、核苷酶、腈水解酶、磷酸酶、脂酶、磷脂酶、蛋白酶、ATP酶和脱卤 酶。裂解酶的更具体但非限制性的亚组包括脱羧酶、醛缩酶、水合酶、脱 水酶(例如,碳酸酐酶)、合酶(例如,异戊二烯、蒎烯和法呢烯合成酶)、果 胶酶(例如,果胶裂解酶)和卤代醇脱氢酶。异构酶的更具体但非限制性的 亚组包括消旋酶、差向异构酶、异构酶(例如,木糖异构酶、阿拉伯糖异构 酶、核糖异构酶、葡萄糖异构酶、半乳糖异构酶和甘露糖异构酶)、互变异 构酶和变位酶(例如酰基转移变位酶、磷酸变位酶和氨基变位酶)。连接酶 的更具体但非限制性的亚组包括酯合成酶。可被用作亲本序列的来源的其 他家族或类别的酶包括,转氨酶、蛋白酶、激酶和合成酶。该清单虽然例 示了本公开内容的可能的酶的某些特定方面,但是仍未考虑详尽并且没有 描述对本公开内容的限制或限制本公开内容的范围。

在一些情形中,在本文描述的在所述方法中有用的候选酶能催化对映 选择性反应,诸如,例如对映选择性还原反应。此类酶可被用来制备在例 如药物化合物的合成中有用的中间体。

在一些实施方案中,候选酶选自内切木聚糖酶(EC3.2.1.8)、β-木糖苷 酶(EC3.2.1.37)、α-L-阿拉伯呋喃糖苷酶(EC3.2.1.55)、α-葡糖醛酸酶(EC 3.2.1.139)、乙酰基木聚糖酯酶(EC3.1.1.72)、阿魏酰酯酶(EC3.1.1.73)、香 豆酰酯酶(EC3.1.1.73)、α-半乳糖苷酶(EC3.2.1.22)、β-半乳糖苷酶(EC 3.2.1.23)、β-甘露聚糖酶(EC3.2.1.78)、β-甘露糖苷酶(EC3.2.1.25)、内切- 聚半乳糖醛酸酶(EC3.2.1.15)、果胶甲基酯酶(EC3.1.1.11)、内切-半乳聚糖 酶(EC3.2.1.89)、果胶乙酰基酯酶(EC3.1.1.6)、内切-果胶裂解酶(EC 4.2.2.10)、果胶酸裂解酶(EC4.2.2.2)、α鼠李糖苷酶(EC3.2.1.40)、外切-聚 -α-半乳糖醛酸苷酶(EC3.2.1.82)、1,4-α-半乳糖醛酸苷酶(EC3.2.1.67)、外 切聚半乳糖醛酸裂解酶(EC4.2.2.9)、鼠李糖半乳糖醛酸聚糖内切裂解酶 (EC4.2.2.B3)、鼠李糖半乳糖醛酸聚糖乙酰酯酶(EC3.2.1.B11)、鼠李糖半 乳糖醛酸聚糖半乳糖醛酸水解酶(rhamnogalacturonan galacturonohydrolase)(EC3.2.1.B11)、内切-阿拉伯聚糖酶(EC3.2.1.99)、漆 酶(EC1.10.3.2)、锰依赖型过氧化物酶(EC1.10.3.2)、淀粉酶(EC3.2.1.1)、 葡萄糖淀粉酶(EC3.2.1.3)、蛋白酶、脂酶和木质素过氧化物酶(EC 1.11.1.14)。1种、2种、3种、4种、5种、或多于5种的酶的任何组合在 本发明的组合物中具备实用性。

在本发明的一个或更多个实施方案中,一种起始序列以多种方式被修 饰以产生文库。在一些实施方案中,文库通过系统地改变起始序列的各个 残基来产生。在一个例证性实例中,实验设计(DOE)方法学被用以鉴定被 系统地改变的序列。在另一个实例中,“湿实验室”(wetlab)程序诸如寡 核苷酸介导的重组被用来引入一定程度的系统变异。不期望本发明被限制 于用于产生系统地变异的序列的任何特定方法,因为任何合适的方法具备 实用性。

如本文使用的,术语“系统地变异的序列”指,其中每个残基见于多种 背景的一组序列。原则上,系统变异的水平可通过这些序列彼此正交的程 度(即,与平均值相比最大程度地不同)来定量。在一些实施方案中,该程 序不依赖于具有最大程度地正交的序列。但是,模型的质量的改进将与所 测试的序列空间的正交性成正比关系。在简单的例证性实例中,通过鉴定 两个残基位置,每个残基位置可具有两个不同的氨基酸中的一个,则肽序 列被系统地变异。最大程度地不同的文库包括所有四种可能的序列。此类 最大程度的系统变异随可变异的位置的数目以指数形式增加;例如当在N 个残基位置中的每一个处有2个选择时,最大程度的系统变异以2N增加。 但是,本领域技术人员将容易地认识到,并不需要最大程度的系统变异。 系统变异提供了提供良好的序列空间抽样的相对小的待测试序列组的机 制。

具有系统地变异的序列的蛋白变体可利用本领域普通技术人员所熟 知的技术以很多种方式获得。如所指出的,合适的方法包括但不限于基于 一个或更多个“亲本”多核苷酸序列生成变体的基于重组的方法。多核苷酸 序列可利用多种技术重组,包括例如DNA酶消化待重组的多核苷酸,接 下来是核酸的连接和/或PCR重装配。这些方法包括但不限于在例如以下 文献中描述的那些方法:Stemmer(1994)ProceedingsoftheNational AcademyofSciencesUSA,91:10747-10751;美国专利号5,605,793, “MethodsforInVitroRecombination”;美国专利号5,811,238,“Methodsfor GeneratingPolynucleotideshavingDesiredCharacteristicsbyIterative SelectionandRecombination”;美国专利号5,830,721;“DNAMutagenesisby RandomFragmentationandReassembly”;美国专利号5,834,252,“End ComplementaryPolymeraseReaction”;美国专利号5,837,458,“Methodsand CompositionsforCellularandMetabolicEngineering”;WO98/42832, “RecombinationofPolynucleotideSequencesUsingRandomorDefined Primers”;WO98/27230,“MethodsandCompositionsforPolypeptide Engineering”;WO99/29902,“MethodforCreatingPolynucleotideand PolypeptideSequences”等,其均被通过引用并入本文。

合成重组方法也特别适于产生具有系统变异的蛋白变体文库。在合成 重组方法中,共同编码待重组的多个基因的多个寡核苷酸被合成。在一些 实施方案中,寡核苷酸共同编码源自同源亲本基因的序列。例如,使用利 用序列比对程序,诸如BLAST(参见例如,Atschul,等人,JournalofMolecular Biology,215:403-410(1990)比对感兴趣的同源基因。同源体之间的相应氨 基酸变异的核苷酸被指出。这些变异任选地被进一步局限于基于亲本序列 的共变异分析、亲本序列的功能信息、亲本序列之间的保守性或非保守性 改变的选择或其他合适的准则的全部可能变异的子集。任选地将变异进一 步增加至编码通过亲本序列的共变异分析、亲本序列的功能信息、亲本序 列之间的保守性或非保守性改变的选择或变异位置的表观公差(apparent tolerance)鉴定的位置处的另外的氨基酸多样性。结果是简并基因序列编码 源自亲本基因序列的共有氨基酸序列,简并核苷酸位于编码氨基酸变异的 位置。设计这样的寡核苷酸:含有聚集简并基因中存在的多样性所需的核 苷酸。关于此类方法的细节可在下列文献中找到:例如,Ness等人(2002), NatureBiotechnology,20:1251-1255;WO00/42561,“Oligonucleotide MediatedNucleicAcidRecombination”;WO00/42560,“MethodsforMaking CharacterStrings,PolynucleotidesandPolypeptideshavingDesired Characteristics,”;WO01/75767,“InSilicoCross-OverSiteSelection”和WO 01/64864,“Single-StrandedNucleicAcidTemplate-MediatedRecombination andNucleicAcidFragmentIsolation”,其各自被通过引用并入本文。所鉴定 的多核苷酸变异序列可在体外或体内转录和翻译,创建蛋白变异序列的组 或文库。

系统地变异的序列的组也可利用限定数据组中的序列的实验设计 (DOE)方法学通过推理设计。对DOE方法的描述可在Diamond,W.J.(2001) PracticalExperimentDesigns:forEngineersandScientists,JohnWiley&Sons 中和WilliamJDrummond(1981)的“PracticalExperimentalDesignfor EngineersandScientists”VanNostrandReinholdCoNewYork、“Statisticsfor experimenters”GeorgeE.P.Box,WilliamGHunter和J.StuartHunter(1978)、 JohnWiley和Sons,NewYork中找到或例如在万维网 itl.nist.gov/div898/handbook/上找到。存在可用来进行相关数学运算的若干 计算包,包括StatisticsToolbox()、、和 DESIGN。结果是序列的系统地变异的和正交分布 的数据组,所述数据组适于建立本发明的序列-活性模型。基于DOE的数 据组也可利用如本领域已知的Plackett-Burman或FractionalFactorial Designs容易地产生。Diamond,W.J.(2001)。

在工程化和化学科学中,与完全析因设计相比,分式析因设计被用来 定义较少的实验。在这些方法中,因子是在两种或更多种水平之间变化(即, “切换”)。优化技术被用来确保所选择的实验在解释因子空间变化方面是信 息量最大的。相同的设计方法(例如,分式析因设计、D-型最适设计)可被 应用于蛋白工程以构建较少的序列,在这些序列中给定数目的位置在两个 或更多个残基之间切换。在一些实施方案中,该序列组提供了对正在研究 的蛋白序列中存在的系统性变异的最佳描述。

应用于蛋白工程化的DOE方法的例证性实例包括以下操作:

1)基于本文描述的原则鉴定待切换的位置(例如,在亲本序 列中存在的位置、保守度等);

2)利用通常可获得的一种统计软件包通过限定因子的数目 (即,可变异的位置)、度(level)的数目(即,在每个位置的选择)和 运行的实验数目来创建DOE实验以提供输出矩阵。输出矩阵的信 息内容(通常由代表每个位置处的残基选择的1和0组成)直接地 取决于待运行的实验的数目(通常地,越多越好)。

3)使用编码返回至每个位置处的特定残基选择的1和0的 输出矩阵创建蛋白比对结果。

4)合成编码蛋白比对结果中呈现的蛋白的基因。

5)在相关测定中测试所合成的基因编码的蛋白。

6)基于所测试的基因/蛋白建立模型。

7)按照本文描述的步骤来鉴定重要位置并建立具有提高的 符合度的一个或更多个后续文库。

在例证性实例中,研究了这样的蛋白,其中20个位置处的功能最佳 的氨基酸残基待被确定(例如,其中在每个位置处有2个可能的氨基酸可 选)。在该实例中,分辨度IV析因设计将是合适的。分辨度IV设计被定义 为,能阐明所有单变量的影响而没有双因素效应与之重叠(withno two-factoreffectsoverlappingthem)的设计。然后,所述设计将指定覆盖总 多样性为220(~1百万)个可能的序列中的40个特定氨基酸序列的组。然后 利用任何标准基因合成方案制备这些序列并确定这些克隆的功能和适合 性。

以上方法的替代方法是采用一些或所有可用的序列(例如, 数据库和其他公共资源)来提供蛋白变体文库。该方法提供了 对感兴趣的序列空间区域的指示。

C.测序方法

在过去,测序是开发大的训练组和由其得来的越来越稳健的序列活性 模型的限制步骤。对变体测序所需的高昂的花费和漫长的时间将观察值的 数目限制到几十个变体。下一代测序工具具有大大地降低的花费以及增加 的测序速度和容量,使得训练组中包括低活性变体和高活性变体两者成为 可能。

下一代测序工具可花费不多地在一次运行中对大量的碱基对(例如,至 少约1,000,000,000个碱基对)测序。这种能力可用于当在单次运行中对通 常长度仅几千碱基对的变异蛋白测序时。下一代测序工具往往被优化以便 在单次运行中测序单个的大基因组(例如,人基因组),而不是很多较小的 序列。为了实现下一代测序工具平行地对很多观察值测序的潜能,在单次 运行中被测序的每个观察值的起始点应被独特地鉴定。在一些实施方案 中,条形码标识的序列被用在被供给到下一代测序仪进行单次运行的每个 和各个片段上。在一个实例中,条形码独特地鉴定特定平板(例如,96孔 板)上的特定孔。在这些实施方案中的一些中,每个板的每个孔含有一个独 特的变体。通过对每个变体或更特别地对每个变体的每个片段标以条形 码,多个不同变体的基因序列可在单次运行中被测序并被鉴定。在所述过 程中,具有相同条形码的所有片段读段通过确定变体的序列长度的算法被 一起鉴定并处理。

在一些实施方案中,从给定的孔中具有变体的细胞提取DNA,然后将 其片段化。然后对这些片段标以条形码以鉴定至少与该变体有关的孔,并 且有时候是与该变体有关的孔和板。然后对所得到的片段进行尺寸选择以 产生具有适当长度的序列用于下一代测序仪。在一个例证性实例中,读段 长度为约200碱基对。在一些实施方案中,直到来自板的多个孔的DNA 片段被第一次收集之后才应用板条形码。然后对所收集的DNA标以条形 码以辨识所述板。在一些实施方案中,每个片段将具有相同的板条形码, 不论所述每个片段源自哪个孔。但是,在一些替代实施方案中,这些片段 具有不同的条形码。另外,可应用孔条形码和板条形码以辨识从给定的孔 中提取的DNA。

在一个或更多个实施方案中,序列数据可利用被认为是第一代测序方 法的大量(bulk)测序方法来获得,包括例如桑格测序或Maxam-Gilbert测序。 涉及使用带标记的双脱氧链终止剂的桑格测序是本领域熟知的;参见例 如,Sanger等人,ProceedingsoftheNationalAcademyofSciencesofthe UnitedStatesofAmerica74,5463-5467(1997)。涉及在核酸样品的部分上进 行多个部分化学降解反应,接者检测并分析这些片段来推断序列的 Maxam-Gilbert测序也是本领域熟知的;参见例如Maxam等人,Proceedings oftheNationalAcademyofSciencesoftheUnitedStatesofAmerica74, 560-564(1977)。另一种大量测量方法是通过杂交测序,其中样品的序列基 于其在例如微阵列或基因芯片上与多个序列的杂交特性来推导;参见,例 如,Drmanac等人,NatureBiotechnology16,54-58(1998)。

在一个或更多个实施方案中,序列数据利用下一代测序方法来获得。 下一代测序也被称为“高通量测序”。这些技术使测序过程平行化,一次产 生数以千计或数百万计的序列。合适的下一代测序方法的实例包括但不限 于,单分子实时测序(例如,PacificBiosciences,MenloPark,California)、离 子半导体测序(例如,IonTorrent,SouthSanFrancisco,California)、焦磷酸测 序(例如,454,Branford,Connecticut)、连接测序(例如,SOLidsequencingof LifeTechnologies,Carlsbad,California)、合成测序和可逆性末端终止测序 (例如,Illumina,SanDiego,California)、核酸成像技术诸如透射电子显微术, 等等。

一般地,下一代测序方法通常利用体外克隆步骤以扩增各个DNA分 子。乳液PCR(emPCR)分离伴随在油相内的水滴中的引物所包被的珠中的 各个DNA分子。PCR产生与珠上的引物结合的DNA分子的拷贝,接着被 固定用于稍后的测序。emPCR被用于Marguilis等人(由454LifeSciences, Branford,CT商业化)、Shendure和Porreca等人(也被称为“聚合酶克隆测序”) 以及SOLiD测序(AppliedBiosystemsInc.,FosterCity,CA)的方法中。参见 M.Margulies等人,例如(2005)“Genomesequencinginmicrofabricated high-densitypicolitrereactors”Nature437:376–380;J.Shendure等人(2005) “AccurateMultiplexPolonySequencingofanEvolvedBacterialGenome” Science309(5741):1728–1732。体外克隆扩增还可通过“桥式PCR”进行, 在所述“桥式PCR”中,片段在引物连接至固体表面后被扩增。Braslavsky 等人开发了省去该扩增步骤、直接将DNA分子固定至表面的单分子方法 (由HelicosBiosciencesCorp.,Cambridge,MA商业化)。I.Braslavsky等人 (2003)“SequenceinformationcanbeobtainedfromsingleDNAmolecules” ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesof America100:3960-3964。

与表面自然结合的DNA分子可被平行地测序。在“合成测序”中,基 于模板链的序列使用DNA聚合酶形成互补链,如染料-终止电泳测序,“可 逆”终止剂法(由Illumina,Inc.,SanDiego,CA和HelicosBiosciencesCorp., Cambridge,MA商业化)利用可逆形式的染料-终止剂,通过重复移除封端基 团来以允许另一个核苷酸的聚合而一次添加一个核苷酸,并实时检测每个 位置处的荧光。“焦磷酸测序”也利用DNA聚合,一次添加一个核苷酸并 通过由所连接的焦磷酸的释放发射的光来检测和定量被添加到给定位置 的核苷酸的数目(由454LifeSciences,Branford,CT商业化)。参见M. Ronaghi,等人(1996).“Real-timeDNAsequencingusingdetectionof pyrophosphaterelease”AnalyticalBiochemistry242:84-89。

下文更详细地描述了下一代测序方法的具体实例。本发明的一个或更 多个实施方案可利用以下测序方法的一种或更多种而不背离本发明的原 理。

单分子实时测序(也被称为SMRT)是PacificBiosciences开发的通过并 行化单分子DNA合成测序技术。单分子实时测序利用零模式波导(ZMW)。 一个DNA聚合酶被附着在ZMW的底部,一分子的DNA作为模板。ZMW 是创建足够小以观察被DNA聚合酶并入的DNA的仅一个核苷酸(也被称 为碱基)的照射的观察体积的结构。四种DNA碱基的每个被连接至四种不 同的荧光染料中的一种。当核苷酸被DNA聚合酶并入时,荧光标签被裂 解并从ZMW的观察区域扩散出来,而其荧光不再能够观察得到。检测器 检测核苷酸并入的荧光信号,并根据相应的染料荧光进行序时碱基响应 (basecall)。

另一种可应用的单分子测序技术是HelicosTrueSingleMolecule Sequencing(tSMS)技术(例如,如HarrisT.D.等人,Science320:106-109[2008] 中描述的)。在tSMS技术中,DNA样品断裂成约100至200个核苷酸的 链,并将多聚A序列添加至每条DNA链的3’末端。通过添加荧光标记的 腺苷核苷酸来标记每条链。然后使DNA链与流动池杂交,所述流动池包 含数以百万计的被固定至所述流通池表面的寡聚T捕获位点。在某些实施 方案中,模板可以是约1亿模板/cm2的密度。然后将流动池装载至设备例 如HeliScopeTM测序仪,并且激光照亮流通池的表面,揭示每条模板的位置。 CCD摄像机可绘制模板在流动池表面上的位置。然后模板荧光标签被裂解 掉并被冲走。测序反应通过引入DNA聚合酶和荧光标记的核苷酸开始。 寡聚T核酸作为引物。聚合酶以模板指导的方式将带标记的核苷酸整合至 引物上。聚合酶和未并入的核苷酸被去除。具有荧光标记的核苷酸的指导 性并入的模板通过对流通池表面成像来识别。成像后,裂解步骤去除荧光 标签,并且用其他的荧光标记的核苷酸重复该程序直到达到期望的读段长 度。随着每个核苷酸的添加步骤收集序列信息。在测序文库的制备中,借 助于单分子测序技术的整个基因组测序不包括或通常排除基于PCR的扩 增,并且所述方法允许直接测量样品,而不是测量该样品的拷贝。

离子半导体测序是基于检测DNA的聚合期间释放的氢离子的DNA测 序方法。这是“合成测序”房法,在该方法期间,互补链基于模板链的序列 形成。将包含待测序的模板DNA链的微孔用单一种类的脱氧核糖核苷酸 三磷酸(dNTP)充满。如果所引入的dNTP与引导性模板核苷酸互补,则其 被并入正在增长的互补链。这导致引发ISFET离子传感器的氢离子的释放, 所述氢离子的释放指示反应已经发生。如果均聚物的重复片段存在于模板 序列中,则多个dNTP分子将在单循环中被并入。这导致相应数目的释放 的氢和成比例地更高的电子信号。该技术不同于其他测序技术,因为没有 使用被修饰的核苷酸或光学。离子半导体测序也可被称作离子激流测序 (iontorrentsequencing)、pH介导的测序、硅测序或半导体测序。

在焦磷酸测序中,聚合反应释放的焦磷酸根离子通过ATP硫酸化酶与 腺苷5'磷酰硫酸反应以产生ATP;然后ATP驱动荧光素通过荧光素酶转化 为氧化荧光素加光。由于荧光是瞬时的,所以在该方法中不需要单独的消 除荧光的步骤。一次添加一种类型的脱氧核糖核苷酸三磷酸(dNTP),并根 据哪种dNTP在反应位点产生明显信号来识别序列信息。市购可得的Roche GSFLX仪器利用这种方法获得序列。例如在Ronaghi等人,Analytical Biochemistry242,84-89(1996)和Margulies等人,Nature437,376-380(2005) (勘误表在Nature441,120(2006))中详细地讨论了该技术及其应用。市购可 得的焦磷酸测序技术为454测序(Roche)(例如,如在Margulies,M.等人 Nature437:376-380[2005]中描述的)。

在连接测序中,连接酶被用来将具有突出端的部分双链的寡核苷酸连 接至具有突出端的正被测序的核酸;为了使连接发生,这些突出端必须是 互补的。部分双链的寡核苷酸的突出端中的碱基可根据偶联至该部分双链 的寡核苷酸和/或偶联至与该部分双链的寡核苷酸的另一部分杂交的第二 寡核苷酸的荧光团而被鉴定。在获得荧光数据之后,连接的复合体在连接 位点上游被裂解,诸如通过在离其识别位点(其被包含于该部分双链的寡核 苷酸中)固定距离的位点处切割的II型限制酶例如Bbvl,Bbvl。该裂解反 应使刚好在之前的突出端上游的新突出端暴露,并重复所述程序。例如, 在Brenner等人,NatureBiotechnology18,630-634(2000)中详细讨论了该技 术及其应用。在一些实施方案中,连接测序通过获得环状核酸分子的滚环 扩增产物并将该滚环扩增产物用作连接测序的模板而适合于本发明的方 法。

连接测序技术的商业上可用的实例是SOLiDTM技术(Applied Biosystems)。在SOLiDTM连接测序中,基因组DNA被剪切成片段,并且 衔接子被连接至片段的5’和3’末端以产生片段文库。可选地,内部衔接子 可通过以下步骤而被引入:将衔接子连接至片段的5’和3’末端、使片段环 化、消化环化的片段以产生内部衔接子,并将衔接子连接至所得到的片段 的5’和3’末端以产生配对文库。接下来,在包含珠、引物、模板和PCR 组分的微反应器中制备克隆珠群。伴随PCR,模板被变性并且珠被富集以 分离带有延伸的模板的珠。对所选择的珠上的模板进行3’修饰,所述3'修 饰允许与载玻片结合。序列可通过特定的荧光团被鉴定的部分随机的寡核 苷酸与中心的已确定的碱基(或碱基对)顺序性杂交和连接来确定。记录颜 色之后,连接的寡核苷酸被裂解和去除,然后重复该程序。

在可逆终止测序中,荧光染料标记的核苷酸类似物(由于封端基团的 存在而成为可逆的链终止剂)被掺入单碱基延伸反应。碱基的身份(identity) 根据荧光团来确定;换言之,每个碱基与不同的荧光团配对。获得荧光/ 序列数据之后,荧光团和封端基团通过化学方法被去除,并重复该循环以 获得序列信息的下一个碱基。IlluminaGA仪器通过该方法运行。例如, Ruparel等人,ProceedingsoftheNationalAcademyofSciencesoftheUnited StatesofAmerica102,5932-5937(2005)和Harris等人,Science320,106-109 (2008)中详细讨论了该技术及其应用。

可逆终止剂测序方法的商业上可获得的实例是Illumina的合成测序和 基于可逆终止剂的测序(例如,在Bentley等人,Nature6:53-59[2009]中描述 的)。Illumina的测序技术依赖于片段化的基因组DNA与平面,任选地其 上结合寡核苷酸锚的透明表面的连接。模板DNA的末端被修复以生成5' 磷酸化的平末端,并且Klenow片段的聚合酶活性被用来将单个A碱基添 加至平端的磷酸化DNA片段的3'末端。该添加制备了连接至寡核苷酸衔 接子的DNA片段,所述寡核苷酸衔接子在其3'末端具有单个T碱基的突 出端以增加连接效率。衔接子寡核苷酸与流动池的锚互补。在有限稀释条 件下,衔接子修饰的单链模板DNA被添加至流动池并通过与锚的杂交而 被固定。连接的DNA片段被延伸并被桥式扩增以生成具有数以亿计的簇 的超高密度测序流动池,每个簇包含相同模板的~1,000个拷贝。这些模板 利用稳健的四色DNA合成测序技术来测序,所述四色DNA合成测序技术 采用具有可移除的荧光染料的可逆终止剂。高密度荧光检测利用激光激发 和全内反射光学来完成。将约20-40bp例如36bp的短序列读段与重复片 段-掩盖的(repeat-masked)参考基因组比对,并利用专门开发的数据分析流 水线软件鉴定短序列读段在参考基因组上的独特位置。也可使用非重复片 段-掩盖的参考基因组。不论使用重复片段-掩盖的参考基因组或非重复片 段-掩盖的参考基因组,只计算独特地匹配至参考基因组的读段。第一次读 取完成以后,可通过计算机模拟(insitu)重新生成模板使得能够进行来自片 段的相反末端的第二次读取。因此,可使用DNA片段的单末端或成对末 端测序。进行对存在于样品中的DNA片段的部分测序,并对被绘制至已 知参考基因组的包含预定长度例如36bp的读段的序列标签计数。

在纳米孔测序中,例如利用电泳驱动力使单链核酸分子穿过孔,并通 过分析单链核酸分子通过孔时获得的数据来推导序列。数据可以是离子电 流数据,其中每个碱基,通过例如部分地阻断通过孔的电流来将电流改变 至不同的可辨别的程度,来改变电流。

在另一个示例性但非限制性实施方案中,本文描述的方法包括利用透 射电子显微术(TEM)获得序列信息。所述方法包括,利用选择性标记有重 原子标记物的高分子量(150kb或更大)DNA的单原子分辨率透射电子显微 成像,并将这些分子以具有一致的碱基间间距的超密(链和链之间3nm)平 行阵列排列在超薄的膜上。电镜被用来对薄膜上的分子成像,以确定重原 子标记物的位置并提取DNA中的碱基序列信息。所述方法被进一步描述 于PCT专利公布WO2009/046445中。

在另一个示例性但非限制性实施方案中,本文描述的方法包括,利用 第三代测序获得序列信息。在第三代测序中,具有很多小的(~50nm)孔的 铝涂层的玻片被用作零模式波导(参见,例如,Levene等人,Science299, 682-686(2003))。铝表面防止DNA聚合酶通过聚磷酸酯化学例如聚乙烯膦 酸酯化学(参见例如Korlach等人,ProceedingsoftheNationalAcademyof SciencesoftheUnitedStatesofAmerica105,1176-1181(2008))附着。这导致 DNA聚合酶分子优先附着至铝涂层的孔中暴露的硅。该设置允许待使用的 渐失波现象(evanescentwavephenomena)减少荧光背景,允许使用较高浓度 的荧光标记的dNTP。荧光团被连接至dNTP的末端磷酸根,以使得荧光 在并入dNTP后释放,但荧光团不保持与新并入的核苷酸连接,意味着复 合体立即准备好另一轮并入。通过该方法,dNTP至铝涂层的孔中存在的 各个引物-模板复合体的并入可被检测到。参见例如Eid等人,Science323, 133-138(2009)。

D.产生序列-活性模型

如以上所述,用于本文的实施方案的序列-活性模型将蛋白序列信息和 蛋白活性联系起来。该模型使用的蛋白序列信息可采取很多种形式。在一 些实施方案中,其是蛋白中的氨基酸残基的完整序列(例如, HGPVFSTGGA…)。但是,在一些实施方案中,完整的氨基酸序列是不必 要的。例如,在一些实施方案中,只提供在特定的研究工作中是改变的那 些残基已足够。在一些涉及后续研究阶段的实施方案中,很多残基是固定 的,并且只有有限的序列空间的区域仍有待探索。在此类情况的一些中, 提供这样的序列活性模型是方便的:作为输入,其只需要鉴定蛋白的需继 续探索的区域中的那些残基。在一些另外的实施方案中,这些模型不要求 知晓所述残基位置处的残基的准确身份。在一些此类实施方案中,表征特 定残基位置处的氨基酸的一个或更多个物理或化学特性被鉴定。在一个示 例性实例中,模型需要通过体积、疏水性、酸性等说明残基位置。此外, 在一些模型中,采用此类特性的组合。事实上,不期望本发明被限于任何 特定方法,因为这些模型对于序列信息、活性信息和/或其他物理特性(例 如,疏水性等)的多种设置具备实用性。

因此,序列-活性模型的形式可极大地变化,只要其如所期望的基于序 列信息提供用于正确地评估蛋白的相对活性的工具。在一些实施方案中, 这些模型通常把活性当作因变量,而把序列/残基值当作自变量。模型的数 学/逻辑形式的实例包括,多阶的线性和非线性数学表达、神经网络、分类 和回归树/图、聚类方法、递归分区、支持向量机等。在一个实施方案中, 模型的形式是线性相加模型,在所述线性可加模型中,系数和残基值的乘 积被相加。在另一个实施方案中,模型的形式是多个序列/残基项的非线性 乘积,包括某些残基的交叉乘积(其表示残基间的交互作用项)。事实上, 不期望所公开的实施方案局限于任何特定的格式,因为如本文所述,任何 合适的形式具备实用性。

在一些实施方案中,模型由提供活性和序列之间的数学/逻辑关系的活 性对序列信息的训练组开发。该关系通常在用于预测新的序列的活性或残 基对感兴趣的活性的影响之前被验证。

用于生成模型的多种技术是可获得的并且在本发明中具备实用性。在 一些实施方案中,这些技术涉及优化模型或使模型误差最小化。具体实例 包括偏最小二乘法、集成回归、随机森林、多种其他回归技术以及神经网 络技术、递归分区、支持向量机技术、CART(分类和回归树)等。通常,所 述技术应产生能将对活性具有显著影响的残基与那些对活性没有显著影 响的残基区分开的模型。在一些实施方案中,这些模型还对各个残基或残 基位置基于其对活性的影响排序。不期望本发明局限于用于产生模型的任 何特定技术,因为本领域已知的任何合适的方法在本发明中具备实用性。

在一些实施方案中,模型通过回归技术产生,所述回归技术鉴定训练 组中自变量和因变量的共同改变。多种回归技术是已知的并被广泛地使 用。实例包括多元线性回归(MLR)、主成分回归(PCR)和偏最小二乘回归 (PLS)。在一些实施方案中,模型利用涉及多个组分的技术,包括但不限于 集成回归和随机森林产生。这些方法和任何其他合适的方法在本发明中具 备实用性。不期望本发明局限于任何特定的技术。

MLR是这些技术中最基础的。其被用于简单地对训练组的成员的一组 系数方程求解。每个方程涉及随特定位置处特定残基的存在或不存(即,自 变量)的改变训练组成员的活性(即,因变量)。取决于训练组中残基选择的 数目,这些方程的数目可以是相当大的。

像MLR一样,PLS和PCR从将序列活性和残基值联系起来的方程产 生模型。但是,这些技术以不同的方式产生模型。它们先进行坐标转换来 减少自变量的数目。然后它们进行对所转换的变量的回归。在MLR中, 存在可能非常大量的自变量:在训练组内变异的每个残基位置有两个或三 个自变量。假定感兴趣的蛋白和肽往往相当大并且训练组可提供很多不同 的序列,那么自变量的数目可能迅速地变得非常大。通过减少变量的数目 以集中在数据组中提供最多变异的那些变量上,PLS和PCR通常需要较少 的样品并简化了参与产生模型的步骤。

实际的回归针对通过原始自变量(即,残基值)的坐标转换获得的相对 少数目的潜在变量进行,在这方面PCR与PLS回归相似。PLS和PCR之 间的不同在于,PCR中的潜在变量通过最大化自变量(即,残基值)之间的 共变来构建。在PLS回归中,潜在变量以最大化自变量和因变量(即,活 性值)之间的共变的方式来构建。偏最小二乘回归被描述于Hand,D.J.,等人 (2001)PrinciplesofDataMining(AdaptiveComputationandMachineLearning),Boston,MA,MITPress和Geladi等人(1986)“PartialLeast-Squares Regression:aTutorial,”AnalyticaChimicaActa,198:1-17中。这些参考均为 了所有的目被通过引用并入本文。

在PCR和PLS中,回归分析的直接结果是活性是加权的潜在变量的 函数的表达式。通过进行将潜在变量转变回初始自变量的坐标转换,该表 达式可转换成活性作为初始自变量的函数的表达式。

大体上,PCR和PLS两者均先减少训练组中包含的信息的维度,然后 对已被转换以产生的新的自变量但保留了初始因变量值的经转换的数据 组进行回归分析。转换形式的数据组可产生仅相对少的用于进行回归分析 的表达式。在未进行维度减少的方案中,必须考虑可能存在变异的每个单 独的残基。这会是相当大的一组系数(例如,对于双向相互作用为2N个系 数,其中N为在训练组中可能变异的残基位置的数目)。在典型的主成分 分析中,只采用3、4、5、6个主成分。

机器学习技术拟合训练数据的能力往往被称为“模型拟合”,并且在诸 如MLR、PCR和PLS的回归技术中,模型拟合通常通过测量值和预测值 之间的方差和来测量。对于给定的训练组,最优的模型拟合将利用MLR 来完成,而PCR和PLS往往具有较差的模型拟合(较高的测量和预测之间 的误差平方和)。但是,利用潜在变量回归技术诸如PCR和PLS的主要优 势在于此类模型的预测能力。获得具有很小的误差平方和的模型拟合绝对 不能保证模型将能精确地预测训练组中未观察到的新样本-事实上,往往是 相反的情况,特别是当存在很多变量并且只有少数观察值(即样本)时。因 此潜在变量回归技术(例如,PCR、PLS)虽然往往具有对训练数据较差的模 型拟合,但通常更稳健并且能更精确地预测训练组之外的新样本。

能被用于产生根据本公开内容的模型的另一种工具类型是支持向量 机(SVM)。这些数学工具将已基于活性分类成两个或更多个组的训练组序 列作为输入。支持向量机通过根据训练组的不同成员如何接近超平面界面 来不同地加权训练组的不同成员,所述超平面界面将训练组的“活性”和“非 活性”成员分隔开。该技术需要科学家先决定将哪些训练组成员置于“活性” 组以及将哪些训练组成员置于“非活性”组。在一些实施方案中,这通过选 择针对活性水平的适当数值来完成,所述数值作为训练组的“活性”和“非活 性”成员之间的分界线。支持向量机根据该分类生成向量W,其可为限定 训练组中的活性和非活性组的成员的序列的各个自变量提供系数值。这些 系数可被用于对如本文其他处描述的各个残基“排序”。该技术被用于鉴定 超平面,所述超平面将超平面的相反侧最靠近的训练组成员之间的距离最 大化。在另一个实施方案中,进行支持向量回归建模。在该情形中,因变 量为连续的活性值的向量。支持向量回归模型产生系数向量W,其可被用 来对各个体残基排序。

在很多研究中SVM已被用来检查大的数据组,并且已广泛地与DNA 微阵列一起应用。其潜在优势包括细微地辨别(通过加权)将样本彼此分开 的因素的能力。在SVM能够精确地梳理出哪些残基对功能有贡献的程度 上,其可以成为对残基排序特别有用的工具。SVM被描述于S.Gunn(1998) “SupportVectorMachinesforClassificationandRegressions”技术报告,南安 普敦大学工程与应用科学学院电子和计算机科学系,其为了所有目的被通 过引用并入本文。

在本发明的一些实施方案中,能用于产生模型的另一类工具基于分类 树的集成利用随机输入来分类和回归,其实例是随机森林。参见Breiman (2001).“RandomForests”MachineLearning45(1):5-32。随机森林是树预测 器的组合,以使得每个树取决于独立取样的随机向量的值并且森林中所有 的树具有相同的分布。随机森林是由在决策树的每个分叉处具有随机选择 特征的许多未修剪的决策树学习者组成的学习集成。随着森林中树的数目 变大,森林的泛化误差收敛至极限值。

随机森林可由下方式构建:

1)如果训练组中案例的数目为N,随机地对N个案例抽样-但伴随从 原始数据置换。该样本将是用于使树生长的训练组。

2)如果有M个输入自变量,指定数值m<<M,以使得在树中的每个 节点处,m个变量被随机地从M个变量随机选择出来并且对这些m的最 佳分割被用于分割所述节点。m的值在森林生长期间保持恒定。

3)在一些实施方案中,每个树生长至可能的最大程度。无修剪。

4)然后产生大量的树,k=1,…,K(通常K>=100)。

5)在大量的树产生之后,其全部对感兴趣的变量的类别投票。例如, 其可各自促成活性或特定突变的贡献的最终预测。

6)然后随机森林通过从森林中的所有树预测器选取最受欢迎的投票 类别来对x(例如,突变或其他自变量的序列)分类。

森林误差率取决于森林中任何两个树之间的相关性。增加相关性会增 加森林误差率。森林误差率取决于森林中每个单独的树的强度。具有低的 误差率的树是强的分类器(classifier)。增加各个树的强度会减小森林误差 率。减少m会减少相关性和强度两者。增加m会增加两者。介于两者之 间的是m的“最佳”范围-通常是相当宽的。

随机森林技术可用于类别变量以及回归模型中的连续变量。在本发明 的一些实施方案中,随机森林模型具有与SVM和神经网络模型相当的预 测力,但是往往具有较高的计算效率,因为除了其他原因之外,交叉验证 被构建到建模程序中且交叉验证的单独程序不是必要的。

i)线性模型

虽然本公开内容针对非线性模型,但是这些非线性模型在序列对活性 的线性模型的背景下可更容易地被理解。另外,在一些实施方案中,线性 模型被用作产生非线性模型的逐步过程中的“基本”模型。通常,活性对序 列的线性回归模型具有以下形式:

y=c0+Σi=1NΣj=1Mcijxij---(1)

在该线性表达式中,y为预测的响应,而cij和xij分别为序列中位置i 处的回归系数和用于表示残基选择的比特值或哑变量。在蛋白变体文库的 序列中存在N个残基位置,并且这些残基位置中的每个可被一种或更多种 残基占据。在任何给定的位置处,可能存在j=1至M个单独的残基类型。 该模型假定每个位置处的残基之间的线性(相加)关系。方程1的展开形式 如下:

y=c0+c11x11+c12x12+…c1Mx1M+c21x21+c22x22+…c2Mx2M+...+ cNMxNM

如所示的,活性和序列信息的形式的数据源自初始蛋白变体文库并被 用于确定模型的回归系数。哑变量首先被从蛋白变异序列的比对中鉴定。 氨基酸残基位置被从蛋白变异序列中鉴定,在所述蛋白变异序列中那些位 置的氨基酸残基因序列而异。在这些可变残基位置的一些或全部位置的氨 基酸残基信息可被整合到序列-活性模型中。

表I包含对于10个例证性变体蛋白的可变残基位置和残基类型的形式 的序列信息,以及对应于每个变体蛋白的活性值。这些是生成足以解决所 有系数的方程式所需的更大的组的代表性成员。因此,例如,对于表I中 的例证性蛋白变体序列,位置10、166、175和340为可变残基位置并且 所有其他位置,即在该表中未示出的那些位置,包含在变体1-10之间相同 的残基。

在该实例中,10个变体可包含或可不包含野生型骨架序列。在一些实 施方案中,被开发以考虑包含野生型骨架序列的所有变体的数据的模型可 能引出完美多重共线性或哑变量陷阱的问题。该问题可通过多种技术来解 决。一些实施方案可在开发该模型时将野生型骨架数据排除在外。一些实 施方案可放弃代表野生型骨架的那些系数。一些实施方案可使用诸如PLS 回归的技术来解决多重共线性。

表I:示例性序列和活性数据

因此,基于方程式1,回归模型可从表1中的系统变异的文库推导出。

y=c0+c10Alax10Ala+c10Aspx10Asp+c10Lysx10Lys+c166Serx166Ser+c166Phex166Phe+ c166Leux166Leu+c166Ilex166Ile+c175Glyx175Gly+c175Valx175Val+c340Phex340Phe+ c340Alax340Ala(方程2)

比特值(x哑变量)可表示为反映所指定的氨基酸残基的存在或不存在 的1或0,或者可选地1或-1,或一些其他替代表示。例如,使用1或0 指定方式,x10Ala对于变体1可以为“1”而对于变体2可以为“0”。使用1或 -1指示,x10Ala对于变体1可以为“1”而对于变体2可以为“-1”。回归系数可 由此基于针对文库中的所有变体的序列活性信息从回归方程推导出。对于 变体1-10的此类方程(对于x使用1或0指示)的实例遵循:

y1=c0+c10Ala(1)+c10Asp(0)+c10Lys(0)+c166Ser(1)+c166Phe(0)+c166Leu(0)+ c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0)

y2=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(0)+c166Phe(1)+c166Leu(0)+ c166Ile(0)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1)

y3=c0+c10Ala(0)+c10Asp(0)+c10Lys(1)+c166Ser(0)+c166Phe(0)+c166Leu(1)+ c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(0)+c340Ala(1)

y4=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(0)+c166Phe(0)+c166Leu(0)+ c166Ile(1)+c175Gly(0)+c175Val(1)+c340Phe(1)+c340Ala(0)

y5=c0+c10Ala(1)+c10Asp(0)+c10Lys(0)+c166Ser(0)+c166Phe(0)+c166Leu(0)+ c166Ile(1)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1)

y6=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(1)+c166Phe(0)+c166Leu(0)+ c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0)

y7=c0+c10Ala(0)+c10Asp(0)+c10Lys(1)+c166Ser(0)+c166Phe(1)+c166Leu(0)+ c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0)

y8=c0+c10Ala(1)+c10Asp(0)+c10Lys(0)+c166Ser(0)+c166Phe(1)+c166Leu(0)+ c166Ile(0)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1)

y9=c0+c10Ala(0)+c10Asp(0)+c10Lys(1)+c166Ser(1)+c166Phe(0)+c166Leu(0)+ c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0)

y10=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(0)+c166Phe(0)+c166Leu(1)+ c166Ile(0)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1)

方程的全集可利用任何合适的回归技术(例如,PCR、PLS或MLR)容 易地解决,以确定相应于感兴趣的每个残基和位置的回归系数的值。在该 实例中,回归系数的相对量级与特定位置处的特定残基对活性的贡献的相 对量级相互关联。然后可对回归系数排序或以其他方式分类以确定哪些残 基更可能对期望的活性做出有有利的贡献。表II提供了相应于表I中示例 的系统变异文库的例证性回归系数值:

表II:回归系数的示例性排列次序

回归系数的排列次序表可被用于构建对于期望的活性被优化的新的 蛋白变体文库(即,改进的符合度)。这可以多种方式进行。在一个实施方 案中,其通过保留具有最高观察值的系数的氨基酸残基来完成。这些氨基 酸残基是被回归模型指示对期望的活性贡献最多的残基。如果采用负描述 符来鉴定残基(例如,对于亮氨酸为1以及对于甘氨酸为-1),则基于系数 的绝对值排列残基位置变得成为必要。注意在此类情况中,对于每个残基 通常只有一个系数。系数量级的绝对值提供对相应的残基位置的排序。然 后,考虑各个残基的符号来确定它们中的每个在期望的活性方面是否是有 害的或有益的变得成为必要。

ii)非线性模型

采用非线性建模来解释蛋白中对活性有贡献的残基-残基相互作用。 N-K格局(landscape)描述了这个问题。参数N指在相关多肽序列的集合中 可变残基的数目。参数K表示在这些多肽的每个的各个残基之间的相互作 用。相互作用通常是在多肽的初级、二级或三级结构中多个残基之间的紧 密物理接近度的结果。相互作用可归因于直接相互作用、间接相互作用、 物理化学相互作用、由折叠中间体引起的相互作用、平移效应(translational effect)等。参见Kauffman,S.和Levin,S.(1987),"Towardsageneraltheoryof adaptivewalksonruggedlandscapes",JournalofTheoreticalBiology128(1) 11–45。

参数K被定义为使得对于值K=1,每个可变残基(例如,它们中有20 个可变残基)恰好与其序列中的一个其他残基相互作用。在所有的残基与所 有其他残基的影响物理地且化学地分隔开的情况中,K的值为0。明显地, 取决于多肽的结构,K可具有大量不同的值。对于正在研究的多肽的难以 解决的结构,K的值可被评估。但是,往往并非如此。

多肽活性的纯线性、相加模型(如以上描述的)可通过包括表示2个或 更多个残基之间的特定相互作用的一个或更多个非线性、交互作用项来改 进。在以上呈现的模型形式的背景中,这些项被描述为“交叉乘积”,所述“交 叉乘积”包含表示相互作用而对活性具有显著的有利或不利影响的两个或 更多个特定残基(每个与序列中的特定位置有关)的两个或更多个哑变量。 例如,交叉乘积项可具有cabxaxb的形式,其中xa为哑变量,表示序列中特 定位置处特定残基的存在或不存在,并且变量xb表示多肽序列中不同位置 (其与第一个位置相互作用的位置)处特定残基的存在。下文展示了该模型 的详细示例形式。

交叉乘积项中表示的所有残基(即,在特别鉴定的位置处两个或更多个 特定类型的残基中的每个)的存在影响多肽的整体活性。所述影响可以以很 多种方式表现。例如,各个相互作用残基的每一个当单独存在于多肽中时, 可能对活性具有不利影响,但是当它们都存在于多肽中时,整体影响是有 利的。在其他情形中,相反的情况可能是正确的。另外,可能产生协同效 应,其中各个残基的每一个单独地对活性具有相对有限的影响,但当它们 都存在时,对活性的影响大于所有单独残基的累积影响。

在一些实施方案中,非线性模型包括对于序列中相互作用的可变残基 的每种可能的组合的交叉乘积项。但是,这并不代表物理现实(physical reality),因为事实上只有可变残基的子集彼此相互作用。另外,这会导致“过 度拟合”而产生提供虚假结果的模型,所述虚假结果是用来创建模型的特定 多肽的表现方式并且不代表多肽内的真实相互作用。代表物理现实并避免 过度拟合的模型的交叉乘积项的正确数目通过K值指定。例如,如果K=1, 则交叉乘积交互作用项的数目等于N。

在构建非线性模型时,在一些实施方案中,鉴定代表对活性具有显著 影响的真实结构相互作用的那些交叉乘积交互作用项是重要的。这可通过 多种方式完成,包括但不限于正向相加(forwardaddition),其中候选交叉乘 积项被一次一个地添加至初始的只有线性项的模型直到项的添加不再是 统计学上显著的;以及反向相减(reversesubstraction),其中所有可能的交 叉乘积项被提供在初始模型中并一次去除一个。以下呈现的示例性实例涉 及使用逐步加法和减法技术以鉴定有用的非线性交互作用项。

在一些实施方案中,产生包含此类交互作用项的非线性模型的方法与 以上描述的用于产生线性模型的方法相同。换言之,采用训练组将数据“拟 合”成模型。但是,一个或更多个非线性项,优选地以上讨论的交叉乘积项 被加至模型。进一步地,可采用所得到的非线性模型,如以上描述的线性 模型,来对多个残基对多肽的整体活性的重要性排序。多种技术可用来鉴 定由非线性方程预测的可变残基的最佳组合。下文描述了对残基排序的方 法。在一些实施方案中,即使当局限于仅由两个残基导致的相互作用时, 使用了非常大数量的对于可变残基的可能的交叉乘积项。随着更多的相互 作用发生,非线性模型要考虑的潜在的相互作用的数目以指数方式生长。 如果该模型包括包含三个或更多个残基的相互作用的可能性,则潜在项的 数目生长得甚至更快。

在简单的示例性实例中,其中存在20个可变残基并且K=1(该实例假 设每个可变残基与一个其他的可变残基相互作用),该模型中应有20个交 互作用项(交叉乘积)。如果存在任何更少的交互作用项,则该模型将不能 充分描述这些相互作用(尽管一些相互作用可能对活性不具有显著影响)。 相比而言,如果有任何更多的交互作用项,则该模型可能过度拟合所述数 据组。在该实例中,存在N*(N-1)/2或190个可能的相互作用对。找到描 述序列中的20种相互作用的20个独特的对的组合是重要的计算问题,因 为存在约5.48x1026种可能的组合。

可采用很多技术来鉴定相关的交叉乘积项。取决于问题的容量和可用 的计算力,探索所有可能的组合并从而鉴定出最佳符合数据的一个模型是 可能的。但是,往往问题在计算方面是高要求的。因此,在一些实施方案 中,其利用有效搜索算法或近似法。如本文表明的,一种合适的搜索技术 是逐步技术。但是,不期望本发明被限于用于鉴定相关交叉乘积项的任何 特定方法。

示例性实例在以下表III中展示,显示了并入到从序列信息预测活性 的模型中的非线性交叉乘积项的值。该实例是这样的非线性模型:其中假 定在序列中的每个可变位置处只有两个残基选项。在该实例中,通过使用 哑变量将蛋白序列映射到编码序列中,所述哑变量分别使用+1和-1对应选 择A或选择B。该模型不受任意地选择哪些数值用于指定每个残基选择的 影响。表III第一行中显示的变量位置不指示蛋白序列的实际序列位置。 相反,它们是代表蛋白序列中可具有如表III对于残基选择A和残基选择 B在第二和第三行显示的两种选项之一的变化的任意10个假定位置的任 意标记。

表III:在每个具有两种选择的位置处的编码残基的实例

可变位置标记 1 2 3 4 5 6 7 8 9 10 残基选择A I L L M G W K C S F 残基选择B V A I P H N R T A Y 蛋白残基选择 V A L P G W K T S F 模型代码值 -1 -1 1 -1 1 1 1 -1 1 1

对于该编码方案,用于将蛋白序列与活性联系起来的线性模型可如下 书写:

y=c1x1+c2x2+c3x3...+cnxn+...+cNxN+c0(方程3)

其中y为响应(活性),cn是在位置n处残基选择的回归系数,x是在位 置n处对于残基选择的哑变量编码(+1/-1),且c0是响应的平均值。这种形 式的模型假定不存在可变残基之间的相互作用(即,每个残基选择独立地对 蛋白的整体适合性做出贡献)。

非线性模型包括一定数目的(尚未确定的)交叉乘积项来考虑残基之间 的相互作用:

y=c1x1+c2x2+c3x3+...+cnxn+c1,2x1x2+c1,3x1x3+c2,3x2x3+...+c0(方程4)

其中变量与在方程(3)中的那些变量相同,但是现在存在非线性项,例 如,c1,2为可变位置1和2之间相互作用的回归系数。

为了评价线性和非线性模型的性能,使用被称为NK格局的合成数据 来源(Kauffman和Levin,1987)。如以上提到的,N为模拟蛋白中可变位置 的数目并且K为残基之间的强性偶联(epistaticcoupling)。另外,合成数据 组通过计算机模拟产生。

该数据组被用来产生S=40个合成样本、N=20个可变位置并且K=1(再 次重申,对于K=1,每个可变位置与一个其他可变位置功能性地偶联)的初 始训练组。在产生随机蛋白时,每个可变位置具有相等的含有哑变量+1或 -1的概率。对于合成训练组的每个成员,残基-残基相互作用(通过交叉乘 积表示)和实际活性是已知的。产生另外的V=100个样本用于验证。再次 地,对于验证组的每个成员,残基-残基相互作用和活性是已知的。

训练组被用于构建线性和非线性模型。生成选择交叉乘积项的一些非 线性模型并生成不选择此类项的另外的非线性模型。图3A-F的模型利用 遗传逻辑建模方法生成,而图G-H的模型利用逐步建模方法生成。尽管具 有线性项和非线性项两者的模型相对于只具有线性项的模型的量性优势 在遗传逻辑建模方法和逐步建模方法间不同,但是不论是哪种建模方法, 结果表明具有非线性项的模型的概括能力的优势。事实上,不期望本发明 被限于任何特定的方法,因为任何合适的建模方法在本发明中具备适应 性。

对于以上描述的S=40的训练组容量,线性模型能相当好地关联测量 值和预测值,但是当未对在训练组中未见到的数据进行验证时,线性模型 显示出较弱的关联性(参见图3A)。如显示的,暗数据点代表40个训练数 据点的观察到的活性对线性模型所做的预测。亮数据点代表从40个训练 样本构建并用来预测验证样本V的相同模型进行的预测,所述验证样本无 一见于初始训练组。验证组提供了对模型的实际预测能力的良好测量,与 训练组相反,其可能经受模型过度拟合的问题,特别是对于以下描述的非 线性情况。

考虑到线性模型被用于模拟非线性符合度情形,以上描述的S=40的 训练组的这种结果是值得注意的。在该情形中,线性模型最多能捕获选择 给定残基对符合度的平均贡献。假定组合考虑足够数目的平均贡献,线性 模型粗略地预测了实际测量到的响应。当训练组大小增加至S=100时,线 性模型的验证结果稍微转好(参见图3B)。相对简单的模型不充分拟合数据 的趋势被称为“偏差”。

当使用只有S=40个样本训练非线性模型时,训练组成员的相关性是 很好的(参见图3C)。不幸的是,在该示例性实例中,模型在训练组外提供 有限的预测力,如通过其在验证组中与测量值的有限相关性所证实的。当 存在很多(210种可能)潜在的变量,而有助于鉴定合适的交叉乘积项的训练 数据有限时,该非线性模型基本上只能记住其被训练的数据组。这种高复 杂性模型过度拟合数据的趋势被称为“方差”。偏差-方差权衡代表了机器学 习中的基本问题,并且当处理新的或非典型的机器学习问题时几乎总是需 要一些形式的验证来解决它。

但是,当利用如在图3D中显示的较大的训练组(S=100)训练非线性模 型时,对于训练预测和更重要的验证预测两者,非线性模型表现得均极为 出色。验证预测是足够精确的以致于大部分的数据点被用于标绘训练组的 黑圆圈遮盖。

为了比较的目的,图3E和3F显示了未仔细挑选交叉乘积项时所制作 的非线性模型的性能。不像图3C和3D中的模型,每个可能的交叉乘积项 被选择(即,对于N=20,190个交叉乘积项)。如在这些图中显示的,预测 验证组活性的能力与仔细挑选交叉乘积项时生成的非线性模型的能力相 比相对差。这种差的预测验证数据的能力是过度拟合的体现。

图3G和3H分别显示了对于计算机模拟的数据,线性模型和逐步、非 线性模型的通过剩余误差指示的预测力。逐步非线性模型如以上概括性地 描述的以及以下更具体地描述的实施。

为了测试这些模型,创建模拟数据。随机数发生器R基于具有平均数 MN和标准偏差SD的正态分布创建。然后限定10个突变的组。这些突变 的命名为M1、M2…M10(该命名方案是任意的)。该步骤模拟多样性的生 成。

每个突变代表蛋白序列中给定位置处的氨基酸变化,并且每个位置独 立于其他位置。以上每个突变具有基于R(MN=0、SD=0.2)分配的随机 活性值A。选择以上的6个突变被并一起配对成三对P。这些对代表突变 之间的强性相互作用。

基于R(MN=0、SD=0.2)对每对P分配活性值AP。构建50个变体 的文库L,其中每个变体包含随机数目的以上限定的突变M-突变M的随 机数目由经四舍五入的R(MN=4、S=0.25)的绝对值限定。该步骤模拟文 库构建和测序。

L中每个变体的活性通过以下步骤来计算:首先将来自每个成对突变 (如果两个突变均存在)的活性值AP加至1.0(野生型、无突变序列的限定 活性),然后加上剩余的单突变的值(A)。测定噪音通过将来自R(MN=0、 SD=0.005)的随机值加至针对每个变体的最终值来模拟。该步骤模拟变体的 筛选。

线性模型LM基于来自最后的步骤的数据构建。该模型含有10个自 变量/系数,每个代表M的一个突变。然后线性模型利用普通的最小二乘 回归和以上获得的数据拟合。

递加法被用来基于以上获得的数据选择模型MM、基础模型为LM、 利用AIC作为选择标准,并且选择只含有代表单突变和成对相互作用的系 数的模型。对于模型选择方法的详细描述,参见以下的模型选择说明。通 过AIC选择的最佳模型利用普通最小二乘回归拟合。

为了评价线性模型和非线性模型的预测能力,重复以上描述的程序20 次。针对模拟数据测算模型的预测力,其中图3G显示了线性模型并且图 3H显示了逐步非线性模型。以上描述了用来预测单突变的值的模型。该预 测通过利用预测只含有一个感兴趣的突变并减去1.0(野生型)的变体的模 型来进行。如从图3G和3H明显看出的,非线性模型更精确地预测具有较 大线性度趋势和较小残差的值。

iii)模型选择

在一些实施方案中,递加法或递减法被用来制作具有非线性交互作用 项的模型。通过实施图1的模块107中显示的操作,具有高预测力、包含 交互作用项的最终模型通过从基础模型逐步添加或减去交互作用项来提 供。图4A提供了通过将交互作用项加至基础模型并评价新的模型来产生 最终的最佳模型来实施图1的模块107的操作的流程图。

在该实例中,基础序列模型不包括交互作用项。所述方法首先将当前 序列模型和最佳序列模型设定为基础序列模型,模块409。所述方法定义 了序列变体的交互作用项的集。这些交互作用项可包括任何数目的两个或 更多个氨基酸残基的配对或更高级别的相互作用。参见模块411。尽管模 块409被例证为在模块411之前发生,但是两个步骤的次序并不重要。在 一些实施方案中,交互作用项的集包括所有感兴趣的氨基酸残基的析因组 合(factorialcombination)。在一些另外的实施方案中,至少所有成对的交互 作用项被包括。在一些另外的实施方案中,成对的和三向交互作用项被包 括。

创建基础模型之后,所述方法从所述集中选择尚未经测定的交互作用 项。然后所述方法通过将所选择的交互作用项加至当前序列模型来形成新 的序列模型。参见模块413。然后所述方法利用对包括另外的交互作用项 偏倚的模型选择方法来评价新的序列模型的预测力。参见模块415。所述 方法确定新的序列模型的预测力是否比最佳序列模型的预测力大。参见模 块417。例如,所述方法可使用采用“似然性”测定(例如,AIC)作为模型选 择准则的技术。在此类情况中,只有具有比之前测定的模型小的AIC值的 模型被认为具有较高的预测力。

在一些实施方案中,所述选择方法倾向于具有更多参数的模型。此类 选择方法的实例包括但不限于赤池信息量准则(AIC)和贝叶斯信息准则 (BIC),及其变化形式。例如,AIC可如下计算:

AIC=-2logeL+2k

其中L为给出数据组的模型的似然性,并且k为模型中自由参数的数 目。

在一些实施方案中,给出数据组的模型的似然性可通过多种方法计 算,包括但不限于最大似然性法。例如,对于二进制因变量(其中对于一个 观察值,活性可以是存在的或不存在的),模型的似然性可如下计算:

L(model|data)=Πi=1n(ai+bi)!ai!bi!piai(1-pi)bi

其中n为数据组中数据点的总数;ai和bi为包含第i种条件的观察到 的试验的数目;p为所述模型预测到正在观察的因变量的概率。

在包括一系列嵌套模型的一些实施方案中,如在具有比基础模型渐进 地增多的交互作用项(和相关系数)的回归模型中,较复杂的模型提供比较 简单的模型同样好或更好的拟合,即使额外的系数是假的,因为较复杂的 模型享有额外的自由度。在一些实施方案中,AIC在拟合优度的增益超出 被假参数的消耗所抵消的程度上对较复杂的模型罚分。在模型选择中,较 小的AIC值指示了较好的模型。

在图4A中显示的实例中,如果新的序列模型的预测力大于最佳序列 模型的预测力,那么所述方法将新的模型设定为最佳模型。参见模块419。 然后,所述方法检查尚未测试的集中是否遗留有任何另外的交互作用项。 参见模块421。如果是,程序返回至模块413,从而形成内循环以测试相 互作用集中所有可用的交互作用项。通过迭代的内循环,可找到一个最佳 交互作用项并将其添加至模型。

在所有的交互作用项已被测试并且内循环结束之后,假定存在具有比 之前的最佳模型大的预测力的模型,找出具有一个另外的交互作用项的最 佳模型。参见模块423。在此类实施方案中,所述方法将当前模型设定为 最佳模型,并将该最佳模型的交互作用项从交互作用项的可用集中排除。 参见模块425。然后,所述方法回环至模块413。该外循环搜索可改进模 型的预测力的下一个最佳交互作用项。如果发现这样的交互作用项,则在 外循环中继续下一个最佳交互作用项的搜寻,直到没有具有比之前的最佳 序列模型的预测力大的预测力的新的模型被鉴定到。

当不在能找到改进所述模型的更多交互作用项时,所述方法将最佳模 型设定为最终模型。参见模块427。提供序列和活性数据的最佳模型的搜 索结束。然后该模型被用来预测新序列的活性。此类预测可指导用于进一 步的变异和测试的序列的选择。

在某些实施方案中,交互作用项的集中每个可用的交互作用项被视为 对模型的质量或预测力具有可能相等的影响。换言之,在实施时,所述集 中的每个可用交互作用项平等地可能被选择为在特定的迭代期间考虑。在 一些实施方案中,可用的交互作用项可随机地或以一些任意的次序被选 择。在一些其他实施方案中,交互作用项以这样的方式被偏倚或加权:在 给定的迭代期间一些项比其他项更可能被选择为被考虑。在某些实施方案 中,偏倚或加权可基于关于相互作用的物理或理论信息被应用。例如,可 能已知的是在蛋白的两个特定区域中的突变可能自然地彼此靠近并且从 而相互作用。与这两个常规区域中的残基有关的交互作用项可能是精化模 型的迭代过程期间偏爱的。

与图4A的虚拟码相似的例证过程的虚拟码如下:

项1将测试交互作用项加至回归模型

项2代表赤池信息准则(AIC)、贝叶斯信息准则(BIC)、交叉验证(平均 误差)、ANOVA或系数贡献(coefficientcontribution)中的一个或更多个的模 型比较。

项3被提供为避免重复的交互作用项测试。

图4B提供了显示图1的模块107中显示的操作的实施方案的流程图。 在该程序中,交互作用项被从基础模型中减去以形成最终的最佳模型,所 述基础模型包括来自这些项的集中的所有可能的交互作用项。

在该实施方案中,基础序列模型包括所限定的集中的所有交互作用 项。所述方法首先将当前序列模型和最佳序列模型设定为与程序开始时的 基础序列模型相同,模块439。该实施方案与以上描述的最后一个模型相 似,因为交互作用项的整个集可包括两个或更多个氨基酸残基的任何数目 的配对或更高级别的相互作用。在一些实施方案中,交互作用项的集包括 所有感兴趣的氨基酸残基的因子组合。

创建基础模型之后,所述方法从已被包括在基础模型中的项的集中选 择尚未经测定的交互作用项。然后所述方法通过将所选择的相互作用从当 前序列模型减去来形成新的序列模型。参见模块441。然后所述方法利用 对另外的交互作用项偏倚的模型选择方法来评价新的序列模型的预测力。 参见模块443。所述方法评价新的序列模型的预测力是否比最佳序列模型 的预测力大。参见模块445中显示的决策操作。在一些实施方案中,AIC 被用作模型选择准则,以使得具有比之前测定的模型小的AIC值的模型被 认为具有较高的预测力。

在该示例性实例中,如果新的序列模型的预测力大于最佳序列模型的 预测力,那么所述方法将该新的模型设定为最佳模型。参见模块447。接 下来,所述方法检查所述集中是否遗留有尚未测试的任何另外的交互作用 项(即,从当前序列模型减去)。参见模块449。如果存在任何未测试的项, 所述方法返回至模块441,从而形成内循环以测试相互作用集中所有可用 的交互作用项。通过迭代的内循环,一个交互作用项被鉴定。将其从模型 除去在最大程度上改进了模型(并且如果AIC被用来测量模型的预测力, 则通过最大限度地降低AIC)。

在所有的交互作用项已被测试并且内循环结束之后,假定存在具有比 之前的最佳模型大的预测力的模型,找出具有少一个交互作用项的最佳模 型。参见模块451。在该情形中,所述方法将当前模型设定为最佳模型。 参见模块453。然后,所述方法回环至模块441。该外循环搜索可以最大 限度地提高模型的预测力的下一个交互作用项。如果发现这样的交互作用 项,则在外循环中继续搜寻下一个待减去的交互作用项,直到没有具有比 之前的最佳序列模型的预测力大的预测力的新模型被鉴定到。

当内循环完成并且不能发现待减去的更多交互作用项以改进模型(即, 模块451中显示的决策操作被否定回答)时,所述方法将最后的最佳模型设 定为最终模型。参见模块455。对提供序列和活性数据的最佳模型的搜索 结束。

iv)可选的建模选项

关于上述方法的多种另外的变化形式在本公开内容的范围内。事实 上,不期望本发明被限制于任何特定的模型,因为任何合适的模型在本发 明中具备实用性。作为一个示例性实例,xij变量为氨基酸的物理或化学特 性的表现-而不是氨基酸自身(亮氨酸对缬氨酸对脯氨酸...)的确切身份。此 类特性的实例包括亲油性、体积和电子特性(例如,形成电荷、与部分电荷 有关的范德瓦耳斯表面积等)。为了实施该方法,代表氨基酸残基的xij值 可以其特性或由这些特性构建的主成分的形式呈现。不期望本发明被限制 于氨基酸、肽和/或多肽的任何特定的特性,因为任何合适的特性在本发明 的方法中具备实用性。

在一些另外的实施方案中,xij变量代表核苷酸,而不是氨基酸残基。 在这些实施方案中,目标是为了鉴定编码用于蛋白变体文库的蛋白的核苷 酸序列。通过使用核苷酸而不是氨基酸,可如所期望的优化除了活性之外 的参数(例如,比活性)。例如,在特定宿主或载体中的蛋白表达可以是核 苷酸序列的函数。两种不同的核苷酸序列可编码具有相同氨基酸序列的蛋 白,但是一种核苷酸序列可导致更大量的蛋白的产生和/或所述蛋白活性更 大。通过使用核苷酸序列而不是氨基酸序列,本文描述的方法可被用来优 化表现出改进的基因表达特性和/或改进的特性(例如,比活性、稳定性等) 的微生物菌株。

在一些实施方案中,核苷酸序列被表示为密码子的序列。在一些实施 方案中,模型将密码子用作核苷酸序列的基本单位,以使得所预测的活性 是存在于核苷酸序列中的多种密码子的函数。每个密码子连同其在整个核 苷酸序列中的位置充当用于生成序列-活性模型的自变量。应注意在一些情 形中,对于给定的氨基酸的不同密码子在给定的生物体中表达不同。在一 些实施方案中,对于给定的氨基酸,每个生物体具有偏好的密码子或密码 子的频率分布。通过将密码子用作自变量,该实施方案解释了这些偏好。 因此,该实施方案可被用来生成表达变体的文库(例如,其中“活性”包括特 定宿主生物体的基因表达水平)。

在一些实施方案中,所述方法包括以下操作:(a)接收表征蛋白变体 文库的训练组的数据;(b)基于在(a)中获得的数据开发这样的非线性序列- 活性模型:将活性预测为核苷酸类型和核苷酸序列中的相应位置的函数。 (c)利用序列-活性模型对核苷酸序列中的位置和/或核苷酸序列中特定位 置处的核苷酸类型按照对期望的活性的影响的次序排序;以及(d)利用该 排序来鉴定核苷酸序列中待被改变或固定的一个或更多个核苷酸,以提高 期望的活性。如所述的,在一些实施方案中,待改变的核苷酸编码特定的 氨基酸。

在一些其他的实施方案中,所述方法包括利用不同的技术用于排序或 以其他方式表征残基与特定特性相关的重要性。如以上针对线性模型描述 的,回归系数的量级被用来对残基排序。具有大的量级的系数的残基(例如, 166Ile)被视为排序高的残基。该表征被用来决定是否在生成新的、改进的 蛋白变体文库时改变特定的残基。如本文描述的,对于非线性模型,敏感 性分析更复杂。

PLS和其他技术提供除了回归系数量级以外的另外的信息,所述另外 的信息可被用来对特定残基或残基位置排序。诸如PLS和主成分分析(PCA) 或PCR的技术以主成分或潜在向量的形式提供信息。这些技术通过多维数 据组,诸如本文公开的本发明的实施方案采用的蛋白序列-活性空间,表示 最大变异的方向或向量。这些潜在向量为多个序列维度,即,构成蛋白序 列的各个残基或残基位置的函数,所述蛋白序列构成被用来构建训练组的 变体文库。因此潜在向量包括来自训练组中的每个残基位置的贡献的和。 一些位置对向量的方向贡献更强。这些贡献通过相对大的“载荷(load)”,即, 用来描述向量的系数来表现。作为一个简单的示例性实例,训练组可包括 三肽。在该实例中,第一潜在向量包括来自所有三个残基的贡献。

向量1=a1(残基位置1)+a2(残基位置2)+a3(残基位置3)

系数a1、a2、和a3为载荷。因为这些载荷反应了相应的残基位置对 数据组中的变异的重要性,所以它们可被用来按照如上所述的对各个残基 位置对于“切换”决策的目的的重要性排序。载荷像回归系数一样可被用来 对每个切换位置处的残基排序。多个参数描述这些载荷的重要性。一些实 施方案使用诸如变量重要性投影(VIP)的方法来利用载荷矩阵。该载荷矩阵 包括取自训练组的多个潜在变量的载荷。在PLS变量重要性投影(Variable ImportanceforPLSProjection)方法中,变量(例如,残基位置)的重要性通过 计算VIP来计算。对于给定的PLS维度a,(VIN)ak2等于变量的PLS权重 的平方(wak)2乘以该PLS维度的y(因变量,例如特定函数)解释的可变性百 分比。对所有的PLS维度(成分)的(VIN)ak2求和。然后通过将所述和除以 PLS模型解释的y的总变异性百分比,并乘以模型中变量的数目来计算 VIP。具有大于1的VIP的变量是对于关联特定函数(y)最相关的,并且因 此对于做转换决策的目的的排名最高。

在很多实施方案中,本发明利用常规线性回归方法鉴定组合文库中的 突变对感兴趣的序列-活性的影响。可选的建模选项和技术例如贝叶斯回 归、集成回归、靴襻法(bootstrapping)可被用于联合或取代以上所述的方法。 事实上,不期望本发明限制于任何特定的建模选择和/或技术,因为任何合 适的方法在本发明中具备适应性。

贝叶斯线性回归

在本发明的一些实施方案中,贝叶斯线性回归具备实用性。该方法是 一种线性回归方法,其中在贝叶斯推理的背景中进行统计分析。当回归模 型具有具备正态分布的误差时,并且如果假定特定形式的先验分布,则模 型的参数的后验概率分布可利用贝叶斯推理技术来确定。

线性回归模型的普通最小二乘解基于数据的似然性函数利用诸如 Moore-Penrose伪逆(Moore-Penrosepseudoinverse)的分析计算方法来评价 系数向量和模型误差。这是频概论方法,其假定存在足够的数据观察值来 代表对于所有序列的序列-活性关系。但是,样本的实际观察值几乎从来都 不足以代表群体中的所有成员。当样本(或训练组)容量有限时,这特别成 问题。在贝叶斯方法中,对样本数据补充先验概率分布形式的另外的信息。 将关于参数的先验知识与根据贝叶斯定理的数据的似然性函数结合来获 得关于参数的后验知识。先验知识可取决于领域和可用的先验信息而采用 不同的函数形式。

例如在一些实施方案中,贝叶斯回归可在模型拟合之前使用先验信息 来对系数加权。在一些实施方案中,取自之前的一轮定向进化,例如使用 亲本骨架或参考骨架和在之前的多轮中使用的至少一些突变进行的一轮 定向进化的序列/活性数据可被用来对线性系数加权。另外,对两个或更多 个突变之间的强性关系的预测可被用来对非线性交互作用系数加权。该方 法的主要优势之一是纳入先验信息来指导模型预测。

先验信息的来源的一个示例性实例是具有针对参考骨架的多个突变 中的每一个的独立项和交互作用项的模型。在一些实施方案中,数据获取 自每个变体包含一个突变的变体的集合。

在本发明中具备实用性的先验信息的另外的实例包括但不限于关于 某些突变或突变类型的作用的直观或物理信息。不论来源,先验信息充当 对序列和活性之间关系的预先设想的见解。

在用于评估模型的参数的一些实施方案中,贝叶斯线性回归利用蒙特 卡罗模拟诸如吉布斯抽样或Metropolis算法来基于数据拟合模型。当直接 抽样困难时,吉布斯抽样是马尔可夫蒙特卡罗算法,以便获得由特定的多 变量概率分布(即,由两个或更多个随机变量的联合概率分布)估算的一系 列观察值。

图5为例证贝叶斯回归在变体文库的引导进化中的使用的流程图。每 轮序列进化包括基于来自之前的一轮的序列的突变,所述之前的一轮序列 进化可通过对诸如序列-活性模型的知识引导。例如,如在模块501中,在 第n轮进化中,每个变体有一个突变。下一轮或第n+1轮进化为当前的轮, 如在模块503中显示的。对于每个变体有至少一个新的突变,总计每变体 两个或更多个突变。在该示例性实例中,贝叶斯回归在该轮实施。

第n+1轮的序列变体为新模型提供数据训练组。新模型可包括基础模 型或完成的模型,所述基础模型只包括对于各个残基的线性项,所述完成 的模型包含所有的可能交互作用项/系数,如在模块507中所示。新模型还 可包括通过多种技术选择的模型,包括以上解释的逐步添加或减去技术, 参见模块505。可选地,可使用以下讨论的遗传算法或靴襻技术被选择模 型。这些模型全部基于来自第n+1轮的训练组数据的当前/新数据。贝叶斯 推理技术可应用于这些模型,以使得模型基于当前数据的概率函数和先验 信息的分布两者。先验信息可来自之前的一轮,如模块501所示的第n轮 的序列变体的数据。信息还可来自之前的任何一轮进化的序列-活性数据或 其他先验直观知识,如模块513所示。由模块509所示的贝叶斯回归模型 基于由当前数据和先验信息提供的信息预测活性,参见模块511。尽管图5 只例证了贝叶斯回归技术对第n+1轮的应用,但是贝叶斯回归技术可应用 在多个阶段。也不期望本发明被限制于图5中提供的特定步骤,因为任何 合适的方法在本发明中具备实用性。

整体回归

在一些实施方案中,本发明利用集成回归技术制作序列-活性模型。集 成回归模型基于若干回归模型。每个模型的预测值基于特定信息准则(IC) 被加权,并且集成预测值是其包含的所有模型的预测值的加权和。在一些 实施方案中,模型开发从包含所有线性项的基础模型开始。随后的模型通 过以一些或所有可能的组合添加交互作用系数来构建。在一些实施方案 中,交互作用系数以逐步的程序被添加。每个模型拟合数据并生成IC。对 每个模型的加权基于IC,所述IC可以是IC自身或转换形式,例如对数值、 否定值(negatedvalue)等。预测可通过以下步骤针对观察值进行:产生所述 集中的每个模型的预测值,并通过采用来自每个模型的预测值的加权均值 来确定集成预测值。完整的集包含所有可能的模型,但可被修剪以通过对 其包含的模型数目或基于IC设定阈值来去除表现差的模型。

所述集的成分模型可利用多种技术产生。例如,在一些实施方案中, 使用遗传算法来形成成分模型。序列/活性数据被用来产生多个回归模型, 每个回归模型具有其自己的系数组。根据符合度准则(例如,AIC或BIC) 选择最佳模型。这些模型被“配对”以产生新的混合模型,然后评价所述混 合模型的符合度并并相应地做出选择。在一些实施方案中,该程序被重复 多轮“计算进化”以产生最佳模型的集。可选地,在一些实施方案中,集的 组分通过以上描述的逐步回归形成,并选择最佳的n个模型以形成所述集。

图6提供了根据本发明的实施方案的在序列变体的定向进化中实施集 成回归的过程的流程图。在该实施方案中,集成回归技术可被应用在多轮 序列进化轮的任何阶段。例如,在第n轮,模块601中显示的序列变体提 供了用于多个模型的训练组数据以形成如模块603所示的模型集。模型集 中的模型可以是通过遗传算法和/或逐步选择法生成的模型。在其他实施方 案中,模型集包括n折交叉验证模型和/或靴襻模型。在一些实施方案中, 只有基于多种模型选择准则诸如AIC或BIC具有较好预测力的模型被选择 进入所述集。

可选地或另外地,在一些实施方案中,尚未通过模型选择筛选的模型 也进入模型集。在一个实施方案中,具有所有线性或非线性项的所有模型 均进入模型集。对于大量的残基以及更大量的残基间的析因相互作用,该 实施方案可能是计算十分密集的。在一些可选的实施方案中,只有包含线 性项和成对的交互作用项的模型进入所述模型集。不论模型集的纳入方法 如何,集成模型包括其成分的所有项。模型集可包含任何数目的模型,包 括但不限于贝叶斯模型,就该模型来讲,先验信息可被并入所述集。

在一些实施方案中,所述集基于所述集中的每个模型的系数的加权平 均值预测序列活性,其中如模块605所示的,权重通过相应的模型的预测 力确定。

在一些实施方案中,集成回归利用以下工作流程:(1)提供空的集; (2)选择为1或更大的组容量n;(3)将数据点分类为具有容积为为n的组, 其中数据点被无置换地分组;和(4)制作预测各个系数和交互作用系数的集 成模型。在一些实施方案中,制作集成模型的步骤(4)还包括:a)移除每个 组的数据点,其中剩余的数据形成训练组并且删除的数据形成验证组;b) 通过利用逐步回归拟合训练组来制作模型;c)使用验证组测试该模型,这 提供了对模型预测能力的指示;d)将该模型添加至用来生成如以上所述的 集成模型的模型集。

靴襻法

用于表征正在考虑的模型在给定的迭代中的预测力的其他技术在本 发明中具备实用性。在一些实施方案中,这些技术包括交叉验证技术或靴 襻技术。在一些实施方案中,交叉验证采用用来生成模型的一组观察值而 删除评价模型的强度的一些观察值。在一些实施方案中,靴襻技术包括利 用被置换地测定的一组样本。在一些实施方案中,通过交叉验证或靴襻法 生成的模型可被组合到如上描述的集成模型中。

在一些另外的实施方案中,这些方法不仅通过残基对活性的预测的贡 献的量级来对残基排序,而且还通过那些预测的贡献的置信度对残基排 序。在一些情形中,研究者关注模型从一组数据到另一组数据的概括能力。 换言之,研究者想知道系数或主成分的值是否是假的。交叉验证和靴襻技 术提供了指示模型概括多个数据能力的置信水平的测量。

在一些实施方案中,利用统计上更严格的方法,在所述方法中排序基 于量级和分布的组合。在这些实施方案的一些中,具有高量级和紧密分布 两者的系数提供最高排名。在一些情形中,具有比另一个低的量级的一个 系数由于具有较少的变异可被给予较高的排名。因此,一些实施方案基于 量级和标准偏差或方差两者对氨基酸残基或核苷酸排序。多种技术可被用 来完成排序。事实上,不期望本发明被限制于任何特定的用于排序的技术。 利用靴襻p值方法的一个实施方案在以下被描述。

采用靴襻法的方法的示例性实例在图7中被描绘。如图7中显示的, 方法725开始于模块727,在模块727中提供了初始数据组S。在一些实 施方案中,如以上描述的,这是训练组。例如在一些实施方案中,其通过 以任何方式(例如,如以上描述的)系统地改变起始序列的各个残基来生成。 在由方法725示例的情况中,数据组S具有M个不同的数据点(从氨基酸 或核苷酸序列收集的活性和序列信息)用于在分析中使用。

由数据组S创建多个靴襻组B。这些靴襻组中的每个通过以置换的方 式从组S抽样以形成具有M个成员-全部取自初始组S的新组来获得。参 见模块729。“以置换的方式”的条件产生对初始组S的改变。有时候,新 的靴襻组B将包含来自S的重复样本。在一些情况中,靴襻组B也不包含 原始被包含于S的某些样本。

作为示例性实例,提供了具有100条序列的组S。靴襻组B通过从初 始组S中的100条序列中随机选择100个成员序列来创建。被用于所述方 法的每个靴襻组B包括100条序列。因此,一些序列将被多于一次地被选 择并且其他序列将根本不被选择是可能的。所述方法接下来利用从来自组 S的100条序列产生的靴襻组B建立模型。参见模块731。如以上描述的, 所述模型可利用PLS、PCR、SVM、逐步回归等建立。事实上,期望任何 合适的方法将在建立该模型中具备实用性。该模型提供对来自组B的多个 样本中出现的残基或核苷酸的排序的系数或其它指标。如在模块733显示 的,这些系数或其他指标被记录以便随后使用。

接下来,在决策模块735,所述方法确定是否应创建另一个靴襻组。 如果是,所述方法返回至模块729,在模块729中如以上描述的创建新的 靴襻组B。如果否,所述方法进行至以下讨论的模块737。模块735处的 决策转向关于在评价那些值的贡献时要使用多少不同组的系数值。组B的 数目应足以产生精确统计。在一些实施方案中,制作并分析100至1000 个靴襻组。这通过约100至1000次通过方法725的模块729、731和733 体现。但是,不期望本发明被限制于任何特定数目的靴襻组,因为适于期 望的分析的任何数目具备实用性。

在制作并分析足够数目的靴襻组B之后,决定735被回答否定。如所 示,所述方法然后进行至模块737。此处,对于每个残基或核苷酸(包括密 码子)使用系数值(例如,100至1000个值,每个靴襻组一个)计算系数(或 由模型产生的其他指标)的平均值或标准偏差。所述方法可从该信息计算t 统计值并确定测量值不同于0的置信区间。所述方法从t统计值计算针对 置信区间的p值。在该示例性情形中,p值越小,所测量的不同于0的回 归系数越可信。

要注意的是,p值不过是可对残基重要性的系数或其他指标的统计学 变化做出解释的很多不同类型的表征方式中的一种。实例包括但不限于计 算回归系数的95%置信区间并排除考虑95%置信区间穿过零线的任何回归 系数。基本上,在一些实施方案中,对数据贡献的标准偏差、方差或其他 统计上的相关测量做出解释的任何表征方式具备实用性。在一些实施方案 中,该表征步骤还对系数的量级做出解释。

在一些实施方案中,得到大的标准偏差。该大的标准偏差可归因于多 种原因,包括但不限于数据组中差的测量值,和/或初始数据组中的特定残 基或核苷酸的有限的代表性。在后一种情况中,一些靴襻组将不包括特定 残基或核苷酸的存在。在此类情况中,该残基的系数的值将为0。其他的 靴襻组将包括所述残基或核苷酸的至少部分存在并给予非0值的相应系 数。但是给予0值的组将导致系数的标准偏差变得相对大。这降低了系数 值的置信度并导致较低的排名。但是如果关于所包括的残基或核苷酸存在 相对少的数据,这则是意料之中的。

接下来,在模块739处,所述方法将回归系数(或其他指标)从最低的(最 佳的)p值到最高的(最差的)p值排序。该排名与回归系数自身的绝对值高 度相关,因为事实上绝对值越大,越大的标准偏差远离0。因此,对于给 定的标准偏差,随着回归系数变大,p值变小。但是,绝对排名将不会总 是与p值法和纯粹的量级法两者相同,特别是当在组S中可用来开始的数 据点相对少时。

最后,如模块741显示的,所述方法基于在模块739的操作中观察到 的排名固定和切换某些残基。这本质上是对以上对于其他实施方案描述的 排序方法的相同应用。在一个方法中,所述方法固定最佳残基(目前具有最 低的p值的那些残基)而切换其他残基(具有最高p值的那些残基)。

已显示该方法725在计算机模拟中表现良好。而且,在一些实施方案 中,p值排名方法天然地处理单个或极少的偶现残基(instanceresidue):p 值通常将较高(较差),因为在靴襻程序中初始数据组中不常出现的那些残 基将不太可能被随机选取。即使其系数大,其可变性(以标准偏差衡量)也 将是相当高的。在一些实施方案中,这是期望的结果,因为未被很好地代 表(即,未以足够的频率被观察到或具有较低的回归系数)的那些残基在下 一轮文库设计中可能是用于切换的好的候选物。

E.通过修饰模型预测的序列产生优化的蛋白变体文库

本发明的目标之一是,通过定向进化产生成优化的蛋白变体文库。本 发明的一些实施方案提供了利用所产生的序列-活性模型指导蛋白变体的 定向进化的方法。根据以上描述的方法制作并精化的多种序列-活性模型适 于指导蛋白或生物分子的定向进化。作为该程序的一部分,所述方法可鉴 定待被用于产生新的蛋白变体文库的序列。此类序列包括对以上鉴定的特 定残基的变异,或者是用来随后引入此类变异的前体。可通过进行诱变或 基于重组的多样性生成机制来修饰这些序列,以生成新的蛋白变体文库。 该新的文库还可被用于开发新的序列活性模型。

在一些实施方案中,寡核苷酸或核酸序列的制备通过利用核酸合成仪 合成所述寡核苷酸或核酸序列来完成。本发明的一些实施方案包括利用所 制备的寡核苷酸或蛋白序列作为用于定向进化的组成模块(buildingblock) 进行一轮定向进化。本发明的多个实施方案可将重组和/或诱变应用于这些 组成部件以产生多样性。

作为一个具体的实例,一些实施方案应用寡核苷酸重组技术。在这些 实施方案中,所述方法包括通过评价序列-活性模型的项的系数来选择用于 一轮定向进化的一个或更多个突变。突变从特定位置处的特定氨基酸或特 定类型的核苷酸的组合中基于通过所述模型预测的它们对蛋白活性的贡 献选择。在一些实施方案中,突变的选择包括鉴定被确定为比其他系数大 的一个或更多个系数,以及选择由如此鉴定的一个或更多个系数表示的特 定位置处的特定氨基酸或核苷酸。在一些实施方案中,在根据序列-活性模 型选择突变之后,所述方法包括制备含有或编码所述一个或更多个突变的 多个寡核苷酸,并利用所制备的寡核苷进行一轮定向进化。在一些实施方 案中,定向进化技术包括组合和/或重组所述寡核苷酸。

本发明的其他实施方案应用蛋白序列重组技术。在一些实施方案中, 所述方法包括鉴定新的蛋白序列或新的核酸序列,以及制备并测定所述新 的蛋白或由所述新的核酸序列编码的蛋白。在一些实施方案中,所述方法 还包括使用所述新的蛋白或由所述新的核酸序列编码的蛋白作为用于进 一步的定向进化的起始点。在一些实施方案中,定向进化过程包括片段化 并重组由模型预测的具有期望的活性水平蛋白序列。

在一些实施方案中,所述方法基于被所述模型预测为重要的各个突变 来鉴定和/或制备新的蛋白或新的核酸序列。这些方法包括:通过评价序列 -活性模型的项的系数选择一个或更多个突变,以鉴定对活性有贡献的特定 位置处的一个或更多个特定的氨基酸或核苷酸;鉴定包含以上选择的一个 或更多个突变的新蛋白序列或新核酸序列,并制备和测定所述新蛋白或由 所述新核酸序列编码的蛋白。

在其他的实施方案中,所述方法基于整个序列(而不是各个突变)的 预测活性来鉴定和/或制备新蛋白或新核酸序列。在这些实施方案的一些 中,所述方法包括将多个蛋白序列或多个氨基酸序列应用于序列-活性模 型,以及确定所述序列-活性模型预测的对于所述多个蛋白序列或核酸序列 中的每一个的活性值。所述方法还包括通过评价由所述序列-活性模型针对 多个序列预测的活性值,从以上应用的多个蛋白序列或多个氨基酸序列中 选择新蛋白序列或新核酸序列。所述方法还包括制备并测定具有所述新蛋 白序列的蛋白或由所述新核酸序列编码的蛋白。

在一些实施方案中,不是简单地合成单个最佳预测蛋白,而是基于对 蛋白中每个位置处的残基选择的最佳改变的敏感性分析产生组合的蛋白 文库。在该实施方案中,对于所预测的蛋白给定的残基选择越敏感,预测 到的符合度改变将更大。在一些实施方案中,这些敏感性从最高至最低并 且敏感性得分被用于在随后的轮次中创建组合蛋白文库(即,通过基于敏感 性并入那些残基)。在一些实施方案中,其中使用线性模型,通过简单地考 虑与该模型中给定的残基项相关的系数的大小来确定敏感性。但是,对于 非线性模型这是不可能的。相反,在利用非线性模型的实施方案中,残基 敏感性通过使用模型计算当“最佳”预测的序列中单个残基被改变时的活性 改变来确定。

本发明的一些实施方案包括选择蛋白序列或核酸序列中的一个或更 多个位置,以及在如此鉴定的一个或更多个位置处进行饱和诱变。在一些 实施方案中,这些位置通过评价序列-活性模型的项的系数来选择,以鉴定 对活性有贡献的特定位置处的一个或更多个特定的氨基酸或核苷酸。相应 地,在一些实施方案中,一轮定向进化包括在使用所述序列-活性模型选择 的位置处对蛋白序列进行饱和诱变。在一些涉及包括一个或更多个交互作 用项的模型的实施方案中,所述方法包括在两个或更多个相互作用残基处 同时应用诱变。

在一些实施方案中,残基以其排列顺序被考虑。在一些实施方案中, 对于所考虑的每个残基,所述程序确定是否“切换”那个残基。术语“切换 (toggling)”指,将多种氨基酸残基类型引入优化的文库中的蛋白变体的序列 中的特定位置。例如,丝氨酸可出现在一个蛋白变体的位置166,然而苯 丙氨酸可出现在相同文库的另一个蛋白变体的位置166。在训练组中的蛋 白变体序列之间不发生变化的氨基酸残基在优化的文库中通常保持固定。 但是,情况并非总是这样,因为在优化的文库中可能存在变异。

在一些实施方案中,优化的蛋白变体文库被设计成使得所有被鉴定的 回归系数排序“高”的残基被固定,而剩余的回归系数排序较低的残基被切 换。该实施方案的基本原理是,‘最佳’预测的蛋白周围的局部空间应被搜 索。应注意,其中切换被引入的起点“骨架”可能是模型预测的最佳蛋白和/ 或已经被验证为被筛选的文库中的‘最佳’蛋白。事实上,不期望起点骨架 被限制于任何特定蛋白。

在可选的实施方案中,至少一个或更多个(但并非全部的被鉴定的回 归系数排序高的残基)在优选的文库中保持固定,而其他的残基被切换。 在一些实施方案中,如果不期望通过一次性并入太多改变而显著地改变其 他氨基酸残基的背景,则推荐该方法。再次地,用于切换的起点可以是所 述模型预测的最佳的残基组、来自现有文库的最佳验证的蛋白或模拟得很 好的“平均”克隆。在后一种情况中,切换被预测为较高重要性的残基可能 是期望的,因为在对之前被从抽样中遗漏的活性峰的搜索中应探索更大的 空间。该类型的文库通常在早期的多轮文库制备中更为重要,因为其产生 了对随后的轮次的更精确的描绘(picture)。不期望起始点骨架被限于任何特 定蛋白。

以上实施方案的一些备选方案涉及在确定切换哪些残基时使用残基 重要性(排名)的不同程序。在一个这样的备选实施方案中,排名较高的残 基位置是切换更强烈地偏爱的。该方法中所需的信息包括来自训练组的最 佳蛋白的序列、PLS或PCR预测的最佳基序列和来自PLS或PCR模型的 残基排名。“最佳”蛋白为数据组中经湿实验室验证的“最佳”克隆(即,具有 最高的测量功能但是由于其相对接近交叉验证的预测值仍模拟得很好的 克隆)。所述方法将来自该蛋白的每个残基与来自具有期望活性的最高值的 “最佳预测”序列的相应残基比较。如果具有最高载荷或回归系数的残基不 存在于‘最佳’克隆中,则所述方法将引入该位置作为切换位置用于随后的 文库。如果所述残基存在于最佳克隆中,则所述方法不将该位置视作切换 位置,并且将按顺序移至下一个位置。对多个残基重复该程序,连续地穿 过较低的载荷值,直到生成具有足够容量的文库。

在一些实施方案中,待保留的残基的回归系数的数值和待切换的残基 的回归系数的数值是变化的。决定待切换的哪些残基以及待保留的哪些残 基基于多个因素,包括但不限于期望的文库容量、回归系数之间差异的量 级和认为将存在的非线性度的程度。保留具有小的(中性)系数的残基可能 在随后的进化轮次中揭露重要的非线性度。在一些实施方案中,优化的蛋 白变体文库包括约2N个蛋白变体,其中N代表在两个残基之间切换的位 置的数目。换言之,通过每个另外的切换增加的多样性使文库的容量翻倍, 使得10个切换位置产生~1,000个克隆(1,024),13个位置~10,000个克隆 (8,192)而20个位置~1,000,000个克隆(1,048,576)。适当的文库容量取决于 诸如筛选成本、格局(landscape)的强度、优选的空间抽样百分比等的因素。 在一些情形中,已发现相对大数目的改变的残基产生非常大百分比的无功 能的克隆的文库。因此,在一些实施方案中,用于切换的残基的数目从约 2至约30变化;即,文库容量在约4和230~109个克隆之间变化。

另外,设想到多个随后轮次的文库策略被同时利用,一些策略更有挑 战性(固定更多的“有利”残基)而其他策略更为保守(为了更彻底地探索空间 的目的,固定较少的“有利”残基)。

在一些实施方案中,在大多数天然存在或以其他形式成功的肽中存在 的基团或残基或“基序”被鉴定和/或保留,因为它们可能在蛋白的功能性 (例如,活性、稳定性等)方面是重要的。例如,可能发现在天然存在的肽 中,可变位置3处的Ile总是与可变位置11处的Val成对。因此,在一个 实施方案中,在任何切换策略中需要保留此类组。换言之,仅有的被接受 的切换是在基础蛋白中保留了特定组合(grouping)的那些切换或者生成不 同的也被发现于有活性的蛋白的组合的那些切换。在后一种情况中,切换 两个或更多个残基是必要的。

在一些另外的实施方案中,湿实验室验证的当前优化的文库中的‘最 佳’(或几个最佳的之一)蛋白(即,具有测量功能最高的、或几个最高的之一 的、仍很好地模拟,即,相对接近交叉验证中的预测值的蛋白)被用作其中 多个改变被并入的骨架。在另一个方法中,湿实验室验证的当前最优文库 中的‘最佳’(或几个最佳的之一)的、可能模拟不好的蛋白被用作其中多个改 变被并入的骨架。在一些其他的方法中,序列-活性模型预测为具有最高的 期望活性值(或最高值之一)的序列被用作为骨架。在这些方法中,用于“下 一代”文库(以及可能地相应的模型)的数据组通过改变一个或几个最佳蛋 白中的残基来获得。在一个实施方案中,这些改变构成骨架中的残基的系 统变异。在一些情形中,这些改变包括各种诱变、重组和/或亚序列选择技 术。这些改变中的每个可体外、体内和/或提供计算机模拟进行。事实上, 不期望本发明被限于任何特定的形式,因为任何合适的格式具备实用性。

在一些实施方式中,虽然由线性模型预测的最优序列可如以上描述的 通过检验来鉴定,但是对于非线性模型其实不然。在线性项和交叉乘积项 中均出现的某些残基及其在其他残基的很多可能的组合的背景下对活性 的整体影响是有疑问的。因此,正如对于非线性模型的交叉乘积项的选择, 由非线性模型预测的最优序列可通过用该模型测试所有可能的序列(假定 计算资源足够)或通过利用搜索算法诸如逐步算法来鉴定。

在一些实施方案中,在计算机中获得的信息-按照如上所述鉴定的进化 的蛋白被用来合成新型蛋白并基于物理测定测试它们。精确的对实际的湿 实验室确定的适应性功能的计算机模拟表示方式允许研究者减少进化循 环的数目和/或实验室中需筛选的变体的数目。在一些实施方案中,优化的 蛋白变异文库利用本文描述的重组方法或可选地通过基因合成方法随后 通过体内或体外表达来产生。在一些实施方案中,在优化的蛋白变体文库 被筛选期望的活性之后,对其测序。如以上在对图1和2的讨论中指出的, 来自优化的蛋白变体文库的活性和序列信息可被采用以生成另一个序列- 活性模型,可利用本文描述的方法由所述另一个序列-活性模型设计进一步 优化的文库。在一个实施方案中,所有来自该新文库的蛋白被用作数据组 的一部分。

(III).数字化装置和系统

明显的是,本文描述的实施方案采用在指令的控制下行动的程序和/ 或储存在一个或更多个计算机系统中或经其转换的数据。本文公开的实施 方案还涉及用于进行这些操作的装置。在一些实施方案中,所述装置针对 所需的目的而被专门设计和/或构建,或其可以是通过计算机程序和/或储 存于计算机中的数据结构选择性地激活或重新配置的通用型计算机。本发 明提供的程序并不固有地与任何特定的计算机或其他特定装置有关。具体 地,多种通用型机器在根据本文的教导书写的程序中具备实用性。但是, 在一些实施方案中,构建专门的装置以进行所需方法的操作。下文描述了 用于各种各样的这些机器的特定结构的一个实施方案。

另外,本发明的某些实施方案涉及包括用于进行多种计算机实施的操 作的程序指令和/或数据(包括数据结构)的计算机可读介质或计算机程序产 品。计算机可读介质的实例包括但不限于磁性介质,诸如硬盘、软盘、磁 带;光学介质,诸如CD-ROM设备或全息设备;磁光介质;半导体存储 器装置;和被特别地配置以储存并执行程序指令的硬件设备,诸如只读存 储器装置(RPM)和随机存取存储器(RAM)、专用集成电路(ASIC)、和可编 程的逻辑装置(PLD)。数据和程序指令还可体现在载波或其他传输介质(例 如,光学线路、电子线路和/或空中电波)上。事实上,不期望本发明被限 制于包含用于执行计算机实施的操作的指令和/或数据的任何特定的计算 机可读介质或任何其他计算机程序产品。

程序指令的实例包括但不限于诸如由编译器产生的低阶码和可由计 算机利用解释器执行的包含较高阶代码的文件。另外,程序指令包括但不 限于直接或间接地控制根据本发明的计算机的操作的机器代码、源代码和 任何其他代码。代码可规定输入、输出、计算、条件式、分支、迭代循环 等。

在一个示例性实施方案中,本文公开的表现方法在含有逻辑指令和/ 或数据的固定的介质或可传输程序部件中体现,所述逻辑指令和/或数据当 被加载到合适地配置的计算装置时导致所述装置对一个或更多个字符串 进行模拟的遗传操作(GO)。图8显示了示例性数字化装置800,其是一种 逻辑装置,能够从介质817、网络端口819、用户输入键盘809、用户输入 811或其他输入装置读取指令。之后装置800能利用那些指令在数据空间 中指导统计操作,例如构建一个或更多个数据组(例如,确定数据空间的多 个代表性成员)。可体现所公开的实施方案的一种类型的逻辑装置是如包括 CPU807、光学用户键盘输入设备809和GUI定点设备811,以及周围部 件诸如磁盘驱动器815和监视器805(其显示GO修饰的字符串并提供用户 对此类字符串的子集的简化的选择的计算机系统800的计算机系统。固定 介质817被任选地用来为整个系统提供程序并可包括例如,盘式光学或磁 性介质(disk-typeopticalormagneticmedia)或其他电子存储元件。通信端口 819可被用来为系统提供程序并可代表任何类型的通信连接。

在一些实施方案中,本公开内容提供了包括一个或更多个处理器、系 统存储器和计算机可执行指令存储于其上的一个或更多个计算机可读存 储介质的计算机系统,当所述计算机可执行指令被一个或更多个处理器执 行时,导致计算机系统执行用于进行生物分子的定向进化的方法。在一些 实施方案中,所述方法包括:(a)接收针对多个生物分子的序列和活性数据; (b)根据所述序列和活性数据制作基础模型,其中所述基础模型将活性预测 为序列的亚单位的存在或不存在的函数;(c)通过对所述基础模型加上或减 去至少一个新的交互作用项来制作至少一个新的模型,其中所述新的交互 作用项代表两个或更多个相互作用的亚单位之间的相互作用;(d)确定所述 至少一个新的模型将活性预测为亚单位的存在或不存在的函数的能力;(e) 基于(d)中确定的所述至少一个新模型的预测活性的能力以及对包括另外 的新交互作用项的偏倚来确定是否对所述基础模型加上或减去所述新的 交互作用项。

某些实施方案还可体现于专用集成电路(ASIC)或可编程的逻辑设备 (PLD)的电路中。在该情况中,所述实施方案以可被用来生成ASIC或PLD 的计算机可读描述符实施。本发明的一些实施方案在各种各样的其他数字 化装置的电路或逻辑处理器,例如PDA、笔记本电脑系统、显示器、图像 编辑设备等内实施。

在一些实施方案中,本发明涉及包括计算机可执行指令存储于其上的 一个或更多个计算机可读存储介质的计算机程序产品,所述计算机可执行 指令当被计算机系统的一个或更多个处理器执行时,导致计算机系统实施 用于鉴定影响期望活性的生物分子方法。该方法是本文描述的任何方法, 诸如由附图和伪代码涵盖的那些方法。在一些实施方案中,所述方法接收 对于多个生物分子的序列和活性数据,并从所述序列和活性数据制作基础 模型和改进的模型。在一些实施方案中,所述模型将活性预测为序列的亚 单位的存在或不存在的函数。

在本发明的一些实施方案中,由计算机程序产品实施的方法通过对基 础模型加上或减去至少一个新的交互作用项来制作至少一个新的模型,其 中所述新的交互作用项代表两个或更多个相互作用的亚单位之间的相互 作用。在一些实施方案中,所述方法确定所述至少一个新的模型将活性预 测为亚单位的存在或不存在的函数的能力。该方法还基于如以上确定的所 述至少一个新的模型预测活性的能力以及以对包括新的交互作用项的偏 倚来决定是否对基础模型加上或减去所述新的交互作用项。

虽然前面已经为了清楚和理解的目的以一定的细节进行了描述,但对 于本领域技术人员通过阅读该公开内容将清楚的是,可进行多种形式和细 节上的多种改变而不偏离本公开内容的真实范围。例如,以上描述的所有 技术和装置可以多种组合利用。本申请中提到的所有出版物、专利、专利 申请或其他文件,在如同每个单独的出版物、专利、专利申请和其他文件 被单独地指明为了所有目的被通过引用并入的程度上,被为了所有目的通 过引用全部并入。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号