首页> 中国专利> 用于实时预测的拉曼光谱模型的自动校准和自动维护

用于实时预测的拉曼光谱模型的自动校准和自动维护

摘要

一种用于监测和/或控制生物制药过程的方法包括:确定与由光谱系统(例如拉曼光谱系统)对该过程进行的扫描相关联的查询点,以及查询观察结果数据库,该观察结果数据库包含与生物制药过程的过去观察结果相关联的观察结果数据集。这些观察结果数据集中的每一个包括光谱数据和相应的实际分析测量结果。查询该观察结果数据库包括从这些观察结果数据集中选择满足关于该查询点的一个或多个相关性标准的那些数据集作为训练数据。该方法还包括使用所选训练数据来校准特定于该生物制药过程的本地模型。训练该本地模型(例如高斯过程模型)以基于光谱数据输入来预测分析测量结果。该方法还包括使用该本地模型来预测该生物制药过程的分析测量结果。

著录项

  • 公开/公告号CN112912716A

    专利类型发明专利

  • 公开/公告日2021-06-04

    原文格式PDF

  • 申请/专利权人 美国安进公司;

    申请/专利号CN201980068986.7

  • 发明设计人 A·塔尔斯延;

    申请日2019-10-23

  • 分类号G01N21/65(20060101);G01N21/84(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人罗文锋;彭昶

  • 地址 美国加利福尼亚州

  • 入库时间 2023-06-19 11:14:36

说明书

相关申请的交叉引用

要求2018年10月23日提交的美国临时专利申请号62/749,359、2019年4月12日提交的美国临时专利申请号62/833,044和2019年6月21日提交的美国临时专利申请号62/864,565的优先权,这些申请中的每一个特此通过引用以其全文并入本文。

技术领域

本申请总体上涉及使用诸如拉曼(Raman)光谱法等光谱技术来监测和/或控制生物制药过程,并且更具体地涉及对预测模型的在线校准和维护。

背景技术

通过生物制药过程稳定的生产生物治疗蛋白质通常需要生物反应器保持平衡且一致的参数(例如,细胞代谢浓度),这进而需要严格的过程监测和控制。为了满足这些需求,越来越多地采用过程分析技术(PAT)工具。在线监测pH、溶解氧和细胞培养温度是已经在反馈控制系统中使用的传统PAT工具的一些示例。近年来,已经研究并部署了其他的过程中探针以连续监测更复杂的种类,诸如活细胞密度(VCD)、葡萄糖、乳酸盐、以及其他关键的细胞代谢物、氨基酸、滴度和关键质量属性。

拉曼光谱法是一种流行的PAT工具,其广泛用于生物制造中的在线监测。拉曼光谱法是一种能够对化学成分和分子结构进行非破坏性分析的光学方法。在拉曼光谱法中,入射激光由于分子振动模式而非弹性地散射。入射光子与散射光子之间的频率差被称为“拉曼位移”,并且可以对拉曼位移与强度水平的向量(在本文中称为“拉曼光谱”、“拉曼扫描”或“拉曼扫描向量”)进行分析以确定样品的化学成分和分子结构。随着激光采样和检测器技术的改进,拉曼光谱法在聚合物、药物、生物制造和生物医学分析中的应用在过去的三十年中激增。由于这些技术的进步,拉曼光谱法现在已经成为在实验室内外使用的实用分析技术。自从首次报道原位拉曼测量在生物制造中的应用以来,其已被用来提供对诸如葡萄糖、乳酸盐、谷氨酸盐、谷氨酰胺、氨、VCD等几个关键过程状态的在线实时预测。这些预测通常是基于依据来自分析仪器的分析测量结果在离线环境中构建的校准模型或软传感器模型。通常使用偏最小二乘(PLS)和多重线性回归建模方法来将拉曼光谱与分析测量结果进行关联。这些模型通常需要在对分析测量结果进行校准之前对拉曼扫描进行滤波预处理。一旦训练了校准模型,就可以在实时环境中实施该模型,以提供用于过程监测和/或控制的原位测量结果。

由于生物制药过程通常在严格的约束和规定下操作,因此用于生物制药应用的拉曼模型校准是很必要的。生物制药行业中用于拉曼模型校准的当前最新方法是首先进行多次活动试验,以生成用于将拉曼光谱与(多个)分析测量结果进行关联的相关数据。这些试验既昂贵又费时,因为例如每种活动在实验室环境中都可能持续二至四周。此外,仅有限的样品可以用于分析仪器(例如,以确保实验室规模的生物反应器保持健康的活细胞量)。实际上,在线分析仪器或离线分析仪器中每天仅能进行一次或两次测量并不罕见。使情况进一步恶化的是,当前的最佳实践产生与生物反应器培养基的特定过程、特定配方或配置以及特定操作条件相关的校准模型。因此,如果要改变上述变量中的任何一个变量,则可能需要基于新数据对模型进行重新校准。实际上,拉曼模型校准和模型维护都需要大量的资源分配,并且通常是在离线环境中执行的。虽然已经提出了使模型适应新操作条件的方法(例如,递归方法、移动窗口方法和时差方法),但是这些方法可能不足以处理突然的过程变化。

许多出版物描述了基于传统化学计量学方法(例如PLS建模)的用于多个分子的通用拉曼模型。然而,这些通用模型假设这些过程使用相似的(如果不是相同的话)培养基配方和/或运行过程条件。培养基和过程通常是被平台化(platformed)的,具有很小的差异或几乎没有差异。这种类型的通用模型的缺点是:一旦过程偏离规范,或者如果训练数据集包含的过程范围过大以试图考虑不同分子之间的差异(例如,培养基添加剂、过程持续时间和/或其他过程变化),通用模型就失去准确性和精度。因此,这些“通用”模型仅在所描述的严格界限内是通用的。参见Mehdizaheh等人的Biotechnolo.Prog.31(4):1004-1013,2015和Webster等人的Biotechnol.Prog.34(3):730-737,2018。

发明内容

术语“生物制药过程(biopharmaceutical process)”是指在生物制药制造中使用的过程,诸如用于生产期望的重组蛋白质的细胞培养过程。细胞培养在诸如生物反应器等细胞培养容器中、在支持经工程改造以表达蛋白质的生物体的生长和维持的条件下进行。在重组蛋白质生产过程中,对过程参数(诸如培养基成分浓度(包括营养素和代谢物(例如,葡萄糖、乳酸盐、谷氨酸盐、谷氨酰胺、氨、氨基酸,Na+、K+以及其他营养素或代谢物))、培养基状态(pH、pCO

为了解决当前最佳工业实践的上述限制中的一些限制,本文描述的实施例涉及对用于生物制药过程的光谱分析(诸如拉曼光谱法)的传统技术进行改进的系统和方法。具体地,使用“即时学习(Just-In-Time Learning)”(JITL)平台来为生物制药应用实时构建和维护校准模型(例如,拉曼校准模型)。JITL是基于本地建模和数据库采样技术的非线性建模平台。与其他机器学习方法不同,JITL通常假设所有可用的观察结果都存储在中央数据库中,并且模型是使用来自数据库的最相关数据基于查询而动态地实时构建的。这允许使用相对简单的本地模型来很好地近似复杂的过程动力学。在JITL框架下,库可以包含不止用于在特定操作条件下操作的单个过程的光谱数据,还可以包含用于不同过程、不同培养基配置和/或不同操作条件的数据。这可以显著减少校准和维护模型所需的时间,尤其是对于可以具有很少过去生产历史或没有过去生产历史的研发中的药品而言。

JITL平台维护着可以在每次新的分析测量结果可用时进行更新的动态库。此外,为了确保本地模型适应新的过程条件,最后一个可用的分析测量结果(例如,对于当前正在监测的产品)可以始终包括在用于本地建模的训练集中。这允许本地模型更快地适应新条件或适应无历史的新产品线。使用这种方法,模型校准和模型维护都可以是自动的,并且可以大大减少与常规系统中的常规校准相关联的时间和费用(例如,材料和人工成本)。此外,提供围绕模型预测的可信度边界(或其他置信度指标,诸如置信度评分)的能力可以允许稳健的监测和控制策略。

在一些实施例中,将高斯过程模型用于JITL框架内的本地建模。高斯过程模型是功能强大的统计机器学习模型,其可以高效地捕获复杂的非线性过程动力学,并且可以轻松地适应几乎任何过程变化。与PLS、主成分回归(PCR)和其他类型的回归模型相比,高斯(Gaussian)过程模型是非参数化的方法,并且远更能从有限的数据集中捕获拉曼光谱与分析测量结果之间的复杂相关性。此外,高斯过程模型通常不需要对拉曼扫描进行滤波预处理。因此,在一些实施例中,高斯过程模型反而是在原始拉曼扫描(以对数尺度)上校准的,这可以省去模型校准/维护过程中的许多步骤。此外,高斯过程模型提供了围绕预测的可信度边界,这些可信度边界可能是使用PLS模型或PCR模型极难获得的。可信度边界对于设计分析仪器的最佳采样策略和/或实施闭环控制(例如模型预测控制或MPC)例如以便避免基于不可靠的预测进行改变可能特别有用。

尽管JITL是非线性建模框架,并且尽管上述方法通过利用最新的分析测量结果更新动态库提供了一定的适应性,但仅JITL可能不能充分自适应以考虑时变过程条件(例如,设定点或其他过程条件的突变)。具体地,使用JITL校准的本地模型可能无法利用最新样品。例如,并且特别是如果存在过程条件的最新且突然的变化,则最新的样品可能无法满足完全基于“空间”相似性(例如,拉曼扫描的相似性)的相似性准则。本文还描述了改良的JITL技术,其可以更好地利用由最新样品提供的信息(与空间相似性无关),并且因此可以更好地适应时变过程变化。具体地,本文描述了用于模型校准和维护的“自适应”JITL(A-JITL)技术和“时空”JITL(ST-JITL)技术。

实时模型维护对JITL技术的成功可能是很重要的,在实时模型维护中,本地模型可以从最近的分析测量结果中学习、并由此快速适应时变条件。但是,频繁访问分析仪器/测量结果(例如,分析离线样品)往往占用大量资源。为了在不过度降低模型性能的情况下最小化这种资源使用,可以实施基于性能的模型维护协议,在该基于性能的模型维护协议中,系统响应于确定当前模型性能不可接受/不可靠而调度/触发分析测量。

附图说明

本领域的技术人员将理解,本文描述的附图是出于说明的目的而包括的,而非限制本披露。附图不一定是按比例绘制,而是将重点放在说明本披露的原理上。应理解,在一些情况下,所描述的实施方式的不同方面可以被扩大或放大,以有助于理解所描述的实施方式。在附图中,贯穿各附图,相似的附图标记通常指代功能相似和/或结构相似的部件。

图1是可以用于预测生物制药过程的分析测量结果的示例拉曼光谱系统的简化框图。

图2是可以用于预测生物制药过程的分析测量结果以用于葡萄糖浓度的闭环控制的示例拉曼光谱系统的简化框图。

图3描绘了使用本文所描述的拉曼光谱系统的示例实施方式对葡萄糖浓度的闭环控制的实验结果。

图4描绘了当使用即时学习(JITL)技术来分析生物制药过程时可能发生的示例数据流。

图5描绘了当使用自适应JITL(A-JITL)技术来分析生物制药过程时可能发生的示例数据流。

图6描绘了当使用时空JITL(ST-JITL)技术来分析生物制药过程时可能发生的示例数据流。

图7是用于分析生物制药过程的示例方法的流程图。

具体实施方式

以上介绍的以及在下文更详细地讨论的不同构思可以以多种方式中的任一种实施,并且所描述的构思不限于任何特定的实施方式。出于说明的目的,提供了实施方式的示例。

图1是可以用于预测生物制药过程的分析测量结果的示例拉曼光谱系统100的简化框图。虽然图1描绘了实施拉曼光谱技术的系统100,但是应当理解,在其他实施例中,系统100可以实施适合于分析生物制药过程的其他光谱技术,例如诸如近红外(NIR)光谱法。

系统100包括生物反应器102、一个或多个分析仪器104、具有拉曼探针108的拉曼分析仪106、计算机110以及经由网络114耦合到计算机110的数据库服务器112。生物反应器102可以是支持生物活性环境的任何合适的容器、设备或系统,该生物活性环境可以包括培养基内的活生物体和/或从这些活生物体衍生的物质(例如,细胞培养物)。生物反应器102可以包含通过细胞培养表达的重组蛋白质,例如,诸如用于研究目的、临床用途、商业销售或其他分配。取决于所监测的生物制药过程,培养基可以包括特定流体(例如,“液体培养基”)和特定营养素,并且可以具有目标培养基状态参数,诸如目标pH水平或范围、目标温度或温度范围等。培养基还可以包括生物体和从这些生物体衍生的物质(诸如代谢物和重组蛋白质)。培养基的内容物和参数/特性在本文中统称为“培养基配置(media profile)”。

(多个)分析仪器104可以是任何在线的、线上的和/或离线的一个或多个仪器,其被配置成基于从生物反应器102内的生物活性内容获取的样品来测量这些生物活性内容的一个或多个特性或参数。例如,(多个)分析仪器104可以测量一种或多种培养基成分浓度,诸如营养素水平和/或代谢物水平(例如,葡萄糖、乳酸盐、谷氨酸盐、谷氨酰胺、氨,氨基酸、Na+、K+等)以及培养基状态参数(pH、pCO

拉曼分析仪106可以包括耦合到拉曼探针108(或者在一些实施方式中为多个拉曼探针)的光谱仪设备。拉曼分析仪106可以包括经由光纤电缆将激光递送到拉曼探针108的激光源,并且还可以包括电荷耦合器件(CCD)或其他合适的相机/记录设备以记录例如经由光纤电缆的另一通道从拉曼探针108接收到的信号。可替代地,激光源可以集成在拉曼探针108本身内。拉曼探针108可以是浸入式探针或任何其他合适类型的探针(例如,反射探针和透射探针)。

拉曼分析仪106和拉曼探针108被共同配置成在生物反应器102内的生物制药过程期间通过激发、观察和记录生物制药过程的分子“指纹”来非破坏性地扫描生物活性内容。当生物反应器的内容物被由拉曼探针108递送的激光激发时,分子指纹对应于生物制药过程内生物活性内容内的分子的振动、旋转和/或其他低频模式。作为这个扫描过程的结果,拉曼分析仪106生成一个或多个拉曼扫描向量,这些向量各自将强度表示为拉曼位移(频率)的函数。

计算机110耦合到拉曼分析仪106和(多个)分析仪器104,并且通常被配置成分析由拉曼分析仪106生成的拉曼扫描向量以便预测生物制药过程的一个或多个分析测量结果。例如,计算机110可以分析拉曼扫描向量以便预测由(多个)分析仪器104进行的(多种)相同类型的(多个)分析测量结果。作为更具体的示例,计算机110可以预测葡萄糖浓度,而(多个)分析仪器104实际上测量葡萄糖浓度。然而,尽管(多个)分析仪器104可以对从生物反应器102提取的样品进行相对不频繁的“离线”分析测量(例如,由于来自生物制药过程的培养基的数量有限和/或由于进行此类测量的较高成本等),但计算机110可以实时地对分析测量结果进行相对频繁的“在线”预测。计算机110还可以被配置成经由网络114将由(多个)分析仪器104进行的分析测量结果传输至数据库服务器112,如将在下面进一步详细讨论的。

在图1所示的示例实施例中,计算机110包括处理单元120、网络接口122、显示器124、用户输入设备126和存储器128。处理单元120包括一个或多个处理器,每个处理器可以是可编程微处理器,该可编程微处理器执行存储在存储器128中的软件指令以执行如本文所描述的计算机110的一些或全部功能。可替代地,处理单元120中的一个、一些或全部处理器可以是其他类型的处理器(例如,专用集成电路(ASIC)、现场可编程门阵列(FPGA)等),并且如本文所描述的计算机110的功能可以替代地部分或全部地以硬件实施。存储器128可以包括包含易失性和/或非易失性存储器的一个或多个物理存储器设备或单元。可以使用任何合适的一种或多种存储器类型,诸如只读存储器(ROM)、固态驱动器(SSD)、硬盘驱动器(HDD)等。

网络接口122可以包括被配置成使用一种或多种通信协议经由网络114进行通信的任何合适的硬件(例如,前端发射器和接收器硬件)、固件和/或软件。例如,网络接口122可以是或者包括以太网接口。网络114可以是单个通信网络,或者可以包括一种或多种类型的多个通信网络(例如,一个或多个有线和/或无线局域网(LAN)、和/或一个或多个有线和/或无线广域网(WAN)(例如,诸如因特网或内联网))。

显示器124可以使用任何合适的显示技术(例如,LED、OLED、LCD等)来向用户呈现信息,并且用户输入设备126可以是键盘或其他合适的输入设备。在一些实施例中,显示器124和用户输入设备126集成在单个设备(例如,触摸屏显示器)内。通常,显示器124和用户输入设备126可以组合以使得用户能够与由计算机110提供的图形用户界面(GUI)进行交互,例如用于诸如手动监测正在系统100内执行的各种过程的目的。但是,在一些实施例中,计算机110不包括显示器124和/或用户输入设备126,或者显示器124和用户输入设备126中的一者或两者都被包括在与计算机110通信地耦合的另一计算机或系统中(例如,在将预测直接发送到实施闭环控制的控制系统的一些实施例中)。

存储器128存储一个或多个软件应用程序(包括即时学习(JITL)预测器应用程序130)的指令。JITL预测器应用程序130当被处理单元120执行时通常被配置成通过校准本地模型132并通过使用本地模型132分析由拉曼分析仪106生成的拉曼扫描向量来预测生物反应器102中生物制药过程的分析测量结果。取决于拉曼分析仪106生成此类扫描向量的频率,JITL预测器应用程序130可以基于周期性时间或其他合适的时间来预测分析测量结果。拉曼分析仪106本身可以控制何时生成扫描向量,或者计算机110可以通过向拉曼分析仪106发送命令来触发扫描向量的生成。JITL预测器应用程序130可以基于每个扫描向量仅预测单一类型的分析测量结果(例如,仅葡萄糖浓度),或者可以基于每个扫描向量预测多种类型的分析测量结果(例如,葡萄糖浓度和活细胞密度)。在其他实施例中,多个不同的JITL预测器应用程序(例如,每个都类似于JITL预测器应用程序130)各自生成不同的本地模型,以全部基于同一扫描向量来预测不同类型的分析测量结果。JITL预测器应用程序130和本地模型132将在下面进一步详细讨论。

数据库服务器112可以远离计算机110(例如,使得本地设置可以仅包括生物反应器102、(多个)分析仪器104、具有拉曼探针108的拉曼分析仪106以及计算机110),并且如图1中看出的,可以包含或通信地耦合到存储与过去观察结果相关联的观察结果数据集的观察结果数据库136。观察结果数据库136中的每个观察结果数据集可以包括光谱数据(例如,由拉曼分析仪106产生的此类一个或多个拉曼扫描向量)以及一个或多个相应的分析测量结果(例如,由(多个)分析仪器104产生的这样的一个或多个测量结果)。取决于实施例和/或场景,可能已经针对多种不同的生物制药过程、在多种不同的操作条件(例如,不同的代谢物浓度设定点)下、和/或在多种不同的培养基配置(例如,不同的流体、营养素、pH水平、温度等)的情况下收集了过去观察结果。通常,可能期望使观察结果数据库136表示各种各样的过程、操作条件和培养基配置。然而,取决于实施例(如下面进一步讨论的),观察结果数据库136可以存储或可以不存储指示那些过程、细胞系、蛋白质、代谢物、操作条件和/或培养基配置的信息。在一些实施例中,数据库服务器112经由网络114和/或其他网络远程地耦合到类似于计算机110的多个其他计算机。为了收集更多的观察结果数据集以存储在观察结果数据库136中,这可能是期望的。然而,在其他实施例中,系统100不包括数据库服务器112,并且计算机110直接访问本地观察结果数据库136。

应当理解,可以使用其他配置和/或部件来代替图1中所示的那些。例如,不同的计算机(图1中未示出)可以将由(多个)分析仪器104提供的测量结果传输到数据库服务器112,一个或多个附加计算设备或系统可以充当计算机110与数据库服务器112之间的中介,可以替代地由数据库服务器112和/或另一远程服务器远程地执行如本文所描述的计算机110的一些或全部功能,等等。

在系统100的运行时间操作期间,使用拉曼分析仪106和拉曼探针108来扫描生物反应器102中的生物制药过程(即,生成该生物制药过程的拉曼扫描向量),并且然后将该(多个)拉曼扫描向量从拉曼分析仪106传输到计算机110。拉曼分析仪106和拉曼探针108可以根据预定的监测周期时间表(诸如每分钟一次或每小时一次等)来提供扫描向量以支持(由JITL预测器应用程序130进行的)预测。可替代地,可以以不规则的区间进行预测(例如,响应于基于某个过程的触发,诸如所测量的pH水平和/或温度的变化),使得每个监测周期具有可变的或不确定的持续时间。取决于实施例,拉曼分析仪106可以取决于本地模型132接受多少个扫描向量作为单次预测的输入而在每个监测周期仅向计算机110发送一个扫描向量,或者在每个监测周期向计算机110发送多个扫描向量。例如,多个扫描向量可以提高本地模型132的预测准确性。

JITL预测器应用程序130的查询单元140使用在单个监测周期内接收到的(多个)扫描向量来生成查询点,该查询点将被用于查询观察结果数据库136。在一些实施例中,查询点(即,定义查询点的数据)仅包括表示从拉曼分析仪106接收到的(多个)拉曼扫描向量的数据(例如,包括每个扫描向量的强度/频率元组)。在其他实施例中,查询点还包括一个或多个其他类型信息。例如,查询点还可以包括表示与过程相关联的操作条件的数据(例如,控制系统中的代谢物浓度设定点,或者与拉曼分析仪106或拉曼探针108相关联的激光波长和/或强度等)、表示生物制药过程培养基的培养基配置的数据(例如,流体类型、营养素类型或浓度、pH水平等)、和/或其他数据(例如,与生物制药过程相关联的细胞系、蛋白质或代谢物的指标)。

通常,查询点可以包括表示被本地模型132用作输入(即,作为本地模型132的特征集)的相同向量、参数和/或分类的数据。将多种不同数据类型用于特征集可以提高由本地模型132进行的分析测量结果预测的准确性。然而,由于观察结果数据库136中的每个观察结果数据集通常将需要包括相同的向量、参数和/或分类作为特征集,因此可能优选的是将查询点、以及本地模型132的特征集/输入限制为仅包括一个或多个拉曼扫描向量。这可以提供各种益处,诸如允许收集更多信息以存储在观察结果数据库136中、和/或简化此信息的收集。例如,如果仅使用拉曼扫描向量,则即使关于在收集观察结果数据集时存在的过程、细胞系、蛋白质、代谢物、操作条件和/或培养基配置知之甚少或一无所知,这些观察结果数据集也可以包括在观察结果数据库136中。

然后,查询单元140使用所生成的查询点来查询观察结果数据库136。在图1的示例实施例中,查询单元140通过使网络接口122经由网络114向数据库服务器112传输查询点(例如,在查询消息内)(这进而使数据库服务器112从观察结果数据库136中检索适当的数据)来实现这一点。然而,在观察结果数据库136替代地包括在计算机110中(或包括在通信地耦合到该计算机的存储器中)的实施例中,查询单元140可以替代地更直接地查询观察结果数据库136。为了便于解释,图1的剩余描述将假设观察结果数据库136耦合到数据库服务器112,如图1中所描绘的。然而,本领域的普通技术人员将容易地理解,在观察结果数据库136替代地对于计算机110而言是本地的、或位于系统架构内的另一合适位置的情况下,通信路径可以如何不同。

在接收到查询点之后,数据库服务器112使用查询点从观察结果数据库136中选择将被用作本地模型132的训练数据的相关观察结果数据集。取决于实施例,数据库服务器112可以应用任何合适的相关性标准来识别哪些观察结果数据集是“相关的”。在一个实施例中,例如,查询点包括单个拉曼扫描向量,并且数据库服务器112通过计算给定的观察结果数据集的拉曼扫描向量与该查询点的拉曼扫描向量之间的欧几里得距离来确定此观察结果数据集是否相关。如果欧几里德距离低于某个预定阈值(或者低于可变阈值,诸如基于查询点扫描向量与所有观察结果数据集扫描向量之间的平均欧几里德距离所计算出的阈值等),则观察结果数据集被识别为相关的观察结果数据集。本领域普通技术人员将理解可以如何将这种方法容易地扩展到查询点(以及每个观察结果数据集)包括多个拉曼扫描向量的实施例。在一些情况下,使用欧几里得距离来选择相关的观察结果数据集可能是次优技术。然而,如果本地模型132是高斯过程模型(如下面所讨论的),则使用欧几里得距离作为相关性准则可能是特别有利的。这是因为具有径向基函数或平方指数核的高斯过程模型本身基于欧几里得距离。然而,在其他实施例中,可以应用其他相关性标准(例如,基于角度的标准或基于相关性的标准等)。应当理解,在本地模型132还接受其他信息(例如,操作条件、培养基配置、过程数据、细胞系信息、蛋白质信息和/或代谢物信息等)作为输入/特征集的实施例中,可以使用更复杂的技术来识别“相关的”观察结果数据集。在一些实施例中,数据库服务器112响应于单次查询而仅选择预定数量的相关观察结果数据集,或者选择不多于某个最大允许数量的相关观察结果数据集,以确保仅检索到观察结果数据库136内所有数据集的相对较小子集。然而,在其他实施例中,只要每个这样的数据集都满足相关性标准,数据库服务器112就可以选择任何数量的相关观察结果数据集。

在一些实施例中,如下面将更详细描述的(例如,参考图5和图6),不仅基于在“空间”意义上与查询点的相关性(例如,拉曼扫描向量的相似性)、而且还基于在时间意义上的相关性(例如,哪些数据集是最新的,而与空间相似性无关)来选择相关观察结果数据集。这些技术可以更好地利用以下事实:即使最新的分析测量结果对应于不同的设定点等,这些最新的测量结果也可以提供有用的信息。

在识别出相关观察结果数据集(其中每个观察结果数据集可能对应于或可能不对应于与生物反应器102中的当前正在监测的生物制药过程相同的过程条件)之后,数据库服务器112检索这些数据集(例如拉曼扫描向量和(多个)相应的分析测量结果),并经由网络114将检索到的数据集传输到计算机110。查询单元140然后可以将这些相关数据集传递给本地模型生成器142,并且本地模型生成器142将这些相关数据集用作训练数据以校准本地模型132。即,本地模型生成器142使用与每个观察结果数据集相关联的(多个)拉曼扫描向量(以及可能的其他数据)作为特征集,并使用与同一观察结果数据集相关联的(多个)分析测量结果作为此特征集的标签。

在一些实施例中,如以上所指出的,本地模型生成器142构建高斯过程模型,以便高效地捕获复杂的、非线性的过程动力学,并且容易地适应几乎任何过程变化。与PLS模型和PCR模型不同,高斯过程模型使用非参数化的方法,并且即使在使用数量非常有限的训练样品的情况下,也能够捕获拉曼扫描向量与分析测量结果之间的复杂非线性相关性。这在新产品或新过程仅对应于观察结果数据库136中的有限数量的数据集的情况下可能尤其重要。在这种情况下,高斯过程模型通常能够结合数据库服务器112从观察结果数据库136选择的其他相关数据集来从那些有限的数据集中提取最多的信息。然而,在其他实施例中,只要训练时间不超过监测周期的最小期望持续时间,本地模型生成器142就可以替代地构建任何其他合适类型的机器学习模型(例如,递归神经网络、卷积神经网络等)。本地模型生成器142还可以构建本地模型132,使得本地模型132可以输出可信度边界、或某种其他合适的预测置信度指标(例如,置信度评分)。至少与PLS模型和PCR模型相比,高斯过程模型特别适合提供围绕分析测量结果预测的可信度边界。尽管已经描述了高斯过程模型相对于PLS模型和PCR模型的各种优点,但是应当理解,在一些实施例中,本地模型生成器142可以使用PLS或PCR建模方法来构建本地模型132。

本地模型生成器142可以以在线实时的方式构建本地模型132,使得预测单元144然后可以使用经训练的本地模型132通过处理已被查询单元140用来生成查询点的(多个)相同拉曼扫描向量来预测生物制药过程的一个或多个分析测量结果。实际上,在一些实施例中,每一次拉曼分析仪106向计算机110提供新的拉曼扫描向量(或一组新的拉曼扫描向量)时,查询单元140就可以执行新查询,并且本地模型生成器142就可以生成本地模型132的新版本。然而,在其他实施例中,查询单元140较不频繁地执行新查询(并且本地模型生成器142较不频繁地生成本地模型132的新版本),诸如每10个预测/监测周期一次、或每100个预测/监测周期一次等。

数据库维护单元146还可以使(多个)分析仪器104以比拉曼分析仪106的监测周期显著更低的频率(例如,每天仅一次或两次等)周期性地收集一个或多个实际分析测量结果。在一些实施例中,(多个)分析仪器104的(多个)测量结果可能是破坏性的,并且需要从生物反应器102中的过程中永久去除样品。在数据库维护单元146使(多个)分析仪器104收集并提供(多个)实际分析测量结果的时间或附近,数据库维护单元146还可以使拉曼分析仪106提供一个或多个拉曼扫描向量。数据库维护单元146然后可以使网络接口122经由网络114将(多个)拉曼扫描向量和(多个)相应的实际分析测量结果发送到数据库服务器112,以作为新的观察结果数据集存储在观察结果数据库136中。观察结果数据库132可以根据任何合适的定时来更新,该定时可以根据实施例而变化。例如,如果(多个)分析仪器104在测量样品的几秒内输出实际分析测量结果,则观察结果数据库132可以在采样时几乎立即被新的测量结果更新。然而,在某些其他实施例中,实际分析测量结果可以是由(多个)分析仪器104中的一个或多个分析仪器进行的几分钟、几小时或甚至几天的处理的结果,在这种情况下,观察结果数据库132直到这种处理已经完成之后才被更新。在仍其他实施例中,随着分析仪器104中的不同分析仪器完成其各自的测量结果,可以以增量方式将新的观察结果数据集添加到观察结果数据库132。

因此,观察结果数据库136提供了可以由本地模型生成器142用来进行模型训练的过去观察结果的“动态库”。在一些实施例中,总是将(多个)最近的分析测量结果添加到观察结果数据库136,并且本地模型生成器142在校准本地模型132时可以总是使用观察结果数据库136中的(多个)最新的观察结果数据集。这可以允许本地模型132对来自最新过去的过程信息进行编码,并快速适应新条件,或者快速适应没有历史的新过程条件。此外,对本地模型132的校准和维护可以是自动的。在一些实施例中,例如如下面结合A-JITL技术和ST-JITL技术所讨论的,进一步增强了本地模型132的适应性。

在一些实施例中,数据库维护单元146可以使(多个)分析仪器104基于某个其他时间或者在诸如当前模型性能等条件下收集并提供(多个)实际分析测量结果。例如,如果本地模型132将可信度区间(例如,在预测值附近的值范围,在该范围内存在95%的概率或置信度表明实际值/测量值将下降)、或某个其他置信度指标与预测一起输出(例如,如果本地模型132是高斯过程模型),并且如果置信度指标显示出特别不可靠的预测(例如,如果区间/范围超过阈值宽度/范围等),则数据库维护单元146可以触发对一个或多个实际分析测量结果的收集。作为更具体的示例,数据库维护单元146可以响应于确定95%的可信度区间超过预定义阈值而触发对(多个)分析测量结果的收集。对分析测量结果的最佳调度将在下面进一步详细讨论。在进行了(多次)测量之后,数据库维护单元146可以使拉曼分析仪106生成一个或多个拉曼扫描向量,并且使网络接口122向数据库服务器112提供(多个)实际分析测量结果和(多个)相应的拉曼扫描向量,以作为新的观察结果数据集存储在观察结果数据库132中(例如,以上面讨论的方式)。然后,在校准本地模型132时,本地模型生成器142可以在适当的情况下(例如,取决于与当前查询的相关性,或者该实施例是否始终利用最新的观察结果数据集)利用这个最近的观察结果数据集。

在生物反应器中的生物制药过程的整个生命周期中,上述一些或全部过程可以重复多次,以便使用校准和维护均是完全自动且实时的本地模型来连续监测该过程。取决于实施例和/或场景,可以出于各种目的来预测(多个)分析测量结果。例如,作为质量控制过程的一部分,可以监测(即,预测)某些参数以确保该过程仍然符合相关规范。作为另一示例,可以监测/预测一个或多个参数以在闭环控制系统中提供反馈。例如,图2描绘了系统150,该系统类似于系统100,但是试图控制生物制药过程中的葡萄糖浓度(即,试图使预测的葡萄糖浓度在某个可接受的容差内与期望的设定点相匹配)。应当理解,在其他实施例中,系统150可以替代地(或者也可以)用于控制除葡萄糖水平以外的过程参数,或者基于对一个或多个其他过程参数(例如,乳酸盐水平)的预测来控制葡萄糖水平。在图2中,使用相同的附图标记来指示图1的相应部件。例如,图2的JITL预测器应用程序130可以与图1的JITL预测器应用程序130相同(其中,为了清楚起见,JITL预测器应用程序130的各个单元未在图2中示出)。

如图2中看出的,在系统150内,存储器128还存储控制单元152。控制单元152被配置成控制葡萄糖泵154,即,使葡萄糖泵154选择性地将附加的葡萄糖引入生物反应器102内的生物制药过程中。控制单元152可以包括例如由处理单元120执行的软件指令、和/或适当的固件和/或硬件。在一些实施例中,控制单元152使用葡萄糖浓度作为闭环架构中的输入来实施模型预测控制(MPC)技术。在本地模型132为每个预测提供可信度边界或其他置信度指标的实施例中(例如,在本地模型132为高斯过程模型的某些实施例中),控制单元152还可以接受置信度指标作为输入。例如,控制单元152可以基于葡萄糖浓度预测具有足够高的置信度指标(例如,仅基于与不超过某个百分比或绝对测量结果范围的可信度边界相关联的预测,或者仅基于与超过某个最小阈值评分的置信度评分相关联的预测等)而仅生成针对葡萄糖泵154的控制指令,或者可以基于该葡萄糖浓度预测的置信度指标等而增加和/或减少给定预测的权重。

图3描绘了针对使用JITL技术来校准和维护本地高斯过程模型一个示例实施方式的实验结果200。在图3的绘图中,水平虚线202表示葡萄糖浓度设定点,圆圈204表示葡萄糖浓度的实际测量结果(例如,由类似于图1的(多个)分析仪器104之一的分析仪器进行的),实线206表示葡萄糖浓度的预测测量结果(例如,如由类似于本地模型132的模型所预测的),并且阴影区域208表示与预测测量结果相关联的可信度边界(95%的可信度)。如图3中看出的,对于葡萄糖浓度设定点为3克每升(g/L)的情况,使用JITL技术进行的预测通常与分析测量结果很好地吻合。

现在将参考一个具体的JITL实施例在数学上更详细地描述执行查询和构建/校准本地模型132的过程,在该实施例中,本地模型132是使用单个拉曼扫描向量作为输入并预测单个分析测量结果的高斯过程模型:

b

其中,

表示来自高斯过程的随机样品,其中,均值

而且,

然后,光谱模型校准问题简化为使用

其中,

对于选择高斯核,等式(4)是正定对称矩阵,使得

给定

其中,

并且,

现在给定等式(7),可以通过求解以下优化问题来估计

其中,γ*∈Γ是最优估计。根据等式(7),我们有:

其中,

其中,

一旦训练了等式(1)中的高斯过程光谱校准模型,就可以将其部署用于实时预测应用。如前所述,令

其中,

其中,

并且

给定等式(12),输出b

其中,

等式(16)中的区间可以用于评估高斯过程预测的质量,和/或用于设计基于高斯过程的模型预测控制或其他稳健的监测策略。

现在转到响应于查询来选择相关样品(此处为观察结果数据集),问题是对于给定的查询点

在下面的算法1中提供了示例算法,其正式概述了用于从

算法1

现在转到图4,示出了当使用如本文所描述的JITL技术来分析生物制药过程时可能发生的示例数据流250。例如,数据流250可能在图1的系统100、或图2的系统150内发生。在数据流250中,由光谱仪/探针提供光谱数据252。例如,光谱数据252可以包括由拉曼分析仪106生成的拉曼扫描向量、或者NIR扫描向量等。查询点254是(例如,由查询单元140)基于光谱数据252生成的,并且被用于查询全局数据集256,该全局数据集可以包括例如观察结果数据库136中的所有观察结果数据集。基于该查询,在全局数据集256内识别局部数据集258。如上所述,例如可以基于相关性标准(例如,欧几里得距离)来选择局部数据集258。

然后将局部数据集258(例如,由本地模型生成器142)用作训练数据以校准本地模型260(例如,本地模型132)。然后(例如,由预测单元144)使用本地模型132来预测输出(分析测量结果)262,该输出诸如培养基成分浓度、培养基状态(例如,葡萄糖、乳酸盐、谷氨酸盐、谷氨酰胺、氨、氨基酸、Na+、K+和其他营养素或代谢物、pH、pCO

虽然(例如,如算法1和数据流250中的)基于JITL的本地模型提供了稳健的非线性建模框架,但这种方法不具有用于适应时变过程变化的固有机制。为了解决这个缺点,一些实施例可以使用“自适应”JITL(A-JITL)策略。如以上所指出的,当新样品变得可用时,这些样品可以包括在

为了避免这种信息丢失,在一个实施例中,将新样品添加到

虽然将新样品包括在

一个这样的实施例(在本文中被称为“自适应”JITL(A-JITL))对在空间和时间上都相关的样品进行优先级排序。令

其中,

给定

其中,

s

例如,等式(19)可以用作上述(非自适应)JITL技术中的相似性度量。因此,例如,可以从

其中,

将等式(20a)和(20b)代入等式(18)中得到集合

其中,

在下面的算法2中提供了正式概述A-JITL技术的示例算法:

算法2

因此,算法2将JITL(空间相关)与递归学习(时间相关)相结合。例如,对于

现在转到图5,示出了当使用如本文所描述的A-JITL技术来分析生物制药过程时可能发生的示例数据流300。例如,数据流300可能在图1的系统100、或图2的系统150内发生。在数据流300中,由光谱仪/探针提供光谱数据302。例如,光谱数据302可以包括由拉曼分析仪106生成的拉曼扫描向量、或者NIR扫描向量等。查询点304是(例如,由查询单元140)基于光谱数据302生成的,并且被用于查询全局数据集306,该全局数据集可以包括例如观察结果数据库136中的所有观察结果数据集。全局数据集306在逻辑上被分为最近的k个条目307A(例如,全部来自当前实验/过程)和在该最近k个条目307A之前的所有条目307B(例如,来自先前的实验/过程、以及还可能来自当前实验/过程)。可以基于查询点304的样品数来确定k的值。如本文所使用的,术语“样品数”可以广义地指代与给定样品/观察结果相关联的时间或相对时间的任何指标。基于与查询点304的空间相似性(例如,欧几里得距离)将条目307B中的某些条目添加到局部数据集308中,同时可以将所有条目307A添加到局部数据集308中而不考虑空间相似性。例如,可以根据算法2从条目307A和条目307B生成局部数据集308。

然后将局部数据集308(例如,由本地模型生成器142)用作训练数据以校准本地模型310(例如,本地模型132)。然后使用本地模型310(例如,由预测单元144)来预测输出(分析测量结果)312,该输出诸如培养基成分浓度、培养基状态(例如,葡萄糖、乳酸盐、谷氨酸盐、谷氨酰胺、氨、氨基酸、Na+、K+和其他营养素或代谢物、pH、pCO

如果实际分析测量结果(例如,由诸如(多个)分析仪器104之一等分析仪器进行的测量结果)可用,则创建新条目314并将其添加到全局数据集306中。例如,此类测量结果可以是基于周期性采样(例如,每天一次或两次)可用的,和/或可以是响应于具有可变定时的触发而变得可用的(例如,如果连续一定数量的预测具有不可接受的宽可信度边界等),如下面进一步讨论的。

虽然将空间相关样品和时间相关样品包括在

对于查询a

如果

从等式(24c)可以清楚地看出,点估计与

从等式(25b)和(25c)可以看出,使用了几种近似,包括

在一些实施例中,为了确保

b

其中,g:

是随机函数。为了方便起见,假设等式(27)中的均值函数为零,但是一般情况下不必如此。此外,对于任意输入(a

r

其中,

其中,

应当注意,与变量a和b不同,等式(30a)和(30b)中t的作用仅仅是为了提高

|t

|t

|t

对于所有i,j∈{1,...,D-k}和k∈{D-k+1,...,D},其中,

其中,等式(32b)来自等式(31a),其使

其中,等式(33b)基于等式(31b),并且等式(33d)基于等式(31c)。将等式(32b)、(33b)和(33d)代入等式(30a)和(30b)中得出:

从等式(30a)和(30b)可以很容易地确认协方差r

其中

其中,协方差函数在等式(34a)和(34b)中给出。类似地,等式(36a)中的点估计上的可信度边界

其中,

从上面可以看出,等式(38a)和(38b)仍然包括来自k

算法3

应当注意,对于β

现在转到图6,示出了当使用如本文所描述的ST-JITL技术来分析生物制药过程时可能发生的示例数据流350。例如,数据流350可能在图1的系统100、或图2的系统150内发生。在数据流350中,由光谱仪/探针提供光谱数据352。例如,光谱数据352可以包括由拉曼分析仪106生成的拉曼扫描向量、或者NIR扫描向量等。查询点354是(例如,由查询单元140)基于光谱数据352生成的,并且被用于查询全局数据集356,该全局数据集可以包括例如观察结果数据库136中的所有观察结果数据集。全局数据集356在逻辑上被分为最近的k个条目357A(例如,全部来自当前实验/过程)和在该最近k个条目357A之前的所有条目357B(例如,来自先前的实验/过程、以及还可能来自当前实验/过程)。可以基于查询点354的样品数来确定k的值。例如,可以根据算法3从条目357A和条目357B生成局部数据集358。

然后将局部数据集358(例如,由本地模型生成器142)用作训练数据以校准本地模型360(例如,本地模型132)。然后(例如,由预测单元144)使用本地模型360来预测输出(分析测量结果)362,该输出诸如培养基成分浓度、培养基状态(例如,葡萄糖、乳酸盐、谷氨酸盐、谷氨酰胺、氨、氨基酸、Na+、K+和其他营养素或代谢物、pH、pCO

如果实际分析测量结果(例如,由诸如(多个)分析仪器104之一等分析仪器进行的测量结果)可用,则创建新条目364(包括其样品数)并将其添加到全局数据集356中。例如,此类测量结果可以是基于周期性采样(例如,每天一次或两次)可用的,和/或可以是响应于具有可变定时的触发而变得可用的(例如,如果连续一定数量的预测具有不可接受的宽可信度边界等)。

如以上所指出的,可以基于一个或多个本地模型(例如,本地模型132、260、310或360)的当前和/或最新的性能来调度/触发分析测量,以便维持或提高预测准确性,同时减少资源使用(例如分析仪器的使用)。例如,这种技术可以与A-JITL、ST-JITL或单纯的JITL一起使用。

在一个实施例中,可信度区间被用来触发模型维护。具体地,如果围绕给定模型预测(例如,围绕由本地模型132、260、310或360进行的最新预测)的可信度区间的宽度(例如,如使用等式(16)或等式(37a)、(37b)计算的可信度边界之间的距离)大于预定义阈值,则数据库维护单元146可以生成请求消息,并使计算机110将该消息发送到(多个)分析仪器104以请求测量结果。在图3的示例结果中,例如,数据库维护单元146可能会在日期12/08/17、12/09/17和12/14/17结束附近触发新的分析测量结果,其中阴影区域208指示较宽可信度区间(即,b

响应于该请求消息,(多个)分析测量104执行(多次)测量,并将(多个)测量结果提供给计算机110。然后,数据库维护单元146可以将该(多个)测量结果以及从拉曼分析仪106接收到的(多个)相应拉曼扫描向量发送到数据库服务器112,以存储在观察结果数据库136中。例如,可以将该(多个)测量结果和(多个)扫描向量添加到上面讨论的库

相反,如果围绕给定模型预测的可信度区间的宽度不大于预定义阈值,则数据库维护单元146可以不请求新的分析测量结果,在这种情况下,观察结果数据库136中的库保持不变。在(多个)分析仪器104包括测量不同的特性(诸如培养基成分浓度、培养基状态(例如,葡萄糖、乳酸盐、谷氨酸盐、谷氨酰胺、氨、氨基酸、Na+、K+和其他营养素或代谢物、pH、pCO

在数学上,数据库维护单元146可以在以下条件下在查询点a

b

其中,THR是用户定义的阈值。在一些实施例中,THR可以由用户调整以适合特定的应用或用例。例如,用户可以为模型可靠性至关重要的应用设置相对较小的THR值(由数据库维护单元146使用),从而使得更频繁地发生模型/库维护操作。通常,可以基于过程关键性、基于正在预测的参数(诸如培养基成分浓度、培养基状态(例如,葡萄糖、乳酸盐、谷氨酸盐、谷氨酰胺、氨、氨基酸、Na+、K+和其他营养素或代谢物、pH、pCO

这个调度协议的变型也是可能的。例如,在一个实施例中,数据库维护单元146可以将一个或多个模型性能标准不仅应用于当前(最新)预测,而且还应用于一个或多个其他最新预测(例如,最新的N个预测,其中,N>1)。作为这样的实施例的示例,数据库维护单元146可以为最新的N个预测(N≥1)计算可信度区间的平均宽度,并且然后将此平均宽度与阈值THR进行比较。作为另一示例,数据库维护单元146可以在最近的Y个预测中识别出X个最大的可信度区间宽度(X

图7是用于分析生物制药过程(例如,用于监测和/或控制目的)的示例方法400的流程图。例如,方法400可以由诸如图1或图2的计算机110等计算机(例如,通过处理单元120执行JITL预测器应用程序130的指令)来设施,和/或由诸如图1或图2的数据库服务器112等服务器来实施。

在框402处,确定与由光谱系统(例如,由系统100或系统150的拉曼分析仪104和拉曼探针106)对生物制药过程进行的扫描相关联的查询点。例如,可以至少部分地基于由光谱系统在扫描生物制药过程时所生成的光谱扫描向量(例如,拉曼扫描向量或NIR扫描向量)来确定查询点。取决于实施例,可以基于原始光谱扫描向量或在对原始光谱扫描向量进行合适的滤波预处理之后确定查询点。在一些实施例中,例如,还基于其他信息来确定查询点,这些其他信息诸如与生物制药过程相关联的培养基配置(例如,流体类型、特定营养素、pH水平等)和/或分析生物制药过程时的一个或多个操作条件(例如,代谢物浓度设定点等)。

在框404处,查询观察结果数据库(例如,观察结果数据库136)。观察结果数据库可以包含与许多生物制药过程的过去观察结果相关联的观察结果数据集。每个观察结果数据集可以包括光谱数据(例如,拉曼扫描向量或NIR扫描向量)和相应的分析测量结果(或者在一些实施例中,两个或更多个分析测量结果)。例如,分析测量结果可以是培养基成分浓度、培养基状态(例如,葡萄糖、乳酸盐、谷氨酸盐、谷氨酰胺、氨、氨基酸、Na+、K+和其他营养素或代谢物、pH、pCO

框404可以包括从这些观察结果数据集中选择满足关于该查询点的一个或多个相关性标准的那些观察结果数据集作为训练数据。例如,如果查询点包括光谱扫描向量,则框404可以包括将该光谱扫描向量与同表示在观察结果数据库中的每个过去观察结果相关联的光谱扫描向量进行比较(例如,通过计算(1)确定该查询点所基于的光谱扫描向量与(2)同过去观察结果相关联的每个光谱扫描向量之间的欧几里得距离或其他距离,并且然后选择与这些过去观察结果相关联的光谱扫描向量中的、被确定为在确定该查询点所基于的光谱扫描向量的阈值距离之内的任何光谱扫描向量作为训练数据)。

在框406处,使用所选训练数据来校准特定于正在监测的生物制药过程的本地模型。在框406处,训练本地模型(例如,本地模型132)以基于光谱数据输入(例如,拉曼光谱扫描向量或NIR光谱扫描向量)来预测分析测量结果。在一些实施例中,该本地模型是高斯过程机器学习模型。

在框408处,使用本地模型来预测生物制药过程的分析测量结果。框408可以包括使用本地模型来分析光谱系统在扫描生物制药过程时所生成的光谱数据(例如,拉曼扫描向量或NIR扫描向量)。例如,框408可以包括通过使用本地模型来处理查询点所基于的同一扫描向量或其他光谱数据来预测分析测量结果。取决于实施例,本地模型可以用于分析原始光谱数据(例如,原始拉曼扫描向量),或者用于在对原始光谱数据进行合适的滤波预处理之后分析光谱数据。在一些实施例中,框408还包括确定与生物制药过程的所预测分析测量结果相关联的置信度指标(例如,可信度边界、置信度评分等)。在一些实施例中,在框408处,本地模型还预测一个或多个附加分析测量结果。

在一些实施例中,方法400包括图5中未示出的一个或多个附加框。例如,方法400可以包括附加框,在该附加框中,至少部分地基于在框408处预测的分析测量结果来控制生物制药过程的至少一个参数。取决于实施例,该参数可以是与所预测的分析测量结果相同的类型(例如,基于所预测的葡萄糖浓度来控制葡萄糖浓度),或者可以是不同的类型。例如,可以使用模型预测控制(MPC)技术来控制(一个或多个)参数。

作为另一示例,方法400可以包括第一附加框和第二附加框,在该第一附加框中,获得了生物制药过程的实际分析测量结果(例如,如上面所讨论的,响应于确定预测的分析测量结果、以及可能还有一个或多个较早/最新的测量结果不满足一个或多个模型性能标准而由或从(多个)分析仪器104之一获得);在该第二附加框中,将(1)光谱系统在获得实际分析测量结果时所生成的光谱数据以及(2)生物制药过程的实际分析测量结果添加到观察结果数据库中(例如,通过将光谱数据和分析测量结果发送到数据库服务器(诸如数据库服务器112),或者通过直接将光谱数据和分析测量结果添加到本地观察结果数据库等)。在预测多种类型的分析测量结果的实施例中,可以获得多个实际分析测量结果并将其添加到观察结果数据库。

作为又一个示例,方法400可以包括一个或多个附加的框组,每个框类似于框402至408。在这些附加的框组的每个框组中,可以通过查询观察结果数据库(或另一个观察结果数据库)来校准本地模型,并将该本地模型用于预测不同类型的分析测量结果。

现在将解决与本披露有关的其他考虑。

术语“多肽(polypeptide)”或“蛋白质(protein)”在全文中可互换使用,并且是指包括通过肽键彼此连结的两个或更多个氨基酸残基的分子。多肽和蛋白质还包括具有天然序列的氨基酸残基的一个或多个缺失、插入和/或取代的大分子,即包括由天然存在的非重组细胞产生的多肽或蛋白质;或通过基因工程细胞或重组细胞产生,并且包括具有天然蛋白质的氨基酸序列的氨基酸残基的一个或多个缺失、插入和/或取代的分子。多肽和蛋白质还包括如下氨基酸聚合物,其中一种或多种氨基酸为相应天然存在的氨基酸和聚合物的化学类似物。多肽和蛋白质还包括修饰,所述修饰包括但不限于糖基化、脂质附着、硫酸化、谷氨酸残基的γ-羧化、羟基化和ADP核糖基化。

多肽和蛋白质可能具有科学意义或商业意义,包括基于蛋白质的治疗法。蛋白质尤其包括分泌型蛋白质、非分泌型蛋白质、胞内蛋白质或膜结合蛋白质。多肽和蛋白质可以使用细胞培养方法通过重组动物细胞系产生,并且可以被称为“重组蛋白质”。所表达的(多种)蛋白质可以在细胞内产生或被分泌到培养基中,从培养基中可以回收和/或收集所述蛋白质。蛋白质包括通过结合靶、特别是下面列出的那些中的靶而发挥治疗作用的蛋白质,包括从其衍生的靶、与其相关的靶及其修饰。

蛋白质“抗原结合蛋白”。“抗原结合蛋白”是指包括抗原结合区或抗原结合部分的蛋白质或多肽,该抗原结合区或抗原结合部分对与其结合的另一分子(抗原)具有强亲和力。抗原结合蛋白涵盖抗体、肽体、抗体片段、抗体衍生物、抗体类似物、融合蛋白(包括单链可变片段(scFv)和双链(双价)scFv、突变蛋白、xMAb和嵌合抗原受体(CAR))。

scFv是单链抗体片段,它具有连接在一起的抗体重链和轻链的可变区。参见美国专利号7,741,465、和6,319,494以及Eshhar等人,Cancer Immunol Immunotherapy[癌症免疫学免疫疗法](1997)45:131-136。scFv保留了亲本抗体与靶抗原特异性相互作用的能力。

术语“抗体”包括任何同种型或亚类的糖基化免疫球蛋白和非糖基化免疫球蛋白,或者其与完整抗体竞争特异性结合的抗原结合区。除非另有说明,否则抗体包括人类的、人源化的、嵌合的、多特异性的、单克隆的、多克隆的、heteroIgG、XmAb、双特异性的抗体、及其寡聚物或抗原结合片段。抗体包括lgG1型、lgG2型、lgG3型或lgG4型。还包括具有抗原结合片段或抗原结合区的蛋白质,诸如Fab、Fab'、F(ab')2、Fv、双抗体、Fd、dAb、最大抗体(maxibody)、单链抗体分子、单结构域VHH、互补决定区(CDR)片段、scFv、双抗体、三抗体、四抗体和至少包含足以使特异性抗原与靶多肽结合的免疫球蛋白的一部分的多肽。

还包括人类的、人源化的和其他抗原结合蛋白,诸如人类抗体和人源化抗体,这些抗原结合蛋白当施用于人类时不会产生明显有害的免疫反应。

还包括肽体,这些肽体是包括可选地经由接头与Fc结构域连结在一起的一个或多个生物活性肽的多肽。参见美国专利号6,660,843、美国专利号7,138,370和美国专利号7,511,012。

蛋白质还包括基因工程受体,诸如嵌合抗原受体(CAR或CAR-T)和T细胞受体(TCR)。CAR通常将抗原结合结构域(诸如scFv)与一个或多个共刺激(“信号传导”)结构域和一个或多个激活结构域串联在一起。

还包括双特异性T细胞接合物

还包括经修饰的蛋白质,诸如经非共价键、共价键或者共价键和非共价键两者化学修饰的蛋白质。还包括进一步包含一种或多种译后修饰的蛋白质,其可以通过细胞修饰系统或由酶和/或化学方法离体引入或以其他方式引入的修饰制得。

蛋白质还可以包括重组融合蛋白,该重组融合蛋白包括例如多聚化结构域,诸如亮氨酸拉链、卷曲螺旋、免疫球蛋白的Fc部分等。还包括包含分化抗原的全部或部分氨基酸序列的蛋白质(称为CD蛋白质)或其配体或与这些中的任一个实质上相似的蛋白质。

在一些实施例中,蛋白质可以包括集落刺激因子,诸如粒细胞集落刺激因子(G-CSF)。此类G-CSF剂包括但不限于

在一些实施例中,蛋白质可以包括与一种或多种CD蛋白质、HER受体家族蛋白质、细胞粘附分子、生长因子、神经生长因子、成纤维细胞生长因子、转化生长因子(TGF)、胰岛素样生长因子、骨诱导因子、胰岛素和胰岛素相关蛋白、凝血和凝血相关蛋白、集落刺激因子(CSF)、其他血液和血清蛋白血型抗原特异性结合的蛋白质;受体、受体相关蛋白、生长激素、生长激素受体、T细胞受体;神经营养因子、神经营养蛋白、松弛素(relaxin)、干扰素、白介素、病毒抗原、脂蛋白、整合素、类风湿因子、免疫毒素、表面膜蛋白、转运蛋白、归巢受体、地址素、调节蛋白和免疫粘附素。

在一些实施例中,蛋白质可以包括单独或以任何组合结合以下一种或多种蛋白质的蛋白质:CD蛋白质(包括但不限于CD3、CD4、CD5、CD7、CD8、CD19、CD20、CD22、CD25、CD30、CD33、CD34、CD38、CD40、CD70、CD123、CD133、CD138、CD171和CD174)、HER受体家族蛋白质(包括例如HER2、HER3、HER4和EGF受体)、EGFRvIII、细胞粘附分子(例如LFA-1、Mol、p150,95、VLA-4、ICAM-1、VCAM和αv/β3整合素)、生长因子(包括但不限于例如血管内皮生长因子(“VEGF”));VEGFR2、生长激素、甲状腺刺激素、卵泡刺激素、黄体生成激素、生长激素释放因子、甲状旁腺激素、米勒管抑制物质(mullerian-inhibiting substance)、人类巨噬细胞炎性蛋白(MIP-1-α)、促红细胞生成素(EPO)、神经生长因子(诸如NGF-β)、血小板源性生长因子(PDGF)、成纤维细胞生长因子(包括例如aFGF和bFGF)、表皮生长因子(EGF)、Cripto、转化生长因子(TGF)(其中包括TGF-α和TGF-β(包括TGF-β1、TGF-β2、TGF-β3、TGF-β4或TGF-β5))、胰岛素样生长因子-I和胰岛素样生长因子-II(IGF-I和IGF-II)、des(1-3)-IGF-I(脑IGF-I)和骨诱导因子、胰岛素和胰岛素相关蛋白(包括但不限于胰岛素、胰岛素A链、胰岛素B链、胰岛素原和类胰岛素生长因子结合蛋白);(凝血蛋白和凝血相关蛋白,尤其如,VIII因子、组织因子、维勒布兰德(von Willebrand)因子、蛋白C、α-1-抗胰蛋白酶、纤溶酶原激活剂(如尿激酶和组织纤溶酶原激活剂(“t-PA”))、邦巴辛(bombazine)、凝血酶、血小板生成素和血小板生成素受体、集落刺激因子(CSF)(尤其包括以下物质:M-CSF、GM-CSF和G-CSF)、其他血液和血清蛋白(包括但不限于白蛋白、IgE和血型抗原)、受体和受体相关蛋白(包括例如flk2/flt3受体、肥胖(OB)受体、生长激素受体和T细胞受体);(x)神经营养因子,包括但不限于骨源性神经营养因子(BDNF)和神经营养蛋白-3、神经营养蛋白-4、神经营养蛋白-5或神经营养蛋白-6(NT-3、NT-4、NT-5或NT-6);(xi)松弛素A链、松弛素B链和松弛素原、干扰素(包括例如干扰素α、干扰素β和干扰素γ)、白介素(IL)(例如IL-1至IL-10、IL-12、IL-15、IL-17、IL-23、IL-12/IL-23、IL-2Ra、IL1-R1、IL-6受体、IL-4受体和/或IL-13受体、IL-13RA2或IL-17受体、IL-1RAP;(xiv)病毒抗原,包括但不限于AIDS包膜病毒抗原、脂蛋白、降钙素、胰高血糖素、心钠素、肺表面活性剂、肿瘤坏死因子-α和肿瘤坏死因子-β、脑啡肽酶、BCMA、IgKappa、ROR-1、ERBB2、间皮素、RANTES(受激活调节的正常T细胞表达与分泌因子)、小鼠促性腺激素相关肽、DNA酶、FR-α、抑制素和激活素、整合素、蛋白质A或D、类风湿因子、免疫毒素、骨形态发生蛋白质(BMP)、超氧化物歧化酶、表面膜蛋白、衰变加速因子(DAF)、AIDS包膜、转运蛋白、归巢受体、MIC(MIC-a、MIC-B)、ULBP 1-6、EPCAM、地址素、调节蛋白、免疫粘附素、抗原结合蛋白、生长激素、CTGF、CTLA4、嗜酸性粒细胞趋化因子(eotaxin)-1、MUC1、CEA、c-MET、密蛋白(Claudin)-18、GPC-3、EPHA2、FPA、LMP1、MG7、NY-ESO-1、PSCA、神经节苷脂GD2、神经节苷脂GM2、BAFF、OPGL(RANKL)、肌生成抑制素、Dickkopf-1(DKK-1)、Ang2、NGF、IGF-1受体、肝细胞生长因子(HGF)、TRAIL-R2、c-Kit、B7RP-1、PSMA、NKG2D-1、程序性细胞死亡蛋白1和配体、PD1和PDL1、甘露糖受体/hCGβ、丙型肝炎病毒、间皮素dsFv[PE38缀合物、嗜肺军团菌(lly)、IFNγ、γ干扰素诱导蛋白10(IP10)、IFNAR、TALL-1、胸腺基质淋巴细胞生成素(TSLP)、前蛋白转化酶枯草杆菌蛋白酶/Kexin 9型(PCSK9)、干细胞因子、Flt-3、降钙素基因相关肽(CGRP)、OX40L、α4β7、血小板特异性(血小板糖蛋白Iib/IIIb(PAC-1)、转化生长因子β(TFGβ)、透明带精子结合蛋白3(ZP-3)、TWEAK、血小板衍生的生长因子受体α(PDGFRα)、硬化蛋白(sclerostin)以及任何前述内容的生物活性片段或变体。

在另一个实施例中,蛋白质包括阿昔单抗、阿达木单抗、阿德木单抗、阿柏西普、阿仑单抗、阿利库单抗、阿那白滞素、阿塞西普、巴利昔单抗、贝利木单抗、贝伐单抗、生物素单抗(biosozumab)、博纳吐单抗、本妥昔单抗、布罗达单抗、莫坎妥珠单抗、康纳单抗、西妥昔单抗、塞妥珠单抗、可那木单抗、达利珠单抗、迪诺舒单抗(denosumab)、依库丽单抗、依决洛单抗、依法利珠单抗、依帕珠单抗、依那西普、依伏库单抗、加利昔单抗、盖尼塔单抗、吉妥珠单抗、戈利木单抗、替伊莫单抗、英夫利昔单抗、易普利姆玛、乐地单抗、鲁昔单抗、左旋单抗(lxdkizumab)、马帕木单抗、磷酸莫特沙尼(motesanib diphosphate)、莫罗单抗-CD3、那他珠单抗、奈西立肽、尼妥珠单抗、纳武单抗、奥瑞珠单抗、奥法木单抗、奥马珠单抗、奥普瑞白介素、帕利珠单抗、帕尼单抗、派姆单抗、帕妥珠单抗、培克珠单抗、兰尼单抗、利妥木单抗、利妥昔单抗、罗米司亭、洛莫索珠单抗、沙格司亭、托珠单抗、托西莫单抗、曲妥单抗、优特克单抗、维多珠单抗、维西珠单抗、伏洛昔单抗、扎木单抗、扎鲁木单抗、以及前述任何内容的生物仿制药。

蛋白质涵盖所有前述内容,并且进一步包括包含上述任何抗体的1、2、3、4、5或6个互补决定区(CDR)的抗体。还包括这样的变体,其包括与感兴趣蛋白质的参考氨基酸序列具有70%或更高、特别是80%或更高、更特别是90%或更高、再更特别是95%或更高、具体是97%或更高、更具体是98%或更高、再更具体是99%或更高同一性的氨基酸序列的区。在这方面的同一性可以使用多种众所周知的且容易获得的氨基酸序列分析软件来确定。优选软件包括实施史密斯-沃特曼(Smith-Waterman)算法的那些软件,该软件被认为是搜索和比对序列问题的令人满意的解决方案。还可以采用其他算法,特别是在速度是重要考虑因素的情况下。可以用于此方面的用于DNA、RNA和多肽的比对和同源性匹配的常用程序包括FASTA、TFASTA、BLASTN、BLASTP、BLASTX、TBLASTN、PROSRCH、BLAZE和MPSRCH,后者是用于在MasPar制造的大规模并行处理器上执行的史密斯-沃特曼算法的实施方式。

本文描述的一些图展示了具有一个或多个功能部件的示例框图。应理解的是,这种框图是出于说明的目的,并且所描述和示出的设备可以比所展示的具有额外的、更少的、或替代的部件。此外,在各种实施例中,部件(以及由相应部件提供的功能)可以与任何合适部件相关联或以其他方式集成为其一部分。

本披露的实施例涉及非暂态计算机可读存储介质,在该非暂态计算机可读存储介质上具有用于执行各种计算机实施操作的计算机代码。术语“计算机可读存储介质”在本文中用于包括能够存储或编码用于执行本文描述的操作、方法、和技术的一系列指令或计算机代码的任何介质。介质和计算机代码可以是为了本披露的实施例的目的而特别设计和构造的介质和计算机代码,或者它们可以是计算机软件领域的技术人员公知和可获得的类型。计算机可读存储介质的示例包括、但不限于:磁性介质,诸如硬盘、软盘、和磁带;光学介质,诸如CD-ROM和全息设备;磁光介质,诸如光盘;以及硬件设备,这些硬件设备被特别配置用于存储和执行程序代码,这些硬件设备诸如ASIC、可编程逻辑器件(“PLD”)、以及ROM和RAM设备。

计算机代码的示例包括诸如由编译器产生的机器代码、以及包含由计算机使用解释器或编译器执行的较高级代码的文件。例如,可以使用Java、C++、或其他面向对象的程序设计语言和开发工具实施本披露的实施例。计算机代码的附加示例包括加密代码和压缩代码。此外,本披露的实施例可以作为计算机程序产品被下载,该计算机程序产品可以经由传输通道从远程计算机(例如,服务器计算机)传递至请求计算机(例如,客户端计算机或不同的服务器计算机)。本披露的另一个实施例可以用硬接线电路系统代替机器可执行软件指令或与其组合来实施。

如本文使用的,除非上下文另有明确指明,否则单数术语“一(a、an)”和“该(the)”可以包括复数引用物。

如本文所使用的,术语“连接”、“连接的”和“连接件”指代操作性联接或链接。连接的部件可以直接地或例如通过另一组部件间接地彼此联接。

如本文所使用的,术语“大致”、“实质上”、“实质”和“约”用来描述并且解释小的变化。当与事件或情况相结合使用时,这些术语可以指代事件或情况恰好发生的情形以及事件或情况近似发生的情形。例如,当结合数值使用时,这些术语可以指代那个数值的小于或等于±10%、诸如小于或等于±5%,小于或等于±4%、小于或等于±3%、小于或等于±2%、小于或等于±1%、小于或等于±0.5%、小于或等于±0.1%、或小于或等于±0.05%的变化范围。例如,如果值之间的差小于或等于值的平均值的±10%、诸如小于或等于±5%、小于或等于±4%、小于或等于±3%、小于或等于±2%、小于或等于±1%、小于或等于±0.5%、小于或等于±0.1%、或小于或等于±0.05%,则可以认为两个数值“基本上”相同。

此外,数量、比率、以及其他数值有时以范围格式在本文中呈现。应理解的是这种范围格式是为了方便和简洁性而使用的并且应灵活地理解为包括明确指定为范围极限的数值,但是也包括包含在那个范围内的所有单独数值和子范围,就好像每个数值或子范围明确指定了一样。

虽然已经参考本披露的特定实施例描述和展示了本披露,但是这些描述和图示不限制本披露。本领域技术人员应理解的是:在不脱离由所附权利要求限定的本披露的真实精神和范围的情况下,可以进行各种改变并且可以替换等同物。这些图示可能不一定是按比例绘制的。由于制造工艺、容差和/或其他原因,本披露中的艺术再现与实际设备之间可能存在不同。可以存在没有具体地展示的本披露的其他实施例。说明书(除了权利要求之外)和附图应被视为说明性的而非限制性的。可以进行修改以使特定情况、材料、物质组成、技术、或过程适应本披露的目的、精神和范围。所有的这些变化旨在落入所附权利要求的范围内。虽然已经参考按特定顺序进行的特定操作描述了本文披露的技术,但是应理解的是,这些操作可以组合、细分、或重新排序以在不脱离本披露的教导的情况下形成等同的技术。因此,除非本文具体地指示,否则操作的顺序和分组并不是对本披露的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号