首页> 中国专利> 在使用终止化学物质的测序中建立分阶段效应模型的方法和系统

在使用终止化学物质的测序中建立分阶段效应模型的方法和系统

摘要

一种用于核酸测序的方法,其包括从接收并且在终止合成测序过程中处理样品核酸的测序仪器接收观测到或测量到的核酸测序数据。所述方法还包括针对所述观测到或测量到的核酸测序数据,通过测定候选序列的预测信号,使用模拟框架来产生一组碱基候选序列。所述模拟框架并入估算推进率(CFR)、估算不完全延伸率(IER)、估算下降率(DR)、估算再活化分子率(RMR)以及估算终止失败率(TFR),所述RMR大于或等于零并且所述TFR小于一。所述方法还包括从所述组碱基候选序列鉴别出一个候选序列,其在对应于所述样品核酸的序列时,使得求解函数最佳化。

著录项

  • 公开/公告号CN105683980A

    专利类型发明专利

  • 公开/公告日2016-06-15

    原文格式PDF

  • 申请/专利权人 生命科技股份有限公司;

    申请/专利号CN201480054627.3

  • 发明设计人 C·科勒;M·西科拉;P·范德霍恩;

    申请日2014-10-03

  • 分类号G06F19/20;

  • 代理机构上海专利商标事务所有限公司;

  • 代理人余颖

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-18 15:55:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-08-24

    授权

    授权

  • 2016-07-13

    实质审查的生效 IPC(主分类):G06F19/20 申请日:20141003

    实质审查的生效

  • 2016-06-15

    公开

    公开

说明书

相关申请的交叉引用

本申请要求2013年10月4日提交的美国临时申请第61/886,878号的优先权,所述 申请以全文引用的方式并入本文中。

技术领域

本申请大体上涉及用于核酸测序的方法、系统以及计算机可读媒体,并且更确切 地说,涉及用于在核酸测序中建立分阶段效应模型的方法、系统以及计算机可读媒体。

背景技术

测定核酸分子中的核苷酸顺序的核酸测序在广泛多种医学应用,如生物研究、基 因测试等中变得无处不在。此类应用中所利用的一种类型测序是合成测序,其中通过合成 对应链来测定核酸链中的核苷酸顺序。虽然合成测序是许多当前平台中采用的高产量方 法,但仍存在与其使用相关的若干缺点。举例来说,合成测序平台产生大量测序数据,其必 须随后经处理以测定给定核酸链中的核苷酸的顺序。此外,经由这些方法获得的测序数据 可能包括多种误差,如阶段同步损失(即,相同模板的同步合成损失),其妨碍作出精确碱基 判读的能力。因此,需要解决这些问题并且能够经由合成测序平台更精确和有效地操作大 量所获得的测序数据的系统和方法。

发明内容

本发明的示例性实施例可以解决上文所提到的问题中的一个或多个和/或可以展 现上文所提到的所需特征中的一个或多个。其它特征和/或优势可以从以下描述变得显而 易见。

根据至少一个示例性实施例,用于核酸测序的方法包括从经配置以接收样品核酸 并且在终止合成测序过程中处理样品核酸的测序仪器接收观测到或测量到的核酸测序数 据。所述方法还包括针对观测到或测量到的核酸测序数据,通过测定候选序列的预测信号, 使用用于模拟在第N个核苷酸流期间第K个碱基处存在的活性和非活性分子的可能的状态 转换的模拟框架,产生一组碱基候选序列,其中K和N分别指示与碱基和核苷酸流相关的指 数。用于模拟可能的状态转换的模拟框架并入估算推进率(CFR)、估算不完全延伸率(IER)、 估算下降率(DR)、估算再活化分子率(RMR)以及估算终止失败率(TFR),RMR大于或等于零并 且TFR小于一。所述方法进一步包括从所述组碱基候选序列鉴别出一个候选序列,其在对应 于所述样品核酸的序列时,使得求解函数最佳化。

根据至少一个示例性实施例,核酸测序系统包括测序仪器,其经配置以接收样品 核酸、具有收端基团的至少一个核苷酸、引子以及聚合酶,并且在终止合成测序过程中处理 样品核酸以产生原始核酸测序数据。处理器经配置以接收原始核酸测序数据并且针对样品 核酸,通过测定候选序列的预测信号,使用用于模拟在第N个核苷酸流期间第K个碱基处存 在的活性和非活性分子的可能的状态转换的模拟框架,产生一组碱基候选序列,其中K和N 分别指示与碱基和核苷酸流相关的指数。用于模拟可能的状态转换的模拟框架并入估算推 进率(CFR)、估算不完全延伸率(IER)、估算下降率(DR)、估算再活化分子率(RMR)以及估算 终止失败率(TFR),RMR值大于或等于零并且TFR值小于一。

根据至少一个示例性实施例,设备包括机器可读存储器和经配置以执行机器可读 指令的处理器,所述指令在被执行时使得设备从经配置以接收样品核酸并且在终止合成测 序过程中处理样品核酸的测序仪器接收观测到或测量到的核酸测序数据;并且针对观测到 或测量到的核酸测序数据,通过测定候选序列的预测信号,使用用于模拟在第N个核苷酸流 期间第K个碱基处存在的活性和非活性分子的可能的状态转换的模拟框架,产生一组碱基 候选序列,其中K和N分别指示与碱基和核苷酸流相关的指数。用于模拟可能的状态转换的 模拟框架并入估算推进率(CFR)、估算不完全延伸率(IER)、估算下降率(DR)、估算再活化分 子率(RMR)以及估算终止失败率(TFR),其中RMR大于或等于零并且TFR小于一。

在以下描述内容中将部分阐述本发明的额外目标、特征和/或优点,并且其将部分 从所述描述内容显而易见,或可以通过实践本发明和/或权利要求习得。这些目标和优点中 的至少一些可以通过在所附权利要求书中特别指出的元素和组合来实现并且获得。

应理解,前述一般描述和以下详细描述都仅仅是示例性和解释性的,并且不限制 权利要求;实际上权利要求应被授予其完全宽度范围,包括等效物。

附图说明

可以单独或与随附图式一起从以下详细描述理解本发明。包括图式以提供对本发 明的进一步理解,并且并入在本说明书中并且构成在本说明书的一部分。图式说明本教示 内容的一个或多个示例性实施例并且与描述一起用以解释某些原则和操作。

图1是说明根据本发明的实施例的合成测序系统的示意图。

图2是说明根据本发明的实施例的用于鉴别核酸序列的方法的流程图。

图3是根据本发明的实施例的用于计算预测电离图的模拟框架的示意性图示。

图4说明根据本发明的实施例的图3的模拟框架内的示例性单元以及可能的状态 和状态转换。

图5说明根据本发明的另一个实施例的图3的模拟框架内的示例性单元以及可能 的状态和状态转换。

图6说明根据本发明的实施例的用于计算预测电离图的模拟框架的简化示意性图 示;

图7说明根据本发明的实施例的图6的模拟框架内的示例性单元以及可能的状态 和状态转换。

图8说明根据本发明的实施例的用于计算预测电离图的模拟框架的简化示意性图 示。

图9说明根据本发明的实施例的图8的模拟框架内的示例性单元以及可能的状态 和状态转换。

图10A-10D说明根据本发明的实施例的针对低噪音电平的标准分阶段和终止子分 阶段的模拟比较。

图11A-11D说明根据本发明的实施例的针对中等噪声水平的标准分阶段和终止子 分阶段的模拟比较。

图12A-12D说明根据本发明的实施例的针对高噪声水平的标准分阶段和终止子分 阶段的模拟比较。

图13A-13H说明模拟根据本发明的实施例的终止化学物质合成测序过程中0.5% 的不完全延伸率的结果。

图14A-14H说明根据本发明的实施例的终止化学物质合成测序过程中1.5%的不 完全延伸率的模拟结果。

图15A-15H说明根据本发明的实施例的终止化学物质合成测序过程中2.5%的不 完全延伸率的模拟结果。

图16A-16H说明根据本发明的实施例的终止化学物质合成测序过程中3.5%的不 完全延伸率的模拟结果。

图17A-17H说明根据本发明的实施例的终止化学物质合成测序过程中4.5%的不 完全延伸率的模拟结果。

具体实施方式

说明示例性实施例的本实施方式和随附图式不应视为限制性的。可以在不脱离本 描述和权利要求(包括等效物)的范围的情况下做出各种机械、组成、结构、电气以及操作改 变。在一些情况下,未显示或详细描述熟知结构和技术以免混淆本发明。两个或更多个图中 的相同编号表示相同或类似元件。此外,参考一个实施例详细描述的元件和其相关特征可 以(只要可行)包括在其未尤其显示或描述的其它实施例中。举例来说,如果参考一个实施 例详细描述元件并且未参考第二实施例描述,那么所述元件尽管如此仍可以要求为包括于 第二实施例中。

出于本说明书和所附权利要求书的目的,除非另外指示,否则说明书和权利要求 中所使用的所有表示量、百分比或比例的数字和其它数值应理解为在所有实例中被术语 “约”修饰,达到其还未被如此修饰的程度。因此,除非相反地指示,否则在以下说明书和所 附权利要求中所阐述的数值参数是可以取决于设法获得的所需特性变化的近似值。最低限 度地,并且不试图限制等效物原则应用于权利要求书的范围,至少应根据所报告的有效数 字的数目并且通过应用一般四舍五入技术来解释每个数值参数。

应注意,除非明确地并且肯定地限于一个指示物,否则如本说明书和所附权利要 求书中所使用的单数形式“一(a/an)”和“所述”和任何词的任何单数用途包括复数个指示 物。如本文所使用,术语“包括”和其语法变化形式意欲为非限制性的,使得清单中项目的列 举不排除可以取代或添加到所列项目中的其它类似项目。

根据各种示例性实施例,本发明涵盖用于评估样品核酸序列的系统、方法以及计 算机可读媒体,包括通过处理和/或分析可能被能够引起利用终止化学物质的合成测序过 程中的测序误差的分阶段效应的存在污染的核酸测序数据来作出碱基判读。举例来说,在 一些实施例中,可以通过使在分阶段模型下计算的值的预测组与经由实验,例如使用测序 仪器获得的值的测量组之间的距离减到最小(例如经由最小平方拟合框架)而找到鉴别核 酸样品中的碱基序列的测序问题的解决方案。在一些实施例中,可以通过用树基求解程序 搜索或穿越可能的序列来确认最小化问题的解决方案。以此方式,本发明的各种示例性实 施例可以通过考虑一种或多种分阶段效应实现碱基判读而不需要去除或纠正此类分阶段 效应。

在各种示例性实施例中,终止合成测序过程中出现的一种或多种分阶段效应以估 算和提供为分阶段模型的输入的参数形式捕获。可以选择参数以解释由于待测序核酸分子 的相同模板中的异步合成发生的多种分阶段误差。举例来说,分阶段模型可以并入不完全 延伸、推进、下降、再活化分子、终止失败和/或失活分子的参数。以此方式,各种示例性实施 例可以减少或消除由于终止化学物质合成测序过程中所存在的一种或多种分阶段效应而 判读不正确碱基的可能性。参考图式下文更详细地论述各种示例性实施例的这些和其它特 征。

图1说明能够测定核酸样品中所存在的核苷酸顺序的核酸测序系统10。聚核苷酸 可以包括通过磷酸二酯键连接的天然脱氧核糖核苷(例如脱氧腺苷、脱氧胞苷、脱氧鸟苷以 及脱氧胸苷(针对DNA)或其核糖对应物(针对RNA))。然而,其还可以包括非天然核苷酸类似 物,例如包括经修饰的碱基、糖或核苷间键。在一个示例性实施例中,聚核苷酸可以由字母 (大写或小写)序列表示,如“ATGCCTG”,并且应理解,核苷酸从左到右按5′→3′顺序,并且除 非另外指示或上下文显而易见,否则“A”指示脱氧腺苷,“C”指示脱氧胞苷,“G”指示脱氧鸟 苷,并且“T”指示脱氧胸苷,并且“I”指示脱氧肌苷,并且“U”指示脱氧尿苷。

核酸测序系统10包括控制和处理系统12,其从用于分析和/或处理的测序仪器14 接收核酸测序数据。测序仪器14经配置以进行使用终止化学物质的合成测序过程(“终止合 成测序”)。如本文所使用,术语“终止合成测序”涵盖采用任何类型的终止化学物质的所有 合成测序过程。举例来说,终止合成测序包括(但不限于)经由将一种或多种终止子,如化学 上改变的dNTP(例如化学上改变的dATP、dCTP、dGTP和/或dTTP),包括2′,3′双脱氧核苷酸 (ddNTP)(例如ddATP、ddCTP、ddGTP、ddTTP)并入到反应混合物中,以逐步方式可逆地或不可 逆地终止核酸复制的合成测序过程。

在流量控制器18的控制下以各种浓度提供一种或多种材料16。在所说明的实施例 中,材料包括核酸聚合酶20、核酸引子22、核酸模板24、脱氧核苷酸(dNTP)(例如dATP、dCTP、 dGTP、dTTP)26以及2′,3′双脱氧核苷酸(ddNTP)(例如ddATP、ddCTP、ddGTP、ddTTP)28,但如 下文所详细论述,为给定应用提供的材料16可以例如取决于实施特定考虑而变化。

控制和处理系统12的所说明的实施例包括内部总线30,其与处理器32连接以使得 能够与多种其它系统组件联通。控制和处理系统12还包括随机存取存储器(RAM)或其它动 态存储器,其耦合到总线30以便存储打算由处理器32执行的指令。RAM34也可以用于在执 行打算由处理器32执行的指令期间存储临时变量或其它中间信息。此外,提供只读存储器 (ROM)36或其它静态存储装置以便存储处理器32的静态信息和指令。控制和处理系统12还 可以包括存储装置38,如磁盘、光盘或固态驱动器(SSD)以便存储信息或指令。存储装置38 可以包括媒体驱动器和可移动存储介面。媒体驱动器可以包括用以支持固定的或可移动的 存储媒体的驱动器或其它机制,如硬盘驱动器、软盘驱动器、磁带驱动器、光盘驱动器、CD或 DVD驱动器(R或RW)、闪存驱动器或其它可移动的或固定的媒体驱动器。存储装置38可以进 一步包括其中存储特定计算机软件、指令或数据的计算机可读存储媒体。

控制和处理系统12还可以包括使得软件和/或数据能够在计算机系统控制和处理 系统12与一个或多个外部装置之间传送的通信接口40。通信接口40的实例包括调制解调 器、网络接口(如乙太网(Ethernet)或其它NIC卡)、通信端口(如USB端口、RS-232C串行端 口)、PCMCIA插槽和卡、蓝牙等。经由通信接口40传送的软件和数据可以呈信号的形式,这些 信号可以是能够通过通信接口40接收的电子、电磁、光学或其它信号。这些信号可以经由信 道通过通信接口40传输和接收,所述信道如无线媒体、导线或电缆、光纤或其它通信媒体。

一个或多个控制输入端42可以经由通信接口40与处理器32联通。控制输入端42可 以经由一个或多个输入装置提供,如键盘;交互式显示器,如经配置有触摸屏输入能力的 LCD显示器;光标控制件,如鼠标等。此外,处理器32还可以经由总线30耦合到显示器44,如 阴极射线管(CRT)或液晶显示器(LCD),以便为用户显示信息。

在操作核酸测序系统期间,测序仪器14进行终止合成测序过程,从而产生对应于 并入信号的原始数据,所述信号指示并入到核酸链中的一个或多个核苷酸在测序操作中合 成。此外,在如上文所提及的所说明的核酸测序系统10中,提供核酸聚合酶20、核酸引子22、 待测序的核酸模板24、dNTP26以及ddNTP28作为适用于终止合成测序过程的测序仪器14 的输入端。然而,如本领域技术人员所理解,提供到测序仪器14的特定类型、混合物以及反 应物时序将取决于多种实施特定考虑变化,所述考虑如所采用的合成测序方法类型、所使 用的终止化学物质类型、可获得的成像或感测平台等。因此,图1中示出的材料16是可以提 供到测序仪器的反应物类型的非限制性实例。

在各种示例性实施例中,提供到测序仪器14的终止子可以包括适用于终止引子延 伸的终止子的多种类别中的任一种。举例来说,适合的终止子包括不可逆终止子,如不具有 3′羟基的ddNTP,并且因此借助于替代3′位置处的羟基的氢中断核复制。作为额外实例,还 可以利用可逆终止子。此类终止子可以包括3′-O-封端可逆终止子和3′-未封端可逆终止 子。适合的3′-O-封端可逆终止子可以包括连接到戊糖的3′羟基的氧原子的收端基团。可以 在不同实施方案中利用这种类型的若干市售终止子,包括(但不限于)3′-ONH2可逆终止子、 3′-O-烯丙基可逆终止子以及3′-O-叠氮甲基可逆终止子。适合的3′-未封端可逆终止子包 括连接到用于终止引子延伸的碱基的完整3′羟基和收端基团。可以在不同实施方案中利用 这种类型的若干市售终止子,包括(但不限于)称为“虚拟终止剂”的3′-OH未封端可逆终止 子和称为“LighteningTerminatorsTM”的3′-OH未封端核苷酸,其具有连接到羟甲基化核碱 基的终止2-硝基苯甲基部分。

取决于所选终止剂类型,适用于测序仪器14所进行的过程的所选特定聚合酶20可 以改变。即,针对核酸测序所选核苷酸类似物类型可以影响将产生最佳效率的DNA聚合酶20 类型。举例来说,在一个实施例中,可以选择LighteningTerminatorsTM用作终止子,并且可 以利用与LighteningTerminatorsTM一起使用的所研发的TherminatorTMDNA聚合酶以使 效率最佳化。

此外,取决于所选合成测序过程类型和所采用的终止化学物质类型,可以通过流 量控制器18改变dNTP26和/或ddNTP28的顺序和混合物。举例来说,如果选择桑格测序过 程来由测序仪器14执行,那么可以执行四个单独测序反应,各包括四种类型的ddNTP和另外 三种dNTP中的一种(例如一种反应应包括ddATP,还有dGTP、dCTP以及dTTP)。对于其它实例, 如果选择染料终止测序过程来由测序仪器14采用,那么流量控制器18可以调节包括所有四 种ddNTP28(即,ddATP、ddCTP、ddGTP、ddTTP)的反应物,各耦合到不同颜色荧光标记以例如 经由基于荧光的成像系统实现鉴别。

根据一个示例性实施例,测序仪器14可以经配置以进行基于电子或电荷的核酸终 止合成测序。在利用基于电子或电荷的测序(采用终止化学物质)(例如基于pH的测序)的此 类实施例中,可以通过检测作为聚合酶催化的核苷酸延伸反应的天然副产物产生的离子 (例如氢离子)测定由核苷酸并入事件产生的并入信号。此情况可以用于定序样品或模板核 酸,其可以是例如相关核酸序列的片段并且其可以作为纯系种群直接或间接连接到固体载 体(如粒子、微粒、珠粒等)。样品或模板核酸24可以可操作地关联到引子22和聚合酶20。模 板核酸24可以进行终止子和洗涤的重复循环或“流”(其在本文中可以称作“核苷酸流”,由 此可以在并入信号的对应产生的情况下使得核苷酸并入)。在一个实施例中,所利用的终止 子可以是LighteningTerminatorsTM中的一种,并且聚合酶可以是TherminatorTMDNA聚合 酶中的一种,如TherminatorIII。

引子22可以退火到样品或模板24以使得引子的3′端可以通过聚合酶延伸,只要添 加例如与模板中的下一个碱基互补的ddNTP28。随后,基于核苷酸流的已知序列和各核苷 酸流期间测量到的并入信号,可以测定与反应腔室中所存在的样品核酸24相关的类型、序 列和核苷酸数目身份。

核苷酸流的序列可以基于由核苷酸流的较短预定循环的连续重复序列组成的循 环重复图案(例如四个核苷酸流的预定序列的连续重复序列,如“ACTGACTG...”);可以完 全或部分基于核苷酸流的一些其它图案(如2012年10月18日公布的Hubbell等人的美国专 利申请第2012/0264621号中论述或涵盖的各种核苷酸流顺序中的任一个);或还可以基于 其某种组合。

在一个实施例中,将四种不同种类的ddNTP依次添加到反应腔室中,以使得各反应 物一次一个地曝露于四种不同ddNTP。在一个示例性实施例中,按以下顺序添加四种不同种 类的ddNTP:ddATP、ddCTP、ddGTP、ddTTP、ddATP、ddCTP、ddGTP、ddTTP等,各曝露继而洗涤步 骤。各曝露于ddNTP继而洗涤步骤可以视为“核苷酸流”。四个连续核苷酸流可以视为一个 “循环”。举例来说,两个循环核苷酸流顺序可以由以下表示:ddATP、ddCTP、ddGTP、ddTTP、 ddATP、ddCTP、ddGTP、ddTTP,各曝露继而洗涤步骤。在某些实施例中,采用终止化学物质,利 用上文所论述的终止子中的一种或多种,各核苷酸流可以在引子延伸终止之前导致单核苷 酸并入。

图2说明用于鉴别DNA模板的核酸序列的方法50的一个实施例。方法50包括接收呈 经由测序操作获得的测量到或观测到的数据形式的原始数据(步骤52)。举例来说,原始数 据可以在运行终止合成测序过程之后通过控制和处理系统12的处理器32从测序仪器14接 收。处理器32可以包括求解器,其经配置以将在步骤52接收到的原始数据转化成与样品核 酸模板成读数相关的碱基判读和编译连续碱基判读,其中各碱基判读参考特定核苷酸鉴别 (例如dATP(“A”)、dCTP(“C”)、dGTP(“G”)、dTTP(“T”))。

为了将此原始数据转化成碱基判读,可以产生分阶段模型以模拟终止合成测序过 程中可能发生的分阶段效应并且使得能够在处理或分析原始数据时考虑此类分阶段效应 以测定碱基判读。为此,在所说明的实施例中,可以在步骤54、56、58、60、62和64估算六个参 数中的一个或多个的估算值。具体来说,方法50可以包括获得推进率(CFR)的估算值(步骤 54)。CFR可以是涵盖正框移并且对应于核酸拷贝并入不同于给定流循环中流动的一个核苷 酸的比率的参数。

方法50还可包含获得不完全延伸率(IER)的估算值(步骤56)。IER可以是涵盖负框 移并且对应于核酸拷贝未能在流循环期间延伸的比率的参数。方法50可以进一步包括获得 下降率(DR)的估算值(步骤58),其对应于活性核酸拷贝在循环期间变得非活性的比率。例 如由于未完全去除收端基团或聚合酶失活,可能发生从活性到非活性的转变。

再者,方法50可以包括获得再活化分子率(RMR)的估算值(步骤60)。RMR对应于非 活性核酸拷贝在预期后的时间点变得再活化的比率。此参数可以涵盖收端基团先前保持完 整并且稍后去除的实例。另外,方法50可以包括获得终止失败率(TFR)的估算值(步骤62)。 TFR对应于由于引子延伸的无效终止发生分阶段误差的比率。举例来说,在采用3′-未封端 可逆终止子的实施例中,TFR可以包括收端基团未能防止聚合酶识别3′羟基并且因此并入 额外核苷酸的比率。TFR还可以包括上文详细描述的另一种类型的终止子未能终止引子延 伸的比率和给定聚合酶未能辨别3′位置处的收端基团,因此并入额外核苷酸的比率。

另外,方法50可以包括获得失活分子率(IMR)的估算值(步骤64)。IMR对应于核酸 拷贝在其已经并入碱基之后并且在已检测到对应并入信号之后变得非活性的比率。例如由 于使用不可逆终止子或由于使用可逆终止子时反向终止普遍失效,可能发生此类失活。

在获得六个经鉴别的参数或取决于实施方式所采用的六个参数中的一个或多个 的子组的估算值后,方法50包括通过模拟各流和碱基处活性和非活性分子可能的分子状态 转换产生一组候选序列(步骤66)以及鉴别所产生的序列组中的哪组序列使求解函数最佳 化(步骤68)。

举例来说,在一个实施例中,求解器可以配置为软件工具或具有从一组可能的或 候选的碱基序列有效地解决或确定哪个序列在某种程度上最与一些观测到或测量到的原 始数据一致的功能的应用。可能的或候选的序列可以通过预测在一个或多个并入估算参数 的预测模型下此类序列应预期的数据并且测定在一些距离标准下预测数据与观测到的数 据的“接近”程度来评估。

为了说明这一点,假设Y表示观测到或测量到的数据(例如,如观测到或测量到的 电离图或流程图的值或其它测序值的矢量),假设X表示预测数据(例如包含A、C、G以及T的 可能的序列组;包含至多具有一定长度的A、C、G以及T的可能的序列组或任何候选序列的其 它子组),假设A表示一组可能的或候选的核酸或碱基序列(例如,如预测电离图或流程图的 值的矢量),并且假设P表示一个或多个预测模型所使用的参数集合(例如不完全延伸、推 进、下降、再活化分子、终止失败率、失活率的参数中的一个或多个)。随后,在一个实施例 中,求解程序可以认为是函数f,其针对包含一个或多个样品核酸的一些限定空间或反应限 制区域,由组A确定“最佳”候选序列A*,从而

A*=f(Y,X(A,P))=argA,PminD(Y-X(A,P)),

其中

argx,yminf(x,y)

大体上指示应大体上使函数f(x,y)最小化的一个或多个x和y值并且其中D(y-x) 指示y与x之间的“距离”的某一函数(例如矢量之间的距离的平方距离或任何其它测量值的 总和)。

此类求解程序可以原则上考虑组A中的序列的可能的组合和组P中的参数值以鉴 别序列和参数值的最佳组合。理所当然,此类穷尽性的检索可能是计算上昂贵的并且潜在 地非常费时的。实际上,检索可以有利地限于序列子组和参数候选值子组。在一个实施例 中,可以通过与最佳化分开进行参数估算(例如如在图2的步骤54、56、58、60、62和64中)来 促进检索,将过程分成两个阶段。举例来说,在第一步骤中,可以估算所述参数,并且在第二 步骤中,可以将参数估算值处理为固定的并且作为输入供应到求解程序问题,其可以随后 变为

A*=f(Y,X,A,P)=argAminD(Y-X(A|P)),

其中X(A|P)指示假定一些固定参数P,X随A变化。

在一个实施例中,例如在P包括前五种参数(例如分别表示为IER、CFR、DR、RMR以及 TFR的不完全延伸、推进、下降、再活化分子以及终止失败比率)的情况下,那么可以发现最 佳序列A*如下:首先,可以使用任何适合的方法获得IER、CFR、DR、RMR以及TFR的估算值。参 考2011年10月27日提交的Davey等人的美国专利第8,666,678号并且在2013年8月15日提交 的Davey等人的美国公开案第2014/0051584号(其以全文引用的方式并入本文中并且公开 用于估算IER、CFR以及DR的示例性技术)中,其中本领域技术人员理解可以如何应用此类技 术以提供额外参数估算,例如还通过使用所公开的技术来估算RMR、TFR和/或IMR。此外,在 一些实施例中,可以针对动态编程矩阵中的各单元(例如针对下文所描述的矩阵70、120和/ 或130中的各单元)单独地估算所述参数中的一个或多个,从而产生跨越给定矩阵的单元的 估算参数的变化形式。在另一个实施例中,针对动态编程矩阵中的给定行,所述参数中的一 个或多个可以设定为固定估算值,而矩阵不同列中的其余参数中的一个或多个因单元而不 同。实际上,矩阵的单元中的每一个的参数估算可以在多种适合的方式方面不同,取决于给 定实施方案。

其次,A*可以通过求解以下得到

A*=argAminD(Y-X(A|IER,CFR,DR,RMR,TFR)),

其中X(A|P)指示假定一些固定参数P(例如此实例中的IER、CFR、DR、RMR以及TFR), X随A变化。可以使用任何适合的最佳化方法来解决此问题,如使用树基求解程序。此外,应 注意可以使用上文所描述的六个参数的不同数目或组合应用前述途径,并且应理解以上五 个参数是一个非限制性示范性说明。

实际上,在一些实施例中,可以利用六个所公开的参数的子组。举例来说,在一个 实施例中,可以在终止合成测序过程的情况下利用三个参数IER、CFR以及DR。在另一个实施 例中,可以利用四个参数,例如组合IER、CFR、DR以及RMR,其中TFR设定为零,或组合IER、 CFR、DR以及TFR,其中RMR设定为零。然而,在其它实施例中,前述五种参数可以并入模型中, 其中RMR和TFR都设定为大于零的值,但TMR小于1。利用不可逆终止子的又一个实施例可以 并入所有六个所公开的参数,包括IER、CFR、DR、TFR、RMR以及IMR。实际上,本文所提供的参 数模型的可能的置换使得根据各种示例性实施例的分阶段模型能够跨越多种测序平台(包 括并未利用终止化学物质的平台)为可应用的。举例来说,在并未采用终止化学物质的一个 实施例中,可以通过如下文更详细描述将RMR设定为零并且将TFR设定为一,使上文所描述 的五个参数模型收缩成三个参数模型。

图3-9说明可以用于计算预测电离图的模拟构架和矩阵的示例性实施例。针对给 定应用所选择的特定模拟框架和矩阵可以取决于多种实施特定考虑和因素,如合成测序过 程中利用的终止化学物质类型。举例来说,图3和4分别说明模拟框架和矩阵,其可以用于计 算利用例如如上文所公开的可逆终止子的终止合成测序过程中的预测电离图。对于其它实 例,图3和5分别说明模拟框架和矩阵,其可以用于计算利用例如如上文所公开的不可逆终 止子的终止合成测序过程中的预测电离图。

更具体来说,图3示意性地说明根据本发明的一个实施例的用于计算预测电离图 的模拟框架70。表述包括各种步骤并且可以认为是核苷酸流(例如列表示流1、2、3等)和核 苷酸碱基(例如排表示碱基1、2、3等)的矩阵。碱基可以在或可以不在特定预期流期间并入, 并且此外可以在非预期流期间并入,如下文进一步详细描述。预期并入、并入失败和/或非 预期并入的模拟沿着此类矩阵单元产生路径。

五个参数分阶段模型

图4说明根据一个所公开的实施例的图3中所说明的矩阵内的示例性单元80,其中 标记可能的分子状态和状态转换。此类单元说明并入五个参数IER、CFR、DR、RMR以及TFR的 参数分阶段模型中在第N个核苷酸流期间第K个碱基处存在的活性分子(例如在具有活性聚 合酶的流期间主动合成的分子)和非活性分子可能发生的事情。此类分阶段模型可以适用 于使用例如可逆终止子的终止合成测序平台。为实现这一点,活性分子包括在流N中并入碱 基K-1或在流N-1中未并入碱基K的那些。非活性分子包括在N-1流中并入K-1碱基的分子。

对于在流N中并入碱基K-1的活性分子(在图4中标记为Q1),那么在节点82处存在 两种可能性。收端基团未能终止引子延伸(例如Q1′,其等于Q1×[TFR])或终止逆转(例如 Q1",其等于Q1-Q1′或Q1×[1-TFR])。如下文将进一步论述,Q1′子组传送到节点86,在其中其 可能随后经历单元80内的三个可能性中的一个(即,在针对流N的第K个碱基处),并且Q1"子 组传送到节点89。由于未能在N-1流中并入碱基K,进入单元80的活性分子由图4中的Q2表 示,并且此子组活性分子也传送到图4中的节点86。

对于进入单元80的N-1流中并入K-1碱基的非活性分子(标记Q6),那些非活性分子 可以在节点84变得再活化(Q6′)或保留非活性(Q6")。如同其它活性分子,子组Q6′传送到节 点86。

因此,到达节点86是单元80中的活性分子(Q1′、Q2以及Q6′)的总和。在节点86处,可 能发生三种可能性中的一种。活性分子可能未能延伸或经历不完全延伸,其子组Q8传送到 节点89;其可以变得非活性的并且经历下降,其子组Q5传送到节点90;或其可以经历正常延 伸或推进事件并且在流N中并入碱基K,其分子Q4子组变为在流N中并入碱基K的活性分子并 且沿着流列N移动到下一单元。

五个参数分阶段模型-第K个碱基匹配第N流

参考如图4中所说明的矩阵内的示例性单元80,在第K个碱基匹配第N流的情形下, 在各种接合点处的各种转换可以如下:节点82具有一个输入(Q1)和两个输出(Q1′=Q1× [TFR]和Q1"=Q1×[1-TFR]);节点84具有一个输入(Q6)和两个输出(Q6′=Q6×[RMR]和Q6″= Q6×[1-RMR]);节点86具有三个输入(Q1′、Q2以及Q6′)和三个输出(Q8=(Q1′+Q2+Q6′)×[IER ×(1-DR)]、Q5=(Q1′+Q2+Q6′)×[DR]以及Q4=(Q1′+Q2+Q6′)×([1-IER]×[1-DR]));节点89 具有两个输入(Q1"和Q8)和一个输出(Q3=Q1"+Q8);并且节点90具有两个输入(Q5和Q6")和一 个输出(Q7=Q5+Q6")。因此,相对于示例性单元80的输出(Q3、Q4以及Q7),可以直接或间接由 基于四个转变因数(基于五个参数中的四个)的先前状态确定Q3。那些转变因数分别是 [TFR]、[1-TFR]、[RMR]以及[IER×(1-DR)]。可以由基于三个转变因数([TFR]、[RMR]以及 ([1-IER]×[1-DR]))的先前状态直接或间接确定Q4。可以由基于四个转变因数([TFR]、 [RMR]、(1-[RMR])以及[DR])的先前状态直接或间接确定Q7

将保留活性并且不会在流N中并入碱基K的分子的比例(Q3)可以通过呈先前活性 状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数并且加上所得数量 (例如(Q1′+Q2+Q6′)乘以转变因数[IER×(1-DR)]获得Q8,并且Q1乘以转变因数[1-TFR]获得 Q1",并且Q8和Q1"相加获得Q3)确定。相反地,将保留活性并且在流N中并入碱基K的分子的比 例(Q4)可以通过呈活性先前状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转 变因数(例如(Q1′+Q2+Q6′)乘以转变因数[(1-IER)×(1-DR)]获得Q4)确定。

此外,将为非活性的、在N流中并入K-1碱基的分子的比例(Q7)可以通过呈达到转 变的先前活性或非活性状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因 数并且加上所得数量(例如(Q1′+Q2+Q6′)乘以转变因数[DR]获得Q5,并且Q6乘以转变因数[1- RMR]获得Q6",并且Q5和Q6"相加获得Q7)确定。

五个参数分阶段模型-第K个碱基不匹配第N流

在第K个碱基不匹配第N流的情形下,在图4中的各种接合点处的各种转换可以如 下:节点82具有一个输入(Q1)和两个输出(Q1′=Q1×[TFR]和Q1"=Q1×[1-TFR]);节点86具 有三个输入(Q1′、Q2以及Q6′)和三个输出(Q8=(Q1′+Q2+Q6′)×[(1-CFRM)+CFRM×IER×(1- DR)]、Q5=(Q1′+Q2+Q6′)×[CFRM×DR]以及Q4=(Q1′+Q2+Q6′)×(CFRM×[1-IER]×[1-DR])); 节点89具有两个输入(Q1"和Q8)和一个输出(Q3=Q1"+Q8);节点84具有一个输入(Q6)和两个 输出(Q6′=Q6×[RMR]和Q6"=Q6×[1-RMR]);并且节点90具有两个输入(Q5和Q6")和一个输 出(Q7=Q5+Q6"),其中M是最小数目以使得第(N-M)流匹配第K个碱基。因此,相对于第K个碱 基不缠结第N流时示例性单元80的输出,Q3可以直接或间接由基于四个转变因数(基于五个 参数)的先前状态确定。那些因数是[TFR]、[1-TFR]、[RMR]以及[(1-CFRM)+CFRM×IER×(1- DR)])]。可以直接或间接由基于三个转变因数([TFR]、[RMR]以及(CFRM×[1-IER]×[1- DR]))的先前状态确定Q4,并且可以直接或间接由基于四个转变因数([TFR]、[RMR]、(1- [RMR])以及[CFRM×DR])的先前状态确定Q7

在第K个碱基不匹配第N流的情况下,将保留活性并且不会在流N中并入碱基K的分 子的比例(例如Q3)可以通过呈先前活性状态的分子的一些数量测量值(例如数目、浓度等) 乘以对应转变因数并且加上所得数量(例如(Q1′+Q2+Q6′)乘以包含术语[(1-CFRM)+(CFRM× IER×(1-DR))]的转变因数,其中M是最小数目以使得第(N-M)流匹配第K个碱基,以获得Q8, 并且Q1乘以转变因数[1-TFR]获得Q1",并且Q8和Q1"相加获得Q3)确定。相反地,将保留活性并 且在流N中并入碱基K的分子的比例(Q4)可以通过呈活性先前状态的分子的一些数量测量 值(例如数目、浓度等)乘以对应转变因数(例如(Q1′+Q2+Q6′)乘以包含术语[CFRM×(1-IER) ×(1-DR)]的转变因数获得Q4)确定。此外,将为非活性的、在N流中并入K-1碱基的分子的比 例(Q7)可以通过组合呈先前状态的分子的数量(例如数目、浓度等)与对应转变因数并且加 上所得数量(例如(Q1′+Q2+Q6′)乘以转变因数[CFRM×DR]获得Q5,并且Q6乘以转变因数[1- RMR]获得Q6",并且Q5和Q6"相加获得Q7)确定。

六个参数分阶段模型

图5说明根据另一个示例的图3中所说明的矩阵内的示例性单元110,其中标记可 能的分子状态和状态转换,其中第六参数并入到上文详细描述的分阶段模型中。此额外参 数是失活分子比率(IMR)并且对应于失活分子的比率,其可以适用于使用不可逆终止子或 当可逆终止子的逆转处理不完美时的实施方案。

示例性单元110说明并入IMR的六个参数模型中在第N个核苷酸流期间第K个碱基 处存在的活性分子(例如在具有活性聚合酶的流期间主动合成的分子)和非活性分子可能 发生的事情。为实现这一点,活性分子包括在流N中并入碱基K-1或在流N-1中未并入碱基K 的那些。非活性分子包括在N-1流中并入K-1碱基的分子。

对于在流N中并入碱基K-1的活性分子(在图5中标记为Q1),那么在节点82处存在 三种可能性。收端基团未能终止引子延伸(例如Q1′,其等于Q1乘以终止失败率或Q1×[TFR], 分子失活(例如Q1″′,其等于Q1×[IMR]),或终止逆转(例如Q1",其等于Q1-Q1′-Q1″′或Q1× [1-TFR-IMR])。如下文将进一步论述,Q1′子组传送到节点86,在其中其可能随后经历单元 80内的三个可能性中的一个(即,在针对流N的第K个碱基处),Q1"子组传送到节点89,并且 Q1″′子组传送到节点84。由于未能在N-1流中并入碱基K,进入单元80的活性分子由图5中的 Q2表示,并且此子组活性分子也传送到图5中的节点86。

对于进入单元80的N-1流中并入K-1碱基的非活性分子(Q6),那些非活性分子与节 点84处的失活分子(Q1″′)组合,并且节点84处的分子可以随后变得再活化(Q6′)或保留非活 性(Q6")。如同其它活性分子,子组Q6′传送到节点86。

因此,到达节点86是单元80中的活性分子(Q1′、Q2以及Q6′)的总和。在节点86处,可 能发生三种可能性中的一种。活性分子可能未能延伸或经历不完全延伸,其子组Q8传送到 节点89;其可以变得非活性的并且经历下降,其子组Q5传送到节点90;或其可以经历正常延 伸或推进事件并且在流N中并入碱基K,其分子Q4子组变为在流N中并入碱基K的活性分子并 且沿着流列N移动到下一单元。

六个参数分阶段模型-第K个碱基匹配第N流

参考如图5中所说明的矩阵内的示例性单元110,在第K个碱基匹配第N流的情形 下,在各种接合点处的各种转换可以如下:节点82具有一个输入(Q1)和三个输出(Q1′=Q1× [TFR]、Q1"=Q1×[1-TFR-IMR]以及Q″′=Q1×[IMR]);节点84具有两个输入(Q1″′和Q6)和两 个输出(Q6′=(Q6+Q1″′)×[RMR]和Q6"=(Q6+Q1″′)×[1-RMR]);节点86具有三个输入(Q1′、Q2以及Q6′)和三个输出(Q8=(Q1′+Q2+Q6′)×[IER×(1-DR)]、Q5=(Q1′+Q2+Q6′)×[DR]以及Q4=(Q1′+Q2+Q6′)×([1-IER]×[1-DR]));节点89具有两个输入(Q1"和Q8)和一个输出(Q3= Q1"+Q8);并且节点90具有两个输入(Q5和Q6")和一个输出(Q7=Q5+Q6")。

因此,相对于示例性单元110的输出(Q3、Q4以及Q7),可以直接或间接由使用基于六 个参数中的五个的五个转变因数的先前状态确定Q3,五个转变因数为[IMR]、[TFR]、[1- TFR-IMR]、[RMR]以及[IER×(1-DR)]。可以由基于转变因数[IMR]、[TFR]、[RMR]以及([1- IER]×[1-DR])的先前状态直接或间接确定Q4。可以由基于转变因数[IMR]、[TFR]、[RMR]、 (1-[RMR])以及[DR]的先前状态直接或间接确定Q7

将保留活性并且不会在流N中并入碱基K的分子的比例(Q3)可以通过呈先前活性 状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数并且加上所得数量 (例如(Q1′+Q2+Q6′)乘以转变因数[IER×(1-DR)]获得Q8,并且Q1乘以转变因数[1-TFR-IMR] 获得Q1",并且Q8和Q1"相加获得Q3)确定。相反地,将保留活性并且在流N中并入碱基K的分子 的比例(Q4)可以通过呈活性先前状态的分子的一些数量测量值(例如数目、浓度等)乘以对 应转变因数(例如(Q1′+Q2+Q6′)乘以转变因数[(1-IER)×(1-DR)]获得Q4)确定。此外,将为 非活性的、在N流中并入K-1碱基的分子的比例(Q7)可以通过呈达到转变的先前活性或非活 性状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数并且加上所得数量 (例如(Q1′+Q2+Q6′)乘以转变因数[DR]获得Q5,并且(Q6+Q1″′)乘以转变因数[1-RMR]获得 Q6",并且Q5和Q6"相加获得Q7)确定。

六个参数分阶段模型-第K个碱基不匹配第N流

参考如图5中所说明的矩阵内的示例性单元110,在第K个碱基不匹配第N流的情形 下,在各种接合点处的各种转换可以如下:节点82具有一个输入(Q1)和三个输出(Q1′=Q1× [TFR]、Q1″′=Q1×[IMR]以及Q1"=Q1×[1-TFR-IMR]);节点84具有两个输入(Q1″′和Q6)和两 个输出(Q6′=(Q6+Q1″′)×[RMR]和Q6″=(Q6+Q1″′)×[1-RMR]);节点86具有三个输入(Q1′、Q2以及Q6′)和三个输出(Q8=(Q1′+Q2+Q6′)×[(1-CFRM)+CFRM×IER×(1-DR)]、Q5=(Q1′+Q2+ Q6′)×[CFRM×DR]以及Q4=(Q1′+Q2+Q6′)×([CFRM]×[1-IER]×[1-DR]);节点89具有两个 输入(Q1"和Q8)和一个输出(Q3=Q1"+Q8);并且节点90具有两个输入(Q5和Q6″)和一个输出(Q7=Q5+Q6″)。

因此,相对于示例性单元110的输出(Q3、Q4以及Q7),可以直接或间接由使用基于六 个参数的五个转变因数的先前状态确定Q3,五个转变因数为[IMR]、[TFR]、[1-TFR-IMR]、 [RMR]以及[(1-CFRM)+(CFRM×IER×(1-DR)]),可以直接或间接由基于转变因数[IRR]、 [TFR]、[RMR]以及[CFRM×(1-IER)×(1-DR)]的先前状态确定Q4,并且可以直接或间接由基 于转变率[IRR]、[TFR]、[RMR]、[1-RMR]以及[CFRM×DR]的先前状态确定Q7

将保留活性并且不会在流N中并入碱基K的分子的比例(Q3)可以通过呈先前活性 状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数并且加上所得数量 (例如(Q1′+Q2+Q6′)乘以转变因数[(1-CFRM)+(CFRM×IER×(1-DR)]获得Q8,并且Q1乘以转变 因数[1-TFR-IMR]获得Q1",并且Q8和Q1"相加获得Q3)确定。相反地,将保留活性并且在流N中 并入碱基K的分子的比例(Q4)可以通过呈活性先前状态的分子的一些数量测量值(例如数 目、浓度等)乘以对应转变因数(例如(Q1′+Q2+Q6′)乘以转变因数[(CFRM)×(1-IER)×(1- DR)]获得Q4)确定。此外,将为非活性的、在N流中并入K-1碱基的分子的比例(Q7)可以通过呈 达到转变的先前活性或非活性状态的分子的一些数量测量值(例如数目、浓度等)乘以对应 转变因数并且加上所得数量(例如(Q1′+Q2+Q6′)乘以转变因数[CFRM×DR]获得Q5,并且(Q6+ Q1″′)乘以转变因数[1-RMR]获得Q6",并且Q5和Q6"相加获得Q7)确定。

未使用终止化学物质时的分阶段模型

图6示意性地说明根据一个实施例的用于计算预测电离图的模拟框架120,其中未 利用终止化学物质。在此类实施例中,对于上文所论述的五个或六个参数,RMR可以设定为 零,并且TFR可以设定为一,并且IMR(如果使用)也可以设定为零。当RMR设定为零时,无需追 踪失活分子,因为此类分子将不再参与任何反应。因此,如前所述,表述包括各种步骤并且 可以认为是流(列表示流1、2、3等)和碱基(排表示碱基1、2、3等)的矩阵。再次,碱基可以或 可以不响应于流并入,并且并入(或其不存在)的模拟沿着此类矩阵单元产生路径。

图7说明根据一个实施例的如图6中所说明的矩阵内的示例性单元122以及可能的 状态和状态转换。此类单元122说明在第N流期间第K个碱基处存在的活性分子(例如聚合 酶)可以发生的事情。为实现这一点,分子在流N中并入碱基K-1或在流N-1中未并入碱基K。 那么存在若干可能性。分子可以经历正常延伸或推进事件,并且在流N中并入碱基K。分子还 可能未能延伸或经历不完全延伸事件,并且在流N中未并入碱基K。最后,分子可以变得非活 性的并且因此经历下降。对于分子种群,呈可能的后续状态的分子的比例将取决于输入种 群和状态迁移参数。

参考如图7中所说明的矩阵内的示例性单元122,在第K个碱基匹配第N流的情形 下,将保留活性并且不会在流N中并入碱基K的分子的比例(例如Q3)可以通过呈两种先前状 态(例如Q1+Q2)的分子的一些数量测量值(例如数目、浓度等)乘以包含术语[IER×(1-DR)] (其中IER是不完全延伸率并且DR是下降率)的转变因数确定。相反地,将保留活性并且在流 N中并入碱基K的分子的比例(例如Q4)可以通过呈两种先前状态(例如Q1+Q2)的分子的一些 数量测量值(例如数目、浓度等)乘以包含术语[(1-IER)×(1-DR)]的转变因数确定。

参考如图7中所说明的矩阵内的示例性单元122,在第K个碱基不匹配第N流的情形 下,将保留活性并且不会在流N中并入碱基K的分子的比例(例如Q3)可以通过呈两种先前状 态(例如Q1+Q2)的分子的一些数量测量值(例如数目、浓度等)乘以包含术语[(1-CFRM)+ (CFRM×IER×(1-DR))](其中CFR是推进率并且M是最小数目以使得第(N-M)流匹配第K个碱 基)的转变因数确定。相反地,将保留活性并且在流N中并入碱基K的分子的比例(例如Q4)可 以通过呈两种先前状态(例如Q1+Q2)的分子的一些数量测量值(例如数目、浓度等)乘以包含 术语[CFRM×(1-IER)×(1-DR)]的转变因数确定。

图8示意性地说明根据一个实施例的用于计算预测电离图的模拟框架130,其中 RMR比率、TFR比率以及IMR比率(如果建模)设定为零。通过将这些参数设定为零,动态编程 矩阵减少成上三角矩阵,如图8中所示。如图6和7的实施例中,当RMR设定为零时,无需追踪 失活分子,因为此类分子将不参与任何反应。因此,如前所述,表述包括各种步骤并且可以 认为是流(列表示流1、2、3等)和碱基(排表示碱基1、2、3等)的矩阵。再次,碱基可以或可以 不响应于流并入,并且并入(或其不存在)的模拟沿着此类矩阵单元产生路径。

图9说明根据一个所公开的实施例的图8中所说明的矩阵内的示例性单元132,其 中标记可能的分子状态和状态转换。此类单元说明在第N个核苷酸流期间第K个碱基处存在 的活性分子(例如在具有活性聚合酶的流期间主动合成的分子)可能发生的事情。为实现这 一点,活性分子包括在流N中并入碱基K-1或在流N-1中未并入碱基K的那些。在此模型中,在 流N中并入碱基K-1的活性分子(图9中的Q1)传送到节点89。由于未能在N-1流中并入碱基K, 进入单元132的活性分子由图9中的Q2表示,并且此子组活性分子传送到图9中的节点86。

在节点86处,可能发生三种可能性中的一种。活性分子可能未能延伸或经历不完 全延伸,其由图9中的Q8表示并且传送到节点89;其可以变得非活性的并且经历下降,其由 图9中的子组Q5表示;或其可以经历正常延伸或推进事件并且在流N中并入碱基K,其由图9 中的Q4表示,其变为在流N中并入碱基K的活性分子并且沿着流列N移动到下一单元。

参考如图9中所说明的矩阵内的示例性单元80,在第K个碱基匹配第N流的情形下, 在各种接合点处的各种转换可以如下:节点86具有一个输入(Q2)和三个输出(Q8=(Q2)× [IER×(1-DR)]、Q5=(Q2)×[DR]以及Q4=(Q2)×([1-IER]×[1-DR]));节点89具有两个输 入(Q1和Q8)和一个输出(Q3=Q1+Q8)。

因此,相对于示例性单元80的输出(Q3和Q4),可以直接或间接由基于转变比率[IER ×(1-DR)]的先前状态确定Q3,并且可以直接或间接由基于转变比率([1-IER]×[1-DR])的 先前状态确定Q4。将保留活性并且不会在流N中并入碱基K的分子的比例(Q3)可以通过呈先 前活性状态的分子的一些数量测量值(例如数目、浓度等)乘以对应转变因数并且加上所得 数量(例如(Q2)乘以转变因数[IER×(1-DR)]获得Q8,并且Q8和Q1相加获得Q3)确定。相反地, 将保留活性并且在流N中并入碱基K的分子的比例(Q4)可以通过呈活性先前状态的分子的 一些数量测量值(例如数目、浓度等)乘以对应转变因数(例如(Q2)乘以转变因数[(1-IER) ×(1-DR)]获得Q4)确定。

在第K个碱基不匹配第N流的情形下,在各种接合点处的各种转换可以如下:节点 86具有一个输入(Q2)和三个输出(Q8=(Q2)×[(1-CFRM)+CFRM×IER×(1-DR)]、Q5=(Q2)× [DR]以及Q4=(Q2)×([CFRM]×[1-IER]×[1-DR]);节点89具有两个输入(Q1和Q8)和一个输 出(Q3=Q1+Q8)。因此,相对于示例性单元80的输出(Q3和Q4),可以直接或间接由基于转变因 数[(1-CFRM)+CFRM×IER×(1-DR)]的先前状态确定Q3,并且可以直接或间接由基于转变因 数([CFRM]×[1-IER]×[1-DR])的先前状态确定Q4。将保留活性并且不会在流N中并入碱基K 的分子的比例(Q3)可以通过呈先前活性状态的分子的一些数量测量值(例如数目、浓度等) 乘以对应转变因数并且加上所得数量(例如(Q2)乘以转变因数[(1-CFRM)+CFRM×IER×(1- DR)]获得Q8,并且Q8和Q1相加获得Q3)确定。相反地,将保留活性并且在流N中并入碱基K的分 子的比例(Q4)可以通过呈活性先前状态的分子的一些数量测量值(例如数目、浓度等)乘以 对应转变因数(例如(Q2)乘以转变因数[CFRM×(1-IER)×(1-DR)]获得Q4)确定。

模拟研究

图10A-10D、11A-11D和12A-12D说明显示使用本文所公开的五个参数IER、CFR、DR、 RMR以及TFR的终止化学物质分阶段模型(通过图中的三角形和缩写“term”显示)与并未采 用终止化学物质的用于测序系统的标准分阶段模型(通过图中的圆圈和缩写“flow”显示) 之间的比较的模拟图,所述模型都具有相同模拟分阶段误差。图6和7中详述的实施例用于 模拟标准分阶段,而图8和9中详述的实施例用于模拟终止化学物质分阶段。在所呈现的模 拟中,RMR设定为零并且TFR设定为小于1。图10A-10D说明显示针对低噪音电平的模拟结果 的图(其中噪音标准差设定为0.03加法,0.03乘法);图11A-11D说明显示针对中等噪音电平 的模拟结果的图(其中噪音标准差设定为0.1加法,0.05乘法);并且图12A-12D说明显示针 对高噪音电平的模拟结果的图(其中噪音标准差设定为0.2加法,0.05乘法)。如以下图中所 示,当经历相同分阶段参数时,相比于标准模型,终止化学物质模型每流展现降低的误差 率。此外,基于所呈现的模拟,针对较长均聚物,本文提供的终止化学物质模型实现出人意 料的并且明显较大的结果准确性。

具体来说,图10A、11A和12A分别说明针对较低、中等以及较高噪声电平的误差率 与均聚物长度。如这些图中所示,与在每一种噪声电平下的标准误差率相比,终止化学物质 误差率明显降低。图10B、11B和12B分别说明针对较低、中等以及较高噪声电平的误差率与 流。如这些图中所示,本文提供的终止化学物质模型每流实现降低的误差率。图10C、11C和 12C分别说明针对较低、中等以及较高噪声电平的经由模板测序所需流数目。图10D、11D和 12D分别说明针对较低、中等以及较高噪声电平的每个碱基的平均误差率,同样显示终止化 学物质模型的误差率降低。

图13A-13H、图14A-14H、图15A-15H、图16A-16H和图17A-17H分别说明针对0.5、 1.5、2.5、3.5以及4.5的不完全延伸水准,比较终止化学物质建模和标准建模的模拟。组A-D 和E-F模拟相同组碱基序列和不同核苷酸流顺序的分阶段参数。噪音标准差设定为0.05加 法,0.05乘法。如所说明的模拟中所示,针对较长均聚物长度,终止化学物质模型提供改进 的误差率,如从图13A、13E、14A、14E、15A、15E、16A、16E可见。分阶段效应随时间推移积聚以 使得后期流一般经历比早期流更大的误差率。尽管使用终止化学物质需要总计更多流以经 由给定长度的模板序列测序(参见图C),但每流模拟的峰误差率(其总是在后期流中发生, 朝向模板末端)不超过并且大体上保持明显低于非终止子测序的模拟的峰误差率。所观测 到的模拟误差率随着核苷酸流顺序变化。举例来说,在图16B中,终止化学物质模型的误差 峰在与标准模型的误差峰相比更后的时刻发生并且高度更低。类似效应在图17B和17F中实 现,其中终止模型的误差率保持较低,因为与标准模型相比流更多。在图13D、13H-17D、17H (除17D外)中,终止化学物质模型模拟结果指示更低的每碱基误差率并且因此更高的总体 碱基准确性。

鉴于本文中的公开内容,本领域技术人员将显而易见其它修改和替代实施例。举 例来说,系统和方法可以包括为了操作清楚起见从图式和说明书中省去的额外组分或步 骤。因此,本说明书应理解为仅为说明性的并且出于教示本领域技术人员执行本发明的通 用方式的目的。应理解,本文中显示并且描述的各种实施例视为示例性的。元件和材料以及 那些元件和材料的布置可以取代本文中说明并且描述的那些,部分和处理可以逆转,并且 可以独立地利用本教示内容的某些特征,在具有本文说明书的益处之后所有都如对于本领 域技术人员显而易见的那样。在不背离本教示内容和以上权利要求的精神和范围的情况 下,可以对本文所描述的元件作出改变。

应理解,本文中阐述的特定实例和实施例是非限制性的,并且可以在不背离本教 示内容的范围的情况下对结构、尺寸、材料以及方法作出修改。

考虑到本文所公开的说明书和本发明的实践,本领域技术人员将显而易见根据本 发明的其它实施例。希望说明书和实例仅被视为示例性的,其中权利要求应被授予其完全 宽度和范围,包括等效物。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号