首页> 中国专利> 用于估算全基因组拷贝数变异的方法

用于估算全基因组拷贝数变异的方法

摘要

本文公开了确定位于样品中靶序列的检测位置处的基因组区域的拷贝数的方法。对样品中靶序列的基因组区域进行测序并且获得序列覆盖范围的测量数据。校正序列覆盖偏差并且可针对基线样品进行标准化。进行隐马尔可夫模型(HMM)分段、评分以及输出,并且在一些实施方案中,还可进行基于群体的无读取与低置信区域的鉴定。然后估算多个区域的总拷贝数值与区域特异的拷贝数值。

著录项

  • 公开/公告号CN103201744A

    专利类型发明专利

  • 公开/公告日2013-07-10

    原文格式PDF

  • 申请/专利权人 考利达基因组股份有限公司;

    申请/专利号CN201180049765.9

  • 发明设计人 亚伦·哈珀恩;克利须那·潘特;

    申请日2011-10-12

  • 分类号G06F19/18(20110101);G06F19/20(20110101);G06F19/24(20110101);

  • 代理机构11204 北京英赛嘉华知识产权代理有限责任公司;

  • 代理人王达佐;洪欣

  • 地址 美国加利福尼亚州

  • 入库时间 2024-02-19 19:50:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-06-16

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F19/18 变更前: 变更后: 申请日:20111012

    专利权人的姓名或者名称、地址的变更

  • 2017-07-14

    授权

    授权

  • 2013-08-28

    实质审查的生效 IPC(主分类):G06F19/18 申请日:20111012

    实质审查的生效

  • 2013-07-10

    公开

    公开

说明书

发明背景

基因组异常通常与各种遗传疾病、退行性疾病以及癌症关联。例如,癌症中基因拷贝的缺失或增加与基因片段或特定区域的缺失或扩增屡见不鲜。例如,原癌基因与肿瘤抑制基因各自的改变经常是肿瘤发生特有的。因此在肿瘤发生的研究与研发更好的诊断与预后方法中都对关联癌症和各种遗传疾病的特定基因区域的鉴定与克隆感兴趣。

对应相对于同一组织类型的正常细胞,癌性细胞、原癌细胞或低转移潜能细胞中拷贝数的改变的多核苷酸的鉴定,为诊断工具提供了基础,通过为候选剂提供靶标促进药物发现,并且还用来鉴定更适合待被治疗的癌症类型的癌症治疗的治疗靶标。

在诊断性基因组测序中,临床诊断的精确度要求进一步地加剧了涉及人类基因组中三十亿碱基对的序列分析的计算复杂性,从而使得必须分析600亿或更多的序列数据点以提供一个精确的基因组序列。早期的测序方法中通过从数以千计的孤立的、非常长的DNA片段中产生序列数据,从而保留序列信息的语境完整性并且减少精确数据所需的冗余测试来处理这一复杂性。然而,这种方法,用于产生第一个完整的人类基因组,在每一基因组上耗费了数亿美元,这是由于制备基因组片段的前期复杂性以及许多单独的生化试验的相对较高的成本。

另外,每一人类细胞中基因组的两个不同的拷贝的存在进一步地加剧了基因组中的语境信息,从而使得精确的临床分析与诊断需要根据基因组拷贝辨别DNA序列的能力。因此,主要的挑战为辨别散布着数百万遗传的单核苷酸多态性(SNPs)、成千上万的短的插入与缺失以及数以百计的自发突变的三十亿DNA碱基的两个独特的拷贝间序列差异的能力。

已研发了一些帮助鉴定完整的DNA序列中拷贝数变体(“CNV”)以及有助于基于序列与参照序列或与序列的多种不同的拷贝比较的鉴定可信性的方法。在这些方法中,拷贝数的鉴定与其确认都基于样品的不同系列,并且此类方法中所用的数据相对地易于出错,众所周知地含有某些人为偏差。

发明概述

本发明提供了用于确定位于样品中靶多核苷酸序列的检测位置处的基因组区域的拷贝数的方法。所述方法包括:获得所述样品序列覆盖范围的测量数据;校正测量数据的序列覆盖偏差,其中序列覆盖偏差校正包括进行关注倍性的基线校正;以及估算多个基因组区域的总拷贝数值与区域特异的拷贝数值。在一实施方案中,方法包括进行隐马尔可夫模型(HMM)分段、评分以及输出。在另一实施方案中,方法包括进行基于群体的无读取(no-calling)与低置信区域的鉴定。

在一方面,方法还包括通过与基线样品比较来标准化序列覆盖范围。

在一方面,方法还包括通过测量样品基因组的每一位置处的序列覆盖深度来确定序列覆盖范围。

在一方面,方法还包括通过计算窗口-求平均值的覆盖范围校正序列偏差。

在一方面,方法还包括在文库构建与测序过程中进行解释GC偏差的调整。

在另一实施方案中,方法还包括基于与个体图谱关联的其它权重因子进行调整以弥补偏差。

在一方面,方法还包括通过测序仪所进行的步骤,所述步骤包括:a)提供多个扩增子,其中:i)每一扩增子包含靶核酸的片段的多个拷贝,ii)每一扩增子在片段的确定的位点处包含多个散布的接头,每一接头包含至少一个锚定探针杂交位点,以及iii)所述多个扩增子包含基本上覆盖靶核酸的片段;b)提供以这样的密度固定于表面上的所述扩增子的随机阵列,所述密度使得所述扩增子的至少大多数为光学可分辨的;c)将一种或多种锚定探针与所述随机阵列杂交;d)将一种或多种测序探针与所述随机阵列杂交,从而在所述一种或多种测序探针与靶核酸片段间形成极度匹配的双螺旋;e)将锚定探针连接至测序探针;以及f)鉴定邻近至少一个散布的接头的至少一个核苷酸;以及g)重复步骤(c)-(f)直到鉴定出所述靶核酸的核苷酸序列。

在一方面,方法还包括通过进行以下的步骤测定测量数据,所述步骤包括:a)测定代表样品中基因组的多个大约随机的片段的序列的读数,其中所述多个提供了样品基因组的抽样,借此基因组平均一个碱基位置被抽样一次或多次;b)通过将所述读数映射至参照基因组,或通过将所述读数映射至组合序列(例如诸如样品自身的组合序列或有关的基线样品的组合序列)获得所述读数的图谱数据;以及c)通过沿着参照基因组或沿着组合序列测量所述读数的强度获得覆盖数据,其中测量数据包括图谱数据与覆盖数据。

在另一实施方案中,方法还包括初始模型的生成,所述初始模型基于整体覆盖分布估算状态数与它们的平均数。

在另一实施方案中,方法还包括通过向模型顺序添加状态然后从模型顺序移除状态或其组合,优化初始模型。

在另一实施方案中,标准化还包括标准化的校正的覆盖范围的测定。

在另一实施方案中,方法还包括通过片段复制测定序列覆盖范围和获得将图谱极少地归因于每一检测位置的置信测量值。

在一方面,方法包括进行HMM计算以确定每一检测位置处倍数。

在另一实施方案中,方法还包括产生对应于各自拷贝数的多个隐马尔可夫模型(HMM)状态,其中如果样品为正常样品,则进行HMM分段、评分以及输出,其包括:对于拷贝数N大于0至N/2乘以预期为二倍体的样品部分中覆盖范围的中位数的每一状态,初始化HMM的发射分布的平均值;以及对于拷贝数为0-正值(小于具有拷贝数1的状态所用的)的状态,初始化发射分布的平均值。

在另一实施方案中,方法还包括产生对应各自拷贝数的多个HMM状态,其中如果样品为肿瘤样品,则进行HMM分段、评分以及输出,其包括估算状态数与基于覆盖分布的每一状态的平均值以产生HMM初始模型;通过修改模型中的状态数以及优化每一状态的参数来优化初始模型;以及通过向模型顺序添加状态然后顺序移除状态或其组合,修改模型中的状态数。

在另一实施方案中,方法还包括,调整初始模型,其包括:a)如果添加新的状态将与HMM关联的似然提高至超过第一预定的阈值,则在一对状态间添加所述新的状态;b)在每一对状态间循环地重复步骤(a)直到不可能有更多的添加;c)如果状态的移除没有将似然减少超过第二预定的阈值,则从HMM移除所述状态;以及d)对所有的状态反复地重复步骤(c)。

另一实施方案包括在其上面具有存储指令的计算机可读的永久性存储介质,其用于测定在样品中靶多核苷酸序列的检测位置处基因组区域的拷贝数,当由计算机处理器执行时,所述指令引起处理器进行以下操作:使用从配对图谱所产生的数据获得所述样品序列覆盖范围的测量数据;校正测量数据的序列覆盖偏差,其中校正测量数据包括进行关注倍性的基线校正;以及至少基于校正的测量数据,估算多个基因组区域的每一个区域的总拷贝数值与区域特异的拷贝数值。

另一个实施方案包括具有明确呈现在其上的指令的计算机可读的永久性存储介质,当由计算机处理器执行时,所述指令引起处理器进行以下操作:获得包含靶序列的生物样品的序列覆盖范围的测量数据;校正测量数据的序列覆盖偏差,其中校正测量数据包括进行关注倍性的基线校正;基于校正的测量数据,进行隐马尔可夫模型(HMM)分段、评分以及输出;基于HMM得分与输出,进行基于群体的无读取与低置信区域的鉴定;以及估算多个区域的总拷贝数值与区域特异的拷贝数值。

另一实施方案包括用于确定靶序列的检测位置处基因组区域的拷贝数变异的系统,其包含:a.计算机处理器;以及b.与所述处理器连接的计算机可读的存储介质,所述存储介质具有明确呈现其上的指令,当由计算机处理器执行时,所述指令引起处理器进行以下操作:使用从配对图谱所产生的数据获得所述样品的序列覆盖范围的测量数据;校正测量数据的序列覆盖偏差,其中校正测量数据包括进行关注倍性的基线校正;以及至少基于校正的测量数据,估算多个基因组区域的每一个区域的总拷贝数值与区域特异的拷贝数值。

提供该概述用于以简化形式引入选择的概念,还在以下的详述中进一步地描述。该概述并非意图鉴定要求保护的主题的关键的或基本的特征,而且也并非意图用于限制要求保护的主题的范围。要求保护的主题的其他的特征、细节、效用以及优势在下列包括附图中例证的与所附的权利要求中限定的那些方面的书面详细描述中将变得显而易见。

附图简要说明

以下附图代表了呈现本发明的实施方案所提供的数据的一种格式。这些附图并非意图以任何方式限制如本文所述的本发明方面的实施,而在于帮助阐明本发明的基本概念。

图1描述了概括性的框图,其示例了根据本公开内容的实施方案用于读取含有靶序列的样品中的变异的系统。

图2描述了概括性的流程图,其示例了根据本公开内容的实施方案的CNV读取方法。

图3描述了根据本公开内容的某些方面合并和操作的计算机系统。

发明的详细描述

如本文与附加的权利要求中所用的,单数形式“a”、“an”以及“the”包括复数指示物,除非上下文另有明确规定。因此,例如,“聚合酶(apolymerase)”指的是此类试剂的单一试剂或混合物,并且“方法(themethod)”包括本领域中技术人员已知的等效步骤与方法等。

除非另有定义,本文所用的所有技术和科学术语具有与本发明所属领域技术人员通常理解相同的含义。本文提到的所有出版物通过引用并入本文,用于描述和公开所述出版物中所描述的以及可能结合本发明而使用的装置、组合物、制剂和方法的目的。

当提供数值范围时,应当理解为介于所述范围的上限与下限之间的每一居中值(除非上下文另有明确规定,否则精确到下限单位的十分之一)和所述范围内的任意其他指出的值或居中值都涵盖于本发明中。这些较小范围的上限和下限可独立地包括在所述较小范围中,这也涵盖于本发明中,其服从所述范围中任意具体排除的界限。当所述范围包括一个或两个界限时,排除那些所包括的界限中的任一个或两个的范围也包括在本发明中。

在以下的描述中,众多具体细节被加以陈述以提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可在没有这些具体细节中的一个或多个下实施。在其它实例中,为避免掩盖本发明,没有描述本领域技术人员所公知的特征和程序。

尽管主要参照具体的实施方案描述本发明,也可以预期的是本领域中技术人员阅读本公开内容后,其他的实施方案对他们来说是显而易见的,并且意图是此类实施方案包含在本发明的方法中。

实例测序方法

用于测序靶核酸的实例方法包括样品制备,其涉及从DNA样品中提取并且分段靶核酸以产生通常包括一个或多个接头的片段化的靶核酸模板。靶核酸模板任选地经过扩增方法以形成核酸纳米球,出于分析的目的,其通常配置在表面或基质上。出版的专利申请号WO2007120208,WO2006073504,WO2007133831,以及US2007099208,美国专利申请系列号11/679,124;11/981,761;11/981,661;11/981,605;11/981,793;11/981,804;11/451,691;11/981,607;11/981,767;11/982,467;11/451,692;12/335,168;11/541,225;11/927,356;11/927,388;11/938,096;11/938,106;10/547,214;11/981,730;11/981,685;11/981,797;12/252,280;11/934,695;11/934,697;11/934,703;12/265,593;12/266,385;11/938,213;11/938,221;12/325,922;12/329,365;以及12/335,188中描述了用于形成核酸纳米球的方法,所有这些通过引用全文并入本文,用于所有的目的,尤其是用于所有与形成核酸纳米球有关的教导。出版的专利申请号WO2007120208,WO2006073504,WO2007133831,和US2007099208,以及美国专利申请系列号11/679,124;11/981,761;11/981,661;11/981,605;11/981,793;11/981,804;11/451,691;11/981,607;11/981,767;11/982,467;11/451,692;12/335,168;11/541,225;11/927,356;11/927,388;11/938,096;11/938,106;10/547,214;11/981,730;11/981,685;11/981,797;12/252,280;11/934,695;11/934,697;11/934,703;12/265,593;12/266,385;11/938,213;11/938,221;12/325,922;12/329,365;和12/335,188中描述了用于形成核酸纳米球的阵列的方法,所有这些通过引用全部并入本文,用于所有的目的,尤其是用于与形成核酸纳米球的阵列有关的所有教导。美国专利申请系列号11/679,124;11/981,761;11/981,661;11/981,605;11/981,793;11/981,804;11/451,691;11/981,607;11/981,767;11/982,467;11/451,692;12/335,168;11/541,225;11/927,356;11/927,388;11/938,096;11/938,106;10/547,214;11/981,730;11/981,685;11/981,797;12/252,280;11/934,695;11/934,697;11/934,703;12/265,593;12/266,385;11/938,213;11/938,221;12/325,922;12/329,365;以及12/335,188中也描述了测序反应与特定靶序列的检测中使用核酸纳米球的方法,通过引用将其每一个全部并入本文,用于所有的目的,尤其是用于与核酸纳米球上进行测序反应有关的所有教导。应理解的是,任一本文所述的与本领域中已知的测序方法可以应用于溶液中的核酸模板和/或核酸纳米球,或配置在表面上和/或阵列中的核酸模板和/或核酸纳米球。

在核酸纳米球上进行核苷酸测序过程,通常通过测序-连接技术,包括组合的探针锚定连接(“cPAL”)方法,例如如在Drmanac et al.,“HumanGenome Sequencing Using Unchained Base Reads on Self-Assembling DNANanaoarrays,”Science327:78-81,2009(2010年1月1日),以及出版的PCT专利申请WO07/133831,WO06/138257,WO06/138284,WO07/044245,WO08/070352,WO08/058282,WO08/070375;以及出版的美国专利申请2007-0037152与2008-0221832中所描述的。在此类方法中,根据充分理解了的规则,将已知的标记物,诸如含有可分辨的荧光团的单一分子的特定片段作为标记物连接于靶核酸模板,然后在相同类型的DNA链上索引的重新排序以提供重叠数据的基础。本文提及的测序过程仅仅是代表性的。在另一实施方案中,使用标签。可以使用本领域中已知的或研发的其他处理技术。然后用辐射照射基质上的核酸纳米球系列以激发足以引起与每一特异的标记物C,G,A或T有关的荧光团在它们独特的波长处发射荧光的荧光团,从此处可以通过照相机在(标准的或延时集成TDI)CCD阵列上或代替CCD阵列的扫描仪,或其他的可应用于测序仪中的电子流/电压感应技术产生空间图像。也可使用其他的感应机制,诸如阻抗变化感应器。照射可为光谱特异的,一次只激发一种选择的荧光团,然后可以通过照相机记录,或可过滤照相机输入以感应并且只记录接收到的光谱特异的荧光辐射,或可以在彩色的LCD阵列上同时感应并且记录所有的荧光辐射,再然后在其中有核酸构建体的每一询问位点上分析光谱含量。图像采集产生了许多询问位点的一系列图像,其可以基于光谱特异的荧光强度,通过本文称为碱基读取的过程中强度水平的计算机处理进行分析,所述过程将在下文中有更为详尽的解释。cPAL与其他的测序方法也可以用于检测特异的序列,诸如包括核酸构建体中的单核苷酸多态性(“SNP”),(所述的核酸构建体包括核酸纳米球以及直链的和环状的核酸模板)。读取或碱基读取的序列鉴定,例如碱基读取,由于测序程序的性质这样明显的原因,可包含误差。使用基于计算机处理的里德-索罗门(Reed-Solomon)误差校正,不论以进行里德-索罗门算法的计算机处理器的形式还是以使用预先计算的预期的碱基读取序列的比较机制的形式,诸如在检查表中,可以鉴定误差。可以标记“未读取的”序列并且可以进行校正以产生校正的碱基读取序列。应理解的是,本文所述的位点与结构的大小只是基质上所分析的位点与结构的大小的极小的部分,因为它们不容易进行例证。例如,基质可为光刻的,表面修饰的(SOM)25mm x75mm的硅基质,具有用于核酸纳米球结合的大约300nm斑点的栅格模式的阵列,以增加DNA含量/阵列并且相对于随机的基因组DNA阵列提高了图像信息密度。

可用各种各样的标记物可检测地标记测序探针。尽管上文主要针对其中用荧光团标记测序探针的实施方案,应理解的是,利用包含其他类型的标记物的测序探针的相似的实施方案包含在本发明中。而且,本发明的方法可以使用未标记的结构。

在一些实施方案中,多个cPAL循环(无论是单一的,二倍的,三倍的等)将鉴定邻近接头的靶核酸区域中的多个碱基。(在替代设计中,可能的是使用单个cPAL循环来产生多个碱基)简言之,通过利用测序探针池的循环的锚定探针杂交与酶促连接反应,对靶核酸中多个碱基的询问反复地实施cPAL方法,所述测序探针池旨在检测不同位置处从接头与靶核酸间接口移除的核苷酸。在任一给定的循环中,设计所用的测序探针从而使得位于一个或多个位置处的一个或多个碱基的身份与连接至该测序探针的标记物的身份相关联。一旦检测到连接的测序探针,以及因而的询问位置处的碱基,脱去核酸纳米球的连接复合物并且进行接头与测序探针杂交及连接的新循环。根据这个原理,可获得重复取样的数据。

选择的定义

“接头”指的是包含“接头元件”的基因改造的构建体,其中一个或多个接头可散布在文库构建体的靶核酸内。根据接头的用途,包括在任何接头中的接头元件或特征广泛多样,但是通常包括限制性核酸内切酶识别和/或剪切位点,引物结合(用于扩增文库构建体)或锚定引物结合(用于测序文库构建体中的靶核酸)位点,切口酶位点等。在一些方面,接头被基因改造以便包含下列的一个或多个:1)大约20个-大约250个核苷酸,或大约40个-大约100个寡核苷酸,或小于大约60个核苷酸,或小于大约50个核苷酸的长度;2)为了连接至靶核酸作为至少一个,通常两个“臂”的特征;3)位于接头的5’末端和/或3’末端的不同的与独特的锚定结合位点以用于邻近的靶核酸测序;以及4)任选地一个或多个限制性位点。在一方面,接头可以为散布的接头。本文所谓的“散布的接头”意指插入靶核酸的内部区域内间隔的位置处的寡核苷酸。在一方面,靶核酸的“内部”意指在诸如环化与切割的处理之前靶核酸内部的位点,所述的处理可引入序列反转,或相似的转变,其破坏了靶核酸内核苷酸的排序。散布的接头的使用促进序列重建与校准,因为每次从单一的接头的10个碱基的序列运行可以允许自身在没有校准的情况下读取20个、30个、40个等碱基。

“扩增子”指多核苷酸扩增反应的产物。也就是说,其是从一条或多条起始序列复制得到的多核苷酸群。扩增子可以通过多种扩增反应来生成,包括但不限于聚合酶链式反应(PCRs),线性聚合酶反应,基于核酸序列的扩增,滚环扩增及相似的反应(参阅如美国专利号4,683,195、4,965,188、4,683,202、4,800159、5,210,015、6,174,670、5,399,491、6,287,824和5,854,033;以及美国公开号2006/0024711)。

当在鉴定背景下使用时,术语“碱基”指与靶核酸内指定位置处的核苷酸有关的嘌呤或嘧啶基(或其类似物或变体)。因此,为读取碱基或为鉴定核苷酸,这两者指测定数据值以鉴定靶核酸内特定位置处的嘌呤或嘧啶基(或其类似物或变体)。嘌呤与嘧啶基包括四种主要的核苷酸碱基C,G,A以及T。

本文使用的“多核苷酸”、“核酸”、“寡核苷酸”、“寡聚物”或语法等同项通常指至少两个核苷酸以线性的方式共价连接在一起。核酸通常包含磷酸二酯键,尽管在一些情况下,核酸类似物可包括在内,其具有可选择的主链,诸如亚磷酰胺、二硫代磷酸酯、或甲基亚磷酰胺键;或肽核酸主链与键。其他的核酸类似物包括具有双环结构的那些,包括锁核酸,正性主链,非离子型主链以及非核糖主链。

术语“参照多核苷酸序列”或简单的“参照”指参照有机体的已知的核苷酸序列。参照可为参照有机体的整个基因组序列(例如参照基因组),参照基因组的一部分,许多参照有机体的共有序列,基于不同有机体的不同组分的编制序列,从有机体群中得到的一批基因组序列,或任何其他适当的序列。参照也可以包括关于有机体群中发现的已知的参照变体的信息。参照有机体也可以是待测序的样品专用的,所述样品可能单独从相关的个体或相同的个体得到(可能对互补癌症序列而言是正常的)。

“样品多核苷酸序列”指来源于基因,调控元件,基因组DNA,cDNA、RNA(包括mRNAs、rRNAs、siRNAs、miRNAs等),和/或来自于其片段的样品或靶有机体的核酸序列。样品多核苷酸序列可为来自样品的核酸,或二级核酸,诸如扩增反应的产物。对于样品多核苷酸序列或“来源于”样品多核苷酸(或任何多核苷酸)的多核苷酸片段而言,可以意指,样品序列/多核苷酸片段通过物理、化学、和/或酶促方法使样品多核苷酸(或任何其他的多核苷酸)片段化而形成。“来源于”多核苷酸也可意指片段为来源多核苷酸的核苷酸序列的特定子集复制或扩增的结果。

“读数”指代表一个或多个核苷酸碱基的一个或多个数据值的集合。“匹配的读数”(也被称为“配对”)通常指产生于位于DNA片段相反的末端,隔着几百个或几千个碱基,两个分开的基因组序列(臂)的区域的一组个体的核苷酸读数。可以在测序过程中,从待被读取和/或重新组装变异的样品有机体获得的较大的连续的多核苷酸(例如DNA)的片段产生配对的读数。

“图谱”指将读数(例如,诸如配对的读数)与0关联起来的一个或多个数据值,读数与之相似的参照中的一个或多个位置,例如通过将示例的读数与对应于参照中位置的索引内一个或多个关键位置匹配。

“杂交”指两条单链多核苷酸非共价结合以形成稳定的双链多核苷酸的过程。(通常)所得的双链多核苷酸是“杂合物(hybrid)”或“双链体(duplex)”。“杂交条件”通常会包括低于大约1M、更通常的是低于大约500mM和可以低于大约200mM的盐浓度。杂交温度可以低至5°C,但通常高于22°C,更通常的是高于约30°C,并且通常超过37°C。

“连接”意指在模板驱动的反应中,在两条或更多条核酸(例如寡聚核苷酸和/或多核苷酸)的末端之间形成共价键或联接(linkage)。所述键或联接的本质可以有很大不同,而且连接可以是酶促或化学进行的。如本文所用的,连接一般通过酶促进行,以在一条寡聚核苷酸的5’碳末端核苷酸与另一核苷酸的3’碳之间形成磷酸二酯联接。模板驱动的连接反应描述于下列参考文献:美国专利号4,883,750;5,476,930;5,593,826;以及5,871,921。

“逻辑”指指令组,当由一个或多个计算机系统的一个或多个处理器(例如CPU)执行时,其可操作地执行一种或多种功能和/或以,其它逻辑元件要求的一种或多种结果和/或数据的形式返回数据。在多个实施方案与实施中,可以以下执行任何给定的逻辑:,作为由一个或多个处理器(例如CPU)执行的一个或多个软件构件,作为一个或多个硬件构件,诸如专用集成电路(ASIC)和/或现场可编程门阵列(FPGA),或作为一个或多个软件构件与一个与多个硬件构件的任何组合。可以没有限制地实施任何特定逻辑的软件构件,作为单独的或客户端-服务器软件应用,作为一个或多个软件模块,作为一个或多个功能库,以及作为一个或多个静态和/或动态连接的库。执行期间,任何特定逻辑的指令可体现为一个或多个计算机进程、线程、光纤以及任何其它合适的运行时间实体,其可以在一个或多个计算装置的硬件中具体化并且可以分配计算资源,诸如存储器、CPU时间、存储空间以及网络带宽。

“引物”意指在与多核苷酸模板形成双链体时,能够充当核酸合成的起始点,并自其3’末端沿模板延伸,从而形成延伸的双链体的寡聚核苷酸,其或是天然的或是合成的。延伸过程中添加的核苷酸序列是由模板多核苷酸的序列决定的。引物通常由DNA聚合酶延伸。

“探针”通常指在研究中与寡聚核苷酸或靶核酸互补的寡聚核苷酸。以允许检测的方式,例如用荧光或其他任选地可辨别的标签标记要求保护的本发明的某些方面中所用的探针。

靶核酸“序列测定”(也称为“测序”)意指与靶核酸中核苷酸碱基的序列有关的信息的测定。此类信息可包括靶核酸的部分的以及完整的序列信息的鉴定或测定。可以用不同程度的统计可靠性或置信性测定序列信息。在一方面,测序包括同一性的测定和许多起始于靶核酸中不同的核苷酸的靶核酸中连续的核苷酸的排序的测定。通过包含反应子系统与成像子系统的测序仪进行测序及其各个步骤。反应子系统包括流动设备(在其上多种试剂、缓冲液等、以及生化样品或由此衍生的片段之间发生生化反应)与多种其他的组件(例如管子、阀门、注射器、制动器、发动机等),所述组件经配置以将试剂、缓冲液、样品片段等安置在流动设备之上或之内。成像子系统包含照相机、显微镜(和/或适当的镜头与管子)、测序期间支持流动仪器的平台以及用于放置及调整平台上的流动设备以及调整照相机与显微镜的相对位置的多种其他的组件(例如,诸如发动机、制动器、机械臂等)。

“靶核酸”意指来源于基因、调控元件、基因组DNA、cDNA、RNA(包括mRNA、rRNA、siRNA、miRNA等)以及其片段的(通常)未知序列的核酸。靶核酸可为来源于样品的核酸,或二级核酸,诸如扩增反应的产物。可以从几乎任何的来源获得靶核酸并且可以使用本领域中已知的方法制备。例如,靶核酸可以没有扩增地直接分离,通过使用本领域中已知的方法扩增分离,其包括但不限于聚合酶链式反应(PCR),链置换扩增(SDA),多重置换扩增(MDA),滚环扩增(RCA),滚环扩增(RCR)以及其他的扩增(包括全基因组扩增)方法。也可通过克隆来获得靶核酸,所述克隆包括但不限于克隆至媒介诸如质粒、酵母以及细菌人工染色体。在一些方面,靶核酸包括mRNA或cDNA。在某些实施方案中,使用来自生物样品的分离转录物产生靶DNA。可以使用本领域中已知的方法从样品中获取靶核酸。如应理解的是,样品可包含任何数量的物质,其包括但不限于几乎任何有机体的体液,诸如,例如血液、尿液、血清、淋巴、唾液、肛门与阴道分泌液、汗液以及精液,优选哺乳动物样品,特别优选人的样品。从各种有机体获取靶核酸的方法为本领域中所熟知。发现包含人基因组DNA的样品可在许多实施方案中使用。在诸如全基因组测序的一些方面,优选地获得大约20-大约1,000,0000或更多的基因组-DNA的等同物以确保靶DNA片段群足以覆盖整个基因组。

基因组测序与CNV估算的实例方法。

本发明涉及用于估算样品靶序列中检测位置处感兴趣的基因组区域的拷贝数变异,发现其可用于如本文所述的多种应用中。

本公开内容的方法也可包括从样品提取靶核酸并使其片段化和/或对进行CNV估算的靶核酸进行测序。这些片段化的核酸可用于产生通常包括一个或多个接头的靶核酸模板。靶核酸模板经过扩增方法以形成核酸串联体,诸如,例如核酸纳米球。

在一方面,核酸模板可以包含靶核酸与多个散布的接头,在本文中也称为“文库构建体”,“循环的模板”,“循环的构建体”,“靶核酸模板”以及其他语法等同物。通过在贯穿每一靶核酸的多个位点处插入接头分子来装配核酸模板构建体。散布的接头允许从靶核酸中的多个位点连续地或同时地获取序列信息。

在另一实施方案中,从多个基因组片段所形成的核酸模板可以用于产生核酸模板的文库。在一些实施方案中,此类核酸模板的文库将包含靶核酸,所述靶核酸共同包含整个基因组的全部或部分。即通过使用足够数量的起始基因组(例如细胞的基因组),结合随机的片段化,所得到的用于产生循环的模板的特定大小的靶核酸充分地“覆盖”基因组,尽管如应理解的是,偶尔会无意地引入偏差以防止代表整个基因组。

构建核酸模板的方法的其它实施方案与实例描述于美国专利系列号11/679,124;11/981,761;11/981,661;11/981,605;11/981,793;11/981,804;11/451,691;11/981,607;11/981,767;11/982,467;11/451,692;12/335,168;11/541,225;11/927,356;11/927,388;11/938,096;11/938,106;10/547,214;11/981,730;11/981,685;11/981,797;12/252,280;11/934,695;11/934,697;11/934,703;12/265,593;12/266,385;11/938,213;11/938,221;12/325,922;12/329,365;以及12/335,188中,通过引用将其每一篇全文并入本文,用于所有的目的,尤其是用于所有与构建本文所述的技术的核酸模板有关的教导。

本文所述的技术的核酸模板可为双链的或单链的,并且它们可为直链的或环状的。在一些实施方案中,产生核酸模板的文库,并且在其它实施方案中,此类文库中不同模板间所含的靶序列共同覆盖整个基因组的全部或部分。如应理解的是,这些核酸模板的文库可包含二倍体基因组或可使用本领域中已知的方法处理它们以从一组亲代的染色体至另一组来分离序列。如本领域技术人员所理解的是,文库中的单链环状模板可共同包含染色体或染色体区域的两条链(即“沃特森”与“克里克”链),或含有来自于一条链的序列的环,或另一个可以使用本领域中已知的方法分离至它们自己的文库。

对本领域中已知的以及本文所述的使用核酸模板的任何测序方法而言,本文所述的技术提供了用于测定靶核酸中至少大约10个-大约200个碱基的方法。在另一实施方案中,本文所述的技术提供了用于测定靶核酸中至少大约20个-大约180个,大约30个-大约160个,大约40个-大约140个,大约50个-大约120个,大约60个-大约100个,以及大约70个-大约80个碱基的方法。仍然在其它实施方案中,测序方法用于鉴定邻近核酸模板中每一接头的一端或两端的5个,10个,15个,20个,25个,30个或更多的碱基。

CNV读取的技术概述

正常样品与肿瘤样品的CNV读取共有一些特征但是也有差异。在一些实施方案中,两种类型的样品经过下列的三个步骤。

1)序列覆盖的计算。

2)覆盖中偏差的估算与校正:

a.建立覆盖偏差的模型;

b.建模偏差的校正;

c.覆盖校平(Coverage smoothing)。

3)通过与基线样品或样品集比较来标准化覆盖。

据此,使用隐马尔可夫模型(HMM)分段正常样品与肿瘤样品,但是对两种样品类型而言使用不同的模型,按照下列的步骤:

4A)用于正常样品的HMM分段,评分以及输出;

4B)用于肿瘤样品的HMM分段,评分以及输出的修改;

最终,正常的样品经过“无读取”过程,所述过程在下列的步骤中鉴定可疑的CNV读取:

5)基于群体的无读取/低置信区域的鉴定。

在多个实施方案中,可通过在一个或多个系统上执行的不同类型的逻辑进行CNV读取的以上步骤。此类逻辑元件的实例在下文结合图1进行描述。

CNV读取技术的实例实施方案

1.序列覆盖的计算

如下文所用的,“DNB”指核酸纳米球的序列,从其已对一个或多个读数(例如配对的读数)进行测序。应注意的是,在从生物样品或其片段测序的读数中,DNB表示为可覆盖或可不覆盖组成DNB的全部序列的一个或多个读数。例如,在一实施方案中,DNB表示为包含来源于DNB相反的末端的两个或更多个臂读数的匹配的读数,其由几百个碱基的未知序列所分离。

在一方面,所有配对约束的令人满意的成对的末端(例如完整的DNB)图谱用于计算序列覆盖。在某一实施方案中,独特的成对的末端图谱有助于与DNB对齐的参照的每一碱基的单一计数。基于图谱为DNB在参照中的正确位置的估算的概率,使与非独特的成对的末端图谱对齐的参照碱基加权(例如给予分数计数)。因此,与每一图谱中置信度成比例的DNB的分数归属提供了图谱为非独特的区域中给予合理的覆盖估算的能力。

在一方面,参照基因组R的每一位置i接收下列的覆盖值ci

>ci=ΣmMiP(DNB|R,m)/(α+ΣnN(m)P(DNBm|R,n))>

其中Mi为所有DNB上的图谱集,从而使得每一图谱中读取的碱基与位置i对齐,DNBm为通过图谱m所述的DNB,N(m)为涉及DNBm的所有图谱集,以及α为以不允许DNB绘制参照的方式产生DNB的概率。

根据本文所述的技术,计算机逻辑(例如诸如图1中的CNV读取器(CNV caller)18和/或其组件,诸如覆盖计算逻辑22)基于DNB图谱计算参照基因组中所有位置(或基因座)的覆盖值。然后计算机逻辑包括用于后续处理的测量数据中计算的覆盖值。

2.覆盖偏差的估算与校正(样品内部的覆盖操作)

目前,基因组测序可能导致可影响拷贝数估算的覆盖偏差。偏差的元素之一涉及接近初始DNA片段的长度的区间的GC含量变成DNB(例如大约400bp),尽管还已知其他因素。在一实施方案中,通常优选在拷贝数估算之前或作为拷贝数估算的一部分进行此类偏差的模型与校正。

在另一实施方案中,理想的是将一些校平应用于覆盖中的短尺度波动,其可至少部分地对个体的环状文库或DNB具有特异性。

有几种可以使用的偏差校正和校平的方法。这些方法中所有的操作与步骤可通过计算机逻辑(例如诸如图1中的CNV读取器和/或其组件,诸如GC校正逻辑34)基于测量数据进行,所述测量数据包括但不限于参照基因组中每一位置的覆盖值。

方法1:事后覆盖校正

在一实施方案中,通过窗口-求平均值来校平如以上所述的序列覆盖,然后调整以解释文库构建与与测序过程中的GC偏差。

通过计算窗口内每个位置的未校平的覆盖值的平均值进行窗口-求平均值。对窗口长度N而言,位置i处所记录的平均覆盖为

>ci=Σj=i-N/2i+(N/2-1)ci/N>

在一实施方案中从此类校平的覆盖计算调整因子集。在1000个碱基对窗口(即N=1000)内,沿着每一参照叠连群的每1000个碱基计算GC含量。基于窗口所覆盖的参照部分中存在的G和C的数量,分配给每一窗口1000个堆栈中的一个。让W成为列表窗口集(相当于它们的中心位置)并且Wb为[G+C]=b窗口集。每一堆栈b的平均未校正的覆盖为被认定为:

>c^b=ΣwinWbcw/|Wb|>

为整个基因组内的平均覆盖>(C^=ΣwWcw/|W|)>,对每一GC堆栈b而言,校正因子fb

>fb=C^/c^b>

在另一实施方案中,可以使用其它校平操作估算校正因子。例如这可为小样本变异或过度拟合提供更大的稳健性。例如,可以使用曲线、分段回归、滑动窗求平均值、LOESS等对项fb进行校平。

>f^γf^γ=LOESS(f(γ))ci=ci/f^gci>

然后,按如下计算以位置i为中心的1000个碱基的窗口的校正的、校平的覆盖范围,分配给堆栈bi:

>ci=ci*fbi>

可以将长度l=n*1000(n为正整数)的更大的窗口校正的校平的覆盖范围计算为包含1000个碱基的窗口的值的平均值。

除了以上之外,应清楚的是可以存在许多实施方案变化。窗口大小与转移可以改变。基于多种特征,诸如结构注释(例如重复),多个样品中过多或不足的变异性,用于绘制图谱的标准下的可及性/独特性,模拟数据中覆盖范围的深度(测量可绘制性)等,某些位置可以忽略(并且相应的窗口或扩大以获得固定数量的可接受位置,或仅取可接受位置的平均数)。数学上的平均数可被适当位置中的中位数、模式或其他的汇总统计数据代替。基于单一位置的覆盖范围而不是窗口的平均覆盖范围计算校正系数,在校正后而不是校正前应用校平/求平均值。

可扩展这一类示例性方法,从而通过计算用于基因组上多维位置堆栈的校正系数来考虑覆盖范围的多个预测因子。例如,不但可以考虑全部DNB规模上的GC含量,而且还考虑个别DNB臂规模上的GC含量。可选择地,可以计算每一预测因子的单独的校正系数,对应效应独立的假设。

方法2:图谱水平的覆盖范围校正

在偏差校正与校平的第二种方法中,给予个别图谱其它权重因子以弥补校平之前的偏差。将比统一的随机抽样所预期的更加可能归因于偏差的DNB(图谱)减权重,同时将不太可能归因于偏差的DNB加权重(并且可能比整个计数更能地促进覆盖范围的计算)。让qm为图谱m的校正系数(下文所定义的),位置i处校正的覆盖范围计算为:

>ci=ΣmMqm*P(DNB|R,m)/(+ΣnN(m)P(DNBm|R,n))>

基于来源于逻辑回归模型拟合的让步比确定校正系数qm,从而从用参照基因组的统一随机抽样模拟的数据集中的图谱辨别真实数据集中的图谱。基于顺序1的b样条(分段的线性),其在组合的(真实的+模拟的)数据集中GC含量分布的每五个百分位处都有结,模型预测给予的图谱为真实的还是模拟的。例如,相应的R代码为:<-glm(为真实的~bs)(dnbGCpcnt,df=20,程度=1,分界结=c(0,l)),数据=d,家族=二项式的)其中输入数据集d由相等数量的独特的成对末端模拟的图谱的记录与独特的成对末端真实的图谱的记录组成。对模拟记录而言为真实的=0;对真实的记录而言,为真实的=1。dnbGCpcnt为通过图谱绘制所跨越的参照部分中的GC百分比。

考虑到由此得到的模型,校正系数qm被认为是图谱m的GC百分比所给予的模型预测的模拟的:真实的让步比。因此,如果给予的GC百分比在真实数据中很可能是模拟的数据中的三倍,以1/3因子的加权具有该GC含量的真实的图谱。

使用解释图谱的许多特性的逻辑模型可以测定基于因素的相似的让步比,包括的因素诸如:

整个片段的组成(~500bp);

最终DNB中基因组节段的组成(~80bp);

最终DNB中每个位置处碱基的选择;

最初片段中特定位置处的寡聚物;

邻近接头的序列(例如,连接效率影响);

·限制性酶切位点的通常位置处的序列

·预测的物理学特征;

·熔化温度;

·灵活性/曲率;

·基因组区域的测量的/可测量的/预测的特征,诸如组蛋白结合与甲基化。

模型不但可以包括单一测量结果的线性效应还可以包括单一测量结果的各种转变(例如分段线性的或多项式拟合或堆栈)与交互作用项。

在某一实施方案中,然后经由滑动的窗口求平均值校平模型校正的覆盖范围并且四舍五入为整数。窗口的宽度为可配置的;默认值为2kb。通过邻接的窗口(例如等于窗口宽度的窗口转移)所报道的默认值求平均覆盖范围,但是可以应用其他转移量。每一窗口的中点位置处报道平均的校正的覆盖范围。

单独地处理参照基因组的每一叠连群(或连续的基因座区域),从而使得默认宽度=2k,每一叠连群长度>2kb导致相对于叠连群起点的lkb,3kb,5kb,...处覆盖值。因此,对此类位置i而言,校平的覆盖范围被给定为:

>ci=Σj=i-1000i+999ci/2000>

每一叠连群的第一窗口开始于叠连群的第一个碱基;转移窗口直至窗口的末端超过叠连群的末端。因为相对于它的染色体,叠连群的起始位置可为任意值,所以为给定窗口所报道的染色体位置可能不是一个不错的整数。

方法3:GC标准化过程

在一实施方案中,计算机逻辑(例如诸如图1中的CNV读取器和/或其组件,诸如GC校正逻辑34)如下估算与校正覆盖范围的偏差。

首先,为以基因组的每点为中心的1000个碱基的窗口(排除叠连群末端小于500个碱基的位置)计算GC含量。例如,如果位置j处的碱基为G或C,可以将函数isGC(j)设定为1,不然就设定为0,并且可以如下所述计算位置i处GC含量gci

>gci=Σj=i-500i+499isGC(j)>

估算GC校正系数期间不考虑来自于叠连群任一末端的小于500个碱基的位置。

下一步,对每一可能的GC值γ而言,测定位置gci=γ的平均覆盖范围。让nγ为基因组中gci=γ的位置i的数量,可以如下所述的计算平均覆盖范围:

>C~γ=Σgci=γcinγ>

在实例实施中,可以排除覆盖范围>500的位置。

下一步,对模拟物完成以上两个步骤。使用上标“*”表示模拟结果,可如下所述测定模拟的平均覆盖范围:

>C~γ*=Σgci=γci*nγ>

应注意的是,由于无所不在的重复序列、微卫星区域等的GC含量,使得以上的结果并非完全均匀,与作为一个整体的基因组并不相似。

下一步,对每一GC值计算样品覆盖范围与模拟覆盖范围的比率,调整样品与模拟物的总平均覆盖范围(分别为)。例如,可如下所述的计算这一比率:

>fγ=C~γC~γ**c*c>

下一步,获得校平的覆盖范围比率作为GC的函数,例如,可如下所述使用局部加权的多项式回归:

>f^γ=LOESS(f(γ))>

作为局部回归操作,在除了数字上不稳定的区域之外进行LOESS校平,在数字上不稳定的区域代替进行LOWESS。

下一步,如下所述计算基因组每个位置处GC-校正(单一的碱基)的覆盖范围:

>ci=ci/f^gci>

靠近叠连群的末端,用全基因组平均的GC含量填满‘缺失的碱基’。如果给定位置的窗口的GC含量过于极端(即<20%或>80%GC),将覆盖值作为未知数对待(例如,作为缺失数据)。

通过在给定的窗口内获取每一位置i的平均值进行窗口-校平。选择以下标题为“窗口边界定义”的章节所定义的窗口边界,来填充窗口(邻近的,不重叠的)。即,对对应于间距[i,j)的窗口而言,平均的校正的覆盖范围计算为:

>ci,j=Σk=ij-1ck/(j-i)>

应注意的是,为方便记录,以下章节中省略下标“j”,即使用代替因为有之多一个起始于位置i的窗口。

3.通过与基线样品比较标准化覆盖范围

在多个实施方案中,通过计算机逻辑诸如,例如图1中CNV变体读取器和/或通过其组件,诸如例如关注倍性校正逻辑36,可以进行本章节(章节3)中所述的操作、计算以及方法步骤。

在一些实施方案中,可以通过与基线样品比较来考虑未被以上所述的调节校正的覆盖范围偏差。然而,为获得与绝对拷贝数成比例的覆盖范围,可以根据所述样品中的拷贝数调整基线样品。

让di’与pi为基线样品位置i处的覆盖范围与倍性,并且为基线样品的典型的二倍体覆盖范围的估算值,可以如以下所述测定偏差校正系数bi

>bi=d~di*pi2>

(在一实施方案中,被认为是常染色体中窗口的45%百分位数)。然后如下所述计算标准化的校正的覆盖范围

>ci=ci*bi>

如果pi=0(在这种情况下,di归因于图谱失误并且这一位置中覆盖行为不是可靠的指标),被视为缺失。基于基线样品中某位置处已知的或假设的倍性与覆盖范围进行的这种偏差校正在本文中被称为“关注倍性的基线校正”。具体地,关注倍性的基线校正基于靶样品的靶多核苷酸序列中每一位置(或基因座)处所检测的倍性与覆盖范围,来调整基线或参照样品中该同一位置的覆盖值,作为使用基线值以校正待被分析的样品的覆盖范围的元素。

在一些实施方案中,可使用一组样品的序列,而不是单一的样品,作为基线,以便降低由于抽样(统计噪音)或由于文库特异性偏差而导致的对波动的敏感性。例如,可使用下列的基线样品集S:

>pi=ΣsSpis>

>di=ΣsSdis>

其中pi为窗口i处的倍性。理想地,这将是基线样品对这一窗口真正的倍性。然而,因为它是未知的,所以需要估算。

因此,在一实施方案中,基线产生过程包括每一基线基因组的CNV读取,使用其中常染色体拷贝数为2并且性染色体性别适当的模拟物。使用作为基线的模拟物提供了校正基因组的图谱变异的间接方法,例如对应高拷贝、高同一性的重复序列的区域,其在图谱绘制期间“充溢”。然而,这可能由于生物化学不能解决覆盖偏差。在中等覆盖偏差的区域中,如果偏差的长度比例相对于窗口的长度短,则可以正确的倍性读取基线基因组,并且因此校正系数将适当地弥补偏差。然而,导致远离正确倍性的二倍体平均值的覆盖范围>50%的持续偏差的区域在基线基因组上将有误读的拷贝数;这导致加强在这一位置读取CNV的趋势的基线“校正”,即导致强烈的/一致的异常倍性的误读。在其它实施方案中,基线基因组的倍性的估算可基于外部信息(例如基于芯片的CNV读取)、手动策展、或通过同时分析多个基因组尝试测定群体模式的自动化处理。

在其它实施方案中,可以多种方式测定例如,可将其视为所估算的在以前对基线样品的倍性估算中具有倍性2的位置的中位数,作为模型的覆盖值,或全基因组覆盖范围的的一些固定的百分位数(可能调整男性与女性样品)。可使用一组样品,而不是单一的样品,作为基线。在这种情况下,di’与pi可能被视为是所有基线样品在参照位置i处的覆盖范围与倍性的总和,并且可被认定为典型的二倍体覆盖范围的样品的总和。可选择地,可使用针对几个基线样品的每一个所计算的值的平均数或中位数以便提供对基线样品间覆盖范围的差别敏感性较小的估算。

如果没有样品作为基线输入,则简单地如下设置

>ci=ci.>

4A.正常样品的HMM分段、评分以及输出

在多个实施方案中,可以通过计算机逻辑诸如,例如图1中的CNV变体读取器18和/或其组件,诸如HMM模型逻辑20进行本章节(章节4A)中所述的操作、计算以及方法步骤。

在某些方面,有许多分段定量的时间-系列的方法,所述方法可应用于读取CNV-即可以应用于通过以上的步骤顺序所产生的覆盖数据。隐马尔可夫模型(HMMs)提供了一个具有某些引起兴趣的特性(明显的模型拟合方法,弹性模型,天然置信测量,限制模型的能力,整合多种覆盖范围产生模型的能力)的此类方法,其中状态相当于拷贝数水平,辐射为一些覆盖的形式(观察到的/校正的/相对的),以及状态间的转变为拷贝数的变化。发射概率可模式化为泊松分布,负二项式,泊松分布的混合型,拟合数据的分段模型等。可以用拟合优度测量与交叉验证进行模型的选择。在一实施方案中,理想的是校平较长的(滑动的)窗口内的每个位置的覆盖值,尽管理想的是窗口宽度比期望的最小事件大小要狭窄得多。在一实施方案中,理想的是以多种方式限制模型,例如要求每一拷贝数水平的预期输出(例如HMM中状态的发射概率的平均数)互相为一致的倍数,如从离散的拷贝数变化所预期的。在一实施方案中,理想的是包括预期的覆盖分布组件,其对应肿瘤样品“污染”了正常组织或例如利用混合模型捕获肿瘤异质性。

在另一方面,可能的是将其他的信号(例如其参数与值)整合至CNV检测,或使用其他的信号(例如数据值)以确认或过滤从基于覆盖范围的CNV检测器的输出。其他此类的信号包括两个拷贝数水平之间的边界处异常的成对的存在,或杂合体位置中等位基因平衡的变化。

仍然在另一方面,基于参照基因组位置的函数,可使用用于估算拷贝数的特定的基于HMM的方法。例如,GC-校正的、窗口-求平均值的、标准化的覆盖数据,可输入至对应整数倍性(拷贝数)的状态的HMM。沿着基因组的拷贝数可估算为模型最可能的状态的序列的倍性。基于HMM所产生的后验概率计算各种得分。这方面在下文中描述得更为详尽。

模型定义

通过转移概率、初始状态概率以及发射概率的矩阵定义状态对应于倍性0,倍性1,倍性2,---,倍性9以及倍性“10或更多”的完全连接的HMM。(在多个实施方案中,可以修改状态的精确数)。

覆盖分布(即状态发射概率)模式化为负二项式,可以通过每一状态分布的平均数与方差使其参数化。

模型估算

原则上,可以全部地通过波氏(Baum-Welch)算法的估计最大化(EM)估算模型参数;然而,实践中,不受限制的估算(尤其是覆盖分布)并不是总能提供令人满意的结果。为处理这一问题,在一实施方案中,选择初始值并且限制随后的更新以反映以下假设:假定覆盖范围取决于感兴趣的基因组中给定的参照节段的拷贝数;假定拷贝数为整数值;假定覆盖范围与拷贝数线性相关;假定大多数的基因组为二倍体,从而使得常染色体的“典型的”值可以用于确定倍性=2的平均覆盖范围;对对应倍性>=1的状态而言,假定状态的标准偏差与状态的平均值成比例;对对应倍性=0的状态而言,单独的方差可以用于顾及图谱错误与非唯一的图谱的影响。考虑到这些限制与假定,对于覆盖分布只有两个自由的参数,即将覆盖范围与倍性>=1标准偏差关联起来的单一值,并且另一个为倍性=0的方差参数。

在一实施方案中,可以从数据估算转移概率但是默认行为将维持初始值。用户可设定初始值,如果没有设定,初始值可默认为tij=0.01,例如假定对任何不同的状态i与j,模型在时间t时处于状态i,则有1%的可能性在时间t+1时状态为j。在另一实施方案中,转移概率可从数据估算但是过度拟合的风险很高。因此,可使用一组默认值,从而使得在任何“时间”从一种状态至另一种的转移的概率被设定为0.003,并且给定状态中剩下的概率被认为是1-0.003*10=0.97。

初始状态概率全部设定为1除以状态数。

如下所述的初始化倍性为n的状态的发射(覆盖)分布的平均值,除非另有注明:

>μn=n*c~/2>

其中为所有位置的的中位数,在所述位置处,已计算标准化的校平的校正的覆盖范围。为顾及由于图谱错误所导致的一些明显的覆盖范围的存在,在一实施方案中,设定μ0为1,即μ0=1;在另一实施方案中,μ0可设定为在后续的模型拟合期间不更新平均值的初始估算。

倍性2状态的初始方差设定为:

>σ22=3*μ2=3*c~>

>c~ciμo=1.>

在一些实施方案中,设定其他状态的方差从而使得标准方差与平均值成比例:

>σn2=σ22*(n/2)2>

在另一实施方案中,负二项式的初始方差可如下所述的设定:

>σn2=3*μn.>

通过EM更新方差确定的参数直到模型‘会聚’,例如逐次迭代间模型给予的数据的对数似然中的改变是足够小的,例如在某一阈值以下。

在另一方面,在模型拟合期间可以更新初始的方差估算(使用有修改的EM以限制平均值),但是限制其永远不要比以上的小。在大多数的基因组为二倍体,整个分布的中位数将靠近中位数,并且基因组的二倍体部分的平均值以及拷贝数为严格的整数值的假设下,操作该模型。在这方面,需要随着时间进行调整以估算高度非整倍体样品,实质上“正常的污染”的肿瘤以及参照中非唯一的区域的拷贝数。

允许更新的程序迭代直至其‘会聚’,例如模型给予的数据的对数似然改变在逐次迭代间改变了小于0.001。

倍性推理、分段以及得分:

在另一实施方案中,在估算程序会聚之后,进行通常的HMM推理计算。最终的结果基于每一位置处最可能的状态。(标准的选择为指定倍性对应于最可能的单通路的状态。)

在一实施方案中,把输入中每一位置的“读取的倍性(calledPloidy)”当成在那个位置处最可能的状态的倍性。“倍性得分(ploidyScore)”被认为是phred样得分(例如以分贝dB测量的基于对数的得分),其反映读取的倍性是正确的置信度。“CNV型得分(CNVTypeScore)”被认为是phred样得分,其反映读取的倍性正确地表示以下的置信度:位置相对于名义上的预期(除了男性中的性染色体预期为单倍体之外均为二倍体),具有减少的倍性、预期的倍性、还是增加的倍性。每一位置处的其它得分(“得分倍性=0”,“得分倍性=1”等)反映每一可能的倍性的概率;每一状态的得分为int(101ogl0(Lis)),其中Lis为位置i处状态s的似然。

在另一实施方案中,“节段”为临近具有相同的读取的倍性位置处的序列。节段的‘始端’与‘末端’位置被认为是在起始和终止窗口的中点外部。给予每一节段倍性得分和CNV型得分,所述倍性得分等于节段中该位置的倍性得分的平均数,所述CNV型得分为节段中该位置的CNV型得分的平均值。

以上得分的精确的定义与合理化判断在以下的题为“得分计算”章节中给出。

4B.肿瘤样品HMM分段、评分以及输出的修改(肿瘤CNV方法)

在多个实施方案中,可以通过计算机逻辑诸如,例如图1中的CNV变体读取器18和/或其组件,诸如HMM模型逻辑20进行本章节(章节4B)中所述的操作、计算以及方法步骤。

在某些方面,肿瘤样品中的拷贝数读取对到目前为止所述的方法造成了一些挑战。由于高度平均的拷贝数的可能性,假定基因组的二倍体(“正常的”)区域具有接近样品中位数的覆盖范围是不明智的。即使可以确定二倍体区域典型的覆盖范围(例如通过最小等位基因频率的分析),对单拷贝的增加或减少而言覆盖范围中预期的改变并不一定为该值的50%,因为存在来自邻近的或混入的正常细胞的未知量的污染(“正常的污染”)的可能性。而且即使在肿瘤细胞间,由于肿瘤的异质性,可能无法通过整数的拷贝数表征基因组的节段。

因此,有用的是放宽限制模型状态的覆盖水平的假定,以允许覆盖范围的比率被连续估值。这增加了找到正确的值的挑战并且也引入了决定包括多少状态的问题,导致包括模型选择组件的分析。因此,分析目标为被修改为将基因组分段为统一的“丰度类别”的区域,没有强迫将给定类别阐释为整数的拷贝数。

理论上,HMM可以简单地配有不同的状态数,使用EM以确定每一状态预期的覆盖水平,并且选择可以给予最佳拟合度的状态数。实践中,任何给定的状态数的模型参数的不受限制的估算不是一个稳健的过程。因此,为解决这一问题,在另一方面,引入其它初始步骤或模块,其基于总的覆盖分布估算状态数以及它们的平均值,并且引入另一步骤,该步骤通过向模型顺序添加状态然后从模型顺序移除状态来优化初始模型。

初始模型生成:

待被分段的整个基因组的(校正的、标准化的、窗口-求平均值的)覆盖分布为不同丰度类别分布的混合。鉴定明显不同的丰度类别的一个方法为寻找校平的整个基因组覆盖分布的峰值。(在另一实施方案中,另一个方法为鉴定密切拟合所观察的覆盖分布的混合模型)。通过将正常分布的分位数函数应用于累积分布函数(cdf),然后在校平与峰值检测之前去除连续的值之间的差异实现对直接的峰值鉴定的改进。后一方法对于鉴定中心丰度类别外部的小峰值给予了更好的敏感性。

例如,给定的覆盖的柱状图H=h0,h1,h2,---hn,其中hi为覆盖i位置的数,并且n为最小的值,从而使得截去小于0.001的完整的柱状图的顶端,并且让Q(p)为正常分布的分位数函数,可以如下所述的计算由此得到的峰值位置,P:

>N=Σi=oi=nhi>

ci=hi/N

qi=Q(ci)

di=qi-qi-1

D=d1,d2,...,dn

S=校平(D)

si=S(i)

p={i|mi=1和di>.002}

由此得到的峰值位置P被用作初始模型中的状态,预期的覆盖值等于每一峰值中心。可以使用EM估算方差(与以上结合正常的样品分段所述的相同的限制的模型拟合)。

模型改进:

在另一实施方案中,一旦以这种方式推测初始模型,该模型就是反复改进的。首先,评估其它状态。在每一连续的状态对之间评估状态的添加(通过预期的覆盖范围调整的丰度类别),如果似然改善(Pr(数据|模型))超过某临界值,则接受添加。即每一连续的具有预期的覆盖范围ci与cj的状态对i与j之间,进行尝试以添加具有初始覆盖范围Ci’=(ci+cj)/2的状态i′。使用拥有所有其他(预先存在的)确定的状态的预期覆盖水平的EM优化ci’。如果优化导致区间(ci,cj)外的值,或如果减少Pr(数据|模型)没有超过接受临界值,就拒绝添加;否则,就接受添加。如果接受添加,尝试添加i与V之间的另一个状态,递推至不接受另一个添加。一旦拒绝所有连续状态对之间的添加,就终止添加过程。其次,评价状态的移除。从模型1一次移除状态并且使用EM优化由此得到的模型;如果由此得到的模型并没有显著差于以前的模型,则接受状态移除。

在某些实施方案中,分段还包括基于整体覆盖分布估算状态数与它们的平均数的初始模型的生成。在某些实施方案中,方法包括通过定量数据建模的技术人员已知的各种方法对初始模型的优化,其包括模型中状态数的修改以及每一状态参数的优化。例如,可以通过向模型顺序添加状态然后顺序移除状态,或这两者的组合进行模型中状态数的修改;相似的程序可应用于多变量回归所用的模型选择方法中。可通过估算最大化或许多其他的优化多变量模型的方法进行每一状态参数的优化。

本领域中技术人员熟知前述过程中的变化。例如,可尝试从最大的模型移除每一状态以确定哪一个状态具有最小的影响,移除那个状态并递推。精通多定量模型选择方法的技术人员已知此类替代方法。在另一实例中,可以通过向模型顺序添加状态然后顺序移除状态,或这两者的组合进行模型中状态数的修改;相似的程序可应用于多变量回归所用的模型选择方法中。可通过估算最大化或许多其他的优化多变量模型的方法进行每一状态参数的优化。

分段与节段得分:

一旦选择了模型并且优化了参数,则如前所述确定正常样品的分段与节段得分。简而言之,报告具有同一最可能状态的连续的位置节段,得分表示分类错误概率的节段中位置的平均值。

本公开不同于许多已知的方法,在于关键的差异为其代替在基因组上大但特异的位置组处的强度测量结果(例如微阵列数据),所述的方法与基因组上每个位置的基于测序的覆盖深度测量结果(例如下一代测序数据)相关。一些其它差异如下所述:

1)用于测量覆盖范围的分数计数的使用。仍然在另一实施方案中,当匹配的读数(例如对应整个DNB)绘至不止一个位置时,置信度测量用于部分地将图谱归于每一位置。结果是这允许比其他的方法更大程度地评估片段化复制品中的覆盖范围。

2)所述的校正覆盖偏差的方法之一

仍然在另一实施方案中,加权每一DNB的方法(使用逻辑回归的一特定实施方案)提供了模型影响多个偏差因素的能力,这可论证地给予了比以前的方法更好的偏差校正。

3)每一基线/匹配的样品中拷贝数的估算的使用

仍然在另一实施方案中,通过估算一般基线中或匹配的基线中每一样品的拷贝数,避免了对以前的方法的挑战之一,其涉及相对强度(微阵列)或相对覆盖范围(基于测序的CNV)的计算,也就是说,事实为作为基线使用的样品自身可以具有CNV。当基线样品具有CNV时,CNV基因座内所测量的强度/覆盖范围将不提供正常的(通常为二倍体)拷贝数强度的估算,导致感兴趣的样品的相对覆盖范围相比绝大多数基因组对绝对拷贝数具有不同的关系。通过根据拷贝数的估算调整基线样品自身,保存拷贝数与相对覆盖范围之间预期的线性关系,以允许更精确地推断出绝对拷贝数。

4)HMM内,两个特征是与众不同的。仍然在另一实施方案中,这些特征允许更稳健的数据建模(更精确的CNV读取)。

a)通过该方法测定每一状态的平均值,这些方法提供了使用通常的HMM训练方法(EM)的备选方案,其对有用值的覆盖范围看起来并不可靠。

i)对正常的样品而言,样品的预期二倍体部分中覆盖范围的中位数被用于测定二倍体状态的平均值,并且以从二倍体状态50%的增量或减量确定其他的状态(拷贝数)。(0拷贝状态为特异的,给予稍微高于0的值以允许图谱错误。)

ii)对于肿瘤样品,使用单独的过程来推断初始的水平集;该过程可基于覆盖数据的柱状图分析;一旦选择初始水平,应用其它计算以改进水平集。

b)通过该方法估算状态的方差(限制);至少在一些实施方案中,方差受限于状态平均值的线性相关,这反映了大多数的方差为偏差的结果而不是抽样噪音的事实;因此,在给定的样品中,具有两倍于第二状态的平均值的状态(覆盖水平)将通常具有第二状态所观察的覆盖范围的散布(标准偏差)的两倍。

来自大的(例如50个样品)基线用于检测位置的覆盖数据的使用,其中测序过程的一些方面导致了高变异的覆盖水平。仍然在另一实施方案中,如果没有鉴定它们为有问题的,此类位置将导致假的CNV读取。一旦鉴定了,就将此类位置标记为未知的拷贝数而不是已分配的假的变化。

窗口边界定义(用于进行窗口-校平)

当选择用于进行窗口校平的窗口边界时,在一实例的实施方案中,定义绝大部分的窗口从而使得它们的染色体坐标为窗口长度偶数倍,从而使得例如,对2k窗口而言,窗口边界的染色体位置以“x000”结束,其中x为偶数数字。这些窗口的边界被称为“默认边界”。这些默认边界的例外情况为处于叠连群末端的窗口。窗口将永远不会跨越取自超过一个叠连群的碱基,即使叠连群之间的空位小到足以允许跨越。而且,特别处理每一叠连群最外面的全默认窗口的碱基。或者将这些“外部碱基”添加至面向叠连群中心的第一全窗口或将其置于它们自己的窗口中,这取决于碱基数是否比窗口宽度大1/2。例如,对从位置17891持续至位置25336的叠连群以及2000的窗口宽度而言,可使用下列窗口区间的列表(17891,20000),(20000,22000),(22000,24000),(24000,25336)。

应注意的是,立即将叠连群的前109个碱基添加至2k区间的右边,同时将最后的1336个碱基置于它们自己的窗口中。将小于窗口宽度的叠连群(例如对100k窗口而言为chrM)制成包括全部叠连群的单一的窗口。叠连群内空位没有报道窗口。为例证,假设染色体由如表1中所示的三个叠连群组成。

表1染色体叠连群实例

叠连群编号开始的位置结束的位置117891253362258362927733363434211

这将导致使用/报道的以下窗口;只是出于明晰此处陈述而示叠连群编号:

叠连群1:(17891,20000),(20000,22000),(22000,24000),(24000,25336)

叠连群2:(25836,2800),(28000,29277)

叠连群3:(33634,34211)

这种方法的结果为:

·基因组的所有无空位碱基都包括在窗口中(并且只有一个窗口);

·窗口限于单一的叠连群;

·窗口为标称窗口(nominal window)宽度的0.5倍与1.5倍间;

·窗口边界通常为整数,这使节段边界对应窗口边界更明显:,并且过度解释CNV读取边界的精度的机会更少。

5.基于群体的无读取/低置信区的鉴定

在多个实施方案中,通过计算机逻辑诸如,例如图1中的CNV变体读取器18和/或其组件,诸如基于群体的无读取逻辑38进行本章节(章节5)中所述的计算和方法步骤。

在一方面,以上所述的基于HMM的读取通常包含多种或为人工产品或不太感兴趣的推测的CNV。主要地,这些出现在两种情况的其中之一:A)参照基因组序列不提供大多数的或所有样品基因组中覆盖模式的说明,大多数的或所有样品基因组彼此匹配。B)覆盖范围中有比少数离散倍性水平可以解释的更多的变异。可通过鉴定与注解此类区域增加CNV推理的效用。在下文中,如此注解的区域被认为是“无读取的”,就可不给予这些区域倍性的离散估算的成眠而言。

此类行为可起因于多种原因;一些可能的机制包括:

·参照基因组中的误差。例如事实上在大多数或所有的基因组中,两个叠连群可彼此重叠,即对应单一的基因组间隔。在这种情况下,两个叠连群末端可以在一定程度上由高度相似的序列组成,其否则就是独特的,使得DNB绘至两个位置。减少观察的/测量的覆盖范围,这导致了明显的拷贝数减少。可选择地,大多数或所有的样品基因组可包含参照中不存在的重复序列。在这种情况下,提高对应于重复节段的参照部分内的观察的覆盖范围,这导致了相对于参照的拷贝数增加,但不是真正的多态性。

·未校正的覆盖偏差。在一方面,实质上在测序结果中高表现或低表现的区域可好像是相对于参照的CNV。为保留产生绝对拷贝数推断的能力,同时考虑到基线基因组初始拷贝数推断,完成如上所述的基线校正。这可以是基线中严重偏差的区域以及可将感兴趣的样品理解为真正的CNV的结果。这种事件类型的信号将为大多数或所有的样品都表现出相似的提高的或抑制的覆盖模式。

·人工产品分析。尽管罕见,仍有可以导致给定位置处大量假的图谱的偶然的图谱人工产品存在。此类人工产品可起因于源于重复节段中参照的变异的特定安排,从而使得错误的重复序列参照拷贝与感兴趣的样品的序列更相似。这些可以导致参照上某些位置处覆盖范围中的非常大的尖峰,以取决于存在于给予样品中的变异的方式。

·节段复制与串联重复序列。在参照中以复制形式存在并且经过群体变异的节段可导致样品间覆盖范围的变化,比独特的序列中典型的拷贝数增加或损失小。在极限情况下,高拷贝序列类型群体中充分的变异性可导致跨越大量样品覆盖值的基本上连续的范围。

·由于极端的校正系数或非常低级的覆盖范围而不稳定的估算。实例包括:1)区域,其中覆盖范围由于GC校正非常低,并且GC校正系数相应较大,从而使得覆盖范围估算中的噪音被校正系数所放大;2)区域,其中在模拟的以及真实的数据中,由于图谱充溢而覆盖范围非常低,,这导致了基线偏差校正系数中大的校正项;3)区域,其中几乎所有的基线基因组具有0倍性。

可以各种方式进行此类区域的鉴定。最后,单个位置处覆盖模式的手动策展是高度有效的,但是在一些情况下由于数据的缺乏,努力的程度,和/或过程不稳定性其为禁止的。序列相似性和/或结构注释的使用具有一些许诺,因为在实践中很大一部分有问题的区域相当于参照基因组已知的重复部分(节段的重复序列,自身链,STR,重复序列-掩蔽元件(maskerelement));然而,因为许多真正的拷贝数多态性发生在此类区域中,过于广泛地除外此类节段是不可行的并且找到更有选择性的标准是很有挑战性的。因此,仍然在另一方面,理想的是能够鉴定直接来源于覆盖数据的有问题的区域。

两类覆盖模式代表以上情况的几个。第一类涉及其中覆盖范围比可以通过少量离散倍性水平所解释的(“超变量”)更多变的区域。第二类涉及其中覆盖范围不如预期的匹配参照的整倍体区域,但是它在所有样品中相似的(“不变量”)区域。

考虑到相当数量的基因组(例如50个或更多的),“背景设定”,偏差校正的并且经过校平的但是未标准化的覆盖数据的汇总统计足以用于(如试探性地或不完全地)将基因组分离至功能良好的区域,超变量区域以及不变量区域。为n基因组的G集内的每个基因组位置i所计算的以下汇总统计可以这种方式使用。让1≤x≤n的的第x’阶统计,g∈G,即背景设定中基因组间位置i处第x’最小的经过校正与校平的覆盖范围。

中位数

分布si

>si=ci<n>-ci<1>=maxgGci(g)-mingGci(g)>

聚集系数qi

>qi=min1q<r<s<nSSE(i,0,q)+SSE(i,q,r)+SSE(i,r,s)+SSE(i,s,n)SSE(i,0,n)>

其中SSE(i,x,y)为的均方差的总和,即

>Ci,x,y=Σx<ty(ci<x+1>,...,ci<y>)/(y-x)>

>SSE(i,x,y)=Σx<ty(ci<t>-Ci,x,y)2>

考虑到这些汇总统计,可以将标记位置的标准定义为超变量或不变量。

超变量区域的注释

满足下列所有四个标准的位置可标记为“超变量”(而不是被标记为CNV或分类为整倍体)的位置:

(i)通过以上所述的HMM推论过程将位置称为CNV/非整倍体。

(ii)不以提示群体中简单的多态性的方式聚集背景设定中的覆盖值

正式地,对可以凭经验选择的值Q而言,如以下所述:

qi>Q

(iii)背景设定中该位置处覆盖值的范围比在绝大多数的(整倍体)基因组处所见到的宽。正式地,对可以凭经验选择的值S而言,如以下所述:

>si/m~i>S>

(iv)感兴趣的样品所观察的覆盖范围落入背景设定中所见到的值的范围,或落在通过小的绝对量(例如可以容易地通过抽样或处理变化所解释的量)所观察的范围之外。正式地,对可以凭经验选择的R与X值而言,如以下所述:

>|ci-m~i|<min(si*R,X)>

不变量区域的注释

满足下列所有标准的位置被标记为“不变量”(而不是被标记为CNV):

(i)通过以上所述的HMM分段处理将位置称为CNV/非整倍体。

(ii)不以提示群体中简单的多态性的方式聚集背景设定中的覆盖值

正式地,对可以凭经验选择的值Q而言,如以下所述:

qi>Q

(iii)跨越背景样品该位置处的覆盖范围显示低的变异性,提示群体中高微小等位基因频率多态性和低处理变化(人工产品)的缺失。对可以凭经验选择的值S而言,如以下所述:

>si/m~i<S>

(iv)感兴趣的样品所观察的覆盖范围落入背景设定中所见到的值的范围,或落在通过小的绝对量(例如可以容易地通过抽样或处理变化所解释的量)所观察的范围之外。正式地,对可以凭经验选择的R与X值而言,如以下所述:

>|ci-m~i|<min(si*R)>

注释的改进

在一方面,以上的标准可引起CNV读取过度地片段化为可选择的读取与无读取的节段。理想的是,如果观察的覆盖范围与未注释的侧翼间隔十分相似,基于以上的标准允许“无读取的”短的间隔(即注释为“超变量”或“不变量”)被允许为读取的(保持未注释的)。具体地,可抑制间隔的“超变量”或“不变量”标记,其小于满足以上的标准但是为HMM输出中更长的节段的一部分的L碱基。

截止值的选择

在一方面,可以基于初始CNV读取的子集的分析以及与背景覆盖范围汇总统计的基因组范围的分布的比较选择以上标准中的截止值Q,S,R,X以及L。考虑到CNV读取的初始集(“训练集”)分类入可疑的(标记“超变量”或“不变量”)和被认为是真正的CNV,以及整个基因组(即,沿着基因组隔开的所选择的位置的),例如产生于以上所述的窗口的那些)的汇总统计,可用下列的标准鉴定近似最佳的截止值:

●绝大多数基因组被称为整倍体或CNV/非整倍体(例如只有小部分

的基因组为无读取的/注释为超变量或不变量);

●“训练集”中绝大多数有问题的区域为无读取的;

●训练集中绝大多数可信的区域为读取的(无注释的)。

基于初始的CNV读取的集合的手动策展可以得到训练集。所述的策展可涉及手动检查覆盖状况以鉴定读取及与通过独立的方法与所鉴定的推定的CNV的外部数据集比较。

通过测定与训练集或单独的测试集,以及无读取的部分基因组的一致性,评估Q,R,S以及L的候选值。截止值最终的选择可涉及读取完整性(读取的部分基因组)与有问题的CNV读取的量之间的权衡。

得分计算

本章节中更明确地描述了以上所述的CNV分段得分。

在给定的HMM上可以计算以具体的状态序列σ=s1,...,st的结果出现的长度t的输出给定序列D=d1,...,dt的概率,HMM由状态n组成,所述状态通过如下的初始的状态概率P=p1,...pn,转移概率T={tij}以及发射概率E={esd}所定义:

>Pr(D,σ|P,T,E)=ps1*es1,d1*Σi=2ttsi-1,siesi,di>

模型给予的数据概率为所有可能的状态序列的总和,即对长度t的所有可能的状态序列的集合S而言:

PT(D|P,T,E)=Σσ∈SPr(D,σ|P,T,E)

使用Forward/Backward算法可以有效的计算涉及S的子集总和的本等式与其他的等式。Bayes'规则的应用允许测定考虑数据与模型的给定路径的概率:

>Pr(σ|P,T,E,D)=Pr(D,σ|P,T,E)Pr(D|P,T,E)>

从这里,可以看到的是考虑数据与模型的大多数可能的路径为使Pr(D,σ|P,T,E)取最大值的路径。使用Viterbi算法可以有效地测定使这一等式取最大值的路径。

然而,也可以计算局部路径的概率。例如,在特定时间u特定状态q内,可以如下所述计算路径穿过模型,实际上通向所观察到的数据序列的概率:

>Pr(su=q|P,T,E,D)=Pr(D,su=q|P,T,E)Pr(D|P,T,E)>

以上讨论了分母,可以通过对数据概率与所有路径内具体路径求和获得分子,su=q,表为示

>Pr(D,su=q|P,T,E)=ΣσSsu=qtPr(D,σ|P,T,E)>

因此:

>Pr(su=q|P,T,E,D)=ΣσSsu=qPr(D,σ|P,T,E)ΣσSPr(D,σ|P,T,E)>

如下所述进行状态分配(“读取的倍性”);在位置u处推断状态(倍性),为具有最大化概率的状态:

>su^argmaxqPr(su=q|P,T,E,D)>

(同数的情况下,任意地选择)。然后位置u处倍性得分,πu

>πu=-10*log10(1-Pr(su=su^|P,T,E,D))>

并且位置u处CNV型得分分数(也称为DEI得分),δu为:

>δu=-10*log10(1-Σq=abPr(su=q|P,T,E,D))>

总和a与b的界限如下。对预期为二倍体的区域而言,如果a=0,b=l;如果a=b=2;如果a=3,&=最大的倍性(通常为10)。对预期为单倍体的区域而言(男性性染色体),如果如果如果b=最大的倍性(通常为10)。

节段被定义为类倍性位置的最大运行。从位置l至位置r的节段而言,倍性得分被认为组成位置的倍性得分的平均值:

>πl,r=Σu=lrπur-l+1>

并且相似地,节段的CNV型得分,πl,r为组成位置的CNV型得分的平均值:

>δl,r=Σu=lrδur-l+1>

用于评分的可选择的方法:

可以基于部分路径的似然计算节段的可选择的得分集。例如,可以如下所述的计算从位置l至位置r的状态q中的真正路径的概率:

>Pr(sl=sl+1=···=sr=q|P,T,E,D)=ΣσSsl=sl+1=···=sr=qPr(D,σ|P,T,E)ΣσSPr(D,σ|P,T,E)>

可能与计算节段界限的置信度相关的另一统计数据为状态q位置u处的概率,但不是在位置u-1(或,类似地,在位置u+1):

>Pr(su=q,su-1q|P,T,E,D)=ΣσSsu=q,su-1qPr(D,σ|P,T,E)ΣσSPr(D,σ|P,T,E)>

最终,可以计算以上所定义的DEI得分的备选方案;例如,从位置l至位置r倍性大于2的状态中的概率为:

>Pr(si:lir>2|P,T,E,D)=ΣσSsi:lir>2Pr(D,σ|P,T,E)ΣσSPr(D,σ|P,T,E)>

如早先所注意的,经由Forward-Backward算法可以有效地计算所有路径总和。

一些HMM参考文献:

Wikipedia:

HMMs http://en.wikipedia.org/wiki/Hidden_Markov_model

Baum-Welch

http://en.wikipedia.org/wiki/Baum%E2%80%93Welch_algorithm

Forward-Backward

http://en.wikipedia.org/wiki/Forward-backward_algorithm

Viterbi algorithm http://en.wikipedia.org/wiki/Viterbi_algorithm

经典的综述:Rabiner,L.R.A Tutorial on Hidden Markov Models andSelected Applications in Speech Recognition.Proceedings oftheIEEE,1989,77.2:257-286,http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/tutorial%20on%20hmm%20and%20applications.pdf

用于CNV读取的示例性实施机制

计算机系统

可以根据本公开内容的实施方案使用的示例性计算机系统可以执行软件,并且结果可以呈递给监控器或其他的显示设备上的用户。在一些实施方案中,配置以估算样品靶序列中的拷贝数变异的示例性计算机系统可以将结果作为显示设备如计算机监测器上的图形用户接口(GUI)呈现给用户。图3示例了计算机系统400的系统结构的一个实例,其经配置以实施本公开内容的拷贝数变异的估算。如图3中所示的,计算机系统400可包括一个或多个处理器402(例如诸如CPU)。处理器402与通信基础设施406(例如通信总线,交叉杆,或网络)相连。计算机系统400可包括显示界面422,其从通信基础设施406(或从未显示的帧缓冲器)传送图像、文本以及其它数据以显示在显示单元424上。

计算机系统400还可包括主存储器404如随机存取存储器(RAM)以及辅助存储器408。例如,辅助存储器408可包括硬盘驱动器(HDD)410和/或可移动存储驱动器412,其可代表软盘驱动器,磁带驱动器,光盘驱动器等。可移动存储驱动器412从可移动存储单元416读取和/或写入可移动存储单元416。可移动存储单元416可为软盘,磁带,光盘等。应理解的是,可移动存储单元416可包括具有在其上储存本文计算机软件和/或数据的计算机可读存储介质。

在可选择的实施方案中,辅助存储器408可包括允许计算机程序,计算机逻辑,或其它指令被加载至计算机系统400的其它相似的装置。辅助存储器408可包括可移动存储单元418与相应的接口514。此类可移动存储单元的实例包括但不限于,USB或闪盘驱动器,其允许软件与数据从可移动存储单元418转移至计算机系统400。

计算机系统400还可包括通信接口420。通信接口420允许软件与数据在计算机系统400与外部装置之间转移。通信接口420的实例可包括调制解调器,以太网卡,无线网卡,个人计算机内存卡国际协会(PCMCIA)插槽与卡等。经由通信接口420转移的软件与数据可以为信号的形式,所述信号可为电子的,电磁的,光学的等,其能够由通信接口420所接收。这些信号可经由通信路径(例如通道)提供给通信接口420,这可以使用电线,电缆、光纤,电话线,蜂窝链路,射频(RF)连接以及其它通信通道进行实施。

在本文档中,术语“计算机程序介质”与“计算机可读的存储介质”指永久性介质,诸如主存储器404,可移动存储驱动器412以及安装在硬盘驱动器410中的硬盘。这些计算机程序产品提供给计算机系统400软件或其它逻辑。计算机程序(也称为计算机控制逻辑)储存于主存储器404和/或辅助存储器408中。也可经由通信接口420接收计算机程序或其它软件逻辑。此类计算机程序或逻辑,当通过处理器执行时,能够使计算机系统400执行本文所讨论的方法的特征。例如,主存储器404,辅助存储器408或可移动存储单元416或418可用计算机程序代码(指令)编码以用于执行对应图3中所示的过程的操作。

在使用软件逻辑实施的实施方案中,软件指令可储存在计算机程序产品中并且利用可移动存储驱动器412,硬盘驱动器410或通信接口420加载至计算机系统400。换句话说,计算机程序产品(其可为计算机可读的存储介质),可具有明确呈现其上的指令。软件指令,当通过处理器402执行时,引起处理器402执行本文所述的方法的功能(操作)。在另一实施方案中,方法主要利用例如,硬件构件诸如包含专用集成电路(ASIC)的数字信号处理器在硬件中实施。仍然在另一实施方案中,使用硬件与软件的组合实施所述方法。

根据本公开内容的实施方案的用于CNV读取的示例性系统

图1为框图,其示出根据一示例性实施方案用于读取样品多核苷酸序列中的变异的系统。在本实施方案中,系统可包括一个或多个计算装置的计算机集群10诸如计算机12与数据存储库14。计算机12可经由高速局域网络(LAN)16与数据存储库14连接。计算机12的至少一部分可执行CNV读取器18的实例。(在一些实施方案中,CNV读取器如CNV读取器18可包括作为聚集管道逻辑(assembly pipeline logic)的一部分,所述聚集管道逻辑经配置和操作将原始读数聚集至映射及测序的基因组,所述基因组包括来自于参照基因组的检测的变异;此类实施方案的实例描述于2010年4月29日提交的美国申请系列号12/770,089中,该申请通过引用全文并入本文,如同在本文完全示出)。CNV读取器18可包括HMM模型逻辑20,覆盖范围计算逻辑22,GC校正逻辑34,关注倍性校正逻辑36以及基于群体的无读取逻辑38。

数据存储库14可储存几个数据库,其包括储存参照多核苷酸序列24,通过使用生物化学过程对样品多核苷酸序列进行测序所获得的匹配的读数26,以及由匹配的读数26生成的映射匹配的读数28的一个或多个数据库。

参照多核苷酸序列24(在下文中被简称为参照)指参照有机体的已知的核苷酸序列(例如已知的基因组)。这包括这样的参照,该参照包含在基因组内一个或多个位置处具有已知变异的序列。多核苷酸分子为有机聚合物分子,其由核苷酸单体共价地结合在链中所组成。脱氧核糖核酸(DNA)与核糖核酸(RNA)为具有不同生物功能的多核苷酸的实例。有机体的基因组(例如诸如人)为有机体遗传信息的整体(或实质的整体),其被编码为DNA或RNA。单倍体基因组包含每一有机体的遗传单位的一个拷贝。在诸如哺乳动物的二倍体有机体中,基因组为包含大多数遗传信息的两个拷贝的一系列互补的多核苷酸,其组织为具有离散的遗传单位或等位基因的染色体集。在个体染色体上特定位置处提供每一拷贝的等位基因,并且基因组中每一等位基因的基因型包含同源染色体上特定位置处存在的等位基因对,其决定具体的特性或性状。如果基因组包含两个相同拷贝的等位基因,则对该等位基因而言它为纯合的,并且当基因组包含两个不同的等位基因时,对该基因座而言它为杂合的。DNA自身组织为互补的多核苷酸的两条链。

参照24可为整个基因组序列,参照基因组的一部分,许多参照有机体的共有序列,基于不同有机体的不同组分的编辑序列,或任何其他适当的序列。参照24也可包括关于已知在有机体群体中发现的参照变异的信息。

可以在从有机体的生物样品获得的多核苷酸序列上进行测序过程期间,获得匹配的读数26,例如来自待被分析的基因、基因组DNA、RNA或其片段的核酸序列。匹配的读数26可获取自包含整个基因组的样品,诸如整个哺乳动物的基因组,更具体地整个人类基因组。在另一实施方案中,匹配的读数26可为来自全基因组的特定片段。在一实施方案中,可通过在诸如使用聚合酶链式反应(PCR)或滚环式复制建立的扩增的核酸构建体如扩增引物上进行测序来获得匹配的读数26。例如可使用的扩增引物的实例描述于美国专利公开号20090111705,20090111706以及20090075343中,其通过引用全文并入本文。

映射匹配的读数(mapped mated read)28指已被绘制在参照24中的位置的匹配的读数26。示例性映射方法描述于下列的专利申请中:2010年2月2日提交的美国专利申请系列第12/698,965号,其通过引用将其全部的内容并入本文;2010年2月2日提交的美国专利申请系列第12/698,986号,其通过引用将其全部的内容并入本文;2010年2月2日提交的美国专利申请系列第12/698,994号,其通过引用将其全部的内容并入本文。

出于结合参照24鉴定与读取在映射匹配的读数28的序列中检测到的拷贝数变异或差异的目的,拷贝数变异CNV读取器18产生序列并对其进行评分。

CNV读取器18可输出CNV读取文档32,列表或其他包含鉴定的变异的数据结构,每一种均描述了其中观察到映射匹配的读数28的序列的一部分在特定位置或靠近特定位置处不同于参照24的方式。

计算机集群10可被配置,从而使得在不同的计算机12上执行的CNV读取器18的实例在参照24与映射匹配的读数26的不同部分上平行地操作。作业调度程序30负责在计算机集群10中不同的计算机12上分配任务或数据包。

计算机12可包括典型的硬件构件(未显示),其包括一个或多个处理器,输入装置(例如键盘,定点设备等),以及输出装置(例如显示装置等)。计算机12的一个实例为图3所示的计算机系统400。计算机12可包括计算机可读的/可写入的介质,例如,包含计算机指令的存储器与存储装置(例如闪速存储器,硬盘驱动器,光盘驱动器,磁盘驱动器等),当通过处理器执行时,所述指令执行公开的功能。计算机12还可包括计算机可写入的介质,其用于执行数据存储库14并且用于储存CNV读取文档32。计算机12还可包括用于通信的有线的或无线的网络通信接口。

数据生成

在一些实施方案中,测序仪可用于产生匹配的读数26,所述读数获取自待被分析的有机体的样品多核苷酸。在一实施方案中,测序仪提供了离散但有关的数据集,从而使得匹配的读数26的内容可包括预测的空间关系和/或分离变异。可以基于已有的关于用于产生匹配的读数26的生物化学过程的知识(例如如果将生物化学过程应用于样品,基于预期获得的序列),基于匹配的读数26的序列数据或其子集的经验分析,专家估计,或其它适当的技术确定这一关系。

许多生物化学过程通过测序仪可以用于促进与本发明的CNV读取方法一起使用的匹配的读数26的生成。这些包括但不限于如美国专利号6,864,052;6,309,824;6,401,267中所公开的杂交方法;如美国专利号6,210,891;6,828,100,6,833,246;6,911,345;7,329,496以及Margulies等,(2005),Nature437:376-380与Ronaghi等,(1996),Anal.Biochem.242:84-89所公开的通过合成测序方法;如美国专利号6,306,597,WO2006073504,WO2007120208公开的基于连接的方法;如美国专利号5,795,782,6,015,714,6,627,067,7,238,485和7,258,838以及美国专利申请2006003171与20090029477所公开的纳米孔测序技术;以及如美国专利申请公开号20090111115所公开的纳米通道测序技术,所有这些都通过引用将其全文并入本文。在一具体的实施方案中,组合探针锚定连接(cPAL)过程可用于一些实施方案中(参阅美国专利申请公开号20080234136与20070099208,将其通过引用全文并入本文)。

一旦生成了初级的映射匹配的读数数据,就根据如图2中所示的本公开内容的CNV读取方法处理信息,图2描述了用于测定样品中靶多核苷酸序列的检测位置处基因组区域的拷贝数的示例性方法,获得映射的读数数据以测量所述样品202的序列覆盖范围;校正序列覆盖偏差,其中序列偏差校正包括进行关注倍性的基线校正204;在进行基于群体的无读取/低置信区域的鉴定206与进行HMM分段、评分以及输出208后,估算多个基因组区域的总拷贝数值以及区域特异的拷贝数值210。

根据本公开内容的示例性实施方案所产生的二倍体/非肿瘤/非整倍体样品的CNV读取过程的输出的实例(例如图1中变异读取文档32所提供的)如表2中所示。

表2

表2中,纵列“染色体”确定染色体号,纵列“开始”与“结束”确定给定区域的起始基因座与结束基因座,纵列“倍性”指示区域的倍性(例如拷贝数),纵列“倍性得分”指示给定区域的得分(其中分数为基于算法的以分贝dB表示的值),纵列“类型”指示区域所观察的倍性的类型(例如“=”指示正常的倍性2,“+”指示高于正常的倍性,“-”指示低于正常的倍性,“超变量”指示倍性不能被读取,以及“不变量”指示倍性与正常的不同,但是与基线中所观察的相同,所述基线为在至少几种参照基因组的集合,以及纵列“类型得分”指示同一排中在纵列“类型”中读取的类型的置信得分。例如,表2中第二排指示:开始于染色体1上的基因座5100001并且结束于基因座5800000的区域,具有倍性3,15dB得分并且具有“增加的”具有40分的类型。

根据本公开内容的示例性实施方案所产生的非二倍体/肿瘤/非整倍体样品的CNV读取过程的输出的实例(例如图1中变异读取文档32所提供的)如表3中所示。

表3

表3中,纵列“染色体”确定染色体号,纵列“开始”与“结束”确定给定区域的起始基因座与结束基因座,纵列“水平”指示通过HMM模型的区域输出的覆盖水平(其中因为肿瘤样品的非整倍性与其它特征,在没有假定正常倍性2的情况下计算覆盖水平),纵列“水平得分”指示同一排中在纵列“水平”中读取的水平的置信得分。例如,表3中第二排指示:开始于染色体2上的基因座10001并且结束于基因座243189373,具有1.05的覆盖水平,得分为38分的区域。

尽管许多不同形式的实施方案满足本发明,然而如结合本发明优选的实施方案所详述的,应理解的是,本公开内容应被认为是发明原理的示例并且并非意图将本发明限于本文所例证的及所述的具体实施方案。通过本领域中技术人员可作许多的改变而不背离本发明的精神。通过所附权利要求与它们的等同项衡量本发明的范围。摘要与标题不被解释为限制本发明的范围,因为它们的目的为使适当的当局以及公众能够快速地确定本发明的一般性质。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号