首页> 中国专利> 用于检测囊性纤维化病的方法

用于检测囊性纤维化病的方法

摘要

本发明涉及用于同时测定囊性纤维化跨膜调节物(CFTR)核酸中的突变、缺失、重复和单核苷酸多态性的存在或缺乏的方法。还公开了用于扩增CFTR核酸的区域以进行高通量大规模并行测序的寡核苷酸引物和试剂盒及测定个体的囊性纤维化病状态的方法。

著录项

  • 公开/公告号CN113151436A

    专利类型发明专利

  • 公开/公告日2021-07-23

    原文格式PDF

  • 申请/专利权人 奎斯特诊断投资股份有限公司;

    申请/专利号CN202110118467.6

  • 发明设计人 S·P·里韦拉;

    申请日2014-03-14

  • 分类号C12Q1/6883(20180101);C12Q1/6869(20180101);

  • 代理机构11494 北京坤瑞律师事务所;

  • 代理人封新琴

  • 地址 美国特拉华州

  • 入库时间 2023-06-19 11:59:12

说明书

本申请是申请日为2014年3月14日,申请号为201480023960.8,发明名称为“用于检测囊性纤维化病的方法”的申请的分案申请。

发明领域

本发明涉及用于同时测定囊性纤维化跨膜调节物(CFTR)核酸中的突变、缺失、重复和单核苷酸多态性的存在或缺乏的方法。还公开了用于扩增CFTR核酸的区域以进行高通量大规模并行测序的核苷酸序列(诸如对于引物)及测定个体的囊性纤维化病状态的方法。

发明背景

提供本发明背景的以下描述仅作为理解本发明的帮助,而并不承认描述或构成本发明的现有技术。

囊性纤维化病(CF)是高加索裔群体中的最常见的重度常染色体隐性遗传病症。它在北美影响着2,500个活产中的约1个(Boat等,The Metabolic Basis of InheritedDisease,第6版,pp 2649-2680,McGraw Hill,NY(1989))。25个人中的约1个是该疾病的携带者。囊性纤维化病的主要症状包括慢性肺疾病、胰腺外分泌不足、和升高的汗液电解质水平。症状与作为外分泌病症的囊性纤维化病一致。虽然最近的进展已经在分析离子转运通过CF患者细胞的上皮的顶膜方面做出,但是不清楚氯化物通道的异常调节代表疾病中的主要缺陷。

CF的基因已经定位于染色体7的长臂上存在的250,000个碱基对基因组序列。此序列编码称作“囊性纤维化跨膜调节物”(或“CFTR”)的膜结合蛋白。CFTR基因中有大于1000种不同突变,其在目前对囊性纤维化病遗传分析协会报告的群体中具有不同的出现频率。这些突变存在于CFTR基因的编码区(例如△F508(一种存在于约70%CF等位基因上的突变)代表残基508处的苯丙氨酸缺失)和非编码区(例如5T、7T、和9T突变对应于位于内含子8的剪接分支/接受位点处的5、7或9个胸苷碱基的序列)两者中。CFTR基因组和cDNA序列的比较确认27个外显子的存在。外显子编号为1-27,如NCBI参照序列登录号NM_000492.3中显示。每个外显子侧翼有共有GT-AG剪接位点序列,如先前报告的(Zielenski等,(1991)Genomics10,214-228)。

已经描述了用于检测CFTR基因突变的方法。参见例如Audrezet等,“Genomicrearrangements in the CFTR gene:extensive allelic heterogeneity and diversemutational mechanisms”Hum Mutat.2004Apr;23(4):343-57;Spiegelman和Lem的PCT WO1004/040013A1及相应的美国申请#20040110138;题为“Method for the detection ofmultiple genetic targets”;Dunlop等的美国专利申请No.20030235834;题为“Approaches to identify cystic fibrosis”;及N.Broude的美国专利申请No.20040126760,题为“Novel compositions and methods for carrying out multiplePCR reactions on a single sample”。

然而,目前必须采用多种不同分析和/或检测方法以精确获得全面序列数据。例如,可以采用传统的Sanger测序方法来测定牵涉CFTR基因中的少量核苷酸的突变的存在或缺乏。然而,Sanger测序不能检测大缺失和重复,诸如那些牵涉一个或多个外显子的。因此,需要别的方法如定量荧光聚合酶链式反应(QF-PCR)来检测这些较大的突变类型。

因而,需要改善的方法来有效检测CF下面的多种CFTR基因缺陷以及同时捕捉剂量数据(例如基因拷贝数)和序列数据两者。此外,需要改善的方法来检测CFTR基因中的罕见突变。理想地,可在单一测定法中检测多种类别的CFTR突变,如牵涉小碱基变化(例如错义突变、无义突变、小插入或缺失和/或剪接位点突变)的那些及牵涉较大缺失和/或重复的那些的方法是期望的。

发明概述

提供了用于测定样品CFTR核酸的核苷酸序列的方法,该方法(a)通过扩增所述样品CFTR核酸的多个靶区段而生成衔接头标签化的扩增子文库,并(b)通过使用高通量大规模并行测序对所述扩增子文库中的扩增子测序来测定所述靶区段的核苷酸序列。

还提供了用于测定样品CFTR核酸中的CFTR核苷酸序列变体的存在或缺乏的方法,其包括:(a)通过扩增所述样品CFTR核酸的多个靶区段生成衔接头标签化的扩增子文库;(b)通过使用高通量大规模并行测序对所述扩增子文库中的扩增子测序来测定所述靶区段的核苷酸序列;(c)比较步骤(b)中测定的每个靶区段核苷酸序列与参照CFTR核苷酸序列的相应区域;并(d)如果或者当一个或多个所述靶区段序列不同于所述参照CFTR核苷酸序列的相应区域时,那么确定所述样品CFTR核酸具有变体序列。

序列变体是不同于参照CFTR核酸序列的相应区的CFTR序列。CFTR序列中的此类差异可包括点突变、插入缺失和/或重复或拷贝数变化(CNV)。CNV是物种的两个个体间的>50bp的基因组序列的获得和缺少(Mills等2011,Mapping copy number variation bypopulation-scale genome sequencing,Nature 470:59–65)。如果在PCR的指数期期间的文库生成过程中停止扩增,那么可以在通过使用读段深度(即定位密度)方法使用下一代测序时测定此类变异。相对于正常样本的所有其它扩增子的正常剂量会是1、1/2(对于纯合缺失)和1

在一些实施方案中,参照CFTR核酸序列包含野生型CFTR核酸序列。在一些实施方案中,序列变体包含与囊性纤维化病有关的CFTR核苷酸序列突变。

本发明的另一个方面提供了用于测定与参照CFTR核苷酸序列相比样品CFTR核酸中的碱基变化、基因缺失和基因重复的存在或缺乏的方法,所述方法包括:(a)通过扩增所述样品CFTR核酸的多个靶区段生成衔接头标签化的扩增子文库,(b)通过使用高通量大规模并行测序对所述扩增子测序来测定所述靶区段的核苷酸序列,(c)比较步骤(b)中测定的每个靶区段序列与参照CFTR核苷酸序列的相应区域;并(d)如果或者当一个或多个所述靶区段序列不同于所述参照CFTR核苷酸序列的相应区域时,那么确定所述样品CFTR核酸中存在一个或多个碱基变化、基因缺失和/或基因重复。在一些实施方案中,参照CFTR序列由野生型CFTR核酸序列组成或可替换地包含野生型CFTR核酸序列。

本发明的另一个方面提供了用于诊断个体中的囊性纤维化病的遗传基础的方法,其包括:(a)通过从所述个体中扩增CFTR核酸的多个靶区段而生成衔接头标签化的扩增子文库,(b)通过使用高通量大规模并行测序对所述扩增子测序来测定所述靶区段的核苷酸序列,并(c)如果或当一个或多个所述靶区段的核苷酸序列含有与囊性纤维化病有关的突变时,那么确定所述个体具有囊性纤维化病的遗传基础。与囊性纤维化病有关的遗传突变是本领域中公知的,并且包括罕见的和常见的突变两者。

在本发明的任何方面中,可使用读段深度方法(read depth approach)进行高通量大规模并行测序。

样品CFTR核酸可为任何形式的核酸,包括例如基因组DNA、RNA(如mRNA)或cDNA。

在上述方法的一些实施方案中,对来自超过一份样品的CFTR核酸测序。在一些情况中,并行对所有样品同时测序。在一个优选的实施方案中,使用本发明的方法来扩增并测序来自至少5、10、20、30或35直到40、45、48或50份不同样品的CFTR核酸。源自单一样品的所有扩增子可包含指示生成扩增子的来源的索引(index)序列,每份样品的索引不同于所有其它样品的索引。因此,索引的使用容许每次测序运行合并多份样品,随后基于索引序列确定样品来源。

在一些实施方案中,通过在一种设置中从样品同时扩增CFTR核酸,使用AccessArray

在本发明的一些实施方案中,使用含有寡核苷酸测序衔接头的引物扩增样品CFTR靶区段以生成衔接头标签化的扩增子。在其它实施方案中,采用的引物不含衔接头序列,随后将生成的扩增子(即在扩增后)在扩增子的一端或两端与寡核苷酸测序衔接头连接。在一些实施方案中,所有有义扩增子含有相同的测序衔接头,并且所有反义扩增子含有与有义扩增子测序衔接头的具有不同序列的测序衔接头。在一些实施方案中,仅扩增和/或测序单链样品CFTR核酸。

可使用本发明的方法来对整个或部分CFTR基因或cDNA测序。在一些实施方案中,评估至少1、2、5、10或20直到25或28个外显子。在其它实施方案中,还评估整个或部分的CFTR启动子区。还可以评估一些或所有CFTR内含子。在一个实施方案中,CFTR靶区段在组合时代表CFTR编码区和所有内含子/外显子接合,加上刚好在第一个外显子上游(在5’方向)的约100、500、750、900或1000直到约1000个核苷酸的CFTR启动子,加上刚好在CFTR基因的下游(在3’方向)的约50、100、150或200直到约200、250、300或400个核苷酸。在一个优选的实施方案中,使用至少一种包含表1或表2中显示的序列的引物,对一个或多个样品CFTR核酸测序。一个优选的实施方案中,使用表1或2中显示的所有引物。

在一个相似的实施方案中,代表所有外显子和一个或多个内含子的部分。

还提供了可用作本发明的方法中的引物的寡核苷酸和寡核苷酸组合。这些寡核苷酸以基本上纯化的材料提供。还提供了试剂盒,其包含用于进行扩增和测序的寡核苷酸,如本文中描述。

发明详述

本发明提供了用于在单一测定法中同时测定样品CFTR核酸的CFTR核苷酸序列中除了较大的缺失和重复外牵涉少量核苷酸的CFTR基因突变的存在或缺乏的方法。通过测定样品CFTR核酸中的CFTR核苷酸序列变体的存在或缺乏,调查者可基于自个体获得的样品中的与囊性纤维化病有关的CFTR突变的存在或缺乏来确定个体的囊性纤维化病状态。

本发明的方法包括通过扩增一个或多个样品的样品CFTR核酸的多个靶区段生成衔接头标签化的扩增子文库,并通过使用高通量大规模并行测序(即下一代测序)对扩增子测序来测定靶区段序列。使用提供的方法,可在核酸样品中测定基因序列和基因剂量两者。可通过进行下一代测序及使用读段深度方法测定基因剂量(又称为拷贝数变化)。

在一些实施方案中,比较一个或多个样品CFTR序列与参照CFTR序列以确定是否存在差异(例如序列或拷贝数的差异)。参照CFTR序列可为来自正常(非囊性纤维化病受累者和非囊性纤维化病携带者)个体的CFTR基因组或cDNA序列或其一部分。在一些情况中,参照CFTR序列可包含野生型CFTR核酸序列。可采用本领域中已知的多种方法(例如读段深度方法)以分析测序数据,从而确定与参照序列相比是否存在差异。

如本文中使用,术语“扩增”就核酸序列而言指增加样品中的核酸序列群体的呈现的方法。核酸扩增方法,诸如PCR、等温方法、滚环方法等是技术人员公知的。参见例如Saiki,“Amplification of Genomic DNA”in PCR Protocols,Innis等编,AcademicPress,San Diego,Calif.1990,pp 13-20;Wharam等,Nucleic Acids Res.2001Jun 1;29(11):E54-E54;Hafner等,Biotechniques 2001Apr;30(4):852-6,858,860passim;Zhong等,Biotechniques2001Apr;30(4):852-6,858,860。

如本文中使用,术语“CFTR启动子区”指CFTR基因中表示翻译起始位点上游的至少前250个核苷酸的区段。在其它实施方案中,启动子区可包含直接在起始密码子上游的前250nt、前300nt、前350nt、前400nt、前450nt、前500nt、前1kb、前5kb、前10,kb、前15,kb、前20,kb、前21kb或前22kb的序列。如本文中定义的启动子区的缺失可伴随有下游外显子/内含子(而非整个CFTR基因)的缺失。在一些实施方案中,牵涉CFTR启动子区和下游CFTR基因序列的坐标缺失牵涉约小于10个外显子,且更通常牵涉小于5个外显子。可使用在缺失或重复序列侧翼的引物检测CFTR启动子区的缺失或重复。在一个优选的实施方案中,启动子缺失或重复牵涉至少4个以上核苷酸,更优选5个以上,更优选8个以上,且甚至更优选12个以上核苷酸的区段。

如本文中使用,“CFTR核酸”指含有CFTR基因的序列、此类CFTR序列的mRNA、cDNA或一部分的核酸。CFTR核酸可含有CFTR编码区。CFTR核酸可为基因组DNA、cDNA、单链DNA或mRNA。在一些实施方案中,仅扩增和/或测序样品CFTR核酸的单链。在一些实施方案中,扩增和测序双链CFTR DNA的两条链。CFTR核酸可存在于生物样品中或它可自生物样品分离。

如本文中使用,术语“互补”或“互补性”通过参照多核苷酸(即核苷酸如寡核苷酸或靶核酸的序列)指碱基配对规则。如本文中使用,核酸序列的互补物指在与核酸序列比对使得一个序列的5’端与另一个的3’端配对时为“反平行关联”的寡核苷酸。例如,序列“5’-A-G-T-3’”与序列“3’-T-C-A-5”互补。本文中描述的核酸中可包含通常不存在于天然核酸中的某些碱基;这些包括例如肌苷、7-脱氮鸟嘌呤、锁定核酸(LNA)、和肽核酸(PNA)。互补不需要是完全的;稳定双链体可含有错配的碱基对、简并或不匹配的碱基。考虑到许多变量,包括例如寡核苷酸的长度、寡核苷酸的碱基组成和序列、错配碱基对的发生和离子强度,核酸技术领域的技术人员可凭经验确定双链体稳定性。互补序列也可为与DNA序列互补的RNA的序列或其互补序列,并且也可为cDNA。

如本文中使用,术语“缺失”涵盖从核酸中除去一个或多个核苷酸的突变。相反,术语“重复”指在核酸中将相同序列的一个或多个核苷酸直接接着此序列插入的突变。在一个优选的实施方案中,缺失或重复牵涉4个以上核苷酸的区段。

术语“剂量”或“基因剂量”指样品中存在的基因或基因的部分的拷贝数。

如本文中使用,术语“引物”意指与基本上互补的靶序列杂交,并且被DNA聚合酶识别以开始DNA复制的核苷酸序列,优选DNA。如本文中使用,术语引物包括可以合成的所有形式的引物,包括肽核酸引物、锁定核酸引物、经硫代磷酸酯修饰的引物、经标记的引物等。

如本文中使用,术语“基本上互补”意指两种序列在严格杂交条件下杂交。技术人员会理解基本上互补的序列不需要沿着其整个长度杂交。特别地,基本上互补的序列可包含不与靶序列杂交的碱基的连续序列,其位于在严格杂交条件下与靶序列杂交的碱基的连续序列的3’或5’。

如本文中使用,术语“侧翼”就引物而言意指引物与靶物上寻求扩增的感兴趣区域邻近的靶核酸杂交。技术人员会理解优选的引物是在感兴趣区域的5’杂交的引物对,靶双链DNA分子的每条链上一个,使得可通过合适的DNA聚合酶对引物的3’端添加核苷酸。在CFTR外显子侧翼的引物一般设计为不与外显子序列退火,而是与外显子相邻的序列(例如内含子序列)退火。然而,在一些情况中,扩增引物可设计为与外显子序列退火。可与所述方法一起使用的许多引物对的引物退火位置显示于表1。

如本文中使用,“测序深度”或“读段深度”指已经序列测序的次数(测序的深度)。举例而言,可通过比对多次测序运行结果,并在某个大小(例如100bp)的非重叠窗中计数读段的起始位置来确定读段深度。拷贝数变化可使用本领域中已知的方法基于读段深度确定。例如,使用Yoon等,Genome Research 2009September;19(9):1586–1592;Xie等,BMCBioinformatics2009Mar 6;10:80;或Medvedev等,Nature Methods 2009Nov;6(11Suppl):S13-20中描述的方法。使用此类方法和分析称为“读段深度方法”。

“覆盖深度”指来自定位于给定位置的测序读段的核苷酸的数目。

如本文中使用,术语“特异性”在提及寡核苷酸引物时意指引物的核苷酸序列在比对寡核苷酸和核酸时与要扩增的核酸的部分具有至少12个碱基的序列同一性。对核酸特异性的寡核苷酸引物是在严格杂交或清洗条件下能够与感兴趣区域杂交,并且基本上不与不感兴趣的核酸杂交的。较高水平的序列同一性是优选的,并且包括至少75%、至少80%、至少85%、至少90%、至少95%,且更优选至少98%序列同一性。

如本文中使用,术语“多重PCR”指使用独特的引物对各自引发的两种以上产物的扩增。

如本文中使用,术语“杂交”指两个互补的核酸链在适当严格的条件下彼此退火的过程。杂交通常且优选用探针长度核酸分子,优选长度为20-100个核苷酸,更优选长度为18-50个核苷酸进行。核酸杂交技术是本领域中公知的。参见例如Sambrook等,1989,Molecular Cloning:A Laboratory Manual,Second Edition,Cold Spring HarborPress,Plainview,N.Y。本领域技术人员理解如何估计和调节杂交条件的严格性,使得至少具有期望的互补性水平的序列会稳定杂交,而具有较低互补性的那些序列不会杂交。对于杂交条件和参数的例子,参见例如Sambrook等,1989,Molecular Cloning:ALaboratoryManual,Second Edition,Cold Spring Harbor Press,Plainview,N.Y.;Ausubel,F.M.等1994,Current Protocols in Molecular Biology.John Wiley&Sons,Secaucus,N.J。在一些实施方案中,在严格杂交条件下发生特异性杂交。

如本文中使用,术语“严格杂交条件”指至少与下述一样严格的杂交条件:在50%甲酰胺,5xSSC,50mM NaH

如本文中使用,术语“有义链”意指包含功能性蛋白质的编码序列的至少一部分的双链DNA(dsDNA)的链。“反义链”意指有义链的反向互补物的dsDNA的链。

如本文中使用,术语“正向引物”意指与dsDNA的反义链退火的引物。“反向引物”与dsDNA的有义链退火。

如本文中使用,术语“分离的”就核酸(例如RNA、DNA或混合聚合物)而言是与天然伴随此类核酸的其它细胞组分基本上分开的。该术语涵盖已经从其天然存在的环境中取出的核酸序列,并且包括重组或克隆的DNA分离物、寡核苷酸、和化学合成的类似物或由异源系统生物合成的类似物。

如本文中使用,术语“基本上纯的”意指核酸代表样品中超过50%的核酸。核酸样品可在溶液中或者作为干制备物存在。

如本文中使用,术语“编码序列”意指可被转录和/或翻译以生成其mRNA和/或多肽或片段的核酸或其互补物的序列或其部分。编码序列包括基因组DNA或未成熟的初级RNA转录物中的外显子,其由细胞的生物化学机构连接在一起以提供成熟的mRNA。反义链是此类核酸的互补物,并且编码序列可以从中推导出。

如本文中使用,术语“非编码序列”意指在体内不被转录成氨基酸,或者tRNA不相互作用以放置或尝试放置氨基酸的核酸或其互补物的序列或其部分。非编码序列包括基因组DNA或未成熟的初级RNA转录物中的内含子序列,和基因关联序列(如启动子、增强子、沉默子等)两者。

如本文中使用,术语“高通量大规模并行测序”指可并行产生克隆扩增分子和单一核酸分子的多个测序反应的测序方法。这容许增加的通量和数据产量。这些方法在本领域中也称为下一代测序(NGS)方法。NGS方法包括例如使用可逆的染色终止剂的合成测序(sequencing-by-synthesis),和连接测序(sequencing-by-ligation)。常用的NGS平台的非限制性例子包括miRNA BeadArray(Illumina,Inc.)、Roche 454

如本文中使用,术语“携带者状态”或“囊性纤维化病携带者”意指个人,其含有具有与囊性纤维化病有关的突变体CFTR核酸序列的一个CFTR等位基因,但第二个等位基因不是突变体CFTR核酸序列。囊性纤维化病是一种“常染色体隐性”疾病,意味着突变当存在于具有非疾病相关等位基因的杂合状况中时很少产生或不产生表型效应,但是当个人是纯合的或者复合杂合子(即这两个CFTR等位基因是突变体CFTR核酸序列)时产生“疾病状态”。

如本文中使用,术语“野生型”就CFTR基因或其基因座而言指存在于NCBI GenBank基因座ID M58478(HUMCFTC)、AC000111和AC000061中的CFTR基因序列。CFTR基因的cDNA见于Audrezet等,Hum.Mutat.(2004)23(4),343-357和/或Genbank登录号NM_000492.3。

“罕见的CFTR突变”指CFTR基因序列中存在于<0.1%囊性纤维化病患者中的突变。

“个人CFTR突变”指CFTR基因序列中仅存在于单一家族或小群体中的突变。

“常见的CFTR突变”指CFTR基因序列中的突变,其与囊性纤维化病有关,并且存在于至少0.1%囊性纤维化病患者中。

个体中的“囊性纤维化病的遗传基础”指个体的基因型,特别是其CFTR核酸的基因型,和个体是否拥有促成囊性纤维化病的至少一个CFTR突变。

如本文中使用,术语“约”意指为定量项加或减10%。

“样品CFTR核酸”是在生物样品中或自生物样品获得的CFTR核酸。释放或以其它方式使核酸可用于进行检测的加工方法是本领域中公知的,并且可包括核酸操作的步骤,例如通过从生物样品逆转录RNA制备cDNA。生物样品可为体液或组织样品。在一些情况中,生物样品可组成为或包含血液、血浆、血清、尿液、粪便、上皮样品、阴道样品、皮肤样品、颊拭样、精液、羊膜液、培养的细胞、骨髓样品和/或绒毛膜绒毛、培养的细胞等。也可使用固定的或冷冻的组织。用EDTA、ACD或肝素作为抗凝剂收集的约0.5-5ml的全血样品是合适的。10-15ml的羊膜液、在2个T-25烧瓶中80-100%汇合的培养细胞和25mg绒毛膜绒毛是可用于加工的样品量。

“个体”是任何哺乳动物。在一个优选的实施方案中,个体是人。

根据本发明扩增和测序的CFTR靶区段可代表CFTR基因的一个或多个个别的外显子或外显子的部分或者CFTR mRNA的一个或多个部分。靶区段也可包括CFTR启动子区和/或一个或多个CFTR内含子。在一些实施方案中,靶区段代表整个CFTR基因或整个CFTR编码区。在一个优选的实施方案中,靶区段代表整个CFTR编码区和至少一个内含子或其部分及位于刚好在编码序列的上游(在5’方向)的相邻区。相邻的上游区可由位于刚好在CFTR编码序列上游的约100个核苷酸多至约500、750、1000、1100、或1200个核苷酸的序列组成。在一些实施方案中,相邻的上游区包含整个或部分的CFTR启动子序列。

根据本发明,可用对靶区段特异性的寡核苷酸引物或引物对扩增每个CFTR核酸靶区段。在一些实施方案中,单一引物或引物对的一个或两个引物包含与引物的靶物特异性序列部分的5’端连接的特异性衔接头序列(又称为测序衔接头)。此测序衔接头是已知序列的短寡核苷酸,其可为邻接的未知核酸的扩增和测序两者提供引发位点。因此,衔接头容许片段对流动池(flow cell)的结合以进行下一代测序。任何衔接头序列可包含在本发明中使用的引物中。

在一些实施方案中,所有正向扩增子(即从与靶区段的反义链杂交的正向引物延伸的扩增子)含有相同衔接头序列。在一些实施方案中,在进行双链测序时,所有正向扩增子含有相同衔接头序列,并且所有反向扩增子(即从与靶区段的有义链杂交的反向引物延伸的扩增子)含有与正向扩增子的衔接头不同的衔接头序列。

在一个具体的实施方案中,“正向”衔接头序列组成为或包含:ACACTGACGACATGGTTCTACA(SEQ ID NO:1)或与SEQ ID NO:2为90%、95%或99%相同的序列,并且反向衔接头序列组成为或包含TACGGTAGCAGAGACTTGGTCT(SEQ ID NO:2)或与SEQID NO:2为90%、95%或99%相同的序列。

其它衔接头序列是本领域中已知的。一些制造商推荐特定的衔接头序列,以与他们提供的特定测序技术和机器一起使用。

在一些情况中,来自单一样品来源的扩增子进一步包含相同的索引序列(又称为索引标签,一种“条形码”或多重标识符(multiplex identifier,MID)。在一些情况中,使用含有索引序列的引物(例如正向引物和/或反向引物)生成索引化扩增子。可在文库制备过程中包括此类索引化引物作为“条形码化”工具以鉴定特定扩增子为源自特定的样品来源。个别地量化来自超过一种样品来源的索引化扩增子,然后合并,之后测序。因此,索引序列的使用容许每次测序运行合并多个样品(即来自超过一种样品来源的样品),随后基于索引序列确定样品来源。

在采用衔接头连接的和/或索引化的引物来扩增CFTR靶区段时,衔接头序列和/或索引序列在扩增过程中被掺入扩增子中(与靶物特异性引物序列一起)。因此,所得的扩增子是有测序能力的,并且不需要传统的文库制备方案。此外,索引标签的存在容许区分来自多个样品来源的序列。

在一些实施方案中,使用专门的融合引物(含有衔接头序列)和捕捉珠通过靶区段的基于乳剂的克隆扩增来制备测序模板(扩增子)。将单一衔接头结合的片段附接于珠表面,并且在珠/片段组分周围形成含有必需的扩增试剂的油乳剂。具有数百万个单链片段的数百万个珠的并行扩增生成测序仪就绪的文库(sequencer-ready library)。

在一些实施方案中,通过聚合酶链式反应(PCR)生成构成衔接头标签化(且任选索引化的)扩增子文库的扩增子。在一些实施方案中,使用多重化PCR方法(如美国专利号8,092,996(其通过在本文提述以其整体并入)中所公开的)生成扩增子文库。

桥式PCR是在生成文库以准备好测序后的又一种用于体外克隆扩增的方法。此方法是一种在限定的物理区域如固体表面(例如悬浮液中的珠或玻璃载玻片上的簇)中克隆扩增单一靶分子(文库的成员)的手段。在此方法中,使用附接于固体表面以形成“DNA集落”或“DNA簇”的引物扩增片段。此方法在由Illumina,Inc.(San Diego,CA)制造的一些基因组分析测序仪中使用。

或者,可用非衔接头连接的和/或非索引化的引物扩增每个CFTR核酸靶区段,随后可将测序衔接头和/或索引序列与每个所得的扩增子连接。

在生成衔接头标签化且任选地索引化的扩增子文库后,使用高通量大规模并行测序(即下一代测序)生成扩增子。用于进行高通量大规模并行测序的方法是本领域中已知的。由下一代测序提供的能力已经彻底改变了扩增子测序。公司如RainDanceTechnologies,Inc.(Lexington,MA)和Fluidigm Corporation提供生成有测序能力并且完全由靶定序列构成的文库的平台。通过实现高通量微量PCR设置,这些技术对于制备扩增子文库是理想的。基于PCR的方法的一个缺点是扩增子长度的限制,其由PCR自身决定。然而,通过靶向重叠区,可规避此问题。

在一些实施方案中,高通量大规模并行测序采用用可逆染料终止剂的合成测序。在其它实施方案中,经由连接测序进行测序。在又一些实施方案中,测序是单分子测序。

合成测序,如“老式”染料终止电泳测序依赖于通过DNA聚合酶掺入核苷酸以测定碱基序列。可逆的终止剂方法使用可逆形式的染料终止剂,一次添加一个核苷酸,通过重复除去阻断基团(blocking group)检测每个位置处的荧光以容许另一个核苷酸的聚合。核苷酸掺入的信号可随均已被使用的经荧光标记的核苷酸、磷酸盐驱动的光反应和氢离子感测而变化。

与合成测序法形成对比,连接测序法使用DNA连接酶来测定靶序列。此测序法依赖于模板DNA链上经由局部互补性的相邻寡核苷酸的酶促连接。此技术采用根据测序位置标记的固定长度的所有可能的寡核苷酸的分隔。将寡核苷酸退火并连接,并且通过DNA连接酶对匹配序列的优先连接导致所述位置处的二核苷酸编码颜色空间信号(通过释放荧光标记的探针,其对应于沿着寡聚物的已知位置处的已知核苷酸)。此方法主要通过LifeTechnologies’SOLiD

Ion Torrent

454

在一些实施方案中,在高通量测序前合并来自超过一种样品来源的扩增子。“多重化”是将多个衔接头标签化的且索引化的文库合并入单一测序运行。在使用索引化引物组时,此能力可以用于比较研究。在一些实施方案中,在测序前合并来自多达48个不同来源的扩增子文库。

用于测定CFTR核酸中的碱基变化、基因缺失和基因重复的存在或缺乏的所述方法可用于测定囊性纤维化病的遗传基础。因而,本发明的一个方面提供了用于诊断个体中的囊性纤维化病的遗传基础的方法,其包括:(a)通过从所述个体中扩增CFTR核酸的多个靶区段生成衔接头标签化的扩增子文库,(b)通过使用高通量大规模并行测序对所述扩增子测序来测定所述靶区段的核苷酸序列,并(c)如果或当一个或多个所述靶区段的核苷酸序列含有与囊性纤维化病有关的突变时,那么确定所述个体具有受累于囊性纤维化病或作为囊性纤维化病携带者的遗传基础。

另外,可使用本发明来检测来自个体的CFTR核酸中的一种或多种罕见CFTR突变或者私人(private)突变,由此鉴定拥有一个或多个罕见或私人的CFTR突变的个体。在一些实施方案中,在携带者在常见突变的常规筛选测试中测试呈阴性后使用本发明来鉴定专性囊性纤维化病携带者中罕见的家族性突变。此类常规的筛选测试可包含囊性纤维化病筛选:可检测突变、CF突变筛选、囊性纤维化病突变筛选、CFTR筛选、囊性纤维化病筛选、囊性纤维化病携带者筛选和CF-60。本发明还可用于鉴定囊性纤维化病受累(即有症状的)个体中的罕见突变,所述个体尚未具有通过至少一种常规囊性纤维化病突变筛选测试鉴定的两个CFTR序列突变。

在一些实施方案中,采用本文中公开的方法来确认个体如例如患者,具有一个或多个罕见或私人突变的囊性纤维化病受累个体的同胞(siblings)或其它亲属中的囊性纤维化病携带者状态。在一些实施方案中,本发明用于个体,特别是与囊性纤维化病受累个体有亲戚关系或者疑似为囊性纤维化病携带者的个体的产前诊断。

在本发明的一些方面,可用使用读段深度方法测定的基因组序列(>50bp)的获得和缺少来对CFTR基因的至少2、5、10、20、25或28以及多至25、29或30个靶区段测序。在一种方法中,对29个靶区段测序,其代表CFTR编码区(包括所有外显子/内含子接合)。在另一个实施方案中,测定除了CFTR基因上游的约1kb和下游的约300kb外的CFTR编码区(包括所有外显子/内含子接合)。

表1中显示了基本上纯的核酸引物的序列,该核酸引物是DNA(或RNA等同物),并且可用于扩增启动子区、所有CFTR外显子和内含子/外显子接合、和就在CFTR基因下游的区域。在引物名称末尾的字母F或R指示引物是正向(F)还是反向(R)PCR引物。在一些实施方案中,使用表1的引物以及Ion Torrent Personal Genome Machine

表1:

表2:

下述实施例用来例示本发明。这些实施例绝不意图限制本发明的范围。

实施例

从全血或经石蜡包埋的组织分离基因组DNA。对来自48种不同来源的样品创建CFTR扩增子文库。CFTR基因是至今为止已经广泛且彻底测序,并且因此已经注释为具有许多多态性的几个选择基因之一。避免这些多态性使引物和或探针结合位点的选择变得特别困难。使用来自表1或表2的引物生成文库,并且使用

表1和2的正向引物各自具有与引物的5’端连接的衔接头寡核苷酸。正向引物衔接头的衔接头序列是5’-ACACTGACGACATGGTTCTACA-3’。表1和2的反向引物各自具有与引物的5’端连接的衔接头寡核苷酸。反向引物衔接头的序列是5’-TACGGTAGCAGAGACTTGGTCT-3’。

另外,CFTR启动子区的高GC含量使得确定在文库生成期间合适的热循环条件更加困难。表3中显示了采用的最终PCR方案。

表3–PCR方案

本申请涉及以下各项:

1.一种用于测定样品CFTR核酸的核苷酸序列的方法,其包括:

(a)通过扩增所述样品CFTR核酸的多个靶区段生成衔接头标签化的扩增子文库,并

(b)通过使用高通量大规模并行测序对所述扩增子文库中的扩增子测序来测定所述靶区段的核苷酸序列。

2.一种用于测定样品CFTR核酸中的CFTR核苷酸序列变体的存在或缺乏的方法,其包括:

(a)通过扩增所述样品CFTR核酸的多个靶区段生成衔接头标签化的扩增子文库;

(b)通过使用高通量大规模并行测序对所述扩增子文库中的扩增子测序来测定所述靶区段的核苷酸序列;

(c)比较步骤(b)中测定的每个靶区段核苷酸序列与参照CFTR核苷酸序列的相应区域;并

(d)如果一个或多个所述靶区段序列不同于所述参照CFTR核苷酸序列的相应区域,那么确定所述样品CFTR核酸具有变体序列。

3.一种用于测定与参照CFTR核苷酸序列相比样品CFTR核酸中的碱基变化、基因缺失和基因重复的存在或缺乏的方法,所述方法包括:

(a)通过扩增所述样品CFTR核酸的多个靶区段生成衔接头标签化的扩增子文库,

(b)通过使用高通量大规模并行测序对所述扩增子测序来测定所述靶区段的核苷酸序列,

(c)比较步骤(b)中测定的每个靶区段序列与参照CFTR核苷酸序列的相应区域;并

(d)如果一个或多个所述靶区段序列不同于所述参照CFTR核苷酸序列的相应区域,那么确定所述样品CFTR核酸中存在一个或多个碱基变化、基因缺失和/或基因重复。

4.一种用于测定个体中的囊性纤维化病的遗传基础的方法,其包括:

(a)通过从所述个体中扩增CFTR核酸的多个靶区段生成衔接头标签化的扩增子文库,

(b)通过使用高通量大规模并行测序对所述扩增子测序来测定所述靶区段的核苷酸序列,并

(c)如果一个或多个所述靶区段的核苷酸序列含有与囊性纤维化病有关的突变,那么确定所述个体具有囊性纤维化病的遗传基础。

5.项1-4中任一项的方法,其中通过PCR扩增所述多个靶区段。

6.项1-3中任一项的方法,其中所述样品CFTR核酸是至少一种选自下组的核酸:基因组DNA、mRNA和cDNA。

7.项1-4的方法,其中步骤(a)包括用寡核苷酸引物对扩增每个靶区段以生成扩增子,并将衔接头序列与每个扩增子的两个末端之一连接。

8.项1-4的方法,其中步骤(a)包括用寡核苷酸引物对扩增每个靶区段,其中在扩增前将所述引物对的至少一个引物与测序衔接头序列连接。

9.项2或3的方法,其中所述参照核苷酸CFTR序列包含野生型CFTR核酸序列。

10.项1-4的方法,其中用索引标记物标记所述扩增子,所述索引标记物指示生成所述扩增子的样品来源。

11.项10的方法,其中所述索引标记物是寡核苷酸。

12.项1-4中任一项的方法,其中所述样品CFTR核酸的多个靶区段一起跨越所述CFTR编码区和所有内含子/接合。

13.项12的方法,其中所述多个靶区段进一步跨越刚好在第一外显子上游的约1000个核苷酸的启动子区。

14.项13的方法,其中所述多个靶区段进一步跨越刚好在所述CFTR序列下游的约200-350个核苷酸。

15.项7的方法,其中至少一个引物包含选自下组的核苷酸序列:SEQ ID NO:3-174。

16.项1-4中任一项的方法,其中所述高通量大规模并行测序牵涉读段深度方法。

17.一种包含寡核苷酸引物的试剂盒,所述寡核苷酸引物包含选自下组的序列:SEQ ID NO:3-174。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号