法律状态公告日
法律状态信息
法律状态
2020-04-07
专利权质押合同登记的生效 IPC(主分类):C12Q1/6869 登记号:Y2020990000163 登记生效日:20200311 出质人:北京吉因加科技有限公司 质权人:北京中关村科技融资担保有限公司 发明名称:一种血浆中游离的目标DNA低频突变富集测序方法 授权公告日:20180306 申请日:20150810
专利权质押合同登记的生效、变更及注销
2020-03-10
专利权质押合同登记的注销 IPC(主分类):C12Q1/6869 授权公告日:20180306 登记号:2018990001134 出质人:北京吉因加科技有限公司 质权人:北京首创融资担保有限公司 解除日:20200214 申请日:20150810
专利权质押合同登记的生效、变更及注销
2018-12-28
专利权质押合同登记的生效 IPC(主分类):C12Q1/6869 登记号:2018990001134 登记生效日:20181203 出质人:北京吉因加科技有限公司 质权人:北京首创融资担保有限公司 发明名称:一种血浆中游离的目标DNA低频突变富集测序方法 授权公告日:20180306 申请日:20150810
专利权质押合同登记的生效、变更及注销
2018-03-06
授权
授权
2015-12-16
实质审查的生效 IPC(主分类):C12Q1/68 申请日:20150810
实质审查的生效
2015-11-18
公开
公开
查看全部
技术领域
本发明属于生物信息学高通量测序技术领域,具体涉及一种血浆中游离的目标DNA低频突变富集测序方法。
背景技术
近年来肿瘤患者血液中游离ctDNA(Cell-freeCirculatingTumorDNA)的基因检测诊断已成为研究热点,研究显示血液中循环肿瘤DNA有可能成为一种新的肿瘤早期诊断,预后判断以及精确医疗的标志物。检测血液中循环游离DNA中的肿瘤标志物具有区别于传统组织肿瘤标志物的检测方式,具有无创、随时监控和早期筛查等优势,并且对循环游离DNA的取样检测避免了当前分子诊断需要采集癌组织作为标本来源的困难,是一种很有潜力的肿瘤标志物。然而在循环血中除了肿瘤游离DNA,也存在正常组织游离DNA,且因个体差异,肿瘤发生发展时期,治疗时期等原因,循环DNA的总量不定,且往往较癌组织相应频率低得多,尤其早期阶段的癌症血浆ctDNA的丰度甚至在0.01%水平,因此在血浆ctDNA的临床应用中,低频突变的精确检测是目前亟待解决的问题。
为高效实现对血浆ctDNA低频突变的精确检测以及应用潜能的充分发掘,富集扩增技术与高灵敏的检测技术的有力结合是必须的,然而目前相关技术如preMiDTM,CAPP-Seq,DuplexSequencing等只能一定程度实现低频变异的检出,其相关实际应用或多或少仍存在一定局限性。preMiDTM融合突变偏向性扩增ARMS、荧光定量PCR和高分辨熔解曲线分析HRM3种技术于一体,实现对非细胞体系的血浆微量突变检测,但是其检测灵敏度只能达到1%左右,而且只针对一些热点变异进行基因分析;CAPP-Seq的技术原理是将高通量测序技术与目标区域捕获技术结合起来应用于血浆ctDNA,对样本进行靶向捕获后再进行深度测序,基于相关数据过滤处理,不仅可以获得更多基因变异信息,而且可以得到0.2%以上,98%的高特异低频变异结果,但其距离基于血浆ctDNA的早期筛查,仍具有不小的差距。DuplexSequencing基于UID(uniqueidentifier)标签进行正反双链纠错,几乎可以矫正所有类型的测序错误,其检测到的突变频率可以达到10-7,但是该技术存在一个巨大的限制性,其需要相对常规测序更高的测序通量,而且针对血浆ctDNA的高通量测序以解决0.01%左右的稀有突变检测,巨大的样品需求也是一个挑战。
发明内容
本发明提供一种血浆中游离的目标DNA低频突变富集测序方法以克服现有技术的不足。
本发明提供的一种血浆中游离的目标DNA低频突变富集测序方法,包括以下步骤:
(1)血浆目标DNA的提取与文库构建;
(2)通用文库TT-COLDPCR扩增富集;
(3)探针富集捕获、杂交捕获产物的扩增与上机测序;
(4)正反双链纠错低频信息分析。
本发明方法的流程图见图1。
其中,步骤(1)所述的血浆来自人类外周血,文库构建方法按照3步酶促反应,即末端修复,加“A”和文库接头连接。
文库接头使用的引物为:
接头第一链:TACACTCTTTCCCTACACGACGCTCTTCCGATCT,
接头第二链:GATCGGAAGAGCACACGTCTGAACTCCAGTCAC。
本发明方法中,步骤(2)通用文库TT-COLDPCR扩增富集包括以下步骤:1)确定文库的Tm值;
2)绕过每个插入片段存在的特异Tc值,基于1对通用引物,在1个系列的循环条件下,对文库中所有片段上的各种突变类型进行富集;设定Tcmin≈TM-2.5,之后Tc以0.5℃逐步递增,在每个Tc条件下分别进行FULLCOLDPCR。
进一步地,文库Tm值通过以下方法来确定,对血浆目标DNA的文库采用一对引物使用荧光定量PCR,根据溶解曲线分析获得文库Tm值;所述引物的序列为:
上游引物:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT,
下游引物:
CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT,其中xxxxxxxx为index标签。
上述步骤2)中,所述1对通用引物为通用文库TT-COLDPCR引物,其核苷酸序列为:
上游引物:AATGATACGGCGACCACCGAGATCTACACTCTTTCC
CTACACGACGCTCTTCCGATCT,
下游引物:
CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT,其中xxxxxxxx为index标签。
上述步骤2)中,所述1个系列循环条件为:
本发明方法中,步骤(3)所述探针富集捕获是将扩增后的文库质控合格后,采用富集探针芯片进行杂交捕获,并对杂交捕获产物进行PCR扩增,然后进行上机测序;
富集探针芯片的设计方法为:基于目的基因的用途确定芯片捕获区间,参考目标DNA所属的数据库,在一定碱基范围内,确定至少1个最重要的热点变异位点,同时针对该位点存在的多种突变类型,以几种主要类型作为参考,基于相应的发生频率作为其在该位点总探针覆盖水平所占的比例;针对热点变异,将基于人基因组参考序列hg19设计的探针替换为基于突变碱基设计的探针,其他位点探针不变,同时热点变异探针总覆盖度与其他区域正常探针覆盖度的差异比例不少于3:1,从而实现捕获时对热点变异的富集。
本发明方法中,步骤(4)正反双链纠错低频信息分析(RealSeqPipeline)具体方法为:
1)基于测序结果,截取成对测序序列中的测序序列一的前12bp碱基和测序序列二的前12bp碱基作为标签,且根据字母序排列以较小的标签在前连接成24bp的一条索引,同时根据标签的排列组合方式,选定正链和反链
2)对索引进行外部排序,以达到将同一个DNA模板的所有测序重复测序序列聚集到一起的目的;
3)对聚集起来的拥有相同索引的测序序列进行中心聚类,根据其序列之间的汉明距离,将每个有相同索引的大簇聚集成若干个小簇,每个小簇中任意两对成对测序序列的汉明距离不超过10,以达到区分开拥有相同索引却来自不同DNA模板的测序序列的目的;
4)对步骤3)中获得的同一个DNA模板的重复簇进行筛选,若正链和反链的测序序列数都达到2对以上,则进行后续分析;
5)对满足4)中条件的簇进行纠错,并产生一对无错的新测序序列.对于DNA模板的每一个测序碱基,若某种碱基型在正链的测序序列中的一致率达到80%,且在反链测序序列中的一致率也达到80%,则记新测序序列的这个碱基为此碱基型,否则记为N,这样便得到了代表原始DNA模板序列的新测序序列;
6)将新测序序列用bwamem算法重新比对到基因组上,筛除比对质量小于30的测序序列;
7)根据6)中得到的测序序列进行统计,得到捕获区域内每个位点的碱基型分布,统计目标区域覆盖大小、平均测序深度,正反链互配率,低频突变率;
8)CallSNV/InDel/SV/CNV:根据患者样品与对照样品信息的比对,用mutect流程callsomaticSNV变异;用gatk流程callsomaticInDel变异;用contra.py流程callCNV;用somVar流程callSV;
所使用的筛选参数为:对照位点变异率≤2%;纠错后变异测序序列条数≥2;突变预测p值≤0.05;
9)变异注释:注释变异的功能、变异测序序列支持数、变异频率、氨基酸变异及已有变异数据库中的该变异的情况。
进一步地,上述步骤1)中,基于插入片段两端的序列碱基作为标签,所述插入片段是文库中与接头引物相连接的DNA片段,经双末端测序,每个片段将形成一对成对测序序列;将成对测序序列的测序序列1的前12bp碱基和测序序列2的前12bp碱基作为标签,字母序排列以较小的标签在前连接成24bp的一条索引,并且以这24bp作为成对测序序列的索引,测序序列1的标签在前就标记成正链;测序序列2的标签在前就标记为反链。
本发明提供了一种血浆中游离的目标DNA低频突变富集测序试剂盒,其含有富集探针芯片,所述芯片上探针是将基于人基因组参考序列hg19设计的探针替换为基于突变碱基设计的探针,其他位点探针不变,且热点变异探针总覆盖度与其他区域正常探针覆盖度的差异至少为3:1;
基于目标DNA突变碱基设计探针的原则为:基于目的基因的用途确定芯片捕获区间,参考目标DNA所属的数据库,在一定碱基范围内,确定至少1个最重要的热点变异位点,同时针对该位点存在的多种突变类型,以几种主要类型作为参考,基于相应的发生频率作为其在该位点总探针覆盖水平所占的比例。
本发明提供了一种血浆中ctDNA低频突变富集测序系统,包括如下操作单元:
(1)血浆ctDNA的提取与文库构建单元;
(2)通用文库TT-COLDPCR扩增富集单元;
(3)探针富集捕获单元、杂交捕获产物的扩增单元与上机测序单元;
(4)正反双链纠错低频信息分析单元。
其中,操作单元(1)血浆ctDNA的提取与文库构建具体操作为:抽取早期患者外周血5-10mL,常温或4℃存于EDTA抗凝管中,在4-6小时内对外周血进行分离,得到血浆和白细胞,白细胞提取的DNA之后将作为对照用于体细胞突变的检出;血浆cfDNA/ctDNA的提取与定量;按照常规建库方法进行3步酶促反应:末端修复,加“A”和文库接头连接。
操作单元(2)通用文库TT-COLDPCR扩增富集的具体操作为:
基于相同的仪器和试剂,对正常人血浆连接文库采用通用文库引物使用荧光定量PCR,从溶解曲线分析,获得文库的TM值;
绕过每个插入片段存在的特异Tc值,基于1对通用引物,在1个系列的循环条件下,对文库中所有片段上的各种突变类型进行富集。该方法具体为由经验公式给出Tcmin≈TM-2.5,之后Tc以0.5℃逐步递增,在每个Tc条件下分别进行FULLCOLDPCR。PCR反应程序设置,程序设置如下:
操作单元(2)的通用文库TT-COLDPCR扩增富集单元基于通用引物对所有类型变异实现第一级突变富集扩增;通用引物的核苷酸序列为:
上游引物:AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT,
下游引物:CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT,其中xxxxxxxx为index标签。
本发明提供的一种血浆中ctDNA低频突变富集测序系统中,操作单元(3)的探针富集捕获单元是针对热点变异进行第二次富集捕获,操作单元(3)的探针富集捕获是采用自行设计的肿瘤富集探针芯片实现的,之后进行杂交捕获产物的扩增与上机测序。所述肿瘤富集探针芯片的设计方法为:
1)基于TCGA、ICGC、COSMIC等数据库和相关文献参考,参考常规芯片捕获探针设计原则,确定芯片捕获区间;
2)在捕获区间内,参考TCGA、COSMIC等相关数据库,在每200bp范围内,确定1个最重要的热点变异位点(SNV>3);同时针对该位点存在的多种突变类型,以几种主要类型作为参考,基于其相应的发生频率作为其在该位点总探针覆盖水平上所占的比例;
3)芯片设计时,针对相关热点变异,将基于人基因组参考序列hg19设计的探针替换为基于突变碱基设计的探针,其他位点探针不变,且热点变异探针总覆盖度与其他区域正常探针覆盖度的差异至少为3:1,从而实现捕获时对热点变异的富集。
本发明提供的一种血浆中ctDNA低频突变富集测序系统中,操作单元(4)的正反双链纠错低频信息(RealSeqPipeline)分析单元是通过以下步骤完成的:
1)将成对测序序列的测序序列1的前12bp碱基和测序序列2的前12bp碱基作为标签,字母序排列以较小的标签在前连接成24bp的一条索引,并且以这24bp作为成对测序序列的索引,测序序列1的标签在前就标记成正链;测序序列2的标签在前就标记为反链。
2)对索引进行外部排序,以达到将同一个DNA模板的复制聚集到一起的目的;
3)对聚集起来的拥有相同索引的测序序列进行中心聚类,根据其序列之间的汉明距离,将每个有相同索引的大簇聚集成若干个小簇,每个小簇中任意两对成对测序序列的汉明距离不超过10,以达到区分开拥有相同索引却来自不同DNA模板的测序序列的目的;
4)对步骤3)中获得的同一个DNA模板的复制簇进行筛选,若正链和反链的测序序列数都达到2对以上,则进行后续分析;
5)对满足4)中条件的簇进行纠错,并产生一对无错的新测序序列.对于DNA模板的每一个测序碱基,若某种碱基型在正链的测序序列中的一致率达到80%,且在反链测序序列中的一致率也达到80%,则记新测序序列的这个碱基为此碱基型,否则记为N,这样便得到了代表原始DNA模板序列的新测序序列;
6)将新测序序列用bwamem算法重新比对到基因组上,筛除比对质量小于30的测序序列;
7)根据6)中得到的测序序列进行统计,得到捕获区域内每个位点的碱基型分布,统计目标区域覆盖大小、平均测序深度,正反链互配率,低频突变率等;
8)CallSNV/InDel/SV/CNV:根据患者样品与对照样品信息的比对,用mutect流程callsomaticSNV变异;用gatk流程callsomaticInDel变异;用contra.py流程callCNV;用somVar流程callSV;
所使用的筛选参数为:对照位点变异率≤2%;纠错后变异测序序列条数≥2;突变预测p值≤0.05;
9)变异注释:注释变异的功能、变异测序序列支持数、变异频率、氨基酸变异及已有变异数据库中的该变异的情况。
本发明的血浆中目标DNA低频突变富集测序方法或本发明提供的血浆中ctDNA低频突变富集测序系统在制备疾病早期筛查试剂盒中的应用属于本发明的保护范围。
所述的疾病为肿瘤。
本发明的血浆中目标DNA低频突变富集测序方法或本发明提供的血浆中ctDNA低频突变富集测序系统在制备疾病术后监控试剂盒中的应用。
所述的疾病为肿瘤。
本发明的血浆中目标DNA低频突变富集测序方法或本发明提供的血浆中ctDNA低频突变富集测序系统在制备疾病用药指导试剂盒中的应用。
所述的疾病为肿瘤。
本发明还提供了一种针对肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌的早期筛查芯片,命名为ONCOcare—ZS,该芯片包括了常见高发癌症的相关DriverGene、高频突变基因、癌症相关12条信号通路中重要基因,共计228个基因,680Kb,总共5220个热点变异,该芯片含有的探针所对应的基因分别为:
在本发明的一个实施例中,通过本发明前述的血浆中目标DNA低频突变富集测序方法利用上述芯片可以实现对肿瘤(肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌等)的早期筛查,筛查结果准确,灵敏度高,可以对0.01%低频变异具有高特异性检测。
本发明还提供了肿瘤个体化用药指导探针芯片——ONCOcare-Drug,该芯片包括了:12种常见癌症高频基因,癌症12条信号通路中重要基因,常见靶药及化疗药物基因等,共计559个基因,850KB,总共2400个热点靶药变异。该芯片所含探针对应的基因如下:
在本发明的一个实施例中,通过本发明前述的血浆中目标DNA低频突变富集测序方法利用上述芯片可以实现对12种常见肿瘤(肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌等)的个体化指导用药,且疗效确切。
本发明还提供了肿瘤(肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌等)术后监控芯片——ONCOcare—JK,该芯片包括了常见高发癌症的相关DriverGene、高频突变基因、癌症相关12条信号通路中重要基因等,共计508个基因,500Kb,总共4800个热点变异。该芯片含有的探针所对应的基因分别如下:
在本发明的一个实施例中,通过本发明前述的血浆中目标DNA低频突变富集测序方法利用上述芯片可以实现对12种常见肿瘤(肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌等)的术后监控,对于评估患者术后是否存在复发风险实现精确监控。
本发明提供的一种血浆中目标DNA的低频突变富集测序方法(ER-seq,Enrich&RaremutationSequencing),是将通用文库TT-COLDPCR,探针富集捕获以及独特的正反链纠错信息分析技术(RealSeqPipeline)3种技术相融合,实现高效,简便,实用的血浆ctDNA低频变异精确检测,相对于其他血浆检测技术,本发明具有以下优异效果:(1)高灵敏度:ER-seq采用独有的通用文库TT-COLDPCR,探针富集捕获技术可以分别实现对所有突变类型以及热点变异进行不同程度的富集,从而可以仅仅只需要5-10mL外周血样本,并能够高效的对0.01%的稀有突变进行检测;(2)高特异性:基于突变富集以及低频正反链纠错分析策略,可以更有效的实现低频变异的精确检测,其特异性平均在98%以上;(3)高通量性:结合高通量测序技术(NGS)的目标区域捕获测序,不仅可以对相关感兴趣的基因,一次性扫描,获取更全面的受检者信息,以得出更准确的相关预测,而且能够在很短的时间内同时进行多例样本检测,从而压缩成本,有利于临床的推广;(4)多维度应用性:该方法能够充分发掘血浆ctDNA的应用潜能,可以为多种相关肿瘤(肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌等)的早期筛查,术后监控以及精准医疗奠定坚实的基础,从而有力的推动临床肿瘤事业的发展。
附图说明
图1为本发明方法的流程图。
图2为正常人血浆连接文库的Tm值。
具体实施方式
以下实施例进一步说明本发明的内容,但不应理解为对本发明的限制。在不背离本发明精神和实质的情况下,对本发明方法、步骤或条件所作的修改或替换,均属于本发明的范围。
若未特别指明,实施例中所用的化学试剂均为常规市售试剂,实施例中所用的技术手段为本领域技术人员所熟知的常规手段。本发明实施例中采用的测序装置为IlluminaHiSeq2500,本发明测序步骤中,不限于该测序装置。
本发明实施例中,基因名称均采用NCBI-Gene里的官方命名(OfficialSymbol)。本发明所述的同义突变:指由于某个碱基的改变使代表某种氨基酸的密码子突变为其他密码子,但是仍然编码同一个氨基酸。所述的错义突变:编码某种氨基酸的密码子经碱基替换以后,变成编码另一种氨基酸的密码子,从而使多肽链的氨基酸种类和序列发生改变。某些错义突变能使多肽链丧失原有功能,许多蛋白质的异常就是由错义突变引起的。所述的终止密码子获得突变:也被称为无义突变,指由于某个碱基的改变使代表某种氨基酸的密码子突变为终止密码子,从而使肽链合成提前终止。本发明所述的终止密码子丧失突变:指由于某个碱基的改变使终止密码子突变未其他密码子,从而使肽链合成无法正常终止。
实施例1血浆中目标DNA低频突变富集测序方法(ER-seq方法)
(1)血浆目标DNA的提取与文库构建;所述的血浆来自人类外周血,文库构建方法按照3步酶促反应,即末端修复,加“A”和文库接头连接。文库接头使用的引物为:
接头第一链:TACACTCTTTCCCTACACGACGCTCTTCCGATCT,
接头第二链:GATCGGAAGAGCACACGTCTGAACTCCAGTCAC。
(2)通用文库TT-COLDPCR扩增富集;包括以下步骤:
1)确定文库的Tm值;文库Tm值通过以下方法来确定,对血浆目标DNA的文库采用一对引物使用荧光定量PCR,根据溶解曲线分析获得文库Tm值;所述引物的序列为:
上游引物:AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT,
下游引物:CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT,其中xxxxxxxx为index标签。
2)绕过每个插入片段存在的特异Tc值,基于1对通用引物,在1个系列的循环条件下,对文库中所有片段上的各种突变类型进行富集;设定Tcmin≈TM-2.5,之后Tc以0.5℃逐步递增,在每个Tc条件下分别进行FULLCOLDPCR。
所述1对通用引物为通用文库TT-COLDPCR引物,其核苷酸序列为:上游引物:AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT,下游引物:CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT,其中xxxxxxxx为index标签。
所述1个系列循环条件为:
(3)探针富集捕获、杂交捕获产物的扩增与上机测序;探针富集捕获是将扩增后的文库质控合格后,采用富集探针芯片进行杂交捕获,并对杂交捕获产物进行PCR扩增,然后进行上机测序;
富集探针芯片的设计方法为:基于目的基因的用途确定芯片捕获区间,参考目标DNA所属的数据库,在一定碱基范围内,确定至少1个最重要的热点变异位点,同时针对该位点存在的多种突变类型,以几种主要类型作为参考,基于相应的发生频率作为其在该位点总探针覆盖水平所占的比例;针对热点变异,将基于人基因组参考序列hg19设计的探针替换为基于突变碱基设计的探针,其他位点探针不变,同时热点变异探针总覆盖度与其他区域正常探针覆盖度的差异比例不少于3:1,从而实现捕获时对热点变异的富集。
(4)正反双链纠错低频信息分析(RealSeqPipeline)具体方法为:
1)基于插入片段两端的序列碱基作为标签,所述插入片段是文库中与接头引物相连接的DNA片段,经双末端测序,每个片段形成一对成对测序序列;将成对测序序列的测序序列1的前12bp碱基和测序序列2的前12bp碱基作为标签,字母序排列以较小的标签在前连接成24bp的一条索引,并且以这24bp作为成对测序序列的索引,测序序列1的标签在前就标记成正链;测序序列2的标签在前就标记为反链;
2)对索引进行外部排序,以达到将同一个DNA模板的所有测序重复测序序列聚集到一起的目的;
3)对聚集起来的拥有相同索引的测序序列进行中心聚类,根据其序列之间的汉明距离,将每个有相同索引的大簇聚集成若干个小簇,每个小簇中任意两对成对测序序列的汉明距离不超过10,以达到区分开拥有相同索引却来自不同DNA模板的测序序列的目的;
4)对步骤3)中获得的同一个DNA模板的重复簇进行筛选,若正链和反链的测序序列数都达到2对以上,则进行后续分析;
5)对满足4)中条件的簇进行纠错,并产生一对无错的新测序序列.对于DNA模板的每一个测序碱基,若某种碱基型在正链的测序序列中的一致率达到80%,且在反链测序序列中的一致率也达到80%,则记新测序序列的这个碱基为此碱基型,否则记为N,这样便得到了代表原始DNA模板序列的新测序序列;
6)将新测序序列用bwamem算法重新比对到基因组上,筛除比对质量小于30的测序序列;
7)根据6)中得到的测序序列进行统计,得到捕获区域内每个位点的碱基型分布,统计目标区域覆盖大小、平均测序深度,正反链互配率,低频突变率;
8)CallSNV/InDel/SV/CNV:根据患者样品与对照样品信息的比对,用mutect流程callsomaticSNV变异;用gatk流程callsomaticInDel变异;用contra.py流程callCNV;用somVar流程callSV;
所使用的筛选参数为:对照位点变异率≤2%;纠错后变异测序序列条数≥2;突变预测p值≤0.05;
9)变异注释:注释变异的功能、变异测序序列支持数、变异频率、氨基酸变异及已有变异数据库中的该变异的情况。
实施例2血浆中ctDNA低频突变富集测序方法的建立
1、血浆ctDNA的提取与文库构建:
(1)抽取受检者外周血1-2管(5mL/管)于EDTA抗凝管中,轻柔上下颠倒(防止细胞破裂),6-8次充分混匀,在采血当天4-6小时内进行以下处理;在4℃条件下1600g离心10分钟,离心后将上清(血浆)分装到多个1.5mL/2mL离心管中,在吸取过程中不能吸到中间层白细胞;在4℃条件下16000g离心10分钟,去除残余细胞,将上清(血浆)转移到新的1.5mL/2mL离心管中,不能吸到管底白细胞,即得到分离后所需血浆;血浆样本处理完后,分离得到的血浆及剩余血细胞均保存到-80℃冰箱中,避免反复冻融。
(2)血浆cfDNA/ctDNA的提取与定量:取分离出的血浆约2-3ml,按照QIAampCirculatingNucleicAcidKit(Qiagen)提取试剂说明书,进行血浆cfDNA的提取。Qubit(Invitrogen,theQuant-iTTMdsDNAHSAssayKit)定量所提取的DNA,总量约为30~50ng。
(3)样品文库的制备:血浆中提取的cfDNA,之后按照KAPALTPLibraryPreparationKit建库说明书,进行3步酶促反应。
3.1末端修复
充分混合,20℃孵育30min。
之后,加入AgencourtAMPureXPreagent120μL,进行磁珠纯化,最后回溶42μLddH2O,带磁珠进行下一步反应。
3.2加A
之后加入PEG/NaClSPRI溶液90μL,充分混合,进行磁珠纯化,最后回溶(35-接头)μLddH2O,带磁珠进行下一步反应。
3.3接头连接
接头引物见表1中的接头第一、二链。之后分别加入PEG/NaClSPRI溶液50μL2次,进行2次磁珠纯化,最后回溶25μLddH2O。
2、通用文库TT-COLDPCR:
1)基于相同的仪器和试剂,对正常人血浆连接文库采用通用文库引物使用荧光定量PCR,反应试剂包括:KAPAHiFiHotStartReadyMix以及SYBR染料。从溶解曲线分析,获得文库的Tm值(DNA解链温度),如图2所示;所述通用文库引物见表1。
表1引物序列信息
注:xxxxxxxx:index标签
2)通用文库TTCOLDPCR:反应体系为:
绕过每个插入片段存在的特异Tc值,基于表1中的1对通用文库引物,在1个系列的循环条件下,对文库中所有片段上的各种突变类型进行富集。该方法具体为由经验公式给出Tcmin≈TM-2.5,之后Tc以0.5℃逐步递增,在每个Tc条件下分别进行FULLCOLDPCR。PCR反应程序设置,见表2。
表2
3、探针富集捕获与上机测序:
1)肿瘤富集探针芯片设计:
基于TCGA、ICGC、COSMIC等数据库和相关文献参考,参考常规芯片捕获探针设计原则,确定芯片捕获区间;
在捕获区间内,参考TCGA、COSMIC等相关数据库,在每200BP范围内,确定1个最重要的热点变异位点(SNV>3);同时针对该位点存在的多种突变类型,以几种主要类型作为参考,基于其相应的发生频率作为其在该位点总探针覆盖水平上所占的比例;
芯片设计时,针对相关热点变异,将原先基于REF设计的探针全部替换为基于突变碱基进行设计,其他探针不变,同时热点变异探针总覆盖度与其他区域正常探针覆盖度的差异至少为3:1,从而实现捕获时对热点变异的富集。
2)扩增后文库质控并进行富集探针捕获,之后进行杂交捕获产物的扩增与上机测序。
扩增后文库质控合格后并采用上述肿瘤富集探针芯片,参照芯片制造商(Roche)提供的说明书进行杂交捕获。最后洗脱回溶21μLddH2O带杂交洗脱磁珠。
杂交捕获产物的扩增体系:
PCR反应条件:初始变性98℃45sec;变性98℃15sec,退火65℃30sec,延伸72℃30sec,共10个循环;72℃延伸60sec,4℃保存。
FellowCellPrimer1、Primer2为Hiseq上机测试平台自带的引物,以用于将捕获后的DNA模板进行扩增,得到足够产量满足上机要求。
先除去上一步磁珠,然后重新加入AgencourtAMPureXPreagent50μL,进行磁珠纯化,最后回溶25μLddH2O,进行QC及上机。采用IlluminaHiSeq2500PE101+8+101程序进行上机测序,测序实验操作按照制造商提供的操作说明书(参见Illumina/Solexa官方公布cBot)进行上机测序操作。
4、正反双链纠错低频信息分析(RealSeqPipeline方法):
1)基于插入片段两端的序列碱基作为标签,所述插入片段是文库中与接头引物相连接的DNA片段,经双末端测序,每个片段形成一对成对测序序列;将成对测序序列的测序序列1的前12bp碱基和测序序列2的前12bp碱基作为标签,字母序排列以较小的标签在前连接成24bp的一条索引,并且以这24bp作为成对测序序列的索引,测序序列1的标签在前就标记成正链;测序序列2的标签在前就标记为反链;
2)对索引进行外部排序,以达到将同一个DNA模板的复制聚集到一起的目的;
3)对聚集起来的拥有相同索引的测序序列进行中心聚类,根据其序列之间的汉明距离,将每个有相同索引的大簇聚集成若干个小簇,每个小簇中任意两对成对测序序列的汉明距离不超过10,以达到区分开拥有相同索引却来自不同DNA模板的测序序列的目的;
4)对步骤3)中获得的同一个DNA模板的复制簇进行筛选,若正链和反链的测序序列数都达到2对以上,则进行后续分析;
5)对满足4)中条件的簇进行纠错,并产生一对无错的新测序序列.对于DNA模板的每一个测序碱基,若某种碱基型在正链的测序序列中的一致率达到80%,且在反链测序序列中的一致率也达到80%,则记新测序序列的这个碱基为此碱基型,否则记为N,这样便得到了代表原始DNA模板序列的新测序序列;
6)将新测序序列用bwamem算法重新比对到基因组上,筛除比对质量小于30的测序序列;
7)根据6)中得到的测序序列进行统计,得到捕获区域内每个位点的碱基型分布,统计目标区域覆盖大小、平均测序深度,正反链互配率,低频突变率;
8)CallSNV/InDel/SV/CNV:根据患者样品与对照样品信息的比对,用mutect流程callsomaticSNV变异;用gatk流程callsomaticInDel变异;用contra.py流程callCNV;用somVar流程callSV;
所使用的筛选参数为:对照位点变异率≤2%;纠错后变异测序序列条数≥2;突变预测p值≤0.05;
9)变异注释:注释变异的功能、变异测序序列支持数、变异频率、氨基酸变异及已有变异数据库中的该变异的情况。
实施例3肿瘤早期筛查
1、芯片设计基于富集探针芯片设计原则,完成肿瘤(肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌等)早期筛查芯片——ONCOcare—ZS,该芯片包括了常见高发癌症的相关DriverGene、高频突变基因、癌症相关12条信号通路中重要基因,共计227个基因,680Kb,总共5220个热点变异。基因列表详见表3。
表3ONCOcare—ZS早筛芯片基因列表
2、测序结果分析
对1例肺部小结节患者按照实施例1记载的方法测序分析,其中,探针富集捕获步骤采用本实施例的芯片ONCOcare—ZS,测序数据统计结果如下表4所示:
表4测序结果
注释:正反链互配率:基于3条测序序列以上正反链均有的簇/3条测序序列上总的簇的比值,以评估可用数据中正反链互配情况;有效数据利用率:基于至少满足2+/2-簇的测序序列纠错后的个数与总测序测序序列数的比值;低频纠错深度:基于有效数据纠错后,对目标区域碱基的平均覆盖情况。
结果分析:在患者血浆中检测到了TP53p.[Val272Leu]和EGFRp.[Leu861Arg]2个Drivermutation变异,预示着患者具有较高的癌症风险率。后续临床病理确认为:患者为浸润性腺癌T1aN0M0,ⅠA。此外相应组织与血浆常规高通量测序分析以及血浆数字PCR验证结果显示:
表5
实施例4肿瘤个体化用药指导
1、芯片设计
基于富集探针芯片设计原则,完成肿瘤个体化用药指导探针——ONCOcare-Drug,该芯片包括了:12种常见癌症高频基因,癌症12条信号通路中重要基因,常见靶药及化疗药物基因等,共计559个基因,850KB,总共2400个热点靶药变异。基因列表详见表6
表6ONCOcare-Drug个体化用药指导芯片基因列表
2、测序结果分析
对1例晚期结直肠患者按照实施例1记载的方法进行分析,其中,探针富集捕获步骤采用本实施例的芯片ONCOcare—Drug,测序数据统计结果如下表7所示:
表7
注释:正反链互配率:基于3条测序序列以上正反链均有的簇/3条测序序列上总的簇的比值,以评估可用数据中正反链互配情况;有效数据利用率:基于至少满足2+/2-簇的测序序列纠错后的个数与总测序测序序列数的比值;低频纠错深度:基于有效数据纠错后,对目标区域碱基的平均覆盖情况。
结果分析:总共检出6个Exon区非同义突变且均与组织变异一致.变异详情见表8:
表8
化疗位点详情见表9:
表9
药物预测:结合上述检测结果依据靶药化疗解读数据库,以下结论仅供临床医生制定治疗方案时参考:
表10靶向药物用药提示
表11化疗药物用药提示
实施例5十二种常见癌症术后监控
1、芯片设计
基于富集探针芯片设计原则,完成肿瘤(肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌等)术后监控芯片——ONCOcare—JK,该芯片包括了常见高发癌症的相关DriverGene、高频突变基因、癌症相关12条信号通路中重要基因等,共计508个基因,500Kb,共4800个热点变异。基因列表见表12。
表12ONCOcare—JK术后监控芯片基因列表
2、测序结果分析
对1例肺腺癌术后3个月患者按照实施例1的步骤进行分析,其中,探针富集捕获步骤采用本实施例的芯片ONCOcare—JK,测序数据统计结果如下表13所示:
表13
注释:正反链互配率:基于3条测序序列以上正反链均有的簇/3条测序序列上总的簇的比值,以评估可用数据中正反链互配情况;有效数据利用率:基于至少满足2+/2-簇的测序序列纠错后的个数与总测序测序序列数的比值;低频纠错深度:基于有效数据纠错后,对目标区域碱基的平均覆盖情况。
结果分析:总共检出5个Exon区非同义突变统计变异详情见表14:
表14
总共检出19个变异,其中5个Exon区非同义突变统计,相对正常人基线,检出变异较高。此外组织中存在的NOTCH1p.N685T;PDGFRAp.M745I,术后血浆中存在且仍然较高,预示着患者术后可能存在较高的复发风险。临床随访跟踪:患者疾病有进展,此外血浆常规高通量测序分析以及血浆数字PCR验证结果见表15。
表15
以上的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方案做出的各种变型和改进,均应落入本发明的权利要求书确定的保护范围内。
机译: 血浆中游离目标DNA的低频突变富集测序方法
机译: 血浆中游离目标DNA的低频突变富集测序方法
机译: 血浆中游离靶DNA的低频突变富集测序方法