首页> 中国专利> 一种微小残余病灶的检测方法、装置、存储介质及设备

一种微小残余病灶的检测方法、装置、存储介质及设备

摘要

本发明公开了一种微小残余病灶的检测方法、装置、存储介质及设备,属于生物检测技术领域。本发明包括获取对患者的肿瘤组织和配对的白细胞的建库测序数据,并利用所述建库测序数据,构建患者的个性化肿瘤变异图谱;获取对患者微小残余病灶术后监测点的血浆游离DNA的建库测序数据,根据肿瘤变异图谱在血浆游离DNA的建库测序数据中提取相应的变异信号;根据噪音模型对提取到的变异信号进行单变异显著性分析,所述噪音模型为组合模型;对提取到的变异信号进行多变异联合置信度分析,根据获得的置信概率,判定微小残余病灶的状态。并配置了相应的装置、存储介质及设备。利用本发明,能够准确地检测微小残余病灶。

著录项

说明书

技术领域

本发明属于生物检测技术领域,具体涉及一种微小残余病灶的检测方法、装置、存储介质及设备。

背景技术

定期进行微小残留病灶检测能够为医生选择肿瘤的治疗方式、治疗周期、用药指导、患者的耐药性追踪等提供有效的参考。ctDNA作为患者体内微小残留病灶(MinimalResidual Disease)的分子标记物,微小残余病灶的检测需要识别血液中极微量的ctDNA信号,其难点在于如何提高获取ctDNA的信号的可能性以及判定低频ctDNA信号的真实性,而现有技术中,一方面,为了更灵敏地检测稀有的ctDNA信号,避免漏检往往通过扩大检测范围,追踪更多的变异信号来实现,而多变异追踪带来了新的特异性的问题,目前缺少有效的矫正方法;另一方面,缺少区分低频ctDNA信号和NGS平台噪音信号的有效手段,对于ctDNA信号的真实性的判断一直是一个难点;因此,也导致了现有技术对微小病灶的检测的准确性不理想。

发明内容

技术问题:本发明提供一种能够对微小残余病灶进行准确检测的检测方法,以及相应的检测装置、存储介质及设备,利用阴性人群基线数据构建的噪音检测模型,对变异信号进行单变异及多变异的显著性分析,提高检测的置信度,从而准确地对微小残余病灶进行检测。

技术方案:本发明一方面,提供一种微小残余病灶的检测方法,包括:

获取对患者的肿瘤组织和配对的白细胞的建库测序数据,并利用所述建库测序数据,构建患者的个性化肿瘤变异图谱;

获取对患者微小残余病灶术后监测点的血浆游离DNA的建库测序数据,根据肿瘤变异图谱在血浆游离DNA的建库测序数据中提取相应的变异信号;

根据噪音模型对提取到的变异信号进行单变异显著性分析,所述噪音模型为组合模型;

对提取到的变异信号进行多变异联合置信度分析,根据获得的置信概率,判定微小残余病灶的状态。

进一步地,所述组合模型包括:第一模型,为阴性人群基线数据中无变异人群占比P

第二模型,为对阴性人群基线数据中有变异人群的vaf进行拟合获得的模型,vaf表示变异频率。

进一步地,根据组合模型对提取到的变异信号进行单变异显著性分析的方法包括:

根据血浆变异位点的位置信息和变异信息,调取该位点的噪音模型;

采用蒙特卡洛抽样进行N次抽样,生成N×P

利用第二模型生成N×(1-P

分别以N个vaf作为先验的噪音频率,根据二项分布计算患者血浆变异信号VSM和TSM来自于噪音信号的概率

根据公式

根据P

进一步地,根据噪音模型对提取到的变异信号进行单变异显著性分析的方法包括:

根据血浆变异位点的位置信息和变异信息,调取该位点的噪音模型;

确定无变异人群的vaf期望值以及权重,其中,无变异人群的vaf的期望为0,权重为P

确定有变异人群的vaf的期望值以及权重,其中,变异人群的vaf的期望为E(vaf),权重为1-P

根据无变异人群的vaf期望值以及变异人群的vaf的期望,分别计算患者血浆的变异信号VSM和TSM来自于噪音信号的概率;

根据如下公式计算得到患者血浆中变异信号来自噪音信号的概率P

根据P

进一步地,对提取到的变异信号进行多变异联合置信度分析,根据获得的置信度概率,判定微小残余病灶的状态的方法包括:

利用单变异显著性分析结果,根据公式

根据联合置信概率判断微小残余病灶的状态,若

进一步地,所述噪音模型根据阴性人群基线数据进行搭建,阴性人群基线数据需满足,人群数量大于或等于1000。

本发明还提供另一种微小残余病灶的检测方法,包括:

获取对患者的肿瘤组织和配对的白细胞的建库测序数据,并利用所述建库测序数据,构建患者的个性化肿瘤变异图谱;

获取对患者微小残余病灶术后监测点的血浆游离DNA的建库测序数据,根据肿瘤变异图谱在血浆游离DNA的建库测序数据中提取相应的变异信号;

根据噪音模型对提取到的变异信号进行单变异显著性分析,所述噪音模型为单一模型;

对提取到的变异信号进行多变异联合置信度分析,根据获得的置信概率,判定微小残余病灶的状态。

进一步地,所述单一模型为二项分布模型,根据二项分布模型对变异信号进行显著性分析的方法为:

调取特定位点特定变异的变异信号符合的噪音模型,其中,噪音模型为以噪音发生概率θ

根据阴性基线人群数据,通过似然函数L(θ

估算出θ

根据P

进一步地,对提取到的变异信号进行多变异联合置信度分析,根据获得的置信度概率,判定微小残余病灶的状态的方法包括:

利用单变异变异显著性分析结果,根据公式

根据联合置信概率判断微小残余病灶的状态,若

进一步地,阴性人群基线数据需满足,人群数量大于或等于1000。

本发明一方面,提供一种微小残余病灶的检测装置,包括:

变异图谱构建模块,用于获取对患者的肿瘤组织和配对的白细胞的建库测序数据,并利用所述建库测序数据,构建患者的个性化肿瘤变异图谱;

变异信号提取模块,用于获取对患者微小残余病灶术后监测点的血浆游离DNA的建库测序数据,根据肿瘤变异图谱在血浆游离DNA的建库测序数据中提取相应的变异信号;

单变异分析模块,用于根据噪音模型对提取到的变异信号进行单变异显著性分析;

多变异分析模块,对提取到的变异信号进行多变异联合置信度分析,根据获得的置信概率,判定微小残余病灶的状态。

进一步地,所述噪音模型为组合模型,包括:第一模型,为阴性人群基线数据中无变异人群占比P

第二模型,为对阴性人群基线数据中有变异人群的vaf进行拟合获得的模型,vaf表示变异频率。

进一步地,所述单变异分析模块包括:

噪音模型调取模块,用于根据血浆变异位点的位置信息和变异信息,调取该变异位点的噪音模型,

抽样模块,采用蒙特卡洛方法进行N次抽样,生成N×P

第一生成模块,利用第二模型生成N×(1-P

第一计算模块,根据二项分布计算患者血浆变异信号VSM和TSM来自于噪音信号的概率

第二计算模块,用于根据公式

第一评估模块,用于根据P

进一步地,所述单变异分析模块包括:

噪音模型调取模块,用于根据血浆变异位点的位置信息,调取该变异位点的噪音模型;

第一确定模块,确定无变异人群的vaf期望值以及权重,其中,无变异人群的vaf的期望为0,权重为P

第二确定模块,确定有变异人群的vaf的期望值以及权重,其中,变异人群的vaf的期望为E(vaf),权重为1-P

第一计算模块,用于根据无变异人群的vaf期望值以及变异人群的vaf的期望,分别计算患者血浆的变异信号来自于噪音信号的概率;

第二计算模块,根据如下公式计算得到患者血浆中变异信号来自噪音信号的概率P

第一评估模块,根据P

进一步地,所述单变异分析模块包括:

模型调取模块,调取特定位点特定变异的变异信号符合的噪音模型,其中,噪音模型为以噪音发生概率θ

参数估计模块,用于通过似然函数L(θ

概率计算模块,用于在估算出θ

第一评估模块,根据P

进一步地,所述多变异分析模块包括:

第三计算模块,利用单变异显著性分析结果,根据公式

判定模块,根据联合置信概率判断微小残余病灶的性质,若

进一步地,还包括:

阴性人群基线数据库,存储有若干阴性人群基线数据;

模型构建模块,用于提取根据阴性人群基线数据库中的阴性人群基线数据进行噪音模型搭建。

本发明一方面,提供一种存储介质,所述存储介质存储有计算机程序指令,当所述计算机程序指令被执行时,能够实现所述的微小残余病灶的检测方法。

本发明一方面提供一种微小残余病灶的检测设备,包括:

所述的存储介质;以及,

至少一个处理器,所述处理器能够执行存储于介质中的计算机程序指令,实现所述的微小残余病灶的检测方法。

英文简写说明:

ctDNA:Circulating tumor DNA,循环肿瘤细胞DNA;

PanelP:用于富集患者血浆NDA文库的靶区域;

PanelT:用于富集患者肿瘤组织DNA文库及配对细胞文库的靶区域;

cfDNA:cell free DNA,游离血浆DNA;

vaf:variant allele frequency,变异频率,vaf=VSM/TSM;

VSM,variation-supported-molecules,支持变异的cfDNA分子数;

TSM,total--supported-molecules,覆盖先验变异位点的总的cfDNA分子数:

Ref:参考基因组碱基;

Alt:变异后的碱基。

有益效果:本发明使用了肿瘤组织变异先验的方式,对肿瘤组织和配对白细胞进行建库测序,并根据建库测序数据建立患者肿瘤特异性变异图谱,后续在血液的建库测序数据中只特异性地追踪图谱中的变异,从而有效地排除了克隆性造血带来的噪音信号,提高了后续血浆变异信号的可信程度;然后通过对患者血液中找到符合肿瘤组织突变图谱信息的变异信号进行两个层面的置信度分析,首先在单个位点层面,通过对变异图谱中的单个变异信号对比阴性人群的基线信号进行显著性分析,得到位点水平的置信度,该置信度越小代表差异越显著,非噪音来源的可能性越高,之后进行样本层面的分析,追踪的患者变异图谱可能有多个信号源,通过联合概率置信度分析得到了一个样本层面的综合的置信度,该置信度越小代表该患者的血液样本中的变异信号与基线人群差异越大,ctDNA的可能性越高,最后根据样本层面的置信度对患者的微小残余病灶状态进行判定。通过本发明,可以更加准确地对微小残余病灶进行检测。更明显的有益效果,在具体实施方式中有详细体现。

附图说明

图1为本发明实施例中进行微小残余病灶的检测的流程图;

图2为本发明的实施例中PSC1805热点变异的最低检出限曲线图;

图3为本发明的实施例中27例患者的微小残余病灶状态及复发情况图。

具体实施方式

图1示出了本发明的实施中进行微小残余病灶的检测的流程图,结合图1,在本发明的实施例中,检测方法包括:

S100:获取对患者的肿瘤组织和配对的白细胞的建库测序数据,并利用所述建库测序数据,构建患者的个性化肿瘤变异图谱;

在对对患者的肿瘤组织和配对的白细胞的建库测序数据的过程中,本发明的实施例中不对具体的方法进行限定,本领域的技术人员可直接利用现有的方法完成。例如可以在实验过程中,可以利用一个基因片段(称为PanelT)对肿瘤组织和配对的白细胞的DNA文库的靶区域进行富集,然后对测序数据进行生物信息分析(生信分析)来获取该患者肿瘤特异性变异(体细胞变异)。在此步骤中,本领域技术人员可以利用生物信息学软件verdict、varscan、mutect等完成,从而最终构建出患者的个性化肿瘤变异图谱,即患者的肿瘤特异性变异的集合。在利用这些软件时,可以通过直接将肿瘤组织与配对的白细胞组合进行变异分析,也可以对肿瘤组织和配对的白细胞的数据独立进行变异分析,然后在进行生殖系变异的扣除来实现。

在该步骤中,通过对患者的肿瘤组织(体细胞)和配对的白细胞进行平行建库,主要是为了排除生殖变异引起的干扰,从而提高微小残余病灶的检测准确性。

S200:获取对患者微小残余病灶术后监测点的血浆游离DNA的建库测序数据,根据肿瘤变异图谱在血浆游离DNA的建库测序数据中提取相应的变异信号;

该步骤主要是为了根据患者的肿瘤变异图谱,追踪血液中是否含有这些变异信息的ctDNA,若存在,则微小残余病灶判定为阳性,否则,微小残余病灶判断为阴性。同样,该步骤可以利用现有的方式完成,例如,可利用一个基因片段(称为PanelP)富集患者血浆DNA文库的靶区域,然后对测序数据进行生物信息分析(生信分析)获取该患者血液中的体细胞变异信息。

当利用基因片段进行富集操作时,步骤S200中的PanelP可以与步骤S100中的PanelT相同,也可以是PanelT的子集。例如,PanelP可以为定制化的仅靶向该患者肿瘤组织中检测到的肿瘤变异。

通过在血液中只特异性的追踪患者个性化图谱中的变异,从而有效地排除了克隆性造血带来的噪音信号,大大提高了后续血浆中变异信号的可信程度。

S300:根据噪音模型对提取到的变异信号进行单变异显著性分析。

在本发明的实施例中,噪音模型是根据预置基线人群数据库进行拟合确定。阴性人群中的cfDNA的变异信号可能被认为来自于背景噪音,通过对大基数阴性人群cfDNA变异信息的检测,针对PanelP覆盖范围内的每个位点的特定变异,进行背景噪音的模型拟合,即可得到噪音模型。然后,根据噪音模型,对每个变异的信号强度进行显著性分析,当概率小于或等于单变异显著性阈值时,则认为变异信号来自背景噪音的可靠性低。

S400:对提取到的变异信号进行多变异联合置信度分析,根据获得的置信概率,判定微小残余病灶的状态。

在该步骤中,利用单变异显著性分析结果,根据公式

在同时追踪多个变异来判断血液ctDNA是否存在的过程中,进行了多次的单变异的置信度分析,而该步骤是为了控制多重比较带来的假阳性问题,保证了微小残余病灶的检测的特异性,从而使得微小残余病灶的检测具有高的准确性。

在本发明的实施例中,预置噪音模型数据库的构建基础是阴性人群的血浆数据,在获取阴性人群数据时,其实验流程(包括干实验和湿实验)需要与患者的血浆DNA的操作流程保持一致,即能代表整体流程的背景噪音。同时,为了保证检测的准确性,噪音模型数据库中的阴性人群的数据量需要足够大,因此,在本发明的实施例中,噪音模型数据库中阴性人群的数量大于或等于1000。

对于步骤S300,在本发明的实施例中,噪音模型可以是组合模型,也可以是单一模型。当噪音模型为组合模型时,组合模型包括:第一模型,为阴性人群基线数据中无变异人群占比P

当噪音模型为单一模型时,在本发明的实施例中,单一模型为二项分布模型。

在本发明的实施例中,可以提供三种具体的进行单变异置信度的分析方式,具体为:

方式1:噪音模型为组合模型

S101:根据血浆变异位点的位置信息,调取该变异位点的噪音模型;

S102:采用蒙特卡洛抽样进行N次抽样,生成N×P

S103:利用第二模型生成N×(1-P

S104:分别以N个vaf作为先验的噪音频率,根据二项分布计算患者血浆变异信号VSM和TSM来自于噪音信号的概率

S105:根据公式

S106:根据P

方式2:噪音模型为组合模型

S201:根据血浆变异位点的位置信息和变异信息,调取该位点的噪音模型;

S202:确定无变异人群的vaf期望值以及权重,其中,无变异人群的vaf的期望为0,权重为P

S203:确定有变异人群的vaf的期望值以及权重,其中,变异人群的vaf的期望为E(vaf),权重为1-P

S204:根据无变异人群的vaf期望值以及变异人群的vaf的期望,分别计算患者血浆的变异信号VSM和TSM来自于噪音信号的概率;

S205:根据如下公式计算得到患者血浆中变异信号来自噪音信号的概率P

S206:根据P

方式3:噪音模型为单一模型

S301:调取特定位点特定变异的变异信号符合的噪音模型,其中,噪音模型为以噪音发生概率θ

S302:通过似然函数L(θ

S303:估算出θ

S314:根据P

在本发明的实施例中,给出多个实施例,验证本发明中所提出的方法的有益效果,说明的是,每个实施例可能并不是进行微小残余病灶的检测过程的全部过程,可能仅是对其中的一部分进行说明。

实施例1:基于方式1的热点驱动单变异检测性能分析

本示例通过分析性能验证的实验数据,基于方式1对热点驱动单变异检测的灵敏度及特异性。在该分析性能验证实验中,使用了UMI(Unique Molecular indentifier,UMI)分子标签接头进行了文库构建,然后使用PanelP1(表1.1)进行了目标区域的富集,PanelP1覆盖了29个基因108Kb的区间,富集后的文库进行了高深度测序。在进行灵敏度评估时,利用了12个已知的热点驱动变异,制作了标准品positive sensitivity control-PSC1805(见表1.2);在进行特异性评估时使用了149例健康人的cfDNA,评估了19个肿瘤热点驱动变异的检出特异性。

1.1基于方式1的灵敏度及最低检出限

1.1.1 样本信息

正常二倍体细胞系GM12878(人B淋巴细胞)基因组对PSC1805进行梯度稀释,PSC1805的系列样本共包括了5个稀释梯度,按照热点变异的理论变异频率均值由高到低分别为1%、0.3%、0.1%、0.05%和0.02%,这5个梯度的样本被分别命名为PSC1805-1P、PSC1805-03P、PSC1805-01P、PSC1805-005P和PSC1805-002P。

1.1.2 实验流程

首先对稀释好的PSC1805-1P、PSC1805-03P、PSC1805-01P、PSC1805-005P和PSC1805-002P这五个梯度的DNA样本使用Covaris进行片段化,取30ng 片段化的DNA使用KAPA Hyper Preparation Kit试剂盒进行文库构建,文库构建过程中使用了UMI接头,构建好的文库使用PanelP1进行目标区域捕获,每个梯度的样本进行3次技术重复,使用Novaseq进行150PE双端测序,按照8G的数据量进行上机测序,下机后平均测序深度约40000x。

1.1.3 PanelP1噪音模型搭建:

该噪音模型的搭建基于1000例阴性人群的血浆游离DNA数据,血浆文库的构建、捕获、上机等实验流程及上机的数据量与前述标准品完全一致。在模型构建前,首先进行胚系变异以及克隆性造血变异的扣除,特别地,当数据来源于肿瘤患者时,会同时扣除肿瘤组织特异性变异。然后,进行离群值处理降低噪音,留下来的变异则代表了每个染色体坐标(Posotion)的每种变异方向(Subtype)的噪音信号。在本实施例中,使用组合模型进行基线噪音信号模型拟合,记录每个染色体坐标(Posotion)的每种变异方向(Subtype)对应的非变异人群比例并对变异人群的vaf进行Weibull分布拟合,即第二模型为服从Weibull分布的模型。

1.1.4 生信分析

待测样本中的DNA片段携带有预先接入的分子标签,提取FASTQ文件中配对reads中的分子标签并存储为uBAM文件,将所述FASTQ文件的基因序列与参考基因组进行比对并去重得到BAM文件,并将其与所述uBAM文件合并得到带分子标签的BAM文件。按分子标签对reads 进行聚集并去重,去重后的 reads 作为 calling 的输入。Calling 是先在panel区域通过 pileup 方法得到原始的突变集合,然后进行黑名单变异的过滤,过滤后的变异信号通过与上述背景噪音基线比较,计算该变异信号来自于基线的概率,如高于给定阈值则认为是背景噪音,低于给定阈值则认为该信号是真实的变异信号。

在本实施例中,利用方式1通过N=10000次蒙特卡洛抽样,计算出单变异的显著性程度。设定单变异显著性阈值为0.01,即P

1.1.5 结果分析

统计了3次技术重复中各个变异的检出灵敏度(见表1.3),综合所有的热点变异(包括SNV和Indel)进行分析,在平均vaf为1%和0.3%时的变异检出灵敏度为100%(CI95,90.3%-100%),对平均vaf为0.1%的热点变异的检出灵敏度为83.3%(CI95,67.2%-93.6%),对平均vaf为0.05%的热点变异的检出灵敏度为58.3%(CI95,40.8%-74.5%)。同时看到,因为每种变异的背景噪音基线的差异性,所以12个相似变异频率的热点变异在同一个样本中的检出存在着灵敏度的差异。

在标准品中,由于这些热点变异的覆盖深度接近,变异频率相似,如果将这12个变异的单次检测看作一个变异的12次检测,由于对每个稀释梯度的样本都进行了3次重复实验,综合这36次检测的结果,用其阳性检出率评估方式1对热点变异的检测灵敏度,同时可以通过Probit回归估算出其最低检出限为0.11%,如图2所示。

1.2 基于方式1的特异性分析

1.2.1样本信息

通过对149例健康人群的血浆样本中的19个热点驱动变异(表1.4)的检出情况来衡量方式1的特异性。

1.2.2实验流程

首先对149例健康人群血浆样本,使用MagMAX Cell-Free DNA (cfDNA)Isolation(赛默飞世尔科技(中国)有限公司)进行cfDNA提取,文库构建流程、捕获流程、上机流程及上机数据量与上述灵敏性验证实验过程保持一致。

1.2.3生信分析

具体过程同1.1.4生信分析流程。

1.2.4验证结果

本次验证共进行了149x19=2831次变异的检测,2831次检出结果均为阴性,因此基于方式1对热点单变异的检出特异性为100%(CI95,99.86%-100%)。

实施例2:基于方式1、2、3的单变异检测性能分析

本实施例通过分析性能验证的实验数据,基于三种不同的方式验证三种分析流程对非热点单变异的检测灵敏度及特异性。使用KAPA Hyper Preparation Kit(罗氏诊断产品)进行了文库构建,然后使用PanelP2(见表2.1) 进行了目标区域的富集,PanelP2覆盖了769个基因2.1Mb的区间,富集后的文库进行了高深度测序。在性能评估时,使用的样本是由已知SNP位点信息的单个体S的白细胞DNA和negative control阴性标准品GM12878混合配置而成。

2.1 样本信息

将个体S不同于hg19(人体基因组版本)以及GM12878的32个SNP变异(单核苷酸突变)纳入阳性变异集(见表2.2),用于三种方式的非热点单变异的灵敏度分析。将个体S的白细胞DNA和细胞系GM12878 DNA中均与参考基因组hg19具有相同基因型的454个SNP位点纳入阴性变异集(表2.3),用于三种方式的非热点单变异的特异性分析。具体的,将个体S的白细胞DNA,用正常二倍体细胞系GM12878进行梯度稀释,得到一系列可用于整体分析性能验证的标准品MAVC2006。MAVC2006的系列样本共包括了5个稀释梯度,预期的变异频率(vaf)由高到低分别为0.5%,0.3%、0.1%、0.05%,0.03%。

2.2实验流程

将MAVC2006的5个系列的样本使用Covaris进行片段化,考虑到建库起始量对检测的灵敏度的影响,分别评估了5ng、15ng、40ng和100ng DNA 建库起始量对单变异的检出灵敏度和特异性,文库构建使用是KAPA Hyper Preparation Kit,目标区域捕获使用的是PanelP2,Novaseq上机测序,平均测序深度7300x。

2. 3 PanelP2噪音模型搭建

2.3.1 基于组合模型的噪音模型搭建

该噪音模型的搭建基于2000例阴性人群的血浆游离DNA数据,血浆文库的构建、捕获、上机等实验流程及上机的数据量与前述标准品完全一致。在模型构建前,首先进行胚系变异以及克隆性造血变异的扣除,特别地,当数据来源于肿瘤患者时,会同时扣除肿瘤组织特异性变异。然后,进行离群值处理降低噪音,留下来的变异则代表了每个染色体坐标(Posotion)的每种变异方向(Subtype)的噪音信号。在本实施例中,使用组合模型进行基线噪音信号模型拟合,记录每个染色体坐标(Posotion)的每种变异方向(Subtype)对应的非变异人群比例并对变异人群的vaf进行Weibull分布拟合,即第二模型为服从Weibull分布的模型,并计算拟合模型的期望值。

2.3.2基于方式3的噪音模型搭建

使用与2.3.1同批的样本进行了方式3的噪音模型搭建,同样的,在模型构建前,首先进行胚系变异以及克隆性造血变异的扣除,特别地,当数据来源于肿瘤患者时,会同时扣除肿瘤组织特异性变异。然后,进行离群值处理降低噪音,留下来的变异则代表了每个染色体坐标(Posotion)的每种变异方向(Subtype)的噪音信号。在本实施例中,使用单一模型进行基线信号模型拟合,使用基线人群的噪音数据通过似然函数L(f(θ

2. 4 生信分析

将FASTQ文件的基因序列与参考基因组进行比对并去重得到BAM文件,对 reads进行聚集并去重,去重后的 reads 作为 calling 的输入。Calling 是先在panel区域通过pileup 方法得到原始的突变集合,并进行黑名单变异的过滤,过滤后的变异信号通过与上述背景噪音基线比较,计算该变异区别于基线的概率,如高于给定阈值则认为是背景噪音。

2.4.1基于方式1的分析

在本实施例中,设定单变异显著性阈值为0.01,即P

2.4.2 基于方式2的分析

在本实施例中,单变异显著性阈值为0.01,即P

2.4.3 基于方式3的分析

在本实施例中,单变异显著性阈值为0.01,即P

2. 5 结果分析

标准品MAVC2006的阳性变异集包含了32个变异,标准品MAVC2006共进行了5个稀释梯度(0.03%,0.05%,0.1%,0.3%,0.5%)的稀释,综合32*5=160次变异检测统计检测灵敏度。下表分别显示了三种算法检测灵敏度。同时标准品MAVC2006的阴性变异集包含了454个理论无变异位点,同样综合454*5=2270次变异检测统计检测的特异性,下表分别显示了三种算法检测特异性。如表2.4所示。三种算法的灵敏度表现接近,组合模型抽样的算法灵敏度最高,三种方式的特异性均能达到99.7%以上,PPV(阳性预测值)均高于90%。

通过该实施例,可以发现,在利用本发明中所提出方法进行微小残余病灶的检测时,灵敏度高,特异性表现较好,因此利用本发明所提出的方法,能够更加准确的进行微小残余病灶的检测。

实施例3:多变异追踪时的样本检出性能分析(基于方式1)

由于血液中的cfDNA的含量限制了单变异的检出灵敏度,方式1通过同时追踪多个组织先验的肿瘤特异性变异,可以显著提高整体检测的灵敏度。在MAVC2006系列样本中,通过不同配比的混合DNA模拟不同肿瘤占比的血浆DNA。为了降低位点抽样的影响,对每个指定个数,均用计算机进行了100次随机抽样,即形成了100个独立的肿瘤先验变异图谱,对于一个稀释样本,每次都按照每一组图谱进行指定位点的变异信号追踪并判定微小残余病灶状态,共需要进行100次判定。最终统计这100次抽样的阳性检出率作为该样本追踪该数量变异时的检出性能。

3.1基于方式1追踪多变异时的样本检出灵敏度分析

首先设定变异追踪数目,从阳性变异集中随机抽取指定个数的变异去追踪,即模拟先验的肿瘤变异图谱,之后在样本中追踪指定的变异,根据其检出情况来判定该样本的微小残余病灶状态。在指定的追踪数目下,进行100次有放回的随机抽样,作为先验的变异图谱,统计这100次的检出率作为样本的检出灵敏度。

3.1.1样本信息

本实施例使用的是MAVC2006上述的5个梯度稀释的样本。从32个阳性变异集中随机抽取指定个数的变异去追踪,即模拟先验的肿瘤变异图谱,当变异追踪数目为1、2、3、6、10和20时基于方式1的检测灵敏度。

3.1.2实验流程

首先将MAVC2006的5个系列样本使用Covaris进行片段化,考虑到建库起始量对检测灵敏度的影响,分别评估了15ng、40ng的建库起始量对多变异检出灵敏度的影响,文库构建、目标区域捕获及上机策略与实施例2中2.2过程一致。

3.1.3基于方式1的噪音模型搭建

同实施例2中2.3.1噪音模型搭建。

3.1.4生信分析

将FASTQ文件的基因序列与参考基因组进行比对并去重得到BAM文件,对 reads进行聚集并去重,去重后的 reads 作为 calling 的输入。Calling 是先在panel区域通过pileup 方法得到原始的突变集合,并进行黑名单变异的过滤,过滤后的变异信号通过与上述背景噪音基线比较,计算该变异区别于基线的概率,如高于给定阈值则认为是背景噪音。

采用方式1计算单变异的显著性。

设单变异显著性阈值为0.05,当单变异P

3.1.5结果分析

统计了当变异追踪数目为1、2、3、6、10和20时,基于组合模型蒙特卡洛抽样算法对追踪不同变异数量时的样本水平的检测灵敏度,检出详情见表3.1,随着建库起始量的升高,变异追踪数目的增多,检出灵敏度显著提高。

3.2基于方式1的多变异的检出特异性分析

首先设定变异追踪数目,从阴性变异集中随机抽取指定个数的变异去追踪,即模拟先验的肿瘤变异图谱,之后在样本中追踪指定的变异,根据其检出情况来判定该样本的微小残余病灶状态。在指定的追踪数目下,进行100次有放回的随机抽样,作为先验的变异图谱进行追踪,统计这100次的检出率作为样本水平的假阳性率,进而计算检出特异性。

3.2.1 样本信息

本实施例使用的是MAVC2006上述的5个系列的样本,阴性变异集包含了454个纯合的SNP位点,这些位点的基因型同参考基因组hg19一致。考虑到建库起始量对检测灵敏度的影响,分别评估了5ng,15ng, 40ng和100ng的建库起始量对多变异检出灵敏度的影响在这次报告中,分别评估了变异追踪数目为1、2、3、6、10、20、50和100时基于方式1的检测特异性。

3.2.2实验流程

同3.1.2实验流程。

3.2.3生信分析

同3.1.4生信分析流程。

3.2.4结果分析

统计了当变异追踪数目为1、2、3、6、10、20、50和100时,使用基于组合模型蒙特卡洛抽样算法对位点的检出情况,检出率详情见表3.2。追踪不同数量的变异时,检测的特异性稳定地维持在99.7%-99.9%之间,并没有因为追踪更多的位点而导致特异性下降。

实施例4:基于方式1的肺癌队列微小残余病灶的检测性能分析

本实施例是使用组织先验策略,对27例非小细胞肺癌患者的不同时间点的血浆样本进行微小残余病灶的检测判定,结合患者真实的临床复发情况,来验证本技术及其算法临床表现。在此小队列研究中,患者的中位随访时间达到505天(166-870天),其中14例患者复发,13例未复发。在该检测中,使用的是一个覆盖1631个基因2.4Mb区域的固定PanelP3(表4.2)进行目标区域的富集。

4.1 患者信息及样本信息

本案例覆盖了肿瘤分期在Ⅰ~Ⅲ期的27例非小细胞肺癌的患者,其中Ⅰ期7例,Ⅱ期14例,Ⅲ期6例(详见表4.1),这些患者均进行了根治性手术治疗,并分别采集了该27例患者的术中组织样本。在对这些患者进行的术后为期30个月的跟踪随访过程中,采集了多个时间点的血液样本,包括术后3天血液,术后2周血液及术后一个月血液等。

4.2 实验流程

采集的术中组织标本及白膜层使用 “天根血液/组织/细胞基因组提取试剂盒”(来源:天根生化科技(北京)有限公司)进行提取,血浆样本使用的是MagMAX Cell-FreeDNA (cfDNA) Isolation进行游离DNA提取,三种DNA样本均使用KAPA Hyper PreparationKit进行文库构建,组织、白细胞样本及血浆cfDNA目的区域捕获使用的是PanelP3,血浆游离DNA文库的平均测序深度约为8700x,组织和白细胞基因组DNA的平均测序深度为1000x。首先对组织和配对的BC进行测序,建立患者肿瘤特异性变异图谱,后续在血液中特异性地追踪图谱中的变异,并基于组合模型蒙特卡洛抽样的算法对样本进行微小残余病灶状态的判定。

4.3 PanelP3噪音模型搭建:

该噪音模型的搭建基于1837例阴性人群的血浆游离DNA数据,血浆文库的构建、捕获、上机等操作及上机的数据量与前述患者血浆的实验流程(4.2)完全一致。在模型构建前,首先进行胚系变异以及克隆性造血变异的扣除,特别地,当数据来源于肿瘤患者时,会同时扣除肿瘤组织特异性变异。然后,进行离群值处理降低噪音,留下来的变异则代表了每个染色体坐标(Posotion)的每种变异方向(Subtype)的噪音信号。在本实施例中,使用组合模型进行基线噪音信号模型拟合,记录每个染色体坐标(Posotion)的每种变异方向(Subtype)对应的非变异人群比例并对变异人群的vaf进行逆Gamma分布拟合。

4.3 生信分析

4.3.1 变异识别:

首先使用Trimmomatic (v0.36)软件去除接头和低质量的测序产物(reads)。使用BWA aligner (v0.7.17)软件将干净的reads比对到人hg19参考基因组。接下来使用Picard(v2.23.0)软件对duplications进行分类和去重。SNV(单核苷酸变异)和InDel(插入缺失变异)使用VarDict (v1.5.1)软件进行识别检测,复杂突变用的是FreeBayes (v1.2.0)。突变质量以及链的偏好性等QC数据的过滤情况都会列在原始突变列表中。此外,匹配到ENCOD中定义的低映射区域的低复杂重复和片段重复区域中的突变,以及内部开发和验证的测序特异性错误(SSEs)列表中的突变均被去除。

4.3.2 肿瘤组织中筛选基因突变

首先过滤来自胚系或造血来源的突变,突变符合以下任何一个标准将被过滤掉:

(1)突变来自外周血的变异频率(vaf)不低于5%,或者(2)突变来自外周血vaf值低于5%,但是该vaf值与与之匹配的组织样本中该点的vaf值未超过5倍的关系,或者(3)突变在公开的gnomAD人群数据库中可以找到,其具有较小的等位基因频率(MAF)且不小于2%。剩下的基因突变将进行进一步的质量条件过滤。在筛选肿瘤组织突变的时候,每个突变至少有5条reads支持,SNV的检出限为4%,InDel的检出限为5%,这些分别作为筛选肿瘤组织突变的条件。

4.3.3 血浆中筛选基因突变

在本实施例中,血浆变异信号的检测只追踪了肿瘤组织中检测到满足上述检出标准的变异。利用方式1,设单变异显著性阈值为0.05,当单变异P

4.4 结果分析

图3示出了27例患者的微小残余病灶状态及复发情况图,在27例患者中,有14例患者在随访中出现了复发的情况,复发患者的中位DFS为337天(166-632天),13例患者在随访中并未复发,患者的复发情况与分期并未显示出显著的相关性(表4.1)。13例未复发的患者在术后的多次随访中,ctDNA检测结果均为阴性,特异性为100%(CI95,77.19%-100%)。14例复发的患者在术后一个月检测阳性的比例为35.7%(5/14),在随访中,11例患者的ctDNA检测阳性,灵敏度可达78.6%(CI95,52.41%-92.43%),其中10例在影像学检测进展前,检测到ctDNA信号,中位leadtime为231天(39-358天)。本实施例结果显示,基于方式1对ctDNA的检出情况与患者肿瘤的复发情况有较高的一致性,因此可以看出,利用本发明的方法,可以较好的预测患者的复发情况。

在本发明的方法中,不只追踪功能性的热点变异,还同时追踪克隆性的非功能变异(包括了同义突变),变异类型包括单核苷酸突变(SNP),插入缺失变异(Indel)以及结构变异(SV),多种变异信号多种变异类型的同时追踪实现了更灵敏的ctDNA检测,进而准确判断微小残余病灶状态。

在本发明的实施例中,还提供一种微小残余病灶的检测装置,该装置包括:

变异图谱构建模块,用于获取对患者的肿瘤组织和配对的白细胞的建库测序数据,并利用所述建库测序数据,构建患者的个性化肿瘤变异图谱;

变异信号提取模块,用于获取对患者微小残余病灶术后监测点的血浆游离DNA的建库测序数据,根据肿瘤变异图谱在血浆游离DNA的建库测序数据中提取相应的变异信号;

单变异分析模块,用于根据噪音模型对提取到的变异信号进行单变异显著性分析;

多变异分析模块,对提取到的变异信号进行多变异联合置信度分析,根据获得的置信概率,判定微小残余病灶的状态。

在本发明的一个实施例中,当噪音模型为包括第一模型和第二模型的组合模型时,单变异分析模块可以包括:

噪音模型调取模块,用于根据血浆变异位点的位置信息和变异信息,调取该变异位点的噪音模型,

抽样模块,采用蒙特卡洛方法进行N次抽样,生成N×P

第一生成模块,利用第二模型生成N×(1-P

第一计算模块,根据二项分布计算患者血浆变异信号VSM和TSM来自于噪音信号的概率

第二计算模块,用于根据公式

第一评估模块,用于根据P

在本发明的另一个实施例中,在本发明的一个实施例中,当噪音模型为组合模型时,单变异分析模块可以包括:

噪音模型调取模块,用于根据血浆变异位点的位置信息,调取该变异位点的噪音模型;

第一确定模块,确定无变异人群的vaf期望值以及权重,其中,无变异人群的vaf的期望为0,权重为P

第二确定模块,确定有变异人群的vaf的期望值以及权重,其中,变异人群的vaf的期望为E(vaf),权重为1-P

第一计算模块,用于根据无变异人群的vaf期望值以及变异人群的vaf的期望,分别计算患者血浆的变异信号来自于噪音信号的概率;

第二计算模块,根据如下公式计算得到患者血浆中变异信号来自噪音信号的概率P

第一评估模块,根据P

在本发明的另一个实施例中,噪音模型为单一模型时,单变异分析模块包括:

模型调取模块,调取特定位点特定变异的血浆噪音信号符合的噪音模型,其中,噪音模型为以噪音发生概率θnoise为参数的二项分布模型P

参数估计模块,用于通过似然函数L(θ

概率计算模块,用于在估算出θ

第一评估模块,根据P

进一步地,在本发明的实施例中,多变异分析模块可以包括:

第三计算模块,利用单变异显著性分析结果,根据公式

判定模块,根据联合置信概率判断微小残余病灶的性质,若

进一步地,本发明的实施例中,该装置还可以包括:阴性人群基线数据库,存储有若干阴性人群基线数据;

模型构建模块,用于提取根据阴性人群基线数据库中的阴性人群基线数据进行噪音模型搭建。

本发明的实施例中,还提供了一种存储介质,该存储介质存储有计算机程序指令,当所述计算机程序指令被执行时,能够实现本发明的实施例中提出的的微小残余病灶的检测方法。

该存储介质可以为各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,在运行所述程序指令时,以实现本申请的实施例中的微小残余病灶的检测方法。

本发明同时提供一种微小残余病灶的检测设备,在一种实施例中,该设备包括上述的存储介质和处理器,处理器可以为一个或多个,可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制微小残余病灶的检测设备中的其他组件以执行期望的功能。

本发明的描述是为了示例而给出的,而并不是无遗漏的或者将本发明限于所公开的形式,很多修改和变化对于本领域的普通技术人员而言是显然的。

具体实施方式中的数据表:

表1.1 PanelP1列表

表1.2 PSC1805中的热点变异及ddPCR频率

表1.3 PSC1805梯度稀释样本中热点单变异的3次重复检出灵敏度

表1.4 热点驱动变异列表

表2.1 PanelP2列表

表2.2 MAVC2006阳性变异集的SNP信息

表2.3 MAVC2006阴性变异集的SNP信息

表2.4 三种方式整体性能表现

表3.1追踪不同变异个数时的阳性检出率

表3.2 追踪阴性变异集中不同数量变异的检出特异性

表4.1 27例患者的分期及随访过程中ctDNA检出阳性情况

表4.2 PanelP3列表

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号