公开/公告号CN113257360A
专利类型发明专利
公开/公告日2021-08-13
原文格式PDF
申请/专利号CN202110707095.0
申请日2021-06-24
分类号G16B40/20(20190101);G16B40/00(20190101);G16B20/20(20190101);G16H50/20(20180101);G16H50/70(20180101);G06K9/62(20060101);
代理机构11240 北京康信知识产权代理有限责任公司;
代理人金田蕴
地址 102600 北京市大兴区经济技术开发区科创十三街18号院5号楼16层1601
入库时间 2023-06-19 12:13:22
技术领域
本发明涉及生物技术领域,具体而言,涉及一种癌症筛查模型、癌症筛查模型的构建方法及构建装置。
背景技术
膀胱癌是常见的恶性肿瘤之一,也是泌尿系统最常见的一种恶性肿瘤。目前膀胱癌监控方法依赖反复的膀胱镜检查、穿刺活检、影像学检查。膀胱镜检查被视为目前膀胱癌诊断的金标准,但这些过程耗时、费用较高,对原位癌敏感性较差,并且可能导致尿路感染、尿道损伤、膀胱损伤等并发症。穿刺活检方法由于是高侵入性的,会对组织有创伤。影像学检查则带有辐射伤害,以上这些常规检查方法都会给患者带来痛苦。
膀胱癌由于其发病灶的特殊性,尿液中往往存在着大量来自膀胱癌组织脱落的肿瘤细胞及癌细胞凋亡破裂释放的小片段游离DNA。尿脱落细胞学检查是另一种目前用于诊断膀胱癌的常规方法,其优点是无创伤,特异性高、非侵入性,但其检出率因受多因素的影响,敏感性低(约30%),特别是在肿瘤早期因细胞间粘附不脱落使其敏感性大为降低。
因此,在不能获取肿瘤组织或常规方法检测效果不佳情况下,利用尿液中含有的肿瘤DNA,通过NGS的方法进行低深度全基因组测序,筛选与膀胱癌有关的基因组特征进行膀胱癌的筛查,成为另一种较好的检查手段,可能会更加高效、全面、灵敏、实时地反映患者是否患有膀胱癌。
目前癌症早诊主要集中在常见热点基因突变情况的检测,通过增加检测基因数量,检测深度等方法提高检测的准确性。而通过增加检测其他方面的基因组特征来进行癌症的早筛还有发展空间。
发明内容
本发明旨在提供一种癌症筛查模型、癌症筛查模型的构建方法及构建装置,以解决现有技术中在不增加检测基因数量或检测深度的情况下难以提高检测的准确性的技术问题。
为了实现上述目的,根据本发明的一个方面,提供了一种癌症筛查模型的构建方法。该构建方法包括以下步骤:基于不同的数据构建不同的CNV baseline;分别利用不同的CNV baseline对待检测样本的sWGS数据进行CNV检测,获取多个基因组特征;利用待检测样本的sWGS数据建立训练集与测试集,将各个基因组特征的数值做ROC曲线,选择AUC值最大的基因组特征作为最终基因组特征;对最终基因组特征进行模型训练,获得癌症筛查模型。
进一步地,癌症为膀胱癌,待检测样本包括健康人群的尿液脱落细胞样本与膀胱癌患者尿液脱落细胞样本。
进一步地,基于不同的数据构建不同的CNV baseline包括:选取预定数量的健康人,获取其cfDNA测序信息,与参考基因组进行比对,构建cfCNV baseline;基于千人基因组数据库中人群样本基因组数据与参考基因组构建1000G.CNVbaseline;优选的,预定数量为50人以上;优选的,千人基因组数据库中人群样本基因组数据为千人基因组数据库中中国人群样本基因组数据。
进一步地,构建方法在获得癌症筛查模型之后还包括:使用测试集对模型进行验证;优选的,对最终基因组特征采用随机森林模型进行训练;优选的,基因组特征包括大片段CNV个数和异常reads比例。
进一步地,CNV baseline的构建包括:S1,利用参考基因组信息文件,构建坐标文件;S2,利用S1得到的坐标文件、参考基因组信息文件和预定数量的正常人的cfDNA测序信息数据或千人基因组数据库中人群样本基因组数据,分析得到记录有各个区间bin内的reads数的每个样本对应的reads统计文件;S3,利用参考基因组信息文件与坐标文件,分析得到包含每个bin内GC含量的文件;S4,通过S2中得到样本对应的reads统计文件,S3中得到包含每个bin内GC含量的文件,分析得到CNVbaseline文件。
进一步地,CNV检测包括:利用坐标文件、参考基因组信息文件和待检测样本的sWGS数据,分析得到记录有各个区间bin内的reads数的每个待检测样本对应的reads统计文件;利用CNVbaseline文件,对待检测样本对应的reads统计文件进行降噪处理,得到降噪后的文件;对降噪后的文件中的各个CNA区段进行合并,得到合并后的文件;通过对合并后的文件进行分析判断 CNV 是扩增、缺失、还是正常。
进一步地,大片段CNV个数通过大片段CNV检测获得,大片段CNV检测包括:1)UCSC数据库下载与参考基因组对应的 cytogenetic band 文件;2)通过合并后的文件计算出区段内拷贝数,得到扩增、缺失状态的CNV区段,其中,CNV区段的起始、终止区间与cytogenetic band 文件内染色体片段的范围有交集的CNV区段即为大片段CNV。
根据本发明的另一个方面,提供一种癌症筛查模型的构建装置。该构建装置包括:CNV baseline构建模块,设置为基于不同的数据构建不同的CNV baseline;基因组特征获取模块,设置为分别利用不同的CNV baseline对待检测样本的sWGS数据进行CNV检测,获取多个基因组特征;最终基因组特征确定模块,设置为利用待检测样本的sWGS数据建立训练集与测试集,将各个基因组特征的数值做ROC曲线,选择AUC值最大的基因组特征作为最终基因组特征;模型训练模块,设置为对最终基因组特征进行模型训练,获得癌症筛查模型。
进一步地,癌症为膀胱癌,待检测样本包括健康人群的尿液脱落细胞样本与膀胱癌患者尿液脱落细胞样本。
进一步地,CNV baseline构建模块包括:cfCNV baseline构建子模块,设置为选取预定数量的健康人,获取其cfDNA测序信息,与参考基因组进行比对,构建cfCNV baseline;1000G.CNVbaseline构建子模块,设置为基于千人基因组数据库中人群样本基因组数据与参考基因组构建1000G.CNVbaseline;优选的,预定数量为50人以上;优选的,千人基因组数据库中人群样本基因组数据为千人基因组数据库中中国人群样本基因组数据。
进一步地,构建装置还包括:验证模块,设置为使用测试集对模型进行验证;优选的,对最终基因组特征采用随机森林模型进行训练;优选的,基因组特征包括大片段CNV个数和异常reads比例。
进一步地,cfCNV baseline构建子模块和1000G.CNVbaseline构建子模块分别包括:坐标文件构建子模块,设置为利用参考基因组信息文件,构建坐标文件;reads统计子模块,设置为利用坐标文件构建子模块得到的坐标文件、参考基因组信息文件和预定数量的正常人的cfDNA测序信息数据或千人基因组数据库中人群样本基因组数据,分析得到记录有各个区间bin内的reads数的每个样本对应的reads统计文件;GC含量统计子模块,设置为利用参考基因组信息文件与坐标文件,分析得到包含每个bin内GC含量的文件;CNVbaseline文件形成子模块,设置为通过reads统计子模块得到样本对应的reads统计文件,GC含量统计子模块得到包含每个bin内GC含量的文件,分析得到CNVbaseline文件。
进一步地,基因组特征获取模块包括:reads统计文件获取子模块,设置为利用坐标文件、参考基因组信息文件和待检测样本的sWGS数据,分析得到记录有各个区间bin内的reads数的每个待检测样本对应的reads统计文件;降噪子模块,设置为利用CNVbaseline文件,对待检测样本对应的reads统计文件进行降噪处理,得到降噪后的文件;合并子模块,设置为对降噪后的文件中的各个CNA区段进行合并,得到合并后的文件;判断子模块,设置为通过对合并后的文件进行分析判断 CNV 是扩增、缺失、还是正常。
进一步地,大片段CNV个数通过大片段CNV检测子模块获得,大片段CNV检测子模块设置为:1)UCSC数据库下载与参考基因组对应的 cytogenetic band 文件;2)通过合并后的文件计算出区段内拷贝数,得到扩增、缺失状态的CNV区段,其中,CNV区段的起始、终止区间与cytogenetic band 文件内染色体片段的范围有交集的CNV区段即为大片段CNV。
根据本发明的再一方面,提供了一种癌症筛查模型。该癌症筛查模型通过上述任一种癌症筛查模型的构建方法构建得到。
根据本发明的又一方面,提供了一种癌症筛查装置。该癌症筛查装置包括上述癌症筛查模型。
应用本发明的技术方案,通过纳入sWGS情况下,基于不同baseline数据获得多个基因组特征,例如大片段CNV个数、abnormal reads比例等基因组特征,利用待检测样本的sWGS数据建立训练集与测试集,通过机器学习的方法,建立癌症筛查模型,提高癌症(早期)筛查的准确性。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明一实施方式的CNV baseline构建流程示意图;
图2示出了根据本发明一实施方式的CNV检测流程示意图;
图3示出了根据本发明一实施方式的大片段CNV检测流程示意图;
图4示出了根据本发明一实施方式的模型构建以及预测流程示意图;
图5示出了根据实施例1中abnormalReads 特征ROC曲线;
图6示出了根据实施例1中cfDNAbaselineCNV 特征ROC曲线;
图7示出了根据实施例1中1000GbaselineCNV 特征 ROC曲线;以及
图8示出了根据实施例1中测试集测试ROC曲线。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
术语解释:
sWGS:shallow whole genome sequence,低深度全基因组测序。
SCOB:膀胱癌。
CNV:Copy number variations,即基因拷贝数变异。
baseline:基线。
下面,以膀胱癌为例,进一步详细阐述本发明。
目前膀胱癌常规检测方法如膀胱镜检查、组织穿刺、尿路细胞学检查存在检测手段繁琐,会给患者带来附加痛苦,准确性低等问题。
目前液态活检的主要对象有3种:循环肿瘤细胞(CTC)、循环肿瘤DNA(ctDNA)和外泌体(Exosome),而获取以上三种肿瘤标志物的方式主要是通过静脉采取外周血通过离心的方式。膀胱癌由于其发病灶的特殊性,尿液中往往存在着大量来自膀胱癌组织脱落的肿瘤细胞及癌细胞凋亡破裂释放的小片段游离DNA。本发明通过NGS的方法对尿液中含有的肿瘤DNA进行低深度全基因组测序,筛选与膀胱癌有关的基因组特征进行膀胱癌的筛查,成为一种新的检查手段,会更加高效、全面、灵敏、实时地反映患者是否患有膀胱癌。
相对于其他液态活检方法,本技术算法特点:
1.利用尿液脱落细胞进行低深度全基因组测序(sWGS)。
2.收集正常人群(在本发明中,正常人等同于健康人)的cfDNA、1000genome数据库中国人群数据,构建CNV baseline,利用CNV baseline 进行样本CNV的检测。
3.通过基于不同CNVbaseline获得的大片段CNV(一般指长度为 1 kb 以上的基因组大片段)个数,异常reads比例等多方面基因组信息进行特征筛选,保留最优基因组特征。
4.利用机器学习的方法构建膀胱癌早诊模型。
在本发明一实施方式中,CNV baseline 构建流程包括:
Step1: 通过参考基因组fasta文件与WGS的bed文件,利用GATK中PreprocessIntervals 命令,bin窗口不设置最大值,构建新的坐标文件preprocessed.interval.list;
Step2: 通过step1得到的坐标文件preprocessed.interval.list,已有的参考基因组fasta文件,待测样本测序得到的sWGS结果bam文件,利用GATK中CollectReadCounts命令得到每个样本对应的reads统计文件,记录各个区间bin内的reads数;
Step3: 通过参考基因组fasta文件与step1中preprocessed.interval.list文件,利用GATK中 AnnotateIntervals 命令,得到包含每个bin内GC含量的文件 GC_content.interval_list ,用于后续baseline构建;
Step4:通过step2中得到个样本的区间reads统计文件,step3中GC_content.interval_list文件,利用GATK中 CreateReadCountPanelOfNormals 命令得到最终的CNVbaseline文件 CNVbaseline.pon。
在本发明一实施方式中,CNV检测流程(参见图2)包括:
Step1:通过CNV baseline 构建step1中WGS坐标文件preprocessed.interval.list,参考基因组fasta文件,待测样本bam文件,利用GATK中CollectReadCounts 命令得到待测样本对应的reads统计文件;
Step2: 通过step1得到的待测样本对应的reads统计文件,以及已有的CNVbaseline.pon文件,利用GATK中DenoiseReadCounts 命令对reads统计文件进行降噪处理,得到降噪后的文件 denoised.tsv,内容包括bin区间内 log2 copy ratio;
Step3:通过step2中denoised.tsv,利用GATK中ModelSegments命令对各个CNA区段进行合并,得到合并后的文件,内容包括 mean log2 copy ratio;
Step4:通过step3中结果文件,利用GATK中CallCopyRatioSegments命令,判断CNV 是扩增、缺失、还是正常。
在本发明一实施方式中,大片段CNV检测(参见图3)流程:
Step1: UCSC数据库下载与参考基因组对应的 cytogenetic band 文件,命名为cytoBand.txt;
Step2: 通过CNV检测流程中Step3结果文件中mean log2 copy ratio,计算出区段内拷贝数,得到gain、loss状态的CNV区段,并且该CNV的起始、终止区间与cytoBand.txt文件内染色体片段的范围有交集,从而得到 large CNV。
在本发明一实施方式中,模型构建以及预测流程(参见图4):
步骤A:收集一定数量(例如29人)的健康人样本,一定数量(例如21人)的例膀胱癌患者尿液;
步骤B:收集正常人群cfDNA样本,与参考基因组进行比对,得到bam文件,用于构建CNV的baseline(cfDNAbaselineCNV),统计获得每个样本的基于正常人群cfDNA检测获得的大片段CNV个数。CNVbaseline构建流程见图1;
步骤C:从千人基因组数据库下载中国人群样本的bam文件,用于构建CNV的baseline,统计获得每个样本的基于千人基因组人群检测获得的大片段CNV个数(1000GbaselineCNV)。CNVbaseline构建流程见图1;
步骤D:从bam文件中统计获得每个样本异常比对reads信息,包括soft-clipreads占所有reads比例,插入片段大于100000的reads比例,最终获得这两种异常reads总的比例 (abnormalReads);
步骤E:将样本分为训练集(80%)与测试集(20%);
步骤F:将各个特征的数值做ROC曲线,选择AUC值最大的特征作为最终特征;
步骤G:通过随机森林模型对特征进行训练;
步骤I: 使用测试集对模型进行验证。
下面将结合实施例进一步说明本发明的有益效果。
实施例1
目标:通过处理后的数据特征,进行模型训练,然后使用测试集验证模型准确性。
步骤:
1.建立由29个健康人尿液样本,21个膀胱癌患者尿液样本组成的数据集。
2.基于正常人群cfDNA样本构建CNV的基线(baseline)。构建流程第1步:将60个的正常人群cfDNA测序与参考基因组比对,获得bam文件。第2步:通过参考基因组fasta文件与WGS的bed文件,利用GATK中 PreprocessIntervals 命令构建新的坐标文件preprocessed.interval.list。第3 步:通过第2步得到的坐标文件preprocessed.interval.list,已有的参考基因组fasta文件,已有60个的正常人群cfDNA测序比对的bam文件,利用GATK中CollectReadCounts命令得到每个样本对应的reads统计文件,记录各个区间bin内的reads数。第4步:通过参考基因组fasta文件与第2步中preprocessed.interval.list文件,利用GATK中 AnnotateIntervals 命令,得到包含每个bin内GC含量的文件 GC_content.interval_list。第5步:通过第3步中得到个样本的区间reads统计文件,第4步中GC_content.interval_list文件,利用GATK中CreateReadCountPanelOfNormals 命令得到最终的基于cfDNA 的CNVbaseline文件cfDNA.CNVbaseline.pon。
3.基于千人基因组数据库中中国人群样本构建CNV的基线(baseline)。第一步:从1000genomes数据库下载中国人群(CHB)的bam文件。得到bam文件后续构建流程与基于cfDNA构建CNVbasline流程相同,最终得到基于1000genome 的CNVbaseline文件1000G.CNVbaseline.pon
4.基于cfDNA的CNVbaseline ,使用GATK软件对50个待测样本(29个正常患者样本,21个癌症患者尿液样本)进行CNV检测。检测流程第1步:通过基于cfDNA 构建的CNVbaseline 流程中step1中WGS坐标文件preprocessed.interval.list,参考基因组fasta文件,50个待测样本bam文件,利用GATK中 CollectReadCounts 命令得到待测样本对应的reads统计文件。第2步:通过第1步得到的待测样本对应的reads统计文件,以及已有的基于cfDNA的CNVbaseline.pon文件,利用GATK中DenoiseReadCounts 命令对reads统计文件进行降噪处理,得到降噪后的文件 denoised.tsv ,内容包括bin区间内 log2 copy ratio。第3步: 通过step2中denoised.tsv,利用GATK中ModelSegments命令对各个CNV区段进行合并,得到合并后的文件,内容包括 mean log2 copy ratio。第4步通过第3步中结果文件,利用GATK中CallCopyRatioSegments命令,判断 CNV 是扩增(+)、缺失(-)、还是正常(0)。示例结果见表1。
5.基于cfDNA的CNVbaseline检测得到的CNV,统计每个待测样本的大片段CNV个数,文件第一列为样本名,第二例为大片段CNV个数。统计流程第1步:UCSC数据库下载与参考基因组对应的 cytogenetic band 文件,命名为 cytoBand.txt。第2步:通过CNV检测流程中Step3结果文件中mean log2 copy ratio,计算出区段内拷贝数,得到gain、loss状态的CNV区段,并且该CNV的起始、终止区间与cytoBand.txt 文件内染色体片段的范围有交集,从而得到 large CNV。
6.基于1000genome 的CNVbaseline,使用GATK软件对50个待测样本(29个正常患者样本,21个癌症患者尿液样本)进行CNV检测。检测流程与4相同。
7.基于1000genome的CNVbaseline检测得到的CNV,统计每个待测样本的大片段CNV个数,文件第一列为样本名,第二例为大片段CNV个数。统计流程与5相同。
8.异常比对reads统计。分别读取50个待测样本bam文件,统计soft-clip reads占所有reads比例,插入片段大于100000bp的reads比例(insert_size>100000),以及这两种异常reads总的比例。
9.将50个样本(29个健康人尿液样本,21个膀胱癌患者尿液样本)组成的数据集进行划分,分为训练集(80%),测试集(20%)。
10. 对以上3个数据特征(abnormalRead特征,cfDNAbaselineCNV 特征,1000GbaselineCNV)绘制ROC曲线,选择AUC最大的特征为模型训练使用特征。
11. 对筛选出的特征,使用训练集(80%),通过随机森林的方法进行模型训练。
12. 使用测试集(20%)对模型进行验证。
表1 :样本CNV检测结果文件
1. 特征选择结果:
经过比较3个特征(abnormalReads 特征,cfDNAbaselineCNV 特征,1000GbaselineCNV)的AUC,最终保留特征:1000GbaselineCNV。各个特征的ROC曲线见图5、图6和图7。其中,图5示出了abnormalReads 特征ROC曲线,AUC=0.8;图6示出了cfDNAbaselineCNV 特征ROC曲线,AUC=0.66;图7示出了1000GbaselineCNV 特征 ROC曲线,AUC=1。
2. 模型性能验证结果:
使用随机森林模型对以上特征进行训练,使用测试集进行验证,测试集测试ROC曲线见图8。使用测试集对模型进行验证,AUC=1,说明该模型能够将癌症样本与正常样本完全区分,准确率100%。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:使用此种技术方法能够通过尿液脱落细胞中低深度全基因组检测,以基于千人基因组CNV为baseline检测的大片段CNV为模型训练特征,对膀胱癌进行有效早诊。
实施例2
本实施例中,提供了一种癌症筛查模型的构建装置。该构建装置包括:CNVbaseline构建模块,设置为基于不同的数据构建不同的CNV baseline;基因组特征获取模块,设置为分别利用不同的CNV baseline对待检测样本的sWGS数据进行CNV检测,获取多个基因组特征;最终基因组特征确定模块,设置为利用待检测样本的sWGS数据建立训练集与测试集,将各个基因组特征的数值做ROC曲线,选择AUC值最大的基因组特征作为最终基因组特征;模型训练模块,设置为对最终基因组特征进行模型训练,获得癌症筛查模型。
具体的,癌症为膀胱癌,待检测样本包括健康人群的尿液脱落细胞与膀胱癌患者尿液脱落细胞样本。
其中,CNV baseline构建模块包括:cfCNV baseline构建子模块,设置为选取预定数量的正常人,获取其cfDNA测序信息,与参考基因组进行比对,构建cfCNV baseline;1000G.CNVbaseline构建子模块,设置为基于千人基因组数据库中人群样本基因组数据与参考基因组构建1000G.CNVbaseline;优选的,预定数量为50人以上,例如60人;优选的,千人基因组数据库中人群样本基因组数据为千人基因组数据库中中国人群样本基因组数据。
构建装置还包括:验证模块,设置为使用测试集对模型进行验证;优选的,对最终基因组特征采用随机森林模型进行训练;优选的,基因组特征包括大片段CNV个数和异常reads比例。
cfCNV baseline构建子模块和1000G.CNVbaseline构建子模块分别包括:
坐标文件构建子模块,设置为利用参考基因组信息文件,构建坐标文件;
reads统计子模块,设置为利用坐标文件构建子模块得到的坐标文件、参考基因组信息文件和预定数量的正常人的cfDNA测序信息数据或千人基因组数据库中人群样本基因组数据,分析得到记录有各个区间bin内的reads数的每个样本对应的reads统计文件;
GC含量统计子模块,设置为利用参考基因组信息文件与坐标文件,分析得到包含每个bin内GC含量的文件;
CNVbaseline文件形成子模块,设置为通过reads统计子模块得到样本对应的reads统计文件,GC含量统计子模块得到包含每个bin内GC含量的文件,分析得到CNVbaseline文件。
基因组特征获取模块包括:
reads统计文件获取子模块,设置为利用坐标文件、参考基因组信息文件和待检测样本的sWGS数据,分析得到记录有各个区间bin内的reads数的每个待检测样本对应的reads统计文件;
降噪子模块,设置为利用CNVbaseline文件,对待检测样本对应的reads统计文件进行降噪处理,得到降噪后的文件;
合并子模块,设置为对降噪后的文件中的各个CNA区段进行合并,得到合并后的文件;
判断子模块,设置为通过对合并后的文件进行分析判断 CNV 是扩增、缺失、还是正常。
大片段CNV个数通过大片段CNV检测子模块获得,大片段CNV检测子模块设置为:1)UCSC数据库下载与参考基因组对应的 cytogenetic band 文件;2)通过合并后的文件计算出区段内拷贝数,得到扩增、缺失状态的CNV区段,其中,CNV区段的起始、终止区间与cytogenetic band 文件内染色体片段的范围有交集的CNV区段即为大片段CNV。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 构建AI慢性肾病风险筛查模型的方法,慢性肾病风险筛查方法和系统
机译: 癌症诊断方法,癌症诊断模型构建方法,组合生物标记物的癌症诊断系统以及测量每种生物标记物效果的方法
机译: 间质性肺炎的补救措施,该疾病动物模型的构建方法和使用该方法的筛查方法