首页> 中国专利> 一种肿瘤个体化诊疗方案推荐方法

一种肿瘤个体化诊疗方案推荐方法

摘要

本发明公开了一种肿瘤个体化诊疗方案推荐方法,用于预测肿瘤细胞的生物学行为,从而个体化制定诊疗方案,提高诊疗成功率,本发明涉及肿瘤学、人工智能技术领域;具体包括以下步骤:信息采集:将图像数据库中的影像数据,根据登记号进行归类整理,一一对应临床数据;图像提取:采用直接提取图像参数或采用图像组学软件提取图像参数;建立模型:采用传统机器学习方法和/或深度学习方法建立模型;模型评价:所有相应的模型都将应用测试数据进行模型评价,给出模型在训练集及测试集上的评价;验证结果:采用内部数据验证和外部数据验证相结合的方法进行验证分析,并不断反复模型调整及优化,得出预测模型。

著录项

  • 公开/公告号CN113113130A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 湖南医云智享医疗科技有限公司;

    申请/专利号CN202110278396.6

  • 发明设计人 杨锫;唐子惠;肖翔;

    申请日2021-03-15

  • 分类号G16H50/20(20180101);G16H30/40(20180101);G16H50/70(20180101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构51230 成都弘毅天承知识产权代理有限公司;

  • 代理人丁存伟

  • 地址 410011 湖南省长沙市天心区书院路安玺雅苑9号B2、B3栋3014房

  • 入库时间 2023-06-19 11:49:09

说明书

技术领域

一种肿瘤个体化诊疗方案推荐方法,用于预测肿瘤细胞的生物学行为,从而有针对性的制定诊疗方案,提高诊疗成功率,本发明涉及肿瘤学、医学图像组学、人工智能技术领域。

背景技术

在肿瘤学临床诊疗过程中,因为肿瘤细胞存在不同的生物学行为,相同肿瘤分期的患者会表现出不同的肿瘤生长速度,向周边浸润的范围,以及远处转移的倾向不同;已有研究表明,同类肿瘤的图像表现与肿瘤本身特性存在密切的相关,图像的形态真实的反映着在机体各种内外因素作用下的肿瘤生物学行为,但肉眼无法将细节的差异分辨和描述出来。

近年来,图像组学分析技术在肿瘤领域的研究中迅速发展,CT及磁共振图像表现出来的不同能够反映出不同的肿瘤生物学行为,而且还可以用以进行治疗的疗效和毒性的预测,功能磁共振中的弥散加权成像(DWI)和表观扩散系数(ADC)参数与放化疗敏感性及预后密切相关;有文献表明,通过先进的计算机图像分析软件分析以往仅依赖放诊科医师肉眼分辨的图像所蕴含的特征性信息,通过一系列分析计算,其结论将可用来预测患者治疗及预后;在2017年,肿瘤界权威杂志Lancet Oncology上发表的一篇论著提出了未来头颈部肿瘤的个体化治疗的方向:即使用图像、分子病理资料及临床参数等建立预后模型来预测患者治疗及预后;这些研究表明,图像组学技术将会是利用常规影像学检测来预测肿瘤生物学行为的一种极为简便的方法。

近年来,图像分析技术已经逐渐在临床研究上开始崭露头角,其依据已经得到验证的相关分析公式,能够对于基于DICOM协议(通用的医疗图像协议)的医疗图像进行客观的分析,并且对于同一副图像能够得出稳定一致的结果,从而获得了国际上同行广泛认可;图像组学技术利用临床上标准化的CT/MRI图像,基于像素级别的细节,从肿瘤大小、图像灰度,灰度排列规律,功能磁共振参数等全面进行分析描述,从而得到千余项客观数据,全面反映肿瘤的本质细节;所得出的约1400余项图像参数的结果,与临床参数进行拟合,从而拥有了足够的参数来利用肿瘤患者的大数据,应用人工智能中的机器学习的方法进行各种不同预测模型的建立。

随着可供研究的参数数量的大量增加,如果运用传统的统计学方法,难以进行有效的分析,因为传统的医学界使用的统计学方法注重于p值的意义和模型的可解释性,也就是某项或某几项参数与研究目标的正向或反向的关联性,但是当多个参数结果所关联的结果相悖的时候,无法得知各个参数综合作用下的最终结果;而机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测;与传统的为解决特定任务、硬编码的软件程序不同,机器学习是用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务,也就是能够对参数进行充分的分析后建模,不同的模型关联不同的结果,全面综合的提供准确的预测。

利用图像组学及医学人工智能这两项技术的结合运用,对于目前困扰临床上已久的,无法利用常规检查结果来进行个体化精确治疗,提供了切实可行的方案。

发明内容

本发明的目的在于:提供一种肿瘤个体化诊疗方案推荐方法,临床医师在诊疗过程中,通过预测肿瘤细胞的生物学行为,从而个体化的推荐诊疗方案,提高诊疗成功率。

本发明采用的技术方案如下:S1、信息采集:将图像数据库中的CT、MRI、PETCT影像数据根据登记号进行归类整理,一一对应治疗中及治疗后的临床数据、生存数据、治疗方案、效果评价;

S2、图像提取:提取标记好肿瘤组织或者正常组织的影像数据的图像参数;利用自动勾画系统对未勾画的影像数据则进行正常组织和肿瘤组织的勾画,然后通过图像组学软件提取影像数据的图像参数;

S3、建立模型:采用传统机器学习方法和深度学习方法建立基于疗效的预测模型;

S4、模型评价:应用测试数据对S3建立的预测模型进行模型评价,评价指标包括:准确度、精确度、F值、阳性预测率、阴性预测率、ROC曲线下面积、Delong检测,通过这些指标评估模型的效能,以及给出模型在训练集及测试集上的评价,选择评价最优的预测模型;

S5、验证结果:采用内部临床数据验证和外部临床数据验证相结合的方法对S4选择的预测模型进行验证分析,并不断反复模型调整及优化,获得效果最优的预测模型;

S6、输出推荐方案:输入待推荐的影像数据,通过步骤S5所得的预测模型,找到与既往类似患者的共性特征,进行肿瘤细胞的生物学倾向预测,推荐效果最佳的治疗方案。

本发明的工作原理为:本发明利用肿瘤患者治疗前的DICOM影像(CT,MRI,PETCT等),以及临床数据,输入到此预测系统中,由系统自动勾画肿瘤范围,并且提取其肿瘤部位的像素级别的图像信息,将其与临床参数进行匹配,经过基于影像校正后,输入到已经建立好的预测模型中,通过模型的预测功能,提供给临床医师该肿瘤细胞的生物学倾向,从而可以予以高危复发肿瘤进行局部高强度治疗,减少全身治疗,同时高危转移倾向的肿瘤给予更合理的全身治疗,最终实现个体化治疗。

S1所述临床数据包括放疗疗效,药物疗效,正常组织、器官副反应发生率及程度,复发时间,转移部位及时间,生存时间。

S2所述传统机器学习方法,具体步骤如下:

a、先进行图像组学参数的降维,通过堆栈编码器、最小绝对收缩和选择算子回归模型的方法对影像组学特征进行降维处理;

b、随后从线性回归算法、支持向量机算法、最近邻居/k-近邻算法、逻辑回归算法、决策树算法、k-平均算法、随机森林算法、朴素贝叶斯算法、降维算法、梯度增强算法中选择一种或几种进行机器学习。

S2所述深度学习方法采用卷积神经网络(convolutional neural networks)、循环神经网络(recurrent neural network)、生成对抗网络(generative adversarialnetworks)、图神经网络(picture neural network)学习方法中的一种或几种。

所述深度学习方法采用卷积神经网络学习方法,具体步骤如下:

a、采用现有研究整合图像组学参数、临床参数及实验室检查参数数据,选取训练样本作为卷积神经网络CNN输入端数据;

b、利用卷积神经网络CNN的卷积层进行输入端数据逐层自动化的非结构化数据特征抽取,池化层进行降维处理;

c、联接全连接层进行人工神经网络模型构建。

S5所述内部数据验证是使用随机数生成来选择80%数据集作为“训练”群体用于模型构建,保留20%的病例作为“测试集”群体用于验证。

S5所述外部数据验证是采用第三方医疗机构或公共数据库数据外部独立验证数据集进行验证分析。

所述肿瘤细胞的生物学倾向预测包括化疗治疗、放射治疗、靶向治疗、免疫治疗的疗效及敏感性。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

本发明利用人工智能技术,机器学习的方法进行模型的建立,将可实现更细致的分层,实现真实世界中泛用性高的“个体化治疗”预测模型,符合国家战略需求,具有重要的理论及现实意义。

随着大量客观有效的图像参数的引入及分析,将能够对于人群进行更进一步的细化分类,从而能够使得临床医师针对不同的病人采取优化治疗方案,提高治疗效果,减少“过度治疗”,降低医疗成本,实现“个体化精准”治疗;采用本技术方案后,能够在不增加肿瘤患者经济负担的前提下,提供更为简便快速的个性化治疗的推荐,降低医疗支出,减少过度医疗,提升治疗效果,不仅具有良好的经济效益,还具备优异的社会效益。

附图说明

本发明将通过例子并参照附图的方式说明,其中:

图1是本发明建立预测模型方法之一示意图;

图2是本发明预测模型建立步骤示意图;

图3是本发明应用流程示意图;

图4是本发明肿瘤组织的大致勾画示意图;

图5本发明循环神经网络及其时间展开后的结构示意图;

图6是受试者工作曲线图;

图7是LASSO回归模型选择影像组学特征;

图8是分类器内部验证ROC曲线1;

图9是分类器内部验证ROC曲线2;

图10是分类器外部验证ROC曲线;

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1-3所示,一种肿瘤个体化诊疗方案推荐方法,包括以下步骤:

S1、信息采集:将图像数据库中的大量CT,MRI,PETCT等影像数据,根据登记号进行归类整理,一一对应临床数据(放疗疗效,药物疗效,正常组织、器官副反应发生率及程度,复发时间,转移部位及时间,生存时间,治疗方案等);

S2、图像提取:标记好的肿瘤组织或者正常组织可以直接提取图像参数,未勾画的病例则利用自动勾画系统进行正常组织精确的勾画和肿瘤组织的大致勾画,然后通过图像组学软件提取图像参数;

S3、建立模型:

(1)传统机器学习方法:

先进行图像组学参数的降维,通过堆栈编码器、最小绝对收缩和选择算子(theleast absolute shrinkage and selection operator, LASSO)回归模型等方法对影像组学特征进行降维处理;

随后将从基本十种常用的机器学习方法中选择,

线性回归算法 Linear Regression

支持向量机算法 (Support Vector Machine,SVM)

最近邻居/k-近邻算法 (K-Nearest Neighbors,KNN)

逻辑回归算法 Logistic Regression

决策树算法 Decision Tree

k-平均算法 K-Means

随机森林算法 Random Forest

朴素贝叶斯算法 Naive Bayes

降维算法 Dimensional Reduction

梯度增强算法 Gradient Boosting

其中,传统机器学习方法主要为:随机森林(Random forest,RF)、逻辑回归(logistics regression,LR)、支持向量机(Support Vector Machine, SVM)三种;

(2)深度学习方法:

不进行图像组学参数的降维,直接将所有的图像组学参数,通过深度学习的方法进行模型的构建,以方法以卷积神经网络(Convolutional neural network,CNN)举例:

基于上述研究整合图像组学参数、临床参数及实验室检查参数数据,选取训练样本做为CNN输入端数据;

利用CNN的卷积层进行输入端数据逐层自动化的非结构化数据特征抽取,池化层进行数据降维处理;

联接全连接层进行人工神经网络分类模型构建;

利用整体图像学习图像的深度学习模式,针对图像在治疗中的变化情况,以及所蕴含的肿瘤生物学行为等信息,进行更深层次的挖掘与分析;

S4、模型评价:所有相应的模型都将应用测试数据进行模型评价,评价指标包括:准确度(accuracy)、精确度(precision)、F值(F score)、阳性预测率(PPV)、阴性预测率(NPV)、ROC曲线下面积、Delong检测等,通过这些指标评估不同方法建立的模型效能,以及给出模型在训练集及测试集上的评价;

S5、验证结果,首先,进行内部验证,我们将使用S1所述临床数据随机数生成来选择“训练”群体用于模型构建,保留20%的病例作为“测试集”群体用于验证。最终,采用标准的外部独立验证数据集(第三方医疗机构或公共数据库数据)将用于外部验证分析并不断反复模型调整及优化,得出预测模型;

S6、输出推荐方案:输入待推荐的影像数据,通过步骤S5所得的预测模型,找到与既往类似患者的共性特征,进行肿瘤细胞的生物学倾向预测,推荐效果最佳的治疗方案。

实施例1

S1、信息采集:将图像数据库中的CT、MRI、PETCT影像数据根据登记号进行归类整理,一一对应治疗中及治疗后的临床数据、生存数据、治疗方案、疗效评价;

基本信息:性别、年龄、既往疾病史、TNM分期、转移部位;

临床信息:病理诊断、常规血液检验、基因检测、治疗方案、疗效评价、病理学检查及患者生存情况。

S2、图像提取:提取标记好肿瘤组织或者正常组织的影像数据的图像参数;利用自动勾画系统对未勾画的影像数据则进行正常组织和肿瘤组织的勾画,然后通过图像组学软件提取影像数据的图像参数;图4所示;

S3、建立模型:采用传统机器学习方法和深度学习方法建立基于疗效的预测模型;

传统机器学习方法采用随机森林算法,随机森林算法是根据下列算法而建造每棵树;

(1)用N来表示训练样本的个数,M表示特征数目;

(2)输人特征数目m,用于确定决策树上一个节点的决策结果,其中m<M;

(3)从N个训练样本中以有放回抽样的方式,取样N次,形成一个训练集(即Bootstrap抽样),并用未抽到的样本做预测,评估其误差;

(4)对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的,根据这m个特征,计算其最佳的分裂方式;

(5)每棵树都会完整成长而不会剪枝,这有可能在建完-棵正常树状分类器后会被采用,建成初步的预测模型。

再在初步的预测模型的基础上,进行深度学习方法优化,本次深度学习方法采用循环神经网络,所述循环神经网络的主要用途是处理和预测序列数据;在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的;具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输人不仅包括输人层的输出还包括上一时刻隐藏层的输出;理论上,循环神经网络能够对任何长度的序列数据进行处理;但是在实践中,为了降低复杂性往往假设当前的状态只与前面的几个状态相关,如图4所示,循环神经网络的主体结构C的输入除了来自输人层x,还有一个循环的边来提供上一时刻的隐藏状态h-i;在每一时刻,循环神经网络的模块C在读取了x

循环神经网络对长度为n的序列展开后,可以视为一个有n个中间层的前馈神经网络;这个前馈神经网络没有循环链接,因此可以直接使用反向传播算法进行训练,而不需要任何特别的优化算法;这样的训练方法称为“沿时间反向传播”,是训练循环神经网络最常见的方法;对于一个序列数据,可以将这个序列上不同时刻的数据依次传人循环神经网络的输入层,而输出可以是对序列下一时刻的预测,也可以是对当前时刻信息的处理结果(如语音识别结果);循环神经网络要求每个时刻都有一个输人,但是不一定每个时刻都需要有输出;循环神经网络挖掘数据中的时序信息以及语义信息的深度表达能力,建立基于疗效的预测模型。

S4、模型评价:应用测试数据对S3建立的预测模型进行模型评价,评价指标包括:准确度、精确度、F值、阳性预测率、阴性预测率、ROC曲线下面积、Delong检测,通过这些指标评估模型的效能,以及给出模型在训练集及测试集上的评价,选择评价最优的预测模型;

受试者工作曲线(receiver operator characteristic curve, ROC曲线)在诊断试验中,通过多次连续分组测定的数据进行制图,制图时以该试验灵敏度(真阳性率)为纵坐标,以1一特异度(假阳性率)为横坐标,依据连续分组测定所得数据,分别计算出的灵敏度和特异度坐标于图中,连成曲线,即为ROC曲线(图5);曲线上的任意一一点代表某项诊断试验的特定阳性标准值所相对应的灵敏度和特异度。

A、B、C、D四条曲线分别代表四个诊断试验:由A到D,诊断试验的临床价值逐渐递增;好的诊断试验其曲线远离中间的对角线,并十分接近左上角(如图中所示D曲线);差的试验则非常接近中间的对角线(如图中所示A曲线);通常可以通过计算曲线下的面积来评价试验的准确性,面积越大,表示试验越好;同时,一般选择以曲线距左上角最近的一点为正常值的最佳临界点,这点下的面积最大,用该点区分正常与异常,其灵敏度和特异度均为最高,即误诊和漏诊病例最少。

ROC曲线用途:①ROC曲线能很容易地查出任意界限值时对疾病的识别能力用途;②选择最佳的诊断界限值;ROC曲线越靠近左上角,试验的准确性就越高;③两种或两种以上不同诊断试验对疾病识别能力的比较,一般用ROC曲线下面积反映诊断系统的准确性。

S5、验证结果:采用内部临床数据验证和外部临床数据验证相结合的方法对S4选择的预测模型进行验证分析,并不断反复模型调整及优化,获得效果最优的预测模型;

运用LASSO对影像组学特征进行选择,选用交叉验证时预测误差最小的lambda值,最终筛选出4个可作为预测鼻咽癌原发灶生物学行为的重要特征(图7),其中包括glcm_InverseVariance,glrlm_HighGrayLevelRunEmpha,IntensityDirect_Energy,Shape_Roundness。高灰度值空间强度(high gray level empha,HGLRE)属于灰度游程矩阵(glrlm),逆方差(inverse variance)属于灰度共生矩阵(glcm),能量(energy)属于灰度强度(intensity direct),圆度(roundness)属于形态特征(shape)。

在训练集中,上述影像组学特征与临床资料结合构成的3种分类器均表现出良好的辨别鼻咽癌临床分型的能力,其中RF分类器构建的模型表现最佳(AUC值为0.993);3种分类器的平均AUC值为0.983,平均准确度、敏感度和特异度分别为0.9542、0.9706和0.9496;ROC曲线如图8所示;

在测试集中,上述影像组学特征与临床资料结合构成的3种分类器均表现出良好的辨别鼻咽癌临床分型的能力,其中RF分类器构建的模型表现最佳(AUC值为0.957),与训练集结果一致。3种分类器的平均AUC值为0.920,平均准确度、敏感度和特异度分别为0.8489、0.7143和0.8866;ROC曲线如图9所示。使用西京医院的数据进行外部验证,3种分类器模型的精确度、特异度以及敏感度LR的AUC值最高,分别为0.7778、0.75、0.8、0.925,预测性能最佳。RF预测能力较低,分别为0.7778、1、0.6、0.888,SVM分别为0.8333、0.875、0.8、0.950,证明机器学习分类器建模的可行性;ROC曲线如图10所示。

S6、输出推荐方案:输入待推荐的影像数据,通过步骤S5所得的预测模型,找到与既往类似患者的共性特征,进行肿瘤细胞的生物学倾向预测,推荐效果最佳的治疗方案。

患者就诊时,临床医师通过问诊等诊断手段收集患者信息,包括一般信息症状体征、现病史、既往史、个人史、体格检查、常规的实验室检查、常规的影像学检查等信息,生成电子病历;预测模型根据电子病历的内容与案例库的病案进行相似度计算,计算出电子病历与案例库病历的相似度值,如果该相似度值高于设定的阈值(如0.8),则输出最相似的病案,根据该病案的内容进行诊断推理,这个过程类似于临床医师的类比推理;如果相似度值低于阈值,则认为这个病例是案例库没有的新病案,根据规则库的规则,从头进行推理,最后给出诊断,这个过程类似于临床医师的逻辑推理;新生成的病案经过处理,存人案例库,并且扩充案例库,这个过程类似临床医师经过 临床工作的时间积累,扩充了临床经验,该预测模型在一定程度上模拟了临床医师的临床推理过程。

以上所述,仅为本发明的较佳实施例,并不用以限制本发明,本发明的专利保护范围以权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号