首页> 中国专利> 一种基于临床医学、深度学习神经网络和影像组学判别肺部肿瘤浸润性的方法

一种基于临床医学、深度学习神经网络和影像组学判别肺部肿瘤浸润性的方法

摘要

一种基于临床医学、影像组学、深度学习神经网络等特征,对肺部肿瘤浸润性进行判别的方法,具体包括收集肺癌病人临床特征。影像组学提取肺癌患者CT影像中纹理特征以及高阶特征。深度学习神经网络提取肺癌患者中高阶非线性特征。在处理CT影像方面,具体通过医生标注肿瘤区域,进行肿瘤切割,得到肺部肿瘤部位。在模型训练方面,采用多角度旋转(0至30度)模拟生成肺部影像CT样本,提高模型泛化能力;同时采用SMOTE算法解决样本分布不均衡问题。采用LASSO算法,在所有特征中选择重要的特征判别肺部肿瘤的浸润性,并计算所选特征权重值。在样本分类上,采用稳定性较好的非线性SVM(支持向量机)分类器。本发明有着如下优势:综合利用临床医学、神经网络和影像组学等特征,深层次挖掘探究肿瘤浸润性的决定性特征,使得结果更具科学性和可解释性。

著录项

  • 公开/公告号CN116542937A

    专利类型发明专利

  • 公开/公告日2023-08-04

    原文格式PDF

  • 申请/专利权人 南京工业大学;

    申请/专利号CN202310518369.0

  • 发明设计人 尹诗;冯子康;刘学军;张杰;

    申请日2023-05-09

  • 分类号G06T7/00(2017.01);G06V10/44(2022.01);G06V10/80(2022.01);G06V10/764(2022.01);G06V10/82(2022.01);G06N20/10(2019.01);G06N3/0464(2023.01);G06N3/08(2023.01);

  • 代理机构

  • 代理人

  • 地址 211816 江苏省南京市江北新区浦珠南路30号

  • 入库时间 2024-01-17 01:23:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-12

    实质审查的生效 IPC(主分类):G06T 7/00 专利申请号:2023105183690 申请日:20230509

    实质审查的生效

说明书

技术领域

本发明属于医学影像与人工智能技术领域,更为具体的说,根据临床肺部CT影像,在病人手术前判别出肺部肿瘤浸润性,提高手术成功率。

背景技术

肺癌浸润性的判别对于肺癌患者治疗方案的制定,有着重要意义及价值。原位性肺癌是最早的肺癌,故又称0期癌。此时肺癌细胞正在处于刚刚萌芽的阶段,并未侵其基底层。对于原位性肺癌的治疗,一旦发现只需采取手术切除即可治愈,不需要做放化疗,治愈后也不会有严重的并发症,对生活质量影响不大,不影响寿命。微浸润性肺癌指的是癌细胞已经突破了基底膜并且开始侵犯周围组织,但是侵犯的范围很小,肉眼无法确定。对于微浸润性肺癌的治疗,也需要手术治疗,如果能够保证有足够的切除,切缘阴性,一般来说,单纯手术治疗就可以了,不需要做化疗。浸润性肺癌也分为早中晚期浸润性癌,早期浸润性癌,一般只需要手术治疗,不需要放化疗。而中期浸润性癌,除了手术,可能还需要做放化疗。晚期癌症,一般是已经转移到了远处的器官例如肝转移、肺转移、脑转移,对于晚期癌症,大部分情况都无法手术切除,只能通过放化疗,靶向治疗,免疫治疗等手段治疗,减轻痛苦。故在术前确定肺癌病人的浸润性对治疗方案的制定有着重要作用。

目前仅依靠临床医学诊断并未能达到预期的精度,由于临床医生使用病变大小、衰减、毛刺特征和病变周围的囊性空间等一系列特征来诊断肿瘤属性,这些特征对于非典型肺癌肿瘤的浸润性判断精度较差,同时临床判断具有主观性和经验性,所以最终判断精度也不够稳定。影像组学对于肺癌浸润性的判别也同样面临着挑战,因为肺结节可能很小,看起来与肺中的其他结构(如血管)或良性过程(如局灶性组织性肺炎)相似。同时,影像组学的特征提取过程相对固定,这忽略了患者的个体差异。基于这些原因,基于CT的肺癌筛查的假阳性率很高。我们期望找到一种更灵活的方法来进一步提高分类模型的准确性。

近些年,深度学习在自然图像的分类任务中取得了高度成功。深度学习提供图像(CT扫描)的各种高级语义信息,这些信息不同于由影像组学提取的图像特征。因此,我们期望深度学习能够改进经典影像组学对肺癌浸润性的预测模型。但是由于CT医学影像不同于传统自然图像,并且样本数据量的未达到一定规模,难以使得模型达到预期效果。

目前已有研究表明特征级的融合对最终结果预测的精度会起到显著提升。特征级融合,它将影像组学和深度学习卷积网络两个模型提取和计算的不同特征向量组合成一个新的特征向量,用于后续的分类和预测。该方法已应用于诸如肺结节的检测和分类、肿瘤的图像属性分析和癌症生存率预测等任务。

受上述研究的启发,我们采用了临床诊断学,影像组学和深度学习的组合模型来识别肺部肿瘤浸润性。由于肿瘤内部的异质性,单一模型无法有效地且全面提取肿瘤的有用特征。因此,所提出的方法使用特征提取的高级多尺度网络结构来探索成像表型,并预测肺癌肿瘤的浸润性。

本发明结合临床医学,传统影像组学方法和深度学习方法,将三种类型特征相融合,利用LASSO方法对特征筛选,采用SVM非线性分类器进行肺癌肿瘤浸润性的判别。传统影像组学和神经网络相结合,对浸润性判别的准确性有着较大提升。

发明内容

本发明通过充分发掘提取肺部肿瘤CT图像的特征,具体通过临床医学,影像组学和神经网络提取特征。本发明数据采集常州第一人民病人临床数据,包括病人肺部CT影像和医生标注肿瘤区域的影像图片,同时考虑到病人临床数据特征对最终诊断有着重要影响,我们收集了病人的基础临床数据,包括病人年龄,性别,基础病史,基因组特征等。对一系列CT影像进行三维融合,便于特征提取器获得特征。然后获取肺部CT影像中的ROI区域,对肿瘤标注图片中的ROI区域进行定位,每一个病人截取固定大小的肿瘤图像,作为模型的输入图像。采用影像组学特征提取器对输入肺部影像进行特征提取,同时采用三维卷积神经网络Densenet对图像特征提取,将临床特征,影像组学特征,深度学习特征进行融合。紧接着采用特征筛选方法,采用LASSO算法剔除对浸润性影响较小,甚至没有影响的特征,并且计算所选特征对预测值的影响权重。采集病人数据中,浸润性肿瘤与非浸润性肿瘤占比差距较大,采用SMOTE算法生成等量的两类训练数据最后采用非线性SVM分类模型对肺部肿瘤浸润性进行判别。

本发明仍然有可进步空间,存在优选方案。目前有如下几种方案及想法,其一,我们可以采用基于自注意力机制的深度学习模型Transformer,自注意力可以产生更具可解释性的模型。其二,本发明研究采用的是特征融合法,但是在最终的样本分类上我们采用了稳定性较好的SVM非线性分类器,据下一阶段的研究学习发现,采用其他高级非线性分类器或许效果更佳。

本发明研究与传统方法相比具有如下优点:其一,解决了临床医学仅依靠低维特征无法避免异质性和误诊,该方法在非典型肺癌病例中也能取得优秀表现。其二,影像组学的特征提取过程相对固定,这忽略了患者的个体差异。深度学习方法的加入,我们尝试去探究更全面的特征。其三,统计学方法LASSO保留了最重要的诊断特征,并得到特征权重值,解决了单纯深度学习神经网络在医学诊断方面缺乏可解释性,科学性的问题。

附图说明

图1是本发明的总体流程图;

图2是本发明的样本病例在ITK-SNAP软件中显示图;

图3是本发明的LASSO模型参数选取过程图;

图4是本发明中选取对肺部肿瘤浸润性有影响的特征过程图;

图5是本发明中SMOTE算法均衡浸润性肺癌与非浸润性肺癌数量图:

图5(a)是本发明中经过SMOTE算法均衡两类病例之前的数量分布图;

图5(b)是本发明中经过SMOTE算法均衡两类病例之后的数量分布图;

具体实施方式

表一是本发明中影像组学对浸润性的判别结果表。

表二是本发明中深度学习卷积网络对浸润性的判别结果表。

表三是本发明中临床医学、影像组学结合神经网络对浸润性的判别结果表。

具体实施步骤

病人数据采集:

我们收集了常州市第一人民医院2019年6月至2020年6月的肺部磨玻璃结节患者,并由两名经验丰富的心胸外科医生筛选入组患者。我们筛选了356例经本院手术切除并有明确的组织学病理亚型的患者。并选择性别、年龄、身高、体重、高血压、糖尿病以及浸润状态作为临床特征(表1)。具体入组标准如下:1.肺癌手术患者;2.病理报告显示为:不典型腺瘤样增生、原位腺癌、微浸润性腺癌、浸润性腺癌;3.入组患者有2毫米以下的常州市第一人民医院CT影像学资料;4.磨玻璃结节直径<2cm;5.磨玻璃结节实性成分<50%。排除标准为:1.死亡患者;2.有严重的心脑血管疾病或肝肾功能异常者;3.慢阻肺;4.大细胞肺癌;5.小细胞肺癌;6.中央型肺癌;7.合并其他混合性肺癌等。

CT扫描参数:

在本研究中,患者胸部薄层CT设备制造商包括GE、Phillips、Siemens。采集参数一致设置如下:电压140kVp(范围100-140kVp),管电流740mA(范围100-752mA),切片厚度1.0mm(范围0.65-2.0mm)。

图像分割与图像预处理:

所有患者的薄层CT原始数据通过拷贝后,使用ITK-SNAP软件(www.itksnap.org)加载,并对薄层CT中的肿瘤部位进行ROI绘制。当数据加载入ITK-SNAP软件时,所有患者的信息都是被屏蔽的。随后通过两名心胸外科医生进行整个肿瘤位置的三维ROI绘制,并由其他医生经行复查。所有薄层CT的三维ROI绘制均在肺窗水平进行。如图二所示,选择病人的肺部CT影像,(a)、(b)分别病人肺部侧视图和肿瘤标注区域图,(c)、(d)分别为病人肺部俯视图和肿瘤标注区域图,(e)、(f)分别为病人肺部主视图和肿瘤标注区域图。

根据标注图片中的ROI区域确定肺部CT图像中的肿瘤位置信息和大小信息,确定肿瘤中心点的位置坐标,在原CT图像上切取以得到的肿瘤中心坐标为中心的50*50*50的立方体肿瘤图像。接着进行图片归一化,统一化处理。具体包括:由于不同病人在CT获取时,CT影像的体像素大小不一致,故进行图像重采样。与自然图像不同,在医学影像中,人体部位真实的大小(成像大小)是非常重要的信息。因此例如在CT图像中,存在体素间距(spacing)和体素个数(resolution)两个指标:成像大小=spacing×resolution。

由于不同的扫描仪或不同的采集协议通常会产生具有不同体素间距的数据集,而神经网络CNN无法理解体素间距,因此我们需要将所有医学影像的spacing重采样到一致,这样resolution就可以反映成像大小了。

影像组学特征提取:

提取高通量的特征来定量分析ROI的实质属性。根据影像组学特征提取器提取病人肺部影像中的特征,特征包括:

1)形状特征:形状大小特征是反映肿瘤的形态、大小和规则度等信息的。例如肿瘤的长径、体积和表面积反映肿瘤的大小信息;肿瘤的椭球度反应其形状是否趋于球形;而紧实度反映肿瘤的形状是否规则,边缘是否规则等。

2)一阶统计学特征:一阶统计特征是通过计算ROI影像的灰度值获得的,通常包含最大值、最小值、均值、中值、范围、方差、峰度、偏度和熵等一阶统计量。一阶统计特征用于反映肿瘤内灰度强度的分布,反映肿瘤内的异质性。

3)纹理特征:上述一阶统计特征和形状大小特征反映了影像中易于被视觉感知的低维信息(如亮度和形状等)。不同于一阶统计特征以及形状特征,纹理特征的获得主要通过几个纹理矩阵:如灰度相关矩阵(GLDM)、灰度区域大小矩阵(GLSZM)、灰度共生矩阵(GLCM)、灰度游程矩阵(GLRLM)和邻域灰度差分矩阵(NGTDM)等,这些特征能够量化肿瘤内部的纹理模式或组织分布等难以被视觉简单感知的信息。

4)高阶特征以及基于模型转换的特征:尽管上述三种类型的特征分别从低维和高维方面反映了肿瘤的视觉信息和纹理模式,但这些信息量是有限的。为了获得不同频域的信息,在特征提取中还会应用到小波变换,其将原始的肿瘤影像分解到不同的频域中,之后再在各个小波图像中分别提取上述三种类型的特征。小波变换能够得到多频域多尺度的影像信息,对于难以用简单的肿瘤影像视觉特征进行描述的临床问题,小波特征这种高维抽象特征可能发挥出不同的作用,捕捉到不易被视觉感知的临床信息。

以上四类特征,我们在影像组学特征提取器的帮助下,逐一从CT影像中提取,作为定量分析肿瘤的依据。

深度学习特征提取:

利用三维神经网络Densenet提取CT影像特征具体包括如下几个部分。

1)数据增强:CT扫描也通过在训练期间在随机角度旋转来增强数据。由于数据存储在Rank-3的形状中,因此我们在轴4处添加大小1的尺寸,以便能够对数据执行3D卷积。在定义训练和验证数据加载器的同时,训练数据将进行不同角度的随机旋转。训练和验证数据都已重新将灰度值归一到零至一。

2)构建训练集与验证集:将训练集与验证集采用7∶3划分,采用随机划分模式。

3)构建3D卷积神经网络模型并训练模型:搭建3维神经网络,指定save_best_only=True保存效果最好时刻模型权重,指定早停策略,之后得到最佳模型权重参数。

4)模型损失函数的选取:损失函数选取Binary cross-entropy。

(其中y

模型优化器的选择:模型优化器选择Adam,Adam算法记录了梯度的一阶矩,即过往所有梯度与当前梯度的平均,使得每一次更新时,上一次更新的梯度与当前更新的梯度不会相差太大,即梯度平滑、稳定的过渡,可以适应不稳定的目标函数。

5)学习率的设置:设置动态学习率,在模型训练初期,会使用较大的学习率进行模型优化,随着迭代次数增加,学习率会逐渐进行减小,保证模型在训练后期不会有太大的波动,从而更加接近最优解。

6)获取CT特征:模型加载预训练权重参数,输出每个病人特征。

特征融合与筛选:

临床医学特征、影像组学特征与神经网络特征融合:将每个病人的临床特征、影像组学特征和神经网络提取的特征相结合,组成新的特征向量。

这一阶段就是从所有特征中选择重要的,对浸润性有着影响的特征。我们虽然通过三种方法提取了CT影像中肿瘤的各方面特征数据,但是这些特征并不是对浸润性都有影响,所以我们应用LASSO算法来选择训练中分类能力最强的特征。

其中LASSO算法具体如下:LASSO的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型,模型函数工作原理如下所示:

y

m为特征个数,w

本发明中LASSO算法的应用,将病人多重特征系数进行压缩并使回归系数改变,进而达到特征选择的目的,筛选出对浸润性有影响的特征。选取的特征如图4所示,横轴为所选特征名称,纵轴为特征权重。

分类器训练:

由于采集病人肺部肿瘤类型浸润性占比较大,整体数据中,患有浸润性肺部肿瘤病人与患有非浸润性(原位性)肺部肿瘤数量之比为5∶3,训练集中浸润性肺腺癌占比大,导致最终模型对浸润性肺腺的预测敏感度较高,故采用SMOTE算法均衡样本比例。SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。对以上数据采用SMOTE算法后,训练集中两种种类数据数量占比为1∶1。原始数据分布如图5(a)所示,采用SMOTE算法之后数据分布如图5(b)所示。

在分类判别阶段,我们采用SVM非线性分类器对肿瘤浸润性进行判别。SVM是一种二分类模型,是定义在特征空间上的间隔最大的线性分类器;SVM还包括核技巧,本发明中采用RBF核函数,使得能够实现非线性映射。

结果对比显示

对肺部肿瘤浸润性的判别方法初步思路是有四种:

方法一:是根据病理学理论,对病人肺部肿瘤区域人为提取可用特征,如微毛细管,经过临床医学总结,对肺部肿瘤分期,类型,浸润性的判别准确率达到60%。

方法二:是采用影像组学的方法,对肺部CT影像和标注影像进行特征提取,再采用SVM分类器进行浸润性的判别。结果如表一所示。

表一 影像组学判断浸润性结果表

注:0表示非浸润性肺癌病例,1表示浸润性肺癌病例

方法三:是采用深度学习卷积网络(Densenet模型)的方法。经过多轮次模型训练,得到最终模型权重,并对测试集病例进行肺癌浸润性的预测。结果如表二所示。

表二 深度学习卷积网络判断肺癌浸润性结果表

注:0表示非浸润性肺癌病例,1表示浸润性肺癌病例

方法四:是结合三种方法,先采用影像组学提取出影像组学特征,再采用深度学习方法提取非线性特征。将影像组学特征结合神经网络特征以及临床病理特征形成最终特征向量,最后采用SVM非线性分类器进行对浸润性的判别。结果如表三所示。

表三 临床医学、影像组学和深度学习卷积网络判断肺癌浸润性结果表

注:0表示非浸润性肺癌病例,1表示浸润性肺癌病例

各方法结果表格公式注释:

真实值是positive,模型认为是positive的数量(True Positive=TP);

真实值是positive,模型认为是negative的数量(False Negative=FN);

真实值是negative,模型认为是positive的数量(False Positive=FP);

真实值是negative,模型认为是negative的数量(True Negative=TN);

Macro avg:各类的Precision,Recall,F1加和求平均;

Weighted avg:对每一类别的f1_score进行加权平均,权重为各类别数在y_true中所占比例。

讨论

本发明通过充分发掘CT影像中的特征,采用临床医学、影像组学和深度学习结合的方法,相较于单独使用影像组学或者深度学习的方法都大大提高了对肺部肿瘤浸润性判断的准确率。

单一依靠临床诊断学方法,异质性和误诊难免会发生,并且临床诊断学主观性影响较大,诊断精准度不具备稳定性。影像组学相较于临床诊断学,取得了较好效果。由于其发掘出CT影像中更高维特征,然而这些特征仅靠人眼难以识别和发现,同时这些特征也对浸润性起着重要作用。

深度学习在图像分析和计算机视觉领域取得了巨大成功,并完成了许多复杂的图像分类任务。然而,在实验过程中,已经发现纯深度学习不能有效地改进分类结果。深度学习方法(网络模型为Densenet)的灵敏度仅为0.650,特异性为0.730。由影像组学提取的低阶特征可用于描述肿瘤的一般形态、位置和纹理信息,而深度学习可提取高阶特征以形成每个患者的更个性化分类模型。同时临床医学诊断仍具备一定指导意义,例如病人的基础病史,基因测试,这些对肺癌的浸润性有着重要影响。实验表明,这三种方法的结合确实达到了最高的精度。

本技术方案取得上述成果的技术原因有:

1)多特征融合,作为诊断依据影像组学特征,影像组学提取特征包括形状特征、一阶统计学特征、纹理特征高阶特征以及基于模型转换的特征。深度学习提取的非线性特征二者者相结合,组成综合特征向量。弥补了单一方面特征在诊断肺部肿瘤的浸润性的精度不足缺点。

2)临床诊断学的加入,收集病人基础病史,基因测试等多方面临床数据,临床诊断学的加入,使得诊断结果更具备精准性。

3)传统统计学方法的加入,例如LASSO算法,筛选出重要特征作为浸润性的判别依据,同时计算特征权重值,而非传统深度学习的黑盒实验。使得最终结果具备可解释性和科学性。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号