首页> 中国专利> 一种基于3D UNet的纵隔肿物识别方法、装置及存储介质

一种基于3D UNet的纵隔肿物识别方法、装置及存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于3D UNet的纵隔肿物识别方法、装置、电子设备及存储介质，所述方法通过将待识别图像输入到模型中，其中，所述模型是基于3D UNet网络结构使用多组训练数据训练出来的，所述多组训练数据训中的每一例数据均包括:增强和平扫两个序列的CT图像；所述模型的输出信息包括纵隔肿物的位置信息，本发明使用增强和平扫CT图像数据构建一个使用3D UNet网络结构的纵隔肿物识别模型，实现对纵隔肿物的识别和精准定位。

著录项

公开/公告号CN113017670A

专利类型发明专利
公开/公告日2021-06-25

原文格式PDF
申请/专利权人北京小白世纪网络科技有限公司;
展开▼

申请/专利号CN202110223935.6
发明设计人杜强;高泽宾;郭雨晨;聂方兴;唐超;
展开▼

申请日2021-03-01
分类号A61B6/03(20060101);
代理机构11543 北京八月瓜知识产权代理有限公司;
代理人李斌
地址 100083 北京市海淀区王庄路1号院清华同方科技大厦D座19层
入库时间 2023-06-19 11:39:06

说明书

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于3D UNet的纵隔肿物识别方法、装置、电子设备及存储介质。

背景技术

在医学上，纵隔是指在前为胸骨，后为脊柱，上为脖子，下为膈肌围成的区域。它包含心脏、胸腺、某些淋巴结，以及部分气道(气管)、食道、主动脉、甲状腺和甲状旁腺,不包括肺。医生根据肿瘤发生在纵隔的哪个部位，将肿物分为：前纵隔、中纵隔及后纵隔肿物。而纵隔肿瘤及囊肿是指纵隔中的异常肿物，可以是先天性组织发育异常形成，也可以为原发性或转移性肿瘤。纵隔肿瘤包括肿瘤、充满液体的囊(囊肿)，以及纵隔器官的其他异常。这些肿瘤可能没有症状，但它们也可能会导致胸痛、消瘦、发热、吞咽困难、咳嗽或呼吸困难，尤其是在儿童中。肿瘤的生长部位可能会提供肿瘤起因的线索。非癌性肿物包括心脏囊肿以及发生在器官壁的袋状囊或凸起，如食管(称为憩室)或主动脉(称为动脉瘤)。

纵隔肿物包含多种疾病类型。以胸腺肿瘤为例，其包括来源于胸腺上皮细胞的肿瘤-胸腺瘤和胸腺癌，来源于胸腺淋巴细胞的霍奇金淋巴瘤及其它淋巴瘤，来源于胸腺内分泌细胞的肿瘤-胸腺类癌、燕麦细胞癌等；此外还包括生殖细胞肿瘤、胸腺脂肪瘤、胸腺囊肿、转移癌等。胸腺肿瘤中90％为胸腺瘤，其余是胸腺癌、淋巴瘤及类癌等。胸腺瘤在全部成人恶性肿瘤中不足1％，在成人前纵隔肿瘤中约占30％。

影像学检查可以辅助医生快速筛选诊断纵隔肿物。以胸腺瘤为例，近80％胸腺瘤患者在正位胸片上表现为纵隔轮廓异常或肿物。胸部增强CT是诊断前纵隔肿物的首选影像检查方法，CT不仅能显示病变大小、密度、边缘，而且能提示病变与胸腔内周围器官包括大血管、肺、心包、心脏、胸膜等的关系，肿块内钙化、出血、坏死常提示肿瘤侵袭性高。在增强CT序列中，血管等会呈现高密度特征，此时纵隔肿物呈低密度特征，较易识别。但通常情况下，在筛查和一般的CT检查中，造影剂不会被轻易使用，因为其对身体有一定影响。而在平扫CT中，纵隔肿物与血管一样呈低密度特征。此时不易分别。

纵隔肿物据有发病率低的特点。以胸腺瘤为例，据美国国家癌症研究所报告，美国胸腺瘤的发病率为0.15/10万，可学习样本较少。

综合上述特点，CT可以帮助医生快速诊断纵隔肿物，但其中存在三个难点。一是平扫CT中肿物不突出，特征不明显；二是由于发病率低，可学习的影像样例少，再加上个别类型在整体发病率中所占更少，其案例就更加匮乏；三是疾病分型较多，准确区分较难。这三点对于影像科医生是一个很大的挑战，尤其是经验较少的影像科医生，可能出现漏诊现象。

随着计算机和数字图像处理技术的发展，出现了许多计算机图像算法用于处理CT图像，帮助医生诊断癌症。但是一方面这些算法有相当一部分基于传统机器学习，取得的诊断精度有限；另一方面，受限于纵隔肿物图像收集难度，这些数据集规模往往较小。因此其泛化性能收到限制。

发明内容

本发明的目的在于提供一种基于3D UNet的纵隔肿物识别方法、装置、电子设备及存储介质，使用增强和平扫CT图像数据构建一个使用3D UNet网络结构的纵隔肿物识别模型，实现对纵隔肿物的识别和精准定位。

第一方面，本发明实施例提供了一种基于3D UNet的纵隔肿物识别方法，所述方法包括以下步骤：

将待识别图像输入到模型中，其中，所述模型是基于3D UNet网络结构使用多组训练数据训练出来的，所述多组训练数据训中的每一例数据均包括:增强和平扫两个序列的CT图像；

获取所述模型的输出信息，其中，所述模型的输出信息包括纵隔肿物的位置信息。

可选地，所述多组训练数据训中的每一例数据均由至少一名专家使用标注工具勾画病灶区域的边界，标注结果以JSON的格式存储，进而通过处理得到分割级别的标注。

可选地，基于3D UNet网络结构使用多组训练数据训练包括；

对训练数据做预处理和离线数据增强；

经过预处理后的数据被送入3D UNet网络本抽取深层次特征并与浅层特征整合；

使用增强CT训练，并将训练好的模型迁移到平扫CT数据上进行训练。

可选地，所述对训练数据做预处理和离线数据增强包括：

预处理包括裁剪和重采样，其中，裁剪操作指将肺部区域从整体影像中裁剪出来，重采样将不同类型的影像数据重采样到空间分辨率为1mm×1mm×1mm，之后使用图像图形学的方法处理得到身体区域；

离线数据增强方法包括，上下翻转、左右翻转、3维空间的旋转和像素偏移。

可选地，所述使用图像图形学的方法处理得到身体区域包括：

图像灰度化；

对灰度化图像采用OTSU算法得到二值图；

对所述二值图进行开运算处理噪声，进行边缘检测得到身体区域范围。

第二方面，本发明实施例提供了一种基于3D UNet的纵隔肿物识别装置，所述纵隔肿物识别装置包括：

识别模块，用于将待识别图像输入到模型中，其中，所述模型是基于3D UNet网络结构使用多组训练数据训练出来的，所述多组训练数据训中的每一例数据均包括:增强和平扫两个序列的CT图像；

输出模块，用于获取所述模型的输出信息，其中，所述模型的输出信息包括纵隔肿物的位置信息。

可选地，所述识别模块包括：

预处理单元，用于对训练数据做预处理和离线数据增强；

整合单元，用于使经过预处理后的数据被送入3D UNet网络本抽取深层次特征并与浅层特征整合；

增强训练单元，用于使用增强CT训练，并将训练好的模型迁移到平扫CT数据上进行训练。

第三方面，本发明提供了一种电子设备，包括：

处理器；用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现上述的方法。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述方法的步骤。

有益效果

本发明提出了一种基于3D UNet的纵隔肿物识别方法，通过将待识别图像输入到模型中，其中，所述模型是基于3D UNet网络结构使用多组训练数据训练出来的，所述多组训练数据训中的每一例数据均包括:增强和平扫两个序列的CT图像；所述模型的输出信息包括纵隔肿物的位置信息，使用增强和平扫CT图像数据构建一个使用3D UNet网络结构的纵隔肿物识别模型，实现对纵隔肿物的识别和精准定位。

附图说明

图1为本发明实施例的基于3D UNet的纵隔肿物识别方法的流程图；

图2为本发明实施例的基于3D UNet网络结构使用多组训练数据训练方法的流程图；

图3为本发明实施例的3D UNet的纵隔肿物图像识别模型的结构框图；

图4为本发明实施例的提取图像特征所使用的3D UNet网络结构的示意图；

图5为本发明实施例的基于3D UNet的纵隔肿物识别装置的结构框图；

图6为图5中的基于3D UNet的纵隔肿物识别装置的识别模块的结构框图；

图7为本发明实施例的一种电子设备的结构框图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的在于基于3D UNet的纵隔肿物识别方法、装置、电子设备及存储介质，使用增强和平扫CT图像数据构建一个使用3D UNet网络结构的纵隔肿物识别模型，实现对纵隔肿物的识别和精准定位，下面结合附图说明和具体实施例对本发明作进一步描述：

图1示出了本发明实施例的一种基于3D UNet的纵隔肿物识别方法的流程图，如图1所示，所述纵隔肿物识别方法包括以下步骤：

S20、将待识别图像输入到模型中，其中，所述模型是基于3D UNet网络结构使用多组训练数据训练出来的，所述多组训练数据训中的每一例数据均包括:增强和平扫两个序列的CT图像；生物医学影像(biomedical images)很多时候都是块状的，也就是说是由很多个切片构成一整张图的存在。用2D的图像处理模型去处理3D会存在一个问题，就是需要将生物医学影像的图片一个slice一个slice成组的(包含训练数据和标注好的数据)的送进去设计的模型进行训练，效率较低，并且数据预处理的方式也相对比较繁琐；训练过程中需要收集多组纵隔肿物相关数据，每例数据包含增强和平扫两个序列的CT图像；

S40、获取所述模型的输出信息，其中，所述模型的输出信息包括纵隔肿物的位置信息。

本实施例提出了一种基于3D UNet的纵隔肿物识别方法，通过将待识别图像输入到模型中，其中，所述模型是基于3D UNet网络结构使用多组训练数据训练出来的，所述多组训练数据训中的每一例数据均包括:增强和平扫两个序列的CT图像；所述模型的输出信息包括纵隔肿物的位置信息，使用增强和平扫CT图像数据构建一个使用3D UNet网络结构的纵隔肿物识别模型，实现对纵隔肿物的识别和精准定位。

具体地，所述多组训练数据训中的每一例数据均由至少一名专家使用标注工具勾画病灶区域的边界，标注结果以JSON的格式存储，进而通过处理得到分割级别的标注。

具体地，如图2所示，基于3D UNet网络结构使用多组训练数据训练包括；

S201、对训练数据做预处理和离线数据增强；

S202、经过预处理后的数据被送入3D UNet网络抽取深层次特征并与浅层特征整合；

S203、使用增强CT训练，并将训练好的模型迁移到平扫CT数据上进行训练。

具体地，在一些实施例中，所述对训练数据做预处理和离线数据增强包括：

预处理包括裁剪和重采样，其中，裁剪操作指将肺部区域从整体影像中裁剪出来，重采样将不同类型的影像数据重采样到空间分辨率为1mm×1mm×1mm，之后使用图像图形学的方法处理得到身体区域；裁剪指将肺部区域从整体影像中裁剪出来，重采样将不同类型的影像数据重采样到空间分辨率为1mm×1mm×1mm。离线数据增强方法包括，上下翻转、左右翻转、3维空间的旋转和像素偏移。经过预处理后的数据被送入深度学习网络提取特征，该网络接受3D数据作为输入。由于3D数据较大，对于计算资源需求较大，因此，每一次从整个序列中抽取连续的16个slice送入网络。训练时，首先使用增强CT训练，然后将训练好的模型迁移到平扫CT数据上进行训练。

需要说明的是，所述使用图像图形学的方法处理得到身体区域包括：

图像灰度化；

对灰度化图像采用OTSU算法得到二值图；

对所述二值图进行开运算处理噪声，进行边缘检测得到身体区域范围。

下面以一较优的实施例对本发明一种基于3D UNet的纵隔肿物识别模型进行说明：

本实施例提出的使用3D UNet的纵隔肿物图像识别模型其结构框图如图3所示。

首先需要对数据做预处理和离线数据增强。基本的预处理包括裁剪和重采样。裁剪操作指将肺部区域从整体影像中裁剪出来，重采样将不同类型的影像数据重采样到空间分辨率为1mm×1mm×1mm。离线数据增强方法包括像素偏移、上下或左右翻转。经过预处理后的数据被送入深度学习网络提取特征，该网络接受3D数据作为输入。由于3D数据较大，对于计算资源需求较大，因此，每一次从整个序列中抽取连续的16个slice送入网络。训练时，首先使用增强CT训练，然后将训练好的模型迁移到平扫CT数据上进行训练。

(1)图像预处理

不同医院的的纵隔肿物图像其空间分辨率不一致，为了便于网络训练，首先将图像重采样到空间分辨率为1mm×1mm×1mm，之后使用图像图形学的方法处理得到身体区域。图像图形学的方法流程为：图像灰度化，OTSU算法得到二值图，对二值图进行开运算处理噪声，进行边缘检测得到身体区域范围。经过图像图形学处理之后可以去除大部分图像中无关区域。

(2)离线数据增强

为提高模型性能，需要对图像数据做离线增强处理。离线增强的处理方式包括上下翻转、左右翻转、3维空间的旋转和像素偏移。

(3)提取图像特征并分类

为了更好地描述图像所包含的内容，需要将输入图像转化为向量的形式，即进行特征提取。通过深层次的特征提取可以预测某一个像素是否为前景类。但深层次特征空间分辨率较低，对病灶区域勾画不精确。因此深层次特征还要与浅层特征融合得到较准确的位置信息。对此，本发明使用3D UNet深度学习网络抽取深层次特则并与浅层特征整合。设第N层为最深层次特征，记为x

本发明提取图像特征所使用的3D UNet网络结构如图4所示。CT图像数据送入网络后先经过一个BN层，然后经过4个Block模块提取特征。每个模块包含2个卷积层，卷积核大小为3*3，每个卷积层后接RELU和BN层，每个模块最后Pool层做下采样。最深层即第4block输出特征上采样后与第3block特征融合经过卷积后得到第5block输出，依次递推得到最后输出，经全连接层和ReLu激活得到特征向量预测结果。

(4)训练超参数及策略设置

不同的超参数会导致不同的模型性能，手动调节超参数依赖于算法工程人员的经验，本发明采用网格搜索方式自动搜索超参数。搜索超参数包括初始学习率、权重衰退参数等。

训练共400个epoch，训练时使用两个loss：

具体地，前200个epoch loss函数为：

loss＝0.001×diceloss+bceloss

后200个epoch loss函数为：

loss＝0.1×diceloss+bceloss

训练时学习率采用warmup和cosine变化的策略，warmup指最初的n代学习率线性增长至预设值，然后根据epoch代数余弦变化衰减至0.

训练时优化器使用AdaBound。

(5)评价指标

对于实验结果，本文使用Dice Score进行评价，Dice公式为：

(6)迁移学习

上述步骤是平扫和增强CT共用设置，为了增强平扫CT模型的精度，先使用增强CT进行400个epoch的训练得到模型Model_enhancement,然后使用该模型权重作为初始化参数使用平扫CT进行400个epoch训练，得到Model_plain。

本发明使用的纵隔肿物数据来自于三家医院，上海胸科医院，北大深圳医院和广州医科大学附属第一医院。共收集360例纵隔肿物相关数据，每例数据包含纵隔和平扫两个序列。训练集和验证集划分：

训练集：来自337位病人的680个CT序列；

测试集：23位病人的46个CT序列。

每一例数据均有至少一名专家使用标注工具勾画病灶区域的边界，标注结果以JSON的格式存储，进而通过处理得到分割级别的标注。

通过在纵隔肿物数据集上的实验，本发明所提出的基于3D UNet和迁移学习的深度学习的图像识别方法具有较好的表现。具体来说，在增强CT中，使用337例病人数据作为训练集，23例病人数据做测试集，本文算法达到了测试集上Dice 0.76的结果；对于平扫CT，若不使用迁移学习，Dice为0.3366，使用增强CT的模型进行迁移学习，Dice可以提升到0.5386，证明了迁移学习的有效性.

基于同一发明构思，本申请实施例还提供了一种基于3D UNet的纵隔肿物识别装置，可以用于实现上述实施例中所描述的方法，如下面实施例所述。由于该基于3D UNet的纵隔肿物识别装置解决问题的原理与一种基于3D UNet的纵隔肿物识别方法相似，因此一种基于3D UNet的纵隔肿物识别装置的实施可以参见一种基于3D UNet的纵隔肿物识别方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

具体地，如图5所示，所述纵隔肿物识别装置包括：

识别模块20，用于将待识别图像输入到模型中，其中，所述模型是基于3D UNet网络结构使用多组训练数据训练出来的，所述多组训练数据训中的每一例数据均包括:增强和平扫两个序列的CT图像；

输出模块40，用于获取所述模型的输出信息，其中，所述模型的输出信息包括纵隔肿物的位置信息。

如图6所示，所述识别模块20包括：

预处理单元201，用于对训练数据做预处理和离线数据增强；

整合单元202，用于使经过预处理后的数据被送入3D UNet网络抽取深层次特征并与浅层特征整合；

增强训练单元203，用于使用增强CT训练，并将训练好的模型迁移到平扫CT数据上进行训练。

本申请实施例还提供了一种电子设备，图7示出了可以应用本申请实施例的电子设备的结构示意图，如图7所示，该计算机电子设备包括，中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中一种基于3D UNet的纵隔肿物识别装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入电子设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的基于3D UNet的纵隔肿物识别方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于3D UNet的纵隔肿物识别方法、装置及存储介质 [P] . 中国专利： CN113017670A . 2021-06-25
2. 纵隔肿物识别方法、系统及装置 [P] . 中国专利： CN113139627A . 2021-07-20
3. A METHOD OF IDENTIFYING A PERSON ON THE BASIS OF A DEFORMABLE 3D MODEL [P] . 世界知识产权组织专利： WO2008020038A1 . 2008-02-21

机译：一种基于可变形3D模型的人员识别方法
4. A METHOD FOR ADJUSTING TIME DIFFERENCE BASED ON MEANING OF DIVERSE RESOURCES, AN APPARATUS FOR ADJUSTING TIME DIFFERENCE BASED ON MEANING OF DIVERSE RESOURCES AND STORAGE MEDIUM FOR STORING A PROGRAM ADJUSTING TIME DIFFERENCE BASED ON MEANING OF DIVERSE RESOURCES [P] . 韩国专利： KR101374197B1 . 2014-03-12

机译：一种基于多元资源度量的时差调整方法，一种基于多元资源度量和存储介质值调整时差的装置，一种基于多元度量值存储时差的程序
5. Position recognition method and device based on sparse point group using low channel 3D lidar sensor [P] . KR20210065728A . 2021-06-04

机译：基于低通道3D LIDAR传感器的基于稀疏点组的位置识别方法和装置