首页> 中国专利> 模型训练方法、医学图像融合方法、装置、设备和介质

模型训练方法、医学图像融合方法、装置、设备和介质

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本公开提供了一种医学图像融合模型训练方法、装置、设备、介质和程序产品，涉及人工智能领域。该方法包括：将N个训练图像分别输入至所述编码器中的M个第一卷积层，得到每个训练图像的M个第一特征图；对所述每个训练图像的M个第一特征图进行拼接，得到所述每个训练图像的第二特征图；将所述编码器的输出作为所述融合层的输入，得到所述N个训练图像的融合特征图；将所述融合特征图输入至所述解码器，得到训练融合图像；利用融合图像和N个训练图像之间的差距程度训练医学图像融合模型。本公开还提供了一种医学图像融合方法、装置、设备、存储介质和程序产品。

著录项

公开/公告号CN114897756A

专利类型发明专利
公开/公告日2022-08-12

原文格式PDF
申请/专利权人中加健康工程研究院（合肥）有限公司;
展开▼

申请/专利号CN202210613882.3
发明设计人苏进;李学俊;周笛;王华彬;张弓;
展开▼

申请日2022-05-31
分类号G06T5/50(2006.01);G06T7/90(2017.01);G06V10/80(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);G06K9/62(2022.01);
代理机构中科专利商标代理有限责任公司 11021;
代理人张体南
地址 230001 安徽省合肥市高新区习友路与孔雀台路交口国家健康大数据产业园B5栋
入库时间 2023-06-19 16:22:17

法律信息

法律状态公告日

法律状态信息

法律状态
2022-08-30

实质审查的生效 IPC(主分类):G06T 5/50 专利申请号:2022106138823 申请日:20220531

实质审查的生效

说明书

技术领域

本公开涉及人工智能领域，更具体地，涉及一种医学图像融合模型训练方法、医学图像融合方法、装置、设备、介质和程序产品。

背景技术

随着传感技术的快速发展，人们对医学成像质量的要求不断提高，但单传感器获取的信息内容单一，难以为医生提供全面丰富的信息。利用图像融合技术将多幅图像的特征信息融合到一幅图像，可以弥补信息不足的缺陷。

图像融合技术是将多幅图像的互补信息融合成一幅图像的技术，对不同模态的医学图像进行融合，可获得更加丰富的有用信息。传统的图像融合算法需要依赖图像像素活动水平测量和手工融合规则设计。

在实现本公开发明构思的过程中，发明人发现相关技术中至少存在以下问题：由于医学图像种类较多，差异较大，传统医学图像融合方法很难充分提取源图像中的有效信息，且人工设计的融合规则很难考虑全面，导致融合后的图像出现颜色、纹理等有效信息丢失和清晰度下降等问题。

发明内容

鉴于上述问题，本公开提供了一种能够提高多模态医学图像融合效果的医学图像融合模型训练方法、医学图像融合方法、装置、设备、介质和程序产品。

本公开实施例的一个方面提供了一种医学图像融合模型训练方法，其中，所述医学图像融合模型包括编码器、融合层和解码器，所述方法包括：将N个训练图像分别输入至所述编码器中的M个第一卷积层，得到每个训练图像的M个第一特征图，其中，所述N个训练图像包括N个单模态医学图像，所述M个第一卷积层中任两个卷积层之间相并行，且具有不同大小的卷积核，N、M分别为大于或等于2的整数；对所述每个训练图像的M个第一特征图进行拼接，得到所述每个训练图像的第二特征图；将所述编码器的输出作为所述融合层的输入，得到所述N个训练图像的融合特征图，其中，所述编码器的输出根据所述每个训练图像的第二特征图获得；将所述融合特征图输入至所述解码器，得到训练融合图像；利用融合图像和N个训练图像之间的差距程度训练医学图像融合模型，其中，所述差距程度利用损失函数计算获得。

根据本公开的实施例，所述编码器还包括密集块，所述密集块包括采用密集连接的S个卷积层，S为大于或等于2的整数，在将所述编码器的输出作为所述融合层的输入之前，所述方法还包括：将所述每个训练图像的第二特征图输入至所述密集块，得到所述编码器的输出。

根据本公开的实施例，所述编码器的输出包括所述N个训练图像的N个第二特征图，所述融合层根据注意力机制得到，所述将所述编码器的输出作为所述融合层的输入，得到所述N个训练图像的融合特征图包括：根据所述注意力机制处理所述N个第二特征图，得到N个第三特征图；根据所述N个第三特征图，得到所述融合特征图。

根据本公开的实施例，所述注意力机制包括通道注意力机制和空间注意力机制，所述根据所述注意力机制处理所述N个第二特征图，得到N个第三特征图包括：对于每个第二特征图执行以下操作，根据所述通道注意力机制处理所述每个第二特征图，得到第四特征图；根据所述空间注意力机制处理所述每个第二特征图和对应的第四特征图，得到第五特征图；根据所述每个第二特征图和对应的第五特征图，得到所述每个第二特征图对应的第三特征图。

根据本公开的实施例，所述根据所述每个第二特征图和对应的第五特征图，得到所述每个第二特征图对应的第三特征图包括：将所述每个第二特征图和对应的第五特征图相加，得到所述每个第二特征图对应的第三特征图。

根据本公开的实施例，还包括利用以下至少一个损失函数获得所述对比损失：利用第一损失函数获得所述训练融合图像和所述N个训练图像之间的强度损失；利用第二损失函数获得所述训练融合图像和所述N个训练图像之间的梯度损失；利用第三损失函数获得所述训练融合图像和所述N个训练图像之间的相似度损失。

根据本公开的实施例，所述N个训练图像包括第一训练图像和第二训练图像，所述编码器包括第一编码器和第二编码器，所述将N个训练图像分别输入至所述编码器中的M个卷积层，得到每个训练图像的M个第一特征图包括：将所述第一训练图像输入至所述第一编码器中的M个卷积层，得到所述第一训练图像的M个第一特征图，其中，所述第一训练图像为结构图像；将所述第二训练图像输入至所述第二编码器中的M个卷积层，得到所述第二训练图像的M个第一特征图，其中，所述第二训练图像为功能图像。

根据本公开的实施例，所述第二训练图像为伪彩色图像，在将所述第二训练图像输入至所述第二编码器中的M个卷积层之前，还包括：将所述第二训练图像由RGB色彩空间转换至YUV色彩空间；其中，所述将所述第二训练图像输入至所述第二编码器中的M个卷积层包括：将所述第二训练图像的Y通道亮度图像输入至所述第二编码器中的M个卷积层。

根据本公开的实施例，所述将所述融合特征图输入至所述解码器，得到训练融合图像包括：将所述融合特征图输入至所述解码器，得到融合后的Y通道亮度图像；将所述融合后的Y通道亮度图像，以及所述第二训练图像的U和V通道色度图像，由YUV色彩空间转换至RGB色彩空间，得到所述训练融合图像。

本公开实施例的另一方面提供了一种医学图像融合方法，包括：将K个待融合图像输入至医学图像融合模型，得到融合图像，其中，所述K个待融合图像包括K个单模态医学图像，所述医学图像融合模型根据如上所述的方法训练得到。

本公开实施例的另一方面提供了一种医学图像融合模型训练装置，其中，所述医学图像融合模型包括编码器、融合层和解码器，所述装置包括：第一输入模块，用于将N个训练图像分别输入至所述编码器中的M个第一卷积层，得到每个训练图像的M个第一特征图，其中，所述N个训练图像包括N个单模态医学图像，所述M个第一卷积层中任两个卷积层之间相并行，且具有不同大小的卷积核，N、M分别为大于或等于2的整数；特征拼接模块，用于对所述每个训练图像的M个第一特征图进行拼接，得到所述每个训练图像的第二特征图；特征融合模块，用于将所述编码器的输出作为所述融合层的输入，得到所述N个训练图像的融合特征图，其中，所述编码器的输出根据所述每个训练图像的第二特征图获得；第二输入模块，用于将所述融合特征图输入至所述解码器，得到训练融合图像；模型训练模块，用于利用融合图像和N个训练图像之间的差距程度训练医学图像融合模型，其中，所述差距程度利用损失函数计算获得。

本公开实施例的另一方面提供了一种医学图像融合装置，包括：图像融合模块，用于将K个待融合图像输入至医学图像融合模型，得到融合图像，其中，所述K个待融合图像包括K个单模态医学图像，所述医学图像融合模型根据如上所述的方法训练得到。

本公开实施例的另一方面提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行如上所述的方法。

本公开实施例的另一方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如上所述的方法。

本公开实施例的另一方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述的方法。

上述一个或多个实施例具有如下有益效果：首先，在编码器阶段通过M个第一卷积层提取出每个训练图像的M个第一特征图，由于任两个卷积层之间具有不同大小的卷积核，可以使用不同尺度的卷积核来提高网络浅层特征的提取能力，增加了提取的图像特征的多样性。然后，在融合层对编码器的输出进一步增强。最后，通过解码器对融合的抽象特征层层解码得到训练融合图像。可以至少部分地解决传统图像融合方法中需要手工测量像素活动水平和设计繁琐的融合规则的问题。并且，利用训练完成的模型进行图像融合，融合后的图像具有较高的清晰度、对比度、色彩保真度高，且纹理细节清楚，视觉效果较佳，较好保留了源图像的基本信息。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的医学图像融合模型训练方法或医学图像融合方法的应用场景图；

图2示意性示出了根据本公开实施例的医学图像融合模型的架构图；

图3示意性示出了根据本公开实施例的医学图像融合模型训练方法的流程图；

图4示意性示出了根据本公开实施例的获得第一特征图的流程图；

图5示意性示出了根据本公开实施例的对第二训练图像预处理的流程图；

图6示意性示出了根据本公开实施例的得到训练融合图像的流程图；

图7示意性示出了根据本公开实施例的融合层的架构图；

图8示意性示出了根据本公开实施例的通道注意力模块的架构图；

图9示意性示出了根据本公开实施例的空间注意力模块的架构图；

图10示意性示出了根据本公开实施例的得到融合特征图的流程图；

图11示意性示出了根据本公开实施例的得到第三特征图的流程图；

图12示意性示出了根据本公开实施例的医学图像融合模型训练装置的结构框图；

图13示意性示出了根据本公开实施例的适于实现医学图像融合模型训练方法或医学图像融合方法的电子设备的方框图。

具体实施方式

为了便于理解本公开实施例的技术方案，首先对本公开涉及的一些技术术语进行介绍。

医学图像：从医学影像学的角度来看常见的医学图像大致可分为两大类：结构图像和功能图像。

结构图像：主要包括计算机断层扫描(Computed Tomography，CT)图像和磁共振(Magnetic Resonance，MR)图像，其中CT图像可对骨骼组织和高密度组织进行准确定位并且扫描速度快，但CT图像无法获得低密度的软组织的准确信息。MR图像主要提供软组织的解剖结构信息，空间分辨率高，且安全无辐射。其中MR-T1图像可准确反映组织的解剖结构，而MR-T2可提供组织病变的细节，但均对对血管、钙化和骨化显示不明显，且不能反映人体组织和器官的代谢信息。

功能图像：主要包括正电子发射断层扫描(Positron Emission Tomography，PET)图像和单光子发射计算机断层扫描(Single-Photon Emission Computed Tomography，SPECT)图像，PET图像可反映新陈代谢情况，对癌细胞敏感。SPECT图像分析人体组织和器官的血流信息，其成像原理与PET图像类似，通过注射的同位素示踪剂在人体组织和细胞的分布情况，其颜色信息反映细胞和分子的生物活动水平，但空间分辨率低。

密集连接：将前一层的输出作为后续所有层的输入，充分利用中间层特征，加强特征传播，这种连接方式可以让融合层中源图像的显著特征被有效利用。

注意力机制：对于一幅图像，人们对于不同区域的关注点是不同的，会着重观察需要的感兴趣区域，注意力机制与人类的视觉感知系统类似，在加强对某些关键特征信息关注的同时可以减弱对一些无关特征的关注，相当于对原始的特征进行重新分布。在图像融合问题中，注意力机制使网络加强对一些被忽略的细节特征的关注，从而提升融合效果。

通道注意力机制：在网络不同通道间添加注意力机制，根据全局信息来学习通道特征权重，增大有效通道特征的权重，减小无效或效果小的通道特征的权重，提升模型对通道特征的敏感性。

空间注意力机制：在网络的空间域内添加注意力机制，根据不同特征在空间位置上的重要性，动态地分配空间注意力权重，增强有用特征，抑制次要特征。

伪彩色图像：其每个像素值为一个索引值或代码，该索引值或代码作为色彩查找表CLUT(Color Look-Up Table)中某一项的入口地址，根据该地址可以查找出包含出实际R、G、B的强度值。这种用查找映射的方法产生的色彩称为伪彩色，生成的图像为伪彩色图像。

YUV色彩空间：又称YcrCb，其Y通道表示亮度信息，即灰度图。UV通道表示色度(色彩及饱和度)信息。

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

由于成像原理的不同，单模态医学图像(如CT图像、MR图像、PET图像和SPECT图像中任一种)不能反映全面的信息，存在一定的局限性，不能很好地满足现在的医疗需求。融合后的医学图像可以运用到疾病的检测，治疗，术中导航等方面，帮助医生更好地进行疾病的诊断。但是传统的医学图像融合算法需要依赖像素活动水平测量和手工融合规则设计，鲁棒性不强，由于医学图像相对来说种类较多，结构复杂，包含的信息也较多，手工设计的方式很难考虑所有因素，限制了融合的效果。

为了解决传统医学图像融合方法存在的一些问题，本公开的实施例提供了一种医学图像融合模型训练方法、医学图像融合方法、装置、设备、介质和程序产品，可以至少部分地解决传统图像融合方法中需要手工测量像素活动水平和设计繁琐的融合规则的问题。首先，在编码器阶段通过M个第一卷积层提取出每个训练图像的M个第一特征图，由于任两个卷积层之间具有不同大小的卷积核，可以使用不同尺度的卷积核来提高网络浅层特征的提取能力，增加了提取的图像特征的多样性。然后，在融合层对编码器的输出进一步增强。最后，通过解码器对融合的抽象特征层层解码得到融合图像。利用训练完成的模型进行图像融合，融合后的图像具有较高的清晰度、对比度、色彩保真度高且纹理细节清楚，视觉效果较佳，较好保留了源图像的有效信息。

图1示意性示出了根据本公开实施例的医学图像融合模型训练方法或医学图像融合方法的应用场景图。

如图1所示，根据该实施例的应用场景100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

根据本公开的实施例，用户通过终端设备101、102、103可以采集医学图像，例如从医学设备获取图像或从互联网获取图像。用户可以通过终端设备101、102、103将医学图像发送至服务器104，并发送模型训练指令，或者在模型训练完成后，发送使用模型进行图像融合的指令。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的医学图像融合模型的架构图。

如图2所示，该实施例的医学图像融合模型包括编码器(Encoder)、融合层(FusionLayer)和解码器(Decoder)。编码器可以是一个或多个，在一个编码器的时候，多个输入图像共用该编码器。在多个编码器的时候，各个编码器并行以分别处理对应的输入图像。每个编码器可以包括密集块(Dense Block)和多个卷积层。该实施例的模型参数如表1所示。

表1网络参数

表1为融合网络中各卷积层的参数设置。所有卷积层的步长都设置为1，根据卷积核的大小设置对应的填充大小，保证图像在网络中保持大小不变，卷积层后面使用ReLu激活函数，可以将卷积层输出的值约束到一定范围内，有利于网络训练，同时可以提高模型的表达能力。

需要说明的是，图2所示的模型架构以及表1中所示的模型参数仅是本公开的一个实施例。在一些实施例中，可以对模型架构进行改变，如对编码器中的用于提取特征的卷积层增减、密集块结构的增减，或者融合层的具体结构改变等。在另一些实施例中，可以设置与表1不同的模型参数，如卷积层中卷积核的大小、步长或激活函数类型等参数。

以下将基于图1和图2的描述，通过图3～图11对本公开实施例的医学图像融合模型训练方法和医学图像融合方法进行详细描述。

图3示意性示出了根据本公开实施例的医学图像融合模型训练方法的流程图。

如图3所示，该实施例的医学图像融合模型训练方法包括操作S310～操作S350。

在操作S310，将N个训练图像分别输入至编码器中的M个第一卷积层，得到每个训练图像的M个第一特征图，其中，N个训练图像包括N个单模态医学图像，M个第一卷积层中任两个卷积层之间相并行，且具有不同大小的卷积核，N、M分别为大于或等于2的整数。

示例性地，N个单模态医学图像可以包括CT图像、MR图像、PET图像和SPECT图像中的任两种图像。换言之，医学图像融合模型可以用于上述任两种图像之间的融合。

在操作S320，对每个训练图像的M个第一特征图进行拼接，得到每个训练图像的第二特征图。

参照图2和表1，以一个MR图像举例。首先，编码器的输入为256×256×1的MR源图像。接着，分别通过1×1、3×3和5×5不同大小的卷积核，经过卷积后分别得到256×256×16大小的第一特征图，其作用在于通过不同尺度的卷积核可以增加特征提取的多样性。然后，通过Concat操作按通道维度进行特征拼接得到256×256×48大小的第二特征图。其余训练图像的处理过程与该MR图像相同，在此不做赘述。

根据本公开的实施例，在执行操作S330之前，还可以将每个训练图像的第二特征图输入至密集块，得到编码器的输出。密集块包括采用密集连接的S个卷积层(如DC1～DC3)，S为大于或等于2的整数。

示例性地，可将第二特征图输入到由三个3×3大小的卷积核构成的密集块进行特征编码。其作用在于，可以充分利用中间层特征，加强特征传播，利用密集连接方式可以让融合层中源图像的显著特征被有效利用。

在操作S330，将编码器的输出作为融合层的输入，得到N个训练图像的融合特征图，其中，编码器的输出根据每个训练图像的第二特征图获得。

示例性地，编码器提取的N个训练图像的特征图通过融合层进行融合，得到融合特征图。一些实施例中，融合层可以设置多层感知器(MLP)对N个第二特征图拼接后提取特征作为融合特征图。另一些实施例中，融合层可以利用将N个第二特征图相加的方式得到融合特征图。另一些实施例中，融合层可以利用L1-norm和求平均值的方式得到融合特征图。再一些实施例中，融合层可以根据注意力机制构建，并基于注意力机制处理N个第二特征图得到融合特征图。

在操作S340，将融合特征图输入至解码器，得到训练融合图像。

示例性地，参照图2和表1，解码器包含四个3×3大小的卷积层，将经过编码器和融合层得到的高维抽象特征，通过层层解码和降维得到目标空间下大小为256×256×1的低维特征图像。

在操作S350，利用融合图像和N个训练图像之间的差距程度训练医学图像融合模型，其中，所述差距程度利用损失函数计算获得。

示例性地，为了提高网络的融合效果，可以利用损失函数来约束融合网络的训练过程，促进网络收敛。差距程度可以损失函数的值来表征，损失函数的值通过将训练融合图像和N个训练图像输入至损失函数计算得到。训练过程中更新医学图像融合模型的参数，通过最小化损失函数对网络中的参数进行更新优化，直到收敛。其中，可以同时更新编码器、融合层和解码器的参数，也可以更新编码器、融合层和解码器中的一个或多个参数。

根据本公开的实施例，采用多尺度卷积核提取的M个第一特征图，可以提高网络浅层特征的提取能力，增加了对每个训练图像提取的特征的多样性。在融合层对编码器的输出进一步增强，并通过解码器对融合的抽象特征层层解码得到融合图像。可以至少部分地解决传统图像融合方法中需要手工测量像素活动水平和设计繁琐的融合规则的问题，并且利用训练完成的模型进行图像融合。融合后的图像具有较高的清晰度、对比度、色彩保真度高且纹理细节清楚，视觉效果较佳，较好保留了源图像的基本信息，在不缺失结构图像纹理特征的同时展现功能图像的代谢状况。

图4示意性示出了根据本公开实施例的获得第一特征图的流程图。

如图4所示，操作S210中将N个训练图像分别输入至编码器中的M个卷积层，得到每个训练图像的M个第一特征图包括操作S410～操作S420。N个训练图像包括第一训练图像和第二训练图像，编码器包括第一编码器和第二编码器。

在操作S410，将第一训练图像输入至第一编码器中的M个卷积层，得到第一训练图像的M个第一特征图，其中，第一训练图像为结构图像。

在操作S420，将第二训练图像输入至第二编码器中的M个卷积层，得到第二训练图像的M个第一特征图，其中，第二训练图像为功能图像。

示例性地，第一编码器和第二编码器的结构可以相同，各自具有M个卷积层和密集块。

示例性地，第一训练图像可以是CT图像或MR图像。第二训练图像可以是PET图像或SPECT图像。该实施例的图像融合模型在训练完成后可以较好的实现功能图像和结构图像之间融合。通过第一编码器和第二编码器并行的方式，可以提高特征提取和特征编码的效率。

需要说明的是，操作S410可以在操作S420的之前、之后或同时执行，本公开不对两者的执行顺序进行限定。

下面以PET/SPECT图像和MR图像的融合举例描述。

图5示意性示出了根据本公开实施例的对第二训练图像预处理的流程图。

如图5所示，对第二训练图像预处理在操作S420之前执行，可以包括操作S510，操作S520是操作S420的其中一个实施例。

在操作S510，将第二训练图像由RGB色彩空间转换至YUV色彩空间。

在操作S520，将第二训练图像的Y通道亮度图像输入至第二编码器中的M个卷积层。

根据本公开的实施例，结构图像(MR)是灰度图像，而功能图像(PET/SPECT)是伪彩色图像，对功能图像进行RGB→YUV转换，仅对Y通道亮度图像进行融合处理，可以避免融合后图像出现光谱失真问题。

图6示意性示出了根据本公开实施例的得到训练融合图像的流程图。

如图6所示，操作S240中将融合特征图输入至解码器，得到训练融合图像包括操作S610～操作S620。

在操作S610，将融合特征图输入至解码器，得到融合后的Y通道亮度图像。

由于对MR图像和第二训练图像的Y通道亮度图像进行融合，两者皆为灰度图。所以解码器的输出为灰度图，即融合后的Y通道亮度图像。

在操作S620，将融合后的Y通道亮度图像，以及第二训练图像的U和V通道色度图像，由YUV色彩空间转换至RGB色彩空间，得到训练融合图像。

根据本公开的实施例，根据融合后的Y通道亮度图像，以及第二训练图像的U和V通道色度图像可以得到YUV色彩空间的信息，以此为基础通过YUV-RGB色彩空间转换得到最终的训练融合图像。从而实现功能图像融合后尽可能减少光谱扭曲和颜色失真，同时结构图像的纹理细节尽可能保留的效果。

图7示意性示出了根据本公开实施例的融合层的架构图。图8示意性示出了根据本公开实施例的通道注意力模块的架构图。图9示意性示出了根据本公开实施例的空间注意力模块的架构图。图10示意性示出了根据本公开实施例的得到融合特征图的流程图。

如图10所示，操作S230中将编码器的输出作为融合层的输入，得到N个训练图像的融合特征图包括操作S1010～操作S1020。

在操作S1010，根据注意力机制处理N个第二特征图，得到N个第三特征图。

根据本公开的实施例，参照图7，融合层可以包括N个分支注意力网络，每个分支网络用于处理第k张图像的第二特征图

在另一些实施例中，融合层还可以根据除通道注意力机制和空间注意力机制之外的其他注意力机制获得，如SE(Squeeze and Excitation)注意力机制。

在操作S1020，根据N个第三特征图，得到融合特征图。

示例性地，可以将N个第三特征图通过相加操作得到最终的融合特征图f

根据本公开的实施例，利用注意力机制增强编码器提取的特征，使得在融合时更加关注有价值的特征信息，改善了融合后图像的视觉效果，提高了图像质量。

图11示意性示出了根据本公开实施例的得到第三特征图的流程图。

如图11所示，操作S1010中根据注意力机制处理N个第二特征图，得到N个第三特征图包括操作S1110～操作S1130。

在操作S1110，根据通道注意力机制处理每个第二特征图，得到第四特征图。

参照图7，以第二特征图

下面将具体描述通道注意力机制加强特征的过程。

参照图8，通道注意力模块可以包括全局平均池化层(Avgpool)、最大池化层(Maxpool)、共享网络(Shared MLP)。在通道注意力模块中，将输入特征经过一个并行的最大池化层(MaxPool)和平均池化层(AvgPool)，可以有效压缩图像特征的维度和扩大感知野，然后通过一个共享网络，最后经过加权和激活操作得到通道注意力特征图(即第四特征图)。

通道注意力机制的处理过程可以表达为：

其中，σ表示sigmoid激活操作，AvgPool表示平均池化，MaxPool表示最大池化。MLP表示多层感知器。

在操作S1120，根据空间注意力机制处理每个第二特征图和对应的第四特征图，得到第五特征图。

参照图7，将第二特征图

下面将具体描述空间注意力机制加强特征的过程。

参照图9，空间注意力层可以包括全局平均池化层(Avgpool)、最大池化层(Maxpool)、卷积层(convlayer)。为了在空间注意力层中引入更多的信息来弥补特征信息不足的缺点，首先沿着通道轴使用最大池化和全局平均池化，并将其链接起来生成一个有效的空间注意力特征图(即第五特征图)。

空间注意力机制的过程为：

其中，f

在操作S1130，根据每个第二特征图和对应的第五特征图，得到每个第二特征图对应的第三特征图。

示例性地，将第二特征图

根据本公开的实施例，利用空间注意力机制和通道注意力机制使网络加强对一些被忽略的细节特征的关注，从而提升融合效果。

在另一些实施例，可以将每个第二特征图和对应的第六特征图

下面进一步介绍损失函数的设计和使用。在训练过程中，通过最小化损失函数，不断迭代更新网络参数，得到一组最优的参数。

医学图像信息主要包括像素点的强度信息、梯度信息和图像的大尺度轮廓信息。基于此，可以设计包含第一损失函数、第二损失函数和第三损失函数中至少一个的联合损失函数。

根据本公开的实施例，可以利用以下至少一个损失函数获得对比损失：

利用第一损失函数获得训练融合图像和N个训练图像之间的强度损失。

利用第二损失函数获得训练融合图像和N个训练图像之间的梯度损失。

利用第三损失函数获得训练融合图像和N个训练图像之间的相似度损失。

下面以联合损失函数包括第一损失函数、第二损失函数和第三损失函数进一步描述。联合损失函数L为：

L＝L

其中，L

第一损失函数L

其中，W和H分别表示图像的长和宽，I(fused)表示训练融合图像，I(input)表示输入图像。

示例性地，利用第一损失函数获得训练融合图像和N个训练图像之间的强度损失可以是：利用式(4)获得训练融合图像与每个训练图像之间的强度损失，然后N个强度损失相加得到最终的强度损失值。

第二损失函数L

其中，

示例性地，利用第二损失函数获得训练融合图像和N个训练图像之间的梯度损失可以是：利用式(5)获得训练融合图像与每个训练图像之间的梯度损失，然后N个梯度损失相加得到最终的梯度损失值。

第三损失函数L

其中，SSIM(·)表示结构相似度运算，根据亮度、对比度和相关度衡量融合后的图像与源图像的相似度，计算公式为：

其中，μ

示例性地，利用第三损失函数获得训练融合图像和N个训练图像之间的相似度损失可以是：利用式(6)获得训练融合图像与每个训练图像之间的相似度损失，然后N个相似度损失相加得到最终的相似度损失值。

本公开的实施例还提供了一种医学图像融合方法，包括：将K个待融合图像输入至医学图像融合模型，得到融合图像，其中，K个待融合图像包括K个单模态医学图像，医学图像融合模型根据上述医学图像融合模型训练方法对应的至少一个实施例训练得到。

参照图2～图11，首先，通过多尺度卷积核增强网络编码阶段中提取浅层特征的能力，并加入密集块结构，增加网络中间层信息的流动，避免医学图像中的显著性特征丢失。其次，利用融合层融合提取的特征，并通过注意力机制增强提取的特征信息。最后，通过解码器将融合的特征映射到目标空间得到融合图像。

下面进一步介绍本公开实施例的医学图像融合方法的实验结果与分析。

将本公开实施例的融合方法记为AMSDNet(下称融合算法)。选取7种图像融合算法进行对比，分别是LP(Laplacian pyramids)、NSCT(non-subsampled contourlettransform)、ASR(adaptive sparse representation)、CNN(convolutional neuralnetworks)、LRD(Laplacian redecomposition)、MLMG和Dense。

示例性地，为了客观评估各种融合算法的性能，选取平均梯度AG、空间频率SF、图像融合质量指数Q、视觉信息保真度VIFF和加权融合质量指数QW共5个客观评价指标。

表2是超过100对不同模态医学图像的客观指标分析，通过表2可知，本公开实施例提出的融合算法AMSDNet在客观指标上大部分取得了的最优值，AG和SF较好表明融合后图像清晰度、对比度和视觉效果较佳，Q和Qw较好表明算法可以很好的保留源图像的轮廓和纹理信息，VIFF较好表明算法色彩保持度较好，验证了AMSDNet融合算法的有效性。

表2 103组多模态医学图像融合结果客观评价指标

示例性地，进一步对本公开实施例的融合算法AMSDNet与上述7种图像融合算法的时间效率进行对比。

不同融合算法的平均运行时间如表3所示，当本公开实施例的医学图像融合模型训练完成后，对于每一对待融合的图像输入到融合模型大约0.429秒可以得到融合图像，其运行时间相对于大部分对比算法的运行时间较短。虽然相比于LP融合算法融合效率低一点，但是LP算法的融合结果存在颜色失真、图像颜色暗沉和视觉效果不佳等问题，不利于医生对病灶进行观察，而ASR融合算法在融合时需要训练得到过完备字典，比较耗时，LRD融合算法由于在融合过程中过于依赖拟合函数来提升图像梯度信息导致运行时间较长，不利于实际临床应用。

表3不同融合算法的平均运行时间

基于上述医学图像融合模型训练方法和医学图像融合方法，本公开还提供了一种医学图像融合模型训练装置和医学图像融合装置。

图12示意性示出了根据本公开实施例的医学图像融合模型训练装置的结构框图。

如图12所示，该实施例的医学图像融合模型训练装置1200可以包括第一输入模块1210、特征拼接模块1220、特征融合模块1230、第二输入模块1240和模型训练模块1250。

第一输入模块1210可以执行操作S310，用于将N个训练图像分别输入至编码器中的M个第一卷积层，得到每个训练图像的M个第一特征图，其中，N个训练图像包括N个单模态医学图像，M个第一卷积层中任两个卷积层之间相并行，且具有不同大小的卷积核，N、M分别为大于或等于2的整数。

第一输入模块1210还可以执行操作S410～操作S420，在此不做赘述。

特征拼接模块1220可以执行操作S320，用于对每个训练图像的M个第一特征图进行拼接，得到每个训练图像的第二特征图。

根据本公开的实施例，第一输入模块1210还可以用于将每个训练图像的第二特征图输入至密集块，得到编码器的输出。

特征融合模块1230可以执行操作S330，用于将编码器的输出作为融合层的输入，得到N个训练图像的融合特征图，其中，编码器的输出根据每个训练图像的第二特征图获得。

根据本公开的实施例，特征融合模块1230还可以执行操作S1010～操作S1020和操作S1110～操作S1130，在此不做赘述。特征融合模块1230还可以用于将每个第二特征图和对应的第五特征图相加，得到每个第二特征图对应的第三特征图。

第二输入模块1240可以执行操作S340，用于将融合特征图输入至解码器，得到训练融合图像。

根据本公开的实施例，第二输入模块1240还可以执行操作S610～操作S620，在此不做赘述。

模型训练模块1250可以执行操作S350，用于利用融合图像和N个训练图像之间的差距程度训练医学图像融合模型，其中，所述差距程度利用损失函数计算获得。

根据本公开的实施例，医学图像融合模型训练装置1200还可以包括损失计算模块，该模块可以用于利用以下至少一个损失函数获得对比损失：利用第一损失函数获得训练融合图像和N个训练图像之间的强度损失。利用第二损失函数获得训练融合图像和N个训练图像之间的梯度损失。利用第三损失函数获得训练融合图像和N个训练图像之间的相似度损失。

根据本公开的实施例，医学图像融合模型训练装置1200还可以包括第一色彩转换模块，该模块用于将第二训练图像由RGB色彩空间转换至YUV色彩空间。第一输入模块1210还可以用于将第二训练图像的Y通道亮度图像输入至第二编码器中的M个卷积层。

本公开的实施例还提供了一种医学图像融合装置。该装置包括图像融合模块。图像融合模块用于将K个待融合图像输入至医学图像融合模型，得到融合图像，其中，K个待融合图像包括K个单模态医学图像，医学图像融合模型根据上述医学图像融合模型训练方法对应的至少一个实施例训练得到。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

根据本公开的实施例，医学图像融合模型训练装置1200或医学图像融合装置中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。

根据本公开的实施例，医学图像融合模型训练装置1200或医学图像融合装置中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，医学图像融合模型训练装置1200或医学图像融合装置中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图13示意性示出了根据本公开实施例的适于实现医学图像融合模型训练方法或医学图像融合方法的电子设备的方框图。

如图13所示，根据本公开实施例的电子设备1300包括处理器1301，其可以根据存储在只读存储器(ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(RAM)1303中的程序而执行各种适当的动作和处理。处理器1301例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器1301还可以包括用于缓存用途的板载存储器。处理器1301可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1303中，存储有电子设备1300操作所需的各种程序和数据。处理器1301、ROM 1302以及RAM 1303通过总线1304彼此相连。处理器1301通过执行ROM 1302和/或RAM1303中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM 1302和RAM 1303以外的一个或多个存储器中。处理器1301也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1300还可以包括输入/输出(I/O)接口1305，输入/输出(I/O)接口1305也连接至总线1304。电子设备1300还可以包括连接至I/O接口1305的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1306。包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307。包括硬盘等的存储部分1308。以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入存储部分1308。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的。也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1302和/或RAM 1303和/或ROM 1302和RAM 1303以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的方法。

在该计算机程序被处理器1301执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1309被下载和安装，和/或从可拆卸介质1311被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分1309从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被处理器1301执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 融合模型的训练方法、图像融合方法、装置、设备及介质 [P] . 中国专利： CN113902956A . 2022-01-07
2. 图像融合方法、图像融合模型的训练方法、装置和设备 [P] . 中国专利： CN113112439A . 2021-07-13
3. MEDICAL MODEL TRAINING METHOD AND APPARATUS, MEDICAL IDENTIFICATION METHOD AND APPARATUS, DEVICE, AND MEDIUM [P] . 世界知识产权组织专利： WO2019136806A1 . 2019-07-18

机译：医学模型训练方法和设备，医学鉴定方法和设备，装置和介质
4. MEDICAL IMAGE CLASSIFICATION METHOD, MODEL TRAINING METHOD, COMPUTING DEVICE, AND STORAGE MEDIUM [P] . 美国专利： US2021343012A1 . 2021-11-04

机译：医学图像分类方法，模型训练方法，计算设备和存储介质
5. METHOD AND APPARATUS FOR TRAINING IMAGE FUSION PROCESSING MODEL, DEVICE, AND STORAGE MEDIUM [P] . WO2021057426A1 . 2021-04-01

机译：用于训练图像融合处理模型，设备和存储介质的方法和装置