首页> 中国专利> 医学跨模态多尺度融合类别指导哈希方法及其系统

医学跨模态多尺度融合类别指导哈希方法及其系统

摘要

本发明公开了一种医学跨模态多尺度融合类别指导哈希方法及其系统,包括训练类别哈希网络来学习每个类别的哈希码,使所学习的哈希码包含其对应类别的语义信息,然后利用学习到类别哈希码来表示标签作为监督信息来指导图像、文本和联合网络哈希码的学习,同时联合网络来训练图像和文本哈希码的学习等步骤,以及输入模块一、特征处理模块一、输入模块二、特征处理模块二、学习训练模块和输出模块。在医学数据集MIMIC‑CXR上的大量实验表明,该方法在跨模态检索任务中优于现有的基线。

著录项

  • 公开/公告号CN113270199A

    专利类型发明专利

  • 公开/公告日2021-08-17

    原文格式PDF

  • 申请/专利权人 贵州师范大学;

    申请/专利号CN202110483387.0

  • 发明设计人 欧卫华;张勇;

    申请日2021-04-30

  • 分类号G16H50/70(20180101);G16H30/00(20180101);G06F16/35(20190101);G06F16/55(20190101);G06F16/58(20190101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11616 北京盛凡智荣知识产权代理有限公司;

  • 代理人张成文

  • 地址 550000 贵州省贵阳市贵安新区花溪大学城栋青路

  • 入库时间 2023-06-19 12:14:58

说明书

技术领域

本发明属于跨模态检索领域,具体涉及一种医学跨模态多尺度融合类别指导哈希方法及其系统。

背景技术

随着医学技术的飞速发展,产生了大量的医学数据,如放射学报告、CT图像、PET图像、X射线图像等。尽管它们在形式上有所不同,但它们有相似的语义。最近,已经提出了许多单模态方法来分别理解这些数据,例如医学图像分割,医学图像分类和基于内容的医学图像检索。虽然在临床影像方面已经做了大量的工作,但是医学数据其他形态的数据却被忽略了,如放射学报告。为了使得医生能够获得关于查询的全面信息,检索不同模式中语义相似的临床概况,并根据他们之前的医学建议提供诊断结果,提出了医学跨模态检索,即使用一个模态的实例(例如,x射线图像)来检索具有相似语义的另一个模态的实例(例如,放射学报告)。

哈希由于其高检索率低存储成本而被应用到跨模态检索中。现存的跨模态哈希方法一般被分为三类:无监督方法、半监督方法和有监督方法。一般来说,虽然有些标签可能会损坏和不准确,但对于学习更多的判别性特征,标签信息是有用的。因此,监督的跨模态哈希方法通常可以获得更好的检索性能。

随着深度学习的显著进展,深度神经网络在跨模态检索中显示出其潜在能力。例如,蒋等人提出了深度跨模态哈希(DCMH),这是一个端到端的框架,可以同时学习深度特征和哈希函数。深度视觉语义哈希(DVSH)使用卷积神经网络(CNN)和长短期记忆(LSTM)来学习每个模态的哈希代码。李等人提出了一种自监督的对抗式哈希网络(SSAH)来设计一种结合对抗式学习的自监督语义网络,以探索不同模态之间的语义关系。与基于手工特征跨模态检索方法相比,深度跨模态检索的性能有了很大的提高。

但是上述所述跨模态检索方法都是依赖于语义相似矩阵来监督哈希码的生成。具体而言,如果两个数据各自的标签共享至少一个公共类别,则它们被定义为相似,否则不相似。但是显然该定义遗漏了丰富的语义信息,不能够很好的保留语义结构信息。同时上述跨模态检索方法将共享相同语义的不同模态数据嵌入到统一的哈希码中,由于固有模态差异和噪声将不可避免的导致错误代码。

基于这种现状,我们提出了一种医学跨模态多尺度融合类别指导哈希(MCMFCH)方法及其系统。

发明内容

(一)解决的技术问题

本发明的目的是在于提供一种医学跨模态多尺度融合类别指导哈希方法及其系统,该方法利用类别语义信息来指导各模态的生成,使学习到的哈希码可以同时很好的保持跨模态相似性和丰富的语义结构信息。同时利用联合网络来指导图像和文本的哈希码的学习,使模态语义相互关联,有助于提升模态间的语义相关性。

(二)技术方案

为了实现上述目标,本发明采用如下技术方案:

一种医学跨模态多尺度融合类别指导哈希方法,包括以下具体步骤:

S1、输入类别语义,建立类别哈希网络,用于学习各类别的哈希码;

S2、输入不同模态的数据,建立图像网络和文本网络,从而获得各模态的特征和哈希码,联合图像文本生成联合哈希码;

S3、利用类别哈希码来表示标签作为监督信息来训练图像、文本和联合网络的哈希码;

S4、联合网络来指导图像和文本的哈希码的学习。

进一步的,所述S1中类别哈希网络的模型为:

s.t.p

其中α是超参数;1是所有元素均为1的向量;sgn(.)是符号函数;其中p

进一步的,所述S2中建立图像哈希网络和文本哈希网络获得各模态的特征和哈希码以及联合哈希网络生成联合哈希码,具体采用如下步骤实现:

S2.1、图像哈希网络,为了获得高分辨率高语义的医学影像特征,深度卷积网络(VGG)结合目标金字塔网络(FPN)来获取图像多尺度特征,称为VFPN多尺度网络;该网络将高分辨率与弱语义特征、低分辨率与强语义特征融合,获得高分辨率和强语义特征f

S2.2、文本哈希网络,采用了基于自监督对抗哈希跨模态检索(SSAH)的文本网络多尺度融合模型;首先利用1×1、1×2、1×3、1×6、1×10这5个平均池化层对文本数据提取多个尺度特征,再使用一个1×1卷积层对多个特征进行融合;然后,利用大小调整和连接的过程得到多尺度文本语义特征f

S2.3、联合哈希网络,该网络使用图像网络中VFPN多尺度网络生成的图像多尺度特征f

进一步的,所述S3中根据类别哈希码来监督各模态哈希码的学习是指采用如下步骤:

S3.1、通过汉明距离来保持跨模态相似性和丰富的语义结构信息,

其中*代表x,y,u图像、文本和联合模态;μ∈[0,1]是预定义的边距,k是哈希码长度;E

S3.2、

其中λ是超参数;*代表x,y,u图像、文本和联合模态;

进一步的,所述S4中利用联合网络来指导图像和文本的哈希码的学习,具体模型如下:

其中

一种基于医学跨模态多尺度融合类别指导哈希方法的检索模型,所述检索模型采用了医学跨模态多尺度融合类别指导哈希方法生成,所述检索模型为:

其中,γ,η为超参数;*代表x,y,u图像、文本和联合模态;

一种基于医学跨模态多尺度融合类别指导哈希方法的检索系统,包括:

输入模块一,用于输入类别语义;

特征处理模块一,用于建立类别哈希网络学习各类别的哈希码;

输入模块二,用于输入不同模态的数据;

特征处理模块二,用于建立图像网络和文本网络获得各模态的特征和哈希码,联合图像文本特征生成联合哈希码;

学习训练模块,利用类别哈希码来表示标签作为监督信息来训练图像、文本和联合网络的哈希码,同时联合网络来指导图像和文本的哈希码的学习,并进行检索;

输出模块,用于输出检索结果。

(三)有益效果

相较于现有技术,本发明方法通过使用多尺度融合来获得每个模态的模态特定表示,利用类别哈希来指导每个模态哈希码的学习。同时在两个数据集上的实验表明,本发明具有较好的检索性能。

附图说明

图1为本发明方法的流程图;

图2为本发明方法提出的算法架构图;

图3为CCA、DCMH和本发明方法在MIMIC-CXR数据集上的前10个检索结果;

图4为本发明实施例提供的一种跨模态检索系统的结构示意图。

具体实施方式

如图1所示,本发明提供了一种医学跨模态多尺度融合类别指导哈希方法,并根据该方法设计了对应的系统。

本实施例所述的医学跨模态多尺度融合类别指导哈希方法包括以下具体步骤:

S1、输入类别语义,建立类别哈希网络,用于学习各类别的哈希码;

S2、输入不同模态的数据,建立图像网络和文本网络,从而获得各模态的特征和哈希码,联合图像文本生成联合哈希码;

S3、利用类别哈希码来表示标签作为监督信息来训练图像、文本和联合网络的哈希码;

S4、联合网络来指导图像和文本的哈希码的学习。

类别哈希网络用于生成类别的哈希码,使得学习到的类别哈希码可以代表标签,S1中类别哈希网络的模型,即目标函数如下:

s.t.p

其中α是超参数;1是所有元素均为1的向量;sgn(.)是符号函数;其中p

S2中图像哈希网络、文本哈希网络和联合哈希网络学习不同模态的特征和哈希码,其具体实现过程如下:

S2.1、图像哈希网络,首先使用深度卷积网络(VGG)结合目标金字塔网络(FPN)来获取图像多尺度特征,称为VFPN多尺度网络。该网络将高分辨率与弱语义特征、低分辨率与强语义特征融合,获得高分辨率和强语义特征,即最高分辨率和强语义特征f

S2.2、文本哈希网络,采用了基于自监督对抗哈希(SSAH)跨模态检索的文本网络多尺度融合模型。多尺度融合模型包含1×1、1×2、1×3、1×6和1×10这5个平均池化层对文本数据提取多个尺度特征和一个1×1卷积层对多个特征进行融合。然后,利用大小调整和连接的过程得到多尺度文本语义特征f

S2.3、联合哈希网络,该网络使用图像网络中VFPN多尺度网络生成的图像多尺度特征f

S3中根据类别哈希码来监督各模态哈希码的学习是指采用如下步骤:

S3.1、通过汉明距离来保持跨模态相似性和丰富的语义结构信息,

其中*代表x,y,u图像、文本和联合模态;μ∈[0,1]是预定义的边距,k是哈希码长度;E

S3.2、

其中λ是超参数;*代表x,y,u图像、文本和联合模态;

利用类别网络指导各模态生成哈希码,所述哈目标函数为:

其中λ是超参数;*代表x,y,u图像、文本和联合模态;

S4中利用联合哈希网络指导图像和文本的哈希码生成和学习,从而提升模态的相关性,即:

其中

结合上述函数,一种基于医学跨模态多尺度融合类别指导哈希方法的检索模型,该检索模型为:

其中,γ,η为超参数;*代表x,y,u图像、文本和联合模态;

为了验证本实施例方法在跨模态检索上的优越性,选择公开的医学数据集上MIMIC-CXR进行实验,其跨模态检索评价采用mAP,并且还显示了Top-10的检索结果;实验中,本实施例方法训练均运行5次,取其平均值作为最终结果,参数设置为:α=0.05,β=0.01,λ=0.3.γ=0.3,η=0.3,μ=0.3

表1:在MIMIC-CXR数据集上的mAP值

(1)mAP值在两个公开数据集上的结果分析

本实施例方法与现有的7种跨模态检索方法进行比较,即CCA、CMSSH、SCM、STMH、CMFH、SePH、DCMH。所有的方法在两个个数据集上进行了对比实验,如上表所示,本实施例方法的mAP值均高于其他对比实验方法,表明其类别哈希代替语义相似矩阵的方法具有可行性,联合语义有助于提升语义相关性。

(2)Top-10检索结果的对比分析

如图3所示,CCA和DCMH方法有多次失败情况,本实施例相比较虽然我们的方法在任务图像检索文本和文本检索图像中分别也有一种情况是不成功的,但是排名较前,且检索结果与查询是直观地语义相关的。

如图4,一种基于医学跨模态多尺度融合类别指导哈希方法的检索系统,包括:

输入模块一1,用于输入类别语义;

特征处理模块一2,用于建立类别哈希网络学习各类别的哈希码;

输入模块二3,用于输入不同模态的数据;

特征处理模块二4,用于建立图像网络和文本网络获得各模态的特征和哈希码,联合图像文本特征生成联合哈希码;

学习训练模块5,利用类别哈希码来表示标签作为监督信息来训练图像、文本和联合网络的哈希码,同时联合网络来指导图像和文本的哈希码的学习,并进行检索;

输出模块6,用于输出检索结果。

以上所述仅是本发明优选的实施方式,但本发明的保护范围并不局限于此,任何基于本发明所提供的技术方案和发明构思进行的改造和替换都应涵盖在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号