首页> 中国专利> 一种基于多模态融合网络的白内障术后视力预测系统

一种基于多模态融合网络的白内障术后视力预测系统

摘要

本发明公开了一种基于多模态融合网络的白内障术后视力预测系统,包括训练好的白内障术后视力预测模型,模型以卷积神经网络作为主干网络,用于接收输入数据中的图像数据,分别对横扫图像和纵扫图像进行特征提取;再将学习到的特征进行序列化后输入到多模态交叉注意力网络;输入了两种视图图像特征的多模态交叉注意力网络分别和术前视力编码后的视力块、随机生成的回归块和交叉块合并,通过Transformer层进行视图特征范围内的深层特征提取和信息融合;将两种视图的回归块拼接进入全连接层,输出预测的术后视力。本发明能够自动提取图像模态特征,并和术前视力模态特征融合,学习潜在的模态间关系,以较小的计算成本实现准确预测。

著录项

  • 公开/公告号CN114782394A

    专利类型发明专利

  • 公开/公告日2022-07-22

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN202210491704.8

  • 发明设计人 吴健;王锦鸿;应豪超;陈婷婷;

    申请日2022-05-07

  • 分类号G06T7/00;G06V10/80;G06V10/774;G06V10/82;G06V10/766;G06N3/04;G06N3/08;G06K9/62;A61B3/10;

  • 代理机构杭州天勤知识产权代理有限公司;

  • 代理人彭剑

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 16:06:26

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-22

    公开

    发明专利申请公布

说明书

技术领域

本发明属于医疗图像处理领域,尤其是涉及一种基于多模态融合网络的白内障术后视力预测系统。

背景技术

白内障是影响老年人视力的最常见的致盲性眼病,临床表现为视力下降。针对这一公共卫生问题,白内障手术是唯一治疗的手段。而在临床中,病人可能伴随其他一些眼病,这些疾病共同导致了视力的下降,从而使得白内障手术对于视力的恢复并不是绝对有效的。因此在术前预测病人的术后视力能否有效恢复有利于医生评估手术的必要性。

在临床中,医生主要基于OCT图像观察眼底状态来评估病人患有哪些眼疾,是否会影响白内障手术的效果来预测术后的视力能否恢复。但由于眼底状态复杂,这项形态学任务对于医生来说费时费力,判断也不一定准确。为了帮助医生进行诊断,计算机算法可以提供辅助分析。随着深度学习的发展,其强大的表征学习能力被广泛应用与医学图像场景。通过建立深度学习模型,无需人工挑选固定统计学特征,模型可以高效、自动提取图像的特征信息,进而做出形态学诊断。该深度学习方法可以有效降低临床诊断成本,让医生省时省力。

然而在医学应用场景下,数据通常具有多个模态,例如图像、病例、临床信息等,不同模态的信息包含的信息各不相同,模态间存在潜在的依赖关系,因此如何设计多模态融合模型使其需要能够有效的融合多模态信息是一大关键问题。多模态融合在深度学习中同时也是一个重要的研究方向,目前现有的方法大多是基于暴力向量化的拼接,通过全连接层对多模态数据进行加权求和,建立线性关系,该方法易于实现但缺乏深度融合。Transformer是目前开始兴起的主流框架,可以不依赖输入的模态和维度,通过序列化将模态统一维度,即将模态信息作为一个个块进行拼接,通过自注意力机制,即生成科学系三个矩阵分别为Query,Key和Value,不仅加入了随机性,同时也能通过块与块之间的注意力融合来学习模态间依赖关系,因此基于Transformer的网络框架相比于暴力拼接可以更加有效地深层次地融合信息。另一方面,融合效果的好坏一定程度还取决于融合的具体方式,包括早期融合、中期融合、晚期融合等等。

较多的研究证明中期融合是最有效的一种方式,但是目前基于Transformer的融合无论是什么融合方式都会存在计算冗余的问题,即融合过程会产生非常多的矩阵计算导致较大的计算成本,目前很少有研究关注并解决这个问题。

发明内容

本发明公开了一种基于多模态融合网络的白内障术后视力预测系统,能够自动提取图像模态特征,并和术前视力模态特征融合,学习潜在的模态间关系,以较小的计算成本实现白内障术后视力的准确预测。

一种基于多模态融合网络的白内障术后视力预测系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中存有训练好的白内障术后视力预测模型,所述的白内障术后视力预测模型以卷积神经网络作为主干网络,用于接收输入数据中的图像数据,分别对横扫图像和纵扫图像进行特征提取;再将学习到的特征进行序列化后输入到多模态交叉注意力网络;

输入了两种视图图像特征的多模态交叉注意力网络分别和术前视力编码后的视力块、随机生成的回归块和交叉块合并,通过Transformer层进行视图特征范围内的深层特征提取和信息融合;将两种视图的回归块拼接进入全连接层,输出预测的术后视力;

所述计算机处理器执行所述计算机程序时实现以下步骤:

获取病人术前OCT图像和术前视力数据,其中,OCT图像包括横扫和纵扫两种视图;

将病人术前OCT图像和术前视力数据输入到训练好的白内障术后视力预测模型进行特征提取和预测,最终输出病人白内障术后的视力值。

本发明的系统,通过Transformer架构有效融合多模态信息,可以准确预测白内障术后视力,为医生评估白内障手术的必要性提供辅助,同时通过交叉块的交换避免了冗余的注意力计算,降低了计算成本以及落地成本。

进一步地,所述的卷积神经网络包括4个卷积层和3个池化层,经过每个卷积层后图像被压缩一半的分辨率,经过最终的卷积层提取到图像的特征图,通过全连接层映射到统一维度的块,然后进行拼接得到特征序列。

进一步地,所述的多模态交叉注意力网络的输入包括横扫和纵扫两种视图,将每种视图的图像特征序列视为图像块,与术前视力编码后的视力块、随机生成的回归块和交叉块拼接输入到多模态交叉注意力网络,该网络包括12层Transformer层,在前6层通过注意力融合视图内的各个模态特征,在后6层通过交叉块的交换使得视图间的信息得到交互,从而融合视图间的特征,最终通过两个视图的回归块进行平均操作,然后用一个全连接层预测术后视力。

进一步地,所述的Transofrmer层由2层归一层、1层注意力层和1层前馈神经网络层组成。

进一步地,所述白内障术后视力预测模型的训练过程如下:

(1)获取病人横扫和纵扫图像作为样本数据,经过图像筛选后,获取术后一个月回访的视力标注,标注后的样本数据按比例分成训练集、验证集和测试集;

(2)搭建白内障术后视力预测模型CTT-Net,输入一组样本,对该组样本图像进行特征提取,与术前视力一起进行特征融合和术后视力预测;预测值范围为0-3.0。

(3)将输出的预测结果与实际术后视力标注进行对比,运用MAE函数作为当前模型的损失,并回传到模型中,对模型中的参数进行更新,直至模型收敛;

(4)当达到设定的MAE阈值或者达到指定迭代次数时,模型停止更新,训练完毕,输出结果。

步骤(1)中,图像筛选的规则为:根据有无缺失值以及图像是否清晰,剔除严重失真导致临床医生也无法预估的样本以及缺少图像、术前视力或是术后视力其中一项的样本。

步骤(3)中,利用反向传播法则计算模型的梯度,使用随机梯度下降法进行模型参数更新。

模型训练过程中,每经过一定迭代次数进行验证集的指标计算,指标包括均方误差MSE、平均绝对误差MAE、正确率ACC,通过验证集的评估效果调整模型的超参数;模型训练完毕后,从众多迭代保存的模型参数依据评估效果进行择优,将挑选后的模型参数加载并在测试集上进行测试,指标与验证集相同,获得最终模型的评估结果。

与现有技术相比,本发明具有以下有益效果:

1、不同于现有的白内障术后预测技术只通过图像进行术后视力预测,本发明引入术前视力作为额外信息监督,促进对图像特征的提取和模态间特征融合,实现高精度的白内障术后视力预测。

2、不同于现有的通过全连接层或者通过Transformer进行全注意力特征融合技术,本发明引入交叉注意力机制,基于单一的交叉块进行视图内特征融合,通过在视图间交换实现视图间特征的融合,同时避免了冗余的注意力,减少计算成本。

附图说明

图1为本发明实施例中白内障术后视力预测模型的训练流程图;

图2为本发明实施例中卷积神经网络的网络结构图;

图3为本发明实施例中多模态交叉注意力网络的网络结构图;

图4为本发明实施例中交叉块交换的多模态交叉注意力机制图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。

步骤一:OCT图像筛选

OCT图像的来源包括海德堡、科林和蔡司三种机器,其中海德堡的图像分辨率大小为768*496(pixel),扫描深度为9600*2000(um);蔡司的图像分辨率大小为938*625(pixel),扫描深度为6000*2000(um);科林的图像分辨率大小为1020*960(pixel),扫描深度为10000*2000(um)。由于部分病人的OCT图像质量较低,或是缺少术前视力术后视力之一,剔除这部分样本。

步骤二:数据划分

将横扫OCT图像、纵扫OCT图像以及术前视力视为样本对,将所有样本对划分为训练集、验证集、测试集,比例为6:2:2。

步骤三:多模态白内障术后视力预测模型的训练

本发明的多模态白内障术后视力预测模型的每组样本对输入为术前的OCT图像(包括横扫和纵扫)以及术前视力。

整体训练流程如图1所示。将多组(一般为一个batch=16)样本对输入到多模态白内障术后视力预测模型中得到最后的预测的术后视力。多模态白内障术后视力预测模型包括卷积神经网络(特征提取网络)和多模态交叉注意力网络。

OCT图像先通过卷积神经网络Resnet-18提取特征,该网络结构如图2所示,包括4个卷积层3个池化层,每个卷积层后图像会被压缩一半的分辨率,经过最终的卷积层提取到图像的特征图,特征图包括浓缩提取的图像特征,通过编码,即通过全连接层映射到统一维度(设置为128维)的块然后进行拼接得到特征序列,将特征序列输入到多模态交叉注意力网络,如图3所示,图像特征块与术前视力编码块、回归块和交叉块拼接得到横扫图像特征序列和纵扫图像特征序列。其中,术前视力编码块提供额外模态信息,回归块用于提取全局信息进行最终视力预测,交叉块则是用于融合不同模态和视图的信息。

横扫图像特征和纵扫图像特征通过Transformer在早期先进行视图内融合,即在前6层Transformer编码器中,交叉块保持不动,以便交叉块充分提取视图内信息。后6层通过交叉块在两种视图内的交换进行视图间信息融合,融合步骤如图4所示,即循环往复的交换通过将两种视图特征序列中的交叉块位置,每经过一层交换一次,通过交叉块的交换视图间的信息得到了补充和融合,以实现多模态交叉注意力机制,最后将两种视图的回归块进行提取融合最终得到预测的术后视力。

训练模型时,使得术后视力预测结果尽可能实际的术后视力相近,通过损失函数产生模型的预测结果和真实结果的损失,通过梯度回传算法更新模型参数;然后再将下一组样本输入到分割模型中,继续上述步骤的训练;最后直到模型收敛,即损失函数不再下降时,终止训练。

步骤四:多模态白内障术后视力预测模型的验证和测试

每训练一定步数还会将模型在验证集上进行验证,即将验证集中的数据输入到已经训练过的模型中,观察损失值、准确率、召回率、精确率等指标调整学习率等超参数,使得模型的泛化性能更好。

测试即为模拟真实落地时的场景,即将测试集中的数据输入到已经训练过的模型中,挑选在验证集上表现最后的模型参数并加载,观察最终的准确率、召回率、精确率等指标确定模型性能和实际效果。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号