首页> 中国专利> 基于双通道U形改进Transformer网络的视网膜血管图像分割方法

基于双通道U形改进Transformer网络的视网膜血管图像分割方法

摘要

本发明公开了一种基于双通道U形改进Transformer网络的视网膜血管图像分割方法,属于医学图像分割领域。所述方法包括:对视网膜血管图像进行预处理,得到色调统一的图像;通过缩放、旋转、裁剪再拼接等一系列方法对数据进行增强,扩充原有的数据集,然后将预处理后的视网膜血管图像输入到双通道U形Transformer网络中进行训练以得到可对视网膜血管图像进行分割的模型。该网络由两个通道组成,分别利用多个Transformer结构的上采样提取图像的全局和局部特征,再分别上采样后对两通道的特征进行融合得到图像分割结果。本发明在原Transformer结构的基础上对其加入了门控机制并进行轴向的特征提取,减少了计算的复杂度,最后采用交叉熵损失函数与Adam优化器迭代网络模型参数,以输出精确的视网膜血管图像分割结果。

著录项

  • 公开/公告号CN114820632A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 哈尔滨理工大学;

    申请/专利号CN202111401486.6

  • 发明设计人 孙崐;祝嘉豪;

    申请日2021-11-24

  • 分类号G06T7/10(2017.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构

  • 代理人

  • 地址 150080 黑龙江省哈尔滨市南岗区学府路52号

  • 入库时间 2023-06-19 16:11:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-16

    实质审查的生效 IPC(主分类):G06T 7/10 专利申请号:2021114014866 申请日:20211124

    实质审查的生效

说明书

技术领域

本发明涉及医学图像分割领域,主要涉及一种基于双通道U形改进Transformer网络的视网膜血管图像分割方法。

背景技术

视网膜(Retina)、视网膜动静脉血管(简称为视网膜血管,Retinal Vascular)、视神经(Optic Nerve)以及黄斑(Macula lutea)构成眼底(fundus)的主要结构。医生通常利用点散瞳药物和眼底成像设备,通过散大后的瞳孔来获取眼底影像。随着医学成像技术的发展,利用OCT技术(Optical Coherence Tomography,光学相干断层扫描仪)对眼底进行断层扫描,已经成为眼底疾病诊断的重要手段。视网膜血管是人体组织中唯一可以在非手术状态下观测到的较深层次的微小血管,根据对其直径、歪曲程度和颜色等特性的变化,医生可以快速对眼科、内科以及神经外科等临床疾病进行有效诊断,这对于疾病的早期预防和治疗具有非常重要的意义。如:高血压患者经过长期的病情演变,通常会使视网膜血管发生类似小动脉壁硬化之类的显著改变,动静脉交叉压迹,视乳头水肿等症状。通过观察眼底视网膜图像,可以对病情的严重程度进行客观评价,以确定是否患有青光眼、糖尿病视网膜病变等眼科疾病。

人体球结膜微血管图像具有血管与背景对比度低,结构信息复杂和血管与组织界限模糊等特点,增加了血管分割的难度。传统的人工分割方式指医生凭借个人经验手动分割完成,该分割方式受人为因素影响且耗费时间较长,无法满足大规模眼底图像处理的要求。近年来,随着数字图像处理技术大量应用在医疗领域,能够辅助医师临床诊断和分析患者病情,因此,利用计算机辅助找到更高效、精准的眼底图像分割算法,实现血管图像的自动分割技术成为了十分重要的研究方向。

视网膜血管结构复杂,各局部区域血管的宽度、形状和强度各异。尽管微血管较薄,但其不同部位的血管宽度差异明显。由于医学图像本身的复杂性和不确定性,如低对比度、灰度不均匀、病变噪声等因素,使得准确分割变得十分困难,在目标区域里出现的过分割或者欠分割问题都将导致图像分割结果不准确。现有的文献中提出的血管分割算法,按照算法原理可以大致分为:基于血管增强滤波、基于深度学习、基于可变模型和基于追踪的算法。根据是否依赖图像标签信息可将血管分割方法大致可分为:无监督学习和监督学习。

监督学习与非监督学习相区别,其原理是使用基于局部或全局图像特征的特征集训练分类器,并把它作为先验知识的指导学习训练库。它包括自适应、支持向量机、生成对抗网络、CNN(Convolutional Neural Network)、Transformer、高斯混合模型及k近邻等方法。目前,CNN广泛用于分割视网膜血管。大量研究结果表明,CNN在分割视网膜血管和视盘提取等方面性能突出,甚至能在几个公开可用的数据集上展现出超越于人类观察者的能力。

发明内容

本发明主要解决的技术问题在于,针对CNN特征提取结构通过层层叠加而不能直接提取全局特征的缺点,以及Transformer结构可直接提取全局特征但计算量过大等问题,提供一种基于双通道U形改进Transformer网络的视网膜血管图像分割方法。

本发明解决其技术问题所采用的技术方案,主要包括一下步骤:

本发明中,首先将原始视网膜血管图像的单个色彩通道提取出来,得到色调统一的图像,后对单通道图像采取限制对比度直方图均衡化的预处理增强操作,同时采用旋转、调节亮度对增强后的图像进行扩增。将新数据集送入网络进行训练,由于视网膜图像样本数量的增加,有效缓解了视网膜图像数据集规模有效带来的过拟合现象。

其次,本文对U-Net网络结构进行了改造,将原先由CNN卷积块组成的下采样部分替换为改进的Transformer。改进的Transformer去除了标准Transformer的解码器结构,将编码器中的Multi-Head Attention分为X轴特征提取和Y轴特征提取两部分,由ViT网络(Transformers for Image RecognitionatScale)对图像的二维平面特征的整体提取变为了由两个轴向的一维特征提取合并为对图像二维平面特征的提取。在Multi-HeadAttention的基础单元自注意力机制(Self-Attention)中加入了门控机制,以此强化对视网膜血管特征的判别与对图像背景特征的抑制。U-Net的单通路也扩增为了全局通路与局部通路两部分,在上采样的结束后将两通路的输出结果经CBAM(Convolutional BlockAttention Module)进行合并,最终实现精度。

本发明的有益效果是,通过对原始视网膜图像的单通道提取与限制对比度直方图均衡化和旋转、裁剪再拼接等预处理操作增加视网膜图像样本数量,有效缓解了在训练中易出现的过拟合现象,并对网络输出视网膜血管特征相对清晰的单通道图像。通过将U-Net中的CNN下采样特征提取模块替换为改进的Transformer,可以实现同一尺度下对图像全局特征的提取而不需要如CNN层层提取以获得全局特征。Transformer中使用了轴向注意力机制,缓解了Transformer在二维图像下庞大的计算量。双路网络结构确保了在获得全局特征的同时兼顾图像的局部特征。保证了对视网膜血管图像的分割精度。

附图说明

附图1为本发明公开的一种基于双通道U形改进Transformer网络的视网膜血管图像分割方法流程图;

附图2为本发明使用的DRIVE数据集原始视网膜图像;

附图3为本发明96×96的滑动窗口裁剪的效果图。

附图4为本发明提出的一种基于双通道U形改进Transformer网络的视网膜血管图像分割方法整体网络结构图;

附图5为本发明提出的带门控的Self-Attention网络结构图;

附图6为本发明提出的改进Transformer的网络结构图;

附图7为本发明最终的视网膜血管分割效果图。

具体实施方式

本发明不受下列实施例的限制,可根据本发明的技术方案与实际情况来具体的确定实施方式。

结合附图1,其为本发明公开的一种基于双通道U形改进Transformer网络的视网膜血管图像分割方法流程图,具体包括一下步骤:

步骤A01,数据集预处理:

如附图2所示,由瞳孔拍照采集到的视网膜眼底图像,存在光照不均匀、畸变、血管边缘模糊的情况,因此对视网膜眼底图像的RGB三色通道摘取其亮暗相对统一绿色通道图像,对单色通道图像进一步使用限制对比度直方图均衡化的预处理增强操作,平衡色彩的对比度分布,提升血管与视网膜背景的颜色深浅对比,增加血管边缘的清晰度,从而使后续网络得到血管特征相对明显的数据集输入图像。

原始数据集的图像总量为40张,难以满足深度学习对训练集数据的规模需求,特别是Transformer收敛较慢需要大量的数据集作为输入并降低过拟合的风险,并且因为丰富了视网膜血管分布的脉络,提高了网络模型对不同方向下视网膜血管的适应性;故运用旋转和裁剪的方式对数据进行增强。如附图3所示,网络中滑动窗口尺寸设置为96×96,随机裁剪金标准和训练图像局部区域,提取块状目标信息,有利于获取血管的轮廓特征,使得网络模型能够得到眼底图像中更有用的特征信息。

步骤A02,构建视网膜血管分割网络模型:

A02.1编码器部分:

如附图4所示,输入的原始图像首先经过由3个卷积窗口大小为3的卷积层构成的卷积块(Conv Block)对特征近进行初步提取。在原U-Net的编码部分将由两个卷积窗口为3×3的卷积层与池化窗口为2×2的最大池化层组成的bolck替换为了改进的Transformer。Transformer由编码器与解码器部分组成,这里仅使用Transformer的编码器结构。编码器中的主要模块包括Multi-Head Attention与Feed Forward,前者由Self-Attention作为基本单位构成。

注意力机制(Attention)用于计算"相关程度",例如在翻译过程中,不同的英文对中文的依赖程度不同,注意力机制通常可以进行如下描述,表示为将query(Q)和key-valuepairs{K_i,V_i|i=1,2,…,m}映射到输出上,其中query、每个key、每个value都是向量,输出是V中所有values的加权,其中权重是由Query和每个key计算出来的,计算方法分为三步:

计算比较Q和K的相似度,用f来表示:

f(Q,K

将得到的相似度进行Softmax操作,进行归一化:

针对计算出来的权重,对V中所有的values进行加权求和计算,得到Attention向量:

对于基本的Self-Attention模块,如附图5所示在权重加入了门控G

在本发明的改进Transformer中,如附图6所示,Multi-Head Attention不是直接将整张二维图片序列化为像素序列输入以模拟自然语言处理中的文字序列,而是分别把X轴与Y轴的像素作为一个整体。首先将图像的每一列X轴坐标相同,沿Y轴方向分布的像素作为单个序列输入Galed Multi-Head Attention Height,结果输出后再将的每一行Y轴坐标相同,沿X轴方向分布的像素作为单个序列输入Galed Multi-Head Attention Width。

具体地说,沿X轴的轴向注意力层定义如下:

式4中q、k、v、为自注意力机制中输入特征经过权重矩阵Q、K、V相乘后的结果。可学习的向量

单纯的Self-Attention计算非常耗费计算资源,其复杂度为O(h

经过两个轴向注意力机制的特征提取后经过卷积窗口为1×1的卷积运算后通道数扩展为输入时的2倍并与输入相加后经池化作为下一层编码器结构的输入。

A02.2解码器结构:

解码结构中沿用了U-Net使用的卷积窗口为2×2卷积运算进行双线性插值,再将对应下采样层的输出特征拼接在一起。在上采样的过程中会丢失部分语义特征,通过拼接的方式,可以恢复部分的语义信息,从而保证分割的精度。

为了兼顾图像的全局与局部特征信息,本发明将U-Net的单通路结构扩展为了双通路结构。其一全局通路直接将送入网络的整张图像作为输入,逐层通过轴向注意力提取特征;其二局部通路将输入图像4×4拆分得到子图像,对每个子图像分别逐层通过轴向注意力提取特征后再将子特征拼接为整体。两通路的解码上采样部分相同,都通过双线性插值和拼接下采样层的输出。

在上采样的末端,全局通路与局部通路的输出特征的长宽都恢复到了原图的的尺寸,两通路的输出直接相加后使用CBAM将两通路的特征合并,后使用卷积窗口为1×1卷积运算将输出通道数置为1作为最终输出结果。

CBAM包含两部分,分别是通道注意力机制模块和空间注意力模块。通道注意力针对视网膜血管图像的不同通道,主要是关注哪些通道对网络的最后输出结果起到作用;空间注意力针对视网膜血管图像的二维空间信息进行学习,主要是关注哪些位置对网络的最后输出结果起到作用,即哪些位置信息对最终的预测起到了决定性的作用。具体步骤:

通道注意力部分的网络,输入的特征图F尺寸为h×w×c,分别经过基于宽和高的全局最大池化(Global Max Pooling)和全局平均池化(Global Average Pooling),得到两个1×1×c的特征图,再将其分别送入一个两层的多层感知机(MLP),第一层神经元个数为C/r(r为减少率),激活函数为Relu,第二层神经元个数为C,这个两层的神经网络是共享的。而后,将MLP输出的特征进行加和操作,再经过Sigmoid激活,生成最终的通道注意力特征(Channel Attention Feature),即各个通道所占的权重。最后,将通道注意力特征和输入特征图做乘法操作,生成空间注意力模块需要的输入特征。具体公式5如下所示:

式(5)中,σ表示Sigmoid激活函数,W

空间注意力部分,将通道注意力模块输出的特征图F作为本模块的输入特征图。对输入特征图进行基于通道的全局最大池化(Global Max Pooling)和全局平均池化(GlobalAverage Pooling),得到两个H×W×1的特征图,然后将这2个特征图基于通道做拼接操作。然后经过一个卷积窗口为7×7的卷积操作,降维为1个通道,即H×W×1。再经过Sigmoid生成空间注意力特征(Spatial Attention Feature),即沿宽高方向的二维平面下每个位置所占的权重。最后将该空间注意力特征和该模块的输入特征做乘法,得到CBAM最终的输出特征。具体公式如下

式(6)中,F表示CBAM中通道注意力部分的输出特征,σ表示Sigmoid激活函数,f

网络最后采用SoftMax激活函数对上采样结果相对人工标注图像的真假概率判定值,随后使用交叉熵损失函数和Adam优化器进行网络参数优化,训练完毕后由测试集对网络模型性能指标进行评估。

本发明公开的一种基于双通道U形改进Transformer网络的视网膜血管图像分割方法,针对传统以CNN为基础的U形网络无法直接获取图像全局信息而需要逐层采样的局限,和Transformer中Self-Attention在处理二维输入特征时计算复杂度大的问题。通过引入改进的Transformer,实现了单个下采样层对特征的全局提取;在Self-Attention中加入门控机制丰富了对特征选择的灵活性,抛弃了对整张二维图像像素输入Multi-HeadAttention,而依次将沿Y轴与X轴的像素序列作为单位输入Galed Multi-Head AttentionHeight与Galed Multi-Head Attention Width,使计算复杂度由O(h

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号