首页> 中国专利> 一种基于深度学习模型融合架构的结核胸片机器判读方法

一种基于深度学习模型融合架构的结核胸片机器判读方法

摘要

本发明公开了一种基于深度学习模型融合架构的结核胸片机器判读方法,包括如下步骤:数据集划分,将结核胸片的5类图像数据分别划分为训练集、测试集和独立验证集,其比例分别为60%、20%和20%;深度神经网络多视角特征学习,总计使用五类、11种深度学习模型进行特征学习;模型融合,将上述11种模型的输出作为模型融合的输入,分别采用七种传统的机器学习模型来训练最终的分类器,包括投票法、高斯朴素贝叶斯、逻辑回归、随机森林、梯度提升,支持向量机和XGBClassifier方法。本专利提出采用不同的卷积参数和网络结构来获取不同视角的图像特征,采用集成学习的方法融合这些图像特征,实现结核胸片图像的精准分类。

著录项

  • 公开/公告号CN112884695A

    专利类型发明专利

  • 公开/公告日2021-06-01

    原文格式PDF

  • 申请/专利权人 天津大学;

    申请/专利号CN201911203253.8

  • 申请日2019-11-29

  • 分类号G06T7/00(20170101);G06K9/62(20060101);G06N3/04(20060101);G16H50/20(20180101);G16H50/80(20180101);

  • 代理机构12107 天津市三利专利商标代理有限公司;

  • 代理人张义

  • 地址 300072 天津市南开区卫津路92号

  • 入库时间 2023-06-19 11:11:32

说明书

技术领域

本发明涉及了生物医学和深度学习领域,尤其涉及一种基于深度学习模型融合架构的结核胸片机器判读方法。

背景技术

结核病是由结核杆菌感染引起的慢性传染病,它不受年龄、性别、种族、职业、地区的影响,人体许多器官、系统均可患结核病,其中以肺结核最为常见。肺结核是危害人类健康历史久远的慢性传染病,在其严重流行的20世纪初,曾经蔓延全球,造成数百万人死亡。后来随着医药科学技术的进步和卫生条件的不断改善,肺结核的发病率大幅度下降,甚至被大多数人遗忘。但是近年来,肺结核在全世界范围内又死灰复燃、卷土重来,如今已成为最重要的传染病致死原因。针对全球结核病疫情恶化,世界卫生组织提出了“全球结核病紧急状态”,并把每年的3月24日定为世界防治结核病日,要求全球采取紧急措施与结核病斗争,采用新的技术和方法去诊断和治疗结核病刻不容缓。

随着计算机技术的高速发展,CAD技术在一些医疗发达国家的相应领域取得了较快的发展,特别是在涉及医学影像学的领域。实践证明,CAD在提高诊断准确率、减少漏诊、提高工作效率等方面起到了极大的积极促进作用。人工神经网络(artificial neuralnetwork,ANN)快速发展,它是模仿人大脑神经元工作原理的一种数学处理方法。由于它具有自学习能力、记忆能力、预测事件发展等能力,因此可以起到辅助诊断的作用,在分类、诊断方面,人工神经网络方法比传统的方法(概率统计法、数学模型等)有更优越的性能。可以说,人工神经元网络是代表当前最先进的人工智能技术之一。图像识别则是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用。

利用人工智能的模型算法进行结合胸片的机器判读的目标,就是根据胸片的图像特征对目标胸片是否是有病变特征的胸片做出判断,甚至可以具体识别出其结核的种类(仅结核性胸膜炎、仅继发性肺结核、继发性肺结核且结核性胸膜炎)。虽然当前有很多的模型和方法能够对图像特征进行识别,但是通常的单个模型预测效果各有优劣,很难做到通过单一的模型进行较为准确的判断,所以需要综合考虑多种模型。

因此,我们采用多个模型同时处理来解决了这个问题。我们所采用的模型有alexnet、densenet、MtbCNN、MtbNet、vgg。尽管以上各种方法都能对胸片图像做出一定程度的识别判断,但是预测精度很难达到理想的效果,为此加入了一个ensemble层来协调各种模型的预测效果,结果表明采用多种模型的联合处理能够有效地对胸片图片进行分类。

发明内容

为了解决上述问题,本申请的目的即是提供一种基于深度学习模型融合架构的结核胸片机器判读方法。

为实现本发明的目的,本发明提供了一种基于深度学习模型融合架构的结核胸片机器判读方法,包括如下步骤:

(1)数据集划分,将结核胸片的5类图像数据分别划分为训练集、测试集和独立验证集,其比例分别为60%、20%和20%;

(2)深度神经网络多视角特征学习,总计使用五类、11种深度学习模型进行特征学习;

(3)模型融合,将上述11种模型的输出作为模型融合的输入,分别采用七种传统的机器学习模型来训练最终的分类器,包括投票法、高斯朴素贝叶斯、逻辑回归、随机森林、梯度提升,支持向量机和XGBClassifier方法。

其中,

所述五类、11种深度学习模型包括如下:

第一类为我们自己开发的首层卷积核大小为3,包含三个卷基层,两个全连接层的窄神经网络模型(Shallow-CNN,Mtb-CNN)。根据输入图像的尺寸228、456和684分别构建三个模型;

第二类(Wide-CNN,Mtb-Net)除首层卷积核大小为11外,与第一类具有相似的网络结构,同样根据输入图像的尺寸228、456和684分别构建三个模型;

后三类均为现有的在图像处理方面性能较好的神经网络架构,分别是AlexNet、DenseNet(包括121和161)和VGG(11和13),模型输入均为228,其余参数使用缺省设置,总计5种模型。

与现有技术相比,本发明的有益效果为,本专利提出采用不同的卷积参数和网络结构来获取不同视角的图像特征,采用集成学习的方法融合这些图像特征,实现结核胸片图像的精准分类。

附图说明

图1所示为本申请的医疗影像读片流程图;

图2所示为本申请的建模算法架构架构图;

图3a所示为本申请的不同深度学习模型损失函数值随训练轮数的变化曲线;

图3b所示为本申请的不同深度学习模型AUC值随训练论述的变化曲线;

图4所示为不同数据集上模型融合预测AUC值;

图5所示为本申请四类判别是否为结核病的数据集交叉验证结果;

图6所示为本申请基于多种算法的结核胸片机器判读方法学习判别流程图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用属于“包含”和/或“包括”时,其指明存在特征、步骤、操作、部件或者模块、组件和/或它们的组合。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

利用深度学习的多种模型,对结核病的种类进行学习预测,属于医疗信息化和计算机辅助诊断(computer aided diagnosis,CAD)的一个重点研究问题。该方法利用已有的正常和病变的胸部的X片图片集训练深度学习分类模型,来对胸片是否正常以及何种类型的病变进行分类识别。

本发明的技术过程主要包含以下内容:

1)数据来源

本发明所采用的实验数据集来源于某结核医院的总共2191幅肺结核胸片图像,同时为了验证结果的通用性选择了其他几个医院的结核和肺结核胸片作为交叉验证集。

2)入组机器学习数据的分组规则

此次研究的肺结核种类主要包括仅继发性肺结核(空洞)、仅继发性肺结核(非空洞)、结核性胸膜炎、继发性肺结核(空洞)且结核性胸膜炎、继发性肺结核(非空洞)且结核性胸膜炎总共五种主要类型。非空洞和空洞指标适用于仅继发性肺结核和继发性肺结核且结核性胸膜炎两种结核类型,而仅结核性胸膜炎不区分空洞与非空洞。因此此次研究主要的判别特征为空洞、非空洞、结核性胸膜炎三种,根据判别的种类可以最终鉴定出待鉴定胸片的结核种类以便辅助医生进行诊断。

用于研究的样本分类以及所属分类下阴性样本数、阳性样本数和总样本数统计如表1所示:

表1各结核类别样本统计表

3)医疗影像读片流程

本研究在读片过程中先从所有的2191个样本中读取正常的1276个样本进行分析建模,之后剩下的915个肺结核样本中分为三类,分别是仅结核性胸膜炎(仅PT)、仅继发性肺结核(仅TB)、继发性肺结核且结核性胸膜炎(PT+TB)。仅结核性胸膜炎共有140个样本,直接读片分析建模。剩下的仅继发性肺结核和继发性肺结核且结核性胸膜炎总共775个样本由于都包含空洞和非空洞两种特征,故按照仅继发性肺结核且空洞、仅继发性肺结核且非空洞、继发性肺结核且结核性胸膜炎且空洞、继发性肺结核且结核性胸膜炎且非空洞四类以此进行读片建模,具体的读片流程图如图1所示。

4)建模算法

特征自动获取是卷积神经网络处理图像数据的主要优势之一,然而不同的卷积参数和网络结构往往只偏向于特定的图像特征。为此本专利提出采用不同的卷积参数和网络结构来获取不同视角的图像特征,采用集成学习的方法融合这些图像特征,实现结核胸片图像的精准分类。主要过程(如图2所示)包括:

·数据集划分。将结核胸片的5类图像数据分别划分为训练集、测试集和独立验证集,其比例分别为60%、20%和20%。

·深度神经网络多视角特征学习。总计使用五类、11种深度学习模型进行特征学习。第一类为我们自己开发的首层卷积核大小为3,包含三个卷基层,两个全连接层的窄神经网络模型(Shallow-CNN,Mtb-CNN)。根据输入图像的尺寸228、456和684分别构建三个模型。第二类(Wide-CNN,Mtb-Net)除首层卷积核大小为11外,与第一类具有相似的网络结构,同样根据输入图像的尺寸228、456和684分别构建三个模型。后三类均为现有的在图像处理方面性能较好的神经网络架构,分别是AlexNet、DenseNet(包括121和161)和VGG(11和13)。模型输入均为228,其余参数使用缺省设置,总计5中模型。

·模型融合:将上述11中模型的输出作为模型融合的输入,分别采用七种传统的机器学习模型来训练最终的分类器,包括投票法、高斯朴素贝叶斯、逻辑回归、随机森林、梯度提升,支持向量机和XGBClassifier方法。

1、本申请模型拟合效果图

根据上述描述分别用多种模型对医学影像胸片图像进行分析建模,模型拟合的好坏直接关系到最终模型的分类效果,好的模型训练过程应当是充分分析训练图片集中的图片特征,既不欠拟合又不过拟合。

分别利用上述模型训练40轮的损失函数值和测试性能指标AUC分别如图3a和3b所示。

2、模型融合识别效果

将各深度学习模型的输出作为模型融合的输入,分别对不同的数据集进行学习,获得的结果如图4所示。其中meta_0_0对应的是判断是否为结核病的全部数据集,meta_1_1对应的meta_0_0的一个子集,包含272幅图像,meta_2_2和meta_3_3分别对应深圳第三医院和美国Montgomery的公共数据集,meta_4_4为判断是否为空洞的数据集,meta_5_5为判断结核性胸膜炎或者继发性肺结核的数据集,meta_6_6为仅为继发性肺结核或者继发性肺结核且患结核性胸膜炎的数据集,meta_7_7为仅为结核性胸膜炎或者继发性肺结核且患结核性胸膜炎的数据集。

通过观察图4可以看出通过本研究所得到的模型对于结核胸片具有很好的识别效果,其中有几种方法的识别率接近于100%,这对于计算机辅助诊断结核病具有重要的意义。

3、判别是否结核病的多数据集交叉验证效果

对四类判别是否为结核病的数据集,分别进行交叉验证实验,结果如图5所示。从图中可以看出,使用我们的数据集(meta_0)构建的模型验证其余三个数据集时所有的方法都表现出较好的性能,说明其概况性能较佳,具有进一步推广的价值。

图6所示为本申请基于多种算法的结核胸片机器判读方法学习判别流程图。

以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号