法律状态公告日
法律状态信息
法律状态
2019-02-12
授权
授权
2018-02-02
实质审查的生效 IPC(主分类):G16H30/40 申请日:20170911
实质审查的生效
2018-01-09
公开
公开
技术领域
本发明涉及内窥镜图像识别领域,具体涉及一种基于集成学习的胃镜图像辅助处理系统及方法。
背景技术
随着内窥镜技术的进步,近年来开发出了多种图像诊断系统或方法,它们作为对瘤的筛选、质变诊断方法在临床上具有重要意义,很多医生曾实施过消化道内窥镜检查,但是多数诊断会受到观察者的感性、经验的影响,于是,就需要一种对症状进行定量性评价以作为“二次诊断”来辅助医生进行诊断。比如,申请公布号为【CN105979847A】的发明专利公开一种内窥镜图像诊断辅助系统,以辅助识别内窥镜图像中的识别对象区域中的病理类型;申请公布号为【CN104463182A】的发明专利公开一种基于关键点检测的NBI胃镜图像处理方法,在保证灵敏度(真阳性检出率)的同时,具有较低的假阳性检出率,由此来辅助医生进行胃镜诊断,以提高辅助诊疗识别的目的。
总之,从现有技术可以了解到,现有的胃镜或内窥镜图像辅助诊断方法大都是简单的利用卷积神经网络训练模型,经过验证后将符合标准的训练结果用于辅助诊断。由于以下原因,其实际应用过程并不理想:1)在训练过程中,仅仅是将数据集随机的分为训练集、验证集、测试集进行训练,而没有考虑到训练集对结果的影响,因为不同的训练集对神经网络的训练结果有着决定性的影响,并且没有对数据进行二次处理,也会导致训练结果存在局限性;2)采用单个CNN分类器,由于CNN(卷积神经网络)有多种网络结构,若仅仅采用其中的一种训练,则单个CNN分类器势必会在敏感性、特异性、漏诊率、误诊率等指标上难以到达临床辅助诊疗的要求,进而诊断辅助系统的实际应用效果也会降低,难以给医生提供准确的病灶信息。
考虑到相同的训练集在不同的网络结构下会产生不同的结果,亟待提出一种新的解决方案,以提高分类器的整体表现。
发明内容
本发明所要解决的技术问题在于针对现有胃镜图像辅助诊断系统多采用单个CNN分类器、没有考虑训练集对结果的影响,导致敏感性、特异性、漏诊率、误诊率等指标难以达到临床辅助诊疗的要求等缺陷,提出一种基于集成学习的胃镜图像辅助处理系统及方法。
本发明是采用以下的技术方案实现的:基于集成学习的胃镜图像辅助处理系统,包括图像采集模块、数据预处理模块、神经网络训练模块,以及集成学习模块;所述图像采集模块用以采集胃镜图像,并将采集的图像数据传输至数据预处理模块;所述数据预处理模块包括原始数据准备模块和训练数据准备模块:所述原始数据准备模块用以实现图像数据到训练数据的整理,包括对原始图像数据的筛选及扩充,并对图像数据根据有病、无病设置不同的标签,以在CNN中进一步调用;所述训练数据准备模块将整理好的数据进一步分为训练集、测试集和验证集,且训练集、测试集和验证集所占比重为3:1:1,最终将图像数据转换成caffe环境下可识别的格式,比如lmdb或leveldb格式,并传输至神经网络训练模块;
所述神经网络训练模块包括多个不同类型和结构,且相对独立的卷积神经网络,分别对预处理后的图像数据进行训练,当在敏感性、特异性、漏诊率和误诊率上的表现达到要求时训练和验证结束,以得到训练结果并传输至集成学习模块;
根据神经网络训练模块的训练结果,所述集成学习模块采用Adaboost算法对同一个训练集训练不同的分类器,即弱分类器,然后将各弱分类器进行集成,形成最终决策分类器。
进一步的,为充分说明当前模型在数据集变化的过程中具有一定的稳定性,所述数据预处理模块还包括采用交叉验证的方式对图像数据进行二次处理的过程:将整个图像数据集分成5等份,从中抽出3份作为交叉验证的训练集,记为E,则神经网络都将在训练集E下训练出一个网络模型并记为{μj|j∈E},根据每个神经网络对应的分类精度Cj得到当前神经网络的分类可信度K。
进一步的,鉴于胃镜图像形态各异,对图像数据进行扩充时,分别以图像的四个顶点为基准,对数据集中的影像截取原始长、宽的80%,即将1张原始图像扩充出4张扩充图。
进一步的,鉴于卷积神经网络需要大量的计算资源,并且集成学习特性要求子学习器分类性能上需要逐步递增,所述神经网络训练模块采用在网络深度上递增的AlexNet,GoogLeNet,VGGNet和ResNet四种卷积神经网络,便于在逐步增加网络深度的同时,能以更低的功耗全面的发现图像上的信息,通过这样的设计,可以在每个神经网络训练完成后得到图像在当前神经网络下的训练结果。
本发明另外还提出一种基于集成学习的胃镜图像辅助处理方法,包括以下步骤:
步骤A、图像数据采集:通过电子胃镜获取胃镜图像数据;
步骤B、图像数据预处理:
原始数据准备:对采集的图像数据进行筛选和扩充,完成图像数据到训练数据的整理;筛选出无效数据,避免错误知识对神经网络训练产生不利影响,同时对数据集扩充,以避免过拟合的问题,并根据有病、无病对图像设置成不同的标签,以在CNN中进一步调用;
训练数据准备:原始数据经分类后,尚不能直接进行网络训练,需要将准备好的数据进一步分为训练集、测试集和验证集,且所述训练集、测试集和验证集所占比重为3:1:1;
数据格式转换:为在神经网络训练中提高训练效率,最终将图像数据转换成caffe环境可识别的lmdb或leveldb格式,以便于在caffe环境下用来存放训练、测试数据;
步骤C、神经网络训练:选定多个不同类型和结构,且相互独立的卷积神经网络分别进行迭代训练,以得到当前神经网络下的训练结果,当达到最大迭代次数或满足误差要求时,训练和验证结束;否则通过反向传播算法重新调整神经网络参数,直至满足要求;
步骤D、集成学习训练:根据神经网络训练结果,采用Adaboost算法对同一个训练集训练不同的分类器,即弱分类器,然后将所有的弱分类器进行集合,得到最终决策分类器。
进一步的,所述步骤B中,对采集的图像数据进行筛选是指筛选出病灶明显的图片,以筛选出无效数据,避免错误知识对神经网络训练产生的不利影响,由于医学图片尤其是胃镜图片差异性很大,所述病灶明显是指病灶在图片中相对于周围正常区域来说在形状、颜色上有差异,人的肉眼能较易观察出并且不能位于图片的边缘。
进一步的,所述步骤B中,鉴于胃镜图像形态各异,对采集的图像数据进行扩充时采用以图像的四个顶点为基准,并对图像中的影像截取原始长、宽的80%的方式,即将1张原始图像扩充出4张扩充图。
进一步的,所述步骤B中,训练数据准备好后,为充分说明当前模型在数据集变化的过程中具有一定的稳定性,还包括采用交叉验证的方式对图像数据进行了二次处理的步骤,具体包括:
将整个数据集分为5等份,每次从中抽出3份作为交叉验证的训练集,则共有共个训练集,记为E;则神经网络都将在训练集E下训练出一个网络模型,并记为{μj|j∈E},j={1,2,3,4,5,6};
在神经网络的结果中,记当前神经网络的分类个数为C,每个分类下的精确度记为则每个神经网络对应的分类精度Cj采用以下的公式进行计算:
定义当前神经网络的分类可信度K记为:为均值减标准差。
进一步的,所述步骤C中,鉴于卷积神经网络需要大量的计算资源,并且集成学习特性要求子学习器分类性能上需要逐步递增,所述卷积神经网络采用在网络深度上递增的AlexNet,GoogLeNet,VGGNet和ResNet四种卷积神经网络,便于在逐步增加网络深度的同时,能以更低的功耗全面的发现图像上的信息,通过这样的设计,可以在每个神经网络训练完成后得到图像在当前神经网络下的训练结果。
进一步的,所述步骤D中对所有的弱分类器进行集合采用以下方式实现:
步骤D1、每个分类器t的分类结果记为ht(xi),其中正确的目标分类是yi,则将当前分类器的误差εt记为:εt=P[ht(xi)≠yi];
步骤D2、如果当前分类器的误差εt>0.5,则说明当前分类器不足以进行分类,则舍弃;否则利用当前分类器的误差εt计算当前分类器在最终的分类器的权重at为:即当前分类器在最终整合分类器中所占的比重;
步骤D3、为了在接下来的分类器中更好的分类出错误的图片,更新分类错误的元素在整体数据集中的权重:设分类错误的元素在上一个分类器中的权重为Dt(i),则根据上一个模型的误差重新调整分类错误的数据,即yi≠ht(xi)的权重,记为D(t+1)(i),分类正确的数据权重不变:
经过在所有的分类器分类完毕后,每个分类器都将有一个新的权重;
步骤D4、利用数据在每个模型下表现出的结果ht(x)与对应分类器的权重at乘积之和,计算出最终所属分类:其中,T为弱分类器的个数。
与现有技术相比,本发明的优点和积极效果在于:
本发明所提出的基于集成学习的胃镜图像辅助处理系统及方法,在现有的胃镜图像辅助诊断系统上进行技术改进,其中包括对图像数据筛选、数据分类、扩充等过程的优化,对所采用的卷积神经网络模型的扩充,同时提供一种将所产生的不同分类器整合的方法,旨在提高分类器的整体性能,从而在敏感性、特异性、漏诊率、误诊率四个指标上到达临床辅助诊疗的要求,真正起到辅助诊疗的作用;进而有效提高辅助诊疗系统在实际行医过程中的使用率,有效提高基层医务人员的行医质量及基层诊疗水平;同时,本发明所提出的方案还可以有效提高医务工作人员的诊疗效率,降低漏诊误诊的可能,可以构建更为强大和优秀的分类器,从而给医生提供更为准确的病灶信息。
附图说明
图1为本发明实施例1所述系统原理框图;
图2为本发明实施例2所述方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1,参考图1,本实施例提出一种基于集成学习的胃镜图像辅助处理系统,包括图像采集模块、数据预处理模块、神经网络训练模块,以及集成学习模块。所述图像采集模块用以采集胃镜图像,并将采集的图像数据传输至数据预处理模块;所述数据预处理模块包括原始数据准备模块和训练数据准备模块,原始数据准备模块用以实现图像数据到训练数据的整理,包括对原始图像数据的筛选及扩充,并对图像数据根据有病、无病设置不同的标签,以在CNN中进一步调用;训练数据准备模块将整理好的数据进一步分为训练集、测试集和验证集,且训练集、测试集和验证集所占比重为3:1:1,最终将图像数据转换成caffa环境下可识别的格式,比如lmdb或leveldb格式,并传输至神经网络训练模块。
神经网络训练模块包括多个不同类型和结构,且相对独立的卷积神经网络,分别对预处理后的图像数据进行训练,当在敏感性、特异性、漏诊率和误诊率上的表现达到要求时训练和验证结束,以得到训练结果并传输至集成学习模块;根据神经网络训练模块的训练结果,所述集成学习模块采用Adaboost算法对同一个训练集训练不同的分类器,即弱分类器,然后将各弱分类器进行集成,形成最终决策分类器。
为充分说明当前模型在数据集变化的过程中具有一定的稳定性,所述数据预处理模块还包括采用交叉验证的方式对图像数据进行二次处理的过程:将整个数据集分为5等份,每次从这5份数据中抽出3份作为交叉验证的训练集,则共有个训练集记为E(当然可以根据实际情况增加或者减少分成等价份的数量,在此不作限制),神经网络都将在E下训练出一个网络模型并记为{μj|j∈E},而在神经网络的结果中,存在着当前神经网络分类记为C,每个分类下的精确度记为则每个网络对应的分类精度Cj可以用以下的公式进行计算:并由此定义当前网络的分类可信度K记为:
鉴于胃镜图像形态各异,对图像数据进行扩充时,分别以图像的四个顶点为基准,对数据集中的影像截取原始长、宽的80%,即将1张原始图像扩充出4张扩充图。另外,由于卷积神经网络需要大量的计算资源,并且集成学习特性要求子学习器分类性能上需要逐步递增,本实施例中神经网络训练模块采用在网络深度上递增的AlexNet,GoogLeNet,VGGNet和ResNet四种卷积神经网络,便于在逐步增加网络深度的同时,能以更低的功耗全面的发现图像上的信息,通过这样的设计,可以在每个神经网络训练完成后得到图像在当前神经网络下的训练结果。
对于集成学习模块,选取Adaboost算法针对同一个训练集训练不同的分类器,即弱分类器,然后把这些弱分类器集合起来,构造一个更强的最终分类器,具体实现方式是根据每次训练集之中的每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的新数据送给下层分类器进行训练,然后将每次训练得到的分类器融合起来,作为最后的决策分类器,从而在实际应用过程中得到具有置信度的处理结果。
实施例2,基于实施例1所提出的系统,本实施例提出一种基于辅助诊断处理系统的方法,参考图2,包括:
步骤201、图像数据采集:通过电子胃镜获取胃镜图像数据;
步骤202、图像数据预处理:
原始数据准备:对采集的图像数据进行筛选和扩充,完成图像数据到训练数据的整理;筛选出无效数据,避免错误知识对神经网络训练产生不利影响,同时对数据集扩充,以避免过拟合的问题,并根据有病、无病对图像设置成不同的标签,以在CNN中进一步调用;
训练数据准备:原始数据经分类后,尚不能直接进行网络训练,需要将准备好的数据进一步分为训练集、测试集和验证集,且所述训练集、测试集和验证集所占比重为3:1:1;
数据格式转换:为在神经网络训练中提高训练效率,最终将图像数据转换成lmdb或leveldb格式,以便于在caffe环境下用来存放训练、测试数据;
步骤203、神经网络训练:选定多个不同类型和结构,且相互独立的卷积神经网络分别进行迭代训练,以得到当前神经网络下的训练结果,当达到最大迭代次数或满足误差要求时,训练和验证结束;否则通过反向传播算法重新调整神经网络参数,直至满足要求;
步骤204、采用Adaboost算法对同一个训练集训练不同的分类器,即弱分类器,然后将所有的弱分类器进行集合,得到最终决策分类器。
步骤202中,对采集的图像数据进行筛选是指在医生的协助下筛选出病灶明显的图片,以筛选出无效数据,避免错误知识对神经网络训练产生的不利影响,由于医学图片尤其是胃镜图片差异性很大,所述病灶明显是指病灶在图片中相对于周围正常区域来说在形状、颜色上有差异,人的肉眼能较易观察出并且不能位于图片的边缘。另外,鉴于胃镜图像形态各异,对采集的图像数据进行扩充时采用以图像的四个顶点为基准,并对图像中的影像截取原始长、宽的80%的方式,即1张原始图像可以扩充出4张扩充图。
并且,在步骤202中,训练数据准备好后,为充分说明当前模型在数据集变化的过程中具有一定的稳定性,还包括采用交叉验证的方式对图像数据进行了二次处理的步骤,具体包括:
将整个数据集分为5等份,每次从这5份数据中抽出3份作为交叉验证的训练集,则共有个训练集记为E;
则神经网络都将在E下训练出一个网络模型并记为{μj|j∈E},j={1,2,3,4,5,6},而在神经网络的结果中,当前神经网络分类个数记为C,比如说本实施例分为有病、无病两类,因此此处C=2,每个分类下的精确度记为则每个网络对应的分类精度Cj可以用以下的公式进行计算:并由此定义当前网络的分类可信度K记为:
步骤203中,鉴于卷积神经网络需要大量的计算资源,并且集成学习特性要求子学习器分类性能上需要逐步递增,所述卷积神经网络采用在网络深度上递增的AlexNet,GoogLeNet,VGGNet和ResNet四种卷积神经网络,便于在逐步增加网络深度的同时,能以更低的功耗全面的发现图像上的信息,通过这样的设计,可以在每个神经网络训练完成后得到图像在当前神经网络下的训练结果。
所述步骤204中,对弱分类的的集合采用以下方式:
1、每个分类器t的分类结果记为ht(xi),其中正确的目标分类是yi,则将当前分类器的误差εt记为:εt=P[ht(xi)≠yi];
2、如果当前分类器的误差εt>0.5,则说明当前分类器不足以进行分类,则舍弃;否则利用当前分类器的误差εt计算当前分类器在最终的分类器的权重at为:即为当前分类器在最终整合分类器中所占的比重;
3、为了在接下来的分类器中更好的分类出错误的图片,更新分类错误的元素在整体数据集中的权重:设分类错误的元素在上一个分类器中的权重为Dt(i),则根据上一个模型的误差重新调整分类错误的数据(yi≠ht(xi))的权重,记为D(t+1)(i),分类正确的数据权重不变:
经过在所有的分类器分类完毕后,每个分类器都将有一个新的权重;
4、利用数据在每个模型下表现出的结果ht(x)与对应分类器的权重at乘积之和,计算出最终所属分类:其中,T为分类器的个数,至此,每个神经网络分类器都将有一个新的权重,其中优秀的分类器在混合分类器中所占权值较高,而较差的分类器在混合分类器中所占权值较低,这样可以通过组合弱分类器形成强分类器,最终作为决策分类器从而在实际应用过程中得到具有置信度的处理结果。
通过实验验证,本实施例所提出的方法在敏感性和特异性指标能达到75%左右,也就是说可以把有病图片中75%的都筛选出来,并且筛选过程是全自动的,能提高医务工作人员的诊疗效率,降低漏诊误诊的可能。同时在胃镜检查中会对病灶区域重点拍摄,变换角度和分辨率拍摄,因此会产生多角度的许多张图片,而本方案通过将多个图片结合在一起大大降低漏诊率,进而本方案有非常高的可实施性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
机译: 基于实时获取的胃镜图像的胃镜诊断方法
机译: 基于实时获取的胃镜图像的胃镜诊断方法
机译: 基于实时获得的胃镜检查图像的胃镜检查的内窥镜设备和方法