首页> 中国专利> 用于对代表随时间推移的样本中粒子的输入图像序列进行分类的方法

用于对代表随时间推移的样本中粒子的输入图像序列进行分类的方法

摘要

本发明涉及一种用于对代表随时间推移的样本(12)中的目标粒子(11a‑11f)的输入图像序列进行分类的方法,该方法的特征在于,它包括由客户端(2)的数据处理装置(20)执行以下步骤,即:(b)将序列的输入图像串接成三维堆栈;(c)使用卷积神经网络CNN对三维堆栈进行直接分类。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-10-31

    实质审查的生效 IPC(主分类):G06V20/69 专利申请号:2021800720049 申请日:20211019

    实质审查的生效

说明书

技术领域

本发明涉及生物粒子的光学采集领域。该生物粒子可以是微生物,诸如例如细菌、真菌或酵母。这也可以包括细胞、多细胞生物、或污染粒子类型的任何其他粒子,包括灰尘。

本发明特别有利地适用于分析生物粒子的状态,例如,以便获知应用抗生素后细菌的代谢状态。本发明允许例如由细菌产生的抗菌谱。

背景技术

抗菌谱(antibiogram)是一种实验室技术,旨在测试细菌菌株关于一种或多种抗生素的表型。按照惯例地,抗菌谱是通过培养含有细菌和抗生素的样本来产生的。

欧洲专利申请号2603601描述了一种用于在有抗生素存在的情况下通过使孵育期后的细菌状态可视化来产生抗菌谱的方法。为了使细菌可视化,细菌用荧光标志物进行标记,使其结构得以展现。然后测量标志物的荧光使得可以确定抗生素是否有效地作用于细菌。

用于确定对细菌菌株的有效抗生素的常规过程涉及(例如,从患者、动物、食品批次等)获取含有所述菌株的样本,然后将样本送到分析中心。当分析中心收到样本时,首先进行细菌菌株的培养以获得其至少一个菌落(colony),培养时间在24小时至72小时之间。然后从该菌落中制备包含各种抗生素和/或各种浓度的抗生素的数个样本,然后再次孵育这些样本。在同样为24至72小时的新的培养期之后,对每个样本进行人工分析以确定抗生素是否有效。然后将结果返回给医师,以便应用抗生素和/或最有效的抗生素浓度。

然而,标记过程执行起来特别长且很复杂,并且这些化学标志物对细菌具有细胞毒性作用。由此可见,这种可视化模式不允许在细菌培养期间多次观察细菌,因此需要使用足够长的培养时间,大约24至72小时,以保证测量的可靠性。用于使生物粒子可视化的其他方法使用显微镜,允许对样本进行非破坏性测量。

数字全息显微术(Digital Holographic Microscopy,DHM)是一种成像技术,可以克服常规光学显微镜的景深限制。示意性地,它涉及记录由被观察物体衍射的光波与具有空间相干性的参考波之间的干涉形成的全息图。这种技术在Myung K.Kim的题为“数字全息显微术的原理与技术(Principles and techniques of digital holographymicroscopy)”的评论文章中有所描述,该文章发表于2010年1月的SPIE评论第1卷第1期。

最近,已经提出了使用数字全息显微术以自动方式识别微生物。因此,国际申请WO2017/207184描述了一种用于采集粒子的方法,这种方法在没有与聚焦的数字重建相关联的聚焦的情况下集成了简单的采集,允许在限制采集时间的同时观察生物粒子。

典型地,这种解决方案允许在有抗生素存在的情况下仅在孵育约10分钟后检测细菌的结构修饰,以及在两小时结束时检测其敏感性(检测分裂存在与否或指示分裂的模式),而不像上述常规过程可能需要几天时间。实际上,因为测量是非破坏性的,所以可以在培养过程的非常早期进行分析,而没有破坏样本并因而延长分析时间的风险。

甚至可以在多个连续的图像上跟踪粒子,从而形成代表粒子随时间推移的演变的胶片(因为粒子在第一次分析后没有改变),以便使其行为例如其移动速度或其细胞分裂过程可视化。

因此,可以理解,可视化方法产生了极好的结果。困难在于对这些图像或这一胶片本身的解释,如果目的是例如得出关于细菌对样本中存在的抗生素的易感性(susceptibility)的结论,特别是以自动方式。

已经提出了各种技术,范围从简单地随时间推移计数细菌到旨在通过图像分析来检测特定“构型(configuration)”的所谓的形态分析。例如,当细菌准备分裂时,在分布中会出现两极,远在分裂本身之前,这导致了分布的两个不同部分。

Choi J.、Yoo J.、Lee M.等人于2014年发表的题为“基于单细胞形态分析的快速抗微生物易感性试验(A rapid antimicrobial susceptibility test based on singlecell morphological analysis)”,Science Translational Medicine,6(267),https://doi.org/10.1126/scitranslmed.3009650的文章提出了将这两种技术结合以评估抗生素效果。然而,正如作者所强调的,他们的方法需要对一定数量的阈值进行高度准确的校准,这些阈值强烈依赖于抗生素引起的形态变化的性质。

Yu H.、Jing W.、Iriya R.等人于2018年发表的题为“利用深度学习视频显微术的表型抗微生物易感性试验(Phenotypic Antimicrobial Susceptibility Testing withDeep Learning Video Microscopy)”,Analytical Chemistry,90(10),6314-6322,https://doi.org/10.1021/acs.analchem.8b01128的文章描述了一种基于深度学习的方法。作者提出借助于卷积神经网络(convolutional neural network,CNN)来提取形态特征以及与细菌移动相关的特征。然而,一方面,这种解决方案在计算资源方面被证明是高度密集的,另一方面,为了训练CNN需要庞大的学习图像库。

因此,本发明的客观技术问题是能够提供一种用于对生物粒子的图像进行分类的更加有效且资源密集更少的解决方案。

发明内容

根据第一方面,本发明涉及一种用于对代表样本中的目标粒子的输入图像序列进行分类的方法,该方法的特征在于,它包括由客户端的数据处理装置实施以下步骤:

(b)以三维堆栈的形式将序列中的所述输入图像串接(concatenate)起来;

(c)借助于卷积神经网络(CNN)对所述三维堆栈进行直接分类,其中所述CNN由一系列的卷积块组成,该卷积块由以下组成:将四维滤波器应用到四维输入特征图以便生成四维输出特征图的3D卷积层、激活层和3D池化层、然后是扁平层、最后是一个或多个全连接层。

根据有利但非限制性的特征:

该粒子以统一的方式被显示在每个输入图像中,特别地以预定方向上居中并对齐。

该方法包括步骤(a):从每个输入图像中提取样本的总体图像,以便以所述统一的方式显示所述目标粒子。

步骤(a)包括:对于每个输入图像,对所述总体图像进行分割,以便检测样本中的所述目标粒子,然后将输入图像按照所述检测的目标粒子重新裁剪。

步骤(a)包括:从由观察设备采集的样本的强度图像中采集所述总体图像。

所述三维堆栈具有两个空间维度和一个时间维度,所述滤波器和特征图具有作为三个第一维度的所述空间维度和所述时间维度,以及作为第四维度的语义深度。

所述3D卷积层的滤波器的深度等于输入特征图的深度,并且所述输出特征图的深度等于3D卷积层的滤波器的数量。

所述CNN仅包括两个卷积块。

该方法包括步骤(a0):由服务器的数据处理装置从所述样本中的粒子的先前已分类的图像序列的训练库中训练所述分类器的参数。

根据第二方面,提供了一种用于对代表随时间推移的样本中的目标粒子的输入图像序列进行分类的系统,该系统包括至少一个客户端,该客户端包括数据处理装置,其特征在于,所述数据处理装置被配置为实施:

-以三维堆栈的形式将序列的所述输入图像串接起来;

-借助于卷积神经网络(CNN)对所述三维堆栈进行直接分类,其中所述CNN由一系列的卷积块组成,所述卷积块由以下组成:将四维滤波器应用到四维输入特征图以便生成四维输出特征图的3D卷积层、激活层和3D池化层、然后是扁平层、最后是一个或多个全连接层。

根据有利但非限制性的特征,该系统还包括:用于观察样本中的所述目标粒子的设备。

根据第三方面和第四方面,提出了一种计算机程序产品,包括代码指令,用于执行根据第一方面的用于对代表样本中的目标粒子的输入图像序列进行分类的方法;以及提出了一种由计算机设备件可读的存储装置,在其上的计算机程序产品包括代码指令,用于执行根据第一方面的用于对代表样本中的目标粒子的输入图像序列进行分类的方法。

附图说明

在阅读以下对优选实施例的描述时,本发明的其他特征和优点将变得显而易见。本描述将参照附图提供,在附图中:

-图1是用于实施根据本发明的方法的架构的图;

-图2显示了根据本发明的方法的优选实施例中使用的用于观察样本中的粒

子的设备的示例;

-图3a示出了根据本发明的方法的实施例中的输入图像的采集;

-图3b示出了根据本发明的方法的优选实施例中的输入图像的采集;

-图4显示了根据本发明的方法的优选实施例的步骤;

-图5显示了根据本发明的方法的优选实施例中使用的卷积神经网络架构的示例。

具体实施方式

架构

本发明涉及一种用于对代表样本12中存在的粒子11a-11f(称为目标粒子)的输入图像序列进行分类的方法。应该注意,该方法可以同时针对样本12中存在的粒子11a-11f中的所有或一些粒子来实施,每个粒子依次被认为是目标粒子。

正如将看到的,该方法包括机器学习组件,特别是卷积神经网络,CNN。

输入或学习数据是图像类型的,并且代表样本12中的目标粒子11a-11f(换言之,它涉及其中目标粒子可见的样本的图像)。所述序列是由相同的目标粒子11a-11f随时间推移的多个输入图像组成的。正如将看到的,如果适用的话,可以使样本12的粒子11a-11f的多个图像序列作为输入,如果考虑到数个粒子。

样本12由液体组成,诸如水、缓冲液、培养基或反应介质(可以包括或不包括抗生素),待观察的粒子11a-11f位于其中。

作为替代实施例,样本12可以是固体介质的形式,优选是半透明的,诸如琼脂,粒子11a-11f位于其中。样本12也可以是气体介质。粒子11a-11f可以位于介质内部或者甚至在样本12的表面上。

粒子11a-11f可以是诸如细菌、真菌或酵母的微生物。这也可以包括细胞、多细胞生物、或任何其他污染粒子类型的粒子,包括灰尘。在整篇描述的剩余部分,将使用其中粒子是细菌(并且正如将看到的,样本12包括抗生素)的优选示例。观察到的粒子11a-11f的尺寸在500纳米和几百微米,或甚至几毫米之间变化。

输入图像序列的“分类”涉及在图像的可能的描述性类别的集合中确定至少一个类别。例如,在细菌类型粒子的情况下,有可能具有二元分类,即两种可能的作用类别,也就是“分裂(division)”或“不分裂(no division)”,分别指示对抗生素有耐受性或对抗生素无耐受性。本发明将不限于任何一种特定分类,即使将主要描述抗生素对所述目标粒子11a-11f的作用的二元分类的示例。

本方法借助于服务器1和客户端2在如图1所示的架构内实施。服务器1是学习设备(实施学习方法),客户端2是操作设备(实施分类方法),例如医生或医院的终端。

这两件设备1、2可以被结合起来,但是优选地服务器1是远程设备,而客户端2是消费者设备,特别是桌上型计算机、膝上型计算机等。客户端设备2有利地连接到观察设备10,以便能够直接采集所述输入图像(或者,正如下文将看到的,“原始”采集数据诸如样本12的总体图像或甚至电磁矩阵),典型地用于对其进行直接处理。可替选地,输入图像将被加载到客户端设备2上。

在所有情况下,针对交换数据,设备1、2中的每一件典型地是链接到局域网或广域网诸如因特网的远程计算机设备。每件设备包括处理器类型的数据处理装置3、20以及诸如计算机存储器的数据存储装置4、21,例如闪存或硬盘。客户端2典型地包括用户界面22,诸如用于交互的屏幕。

服务器1有利地存储了学习数据库,即,在各种条件下已经被分类的粒子11a-11f的图像序列的集合(例如,与指示“有分裂”或“无分裂”表明对抗生素的敏感性或耐受性的标签相关联)(参见下文)。应该注意,学习数据可以与定义测试条件的标签相关联,例如,对于细菌的培养物,指示“菌株”、“抗生素条件”、“时间”等。

采集

如所解释的那样,即使本方法可以直接采用以任何方式获得的目标粒子11a-11f的任何图像作为输入。本方法优选地开始于步骤(a),从由观察设备10提供的数据中采集输入图像。

以已知的方式,本领域技术人员将能够使用数字全息显微术(DHM)技术,特别是如国际申请WO2017/207184中描述的。特别地,可以采集样本12的强度图像,称为全息图(hologram),该图像没有被聚焦于目标粒子(被称为“离焦(out of focus)”图像),并且可以由数据处理装置(集成到设备10或客户端2的那些设备20中,例如参见下文)处理。可以理解的是全息图以某种方式“代表”样本中的所有粒子11a-11f。

图2示出了用于观察样本12中存在的粒子11a-11f的设备10的示例。样本12被设置在空间和时间上相干(例如,激光)或伪相干(例如,发光二极管、激光二极管)的光源15与在光源的光谱范围内敏感的数字传感器16之间。优选地,光源15具有窄光谱宽度,例如,窄于200nm、窄于100nm或者甚至窄于25nm。在整篇描述的剩余部分,光源的中心发射波长是指在可见域中。光源15发射定向在样本的第一面13上的相干信号Sn,例如由波导诸如光纤传达。

样本12(如所解释的,典型地是培养基)包含在由下载玻片(slide)和上载玻片(例如常规的显微镜载玻片)垂直界定的分析室中。分析室由粘合剂或任何其他密封材料横向地界定。下载玻片和上载玻片对光源15的波长是透明的,样本和分析室允许例如超过50%的光源波长在下载玻片上在法向入射(normal incidence)下通过。

优选地,粒子11a-11f被布置在上载玻片上的样本12中。为此,上载玻片的下面包括用于允许附着粒子的配体(ligand),例如微生物的背景中的聚阳离子(例如,聚-L-赖氨酸)。这允许包含厚度等于或接近于光学系统景深,也就是厚度小于1mm(例如,镜筒透镜),优选地小于100μm(例如,显微镜物镜)的粒子。粒子11a-11f尽管如此可以在样本12中移动。

优选地,该设备包括光学系统23,该光学系统23例如由显微镜物镜和镜筒透镜组成,设置在空气中并与样本保持固定距离。光学系统23可选地配备有滤波器,其可以位于物镜前面或者物镜与镜筒透镜之间。光学系统23的特征在于光学轴线;物平面(也被称为聚焦平面),其离物镜有一段距离;以及像平面,其由光学系统与物平面共轭。换言之,位于物平面中的物体在像平面(也被称为焦平面)中具有该物体的清晰图像。系统23的光学性质是固定的(例如,定焦光学器件)。物平面和像平面正交于光学轴线。

图像传感器16面向样本的第二面14位于焦平面中或在其附近。传感器,例如CCD或CMOS传感器,包括敏感基本位点(site)的周期性二维阵列,以及以本身已知的方式调整曝光时间和重置位点的接近电子器件。基本位点的输出信号取决于在曝光时间期间入射到所述位点的光谱范围内的辐射量。然后,这个信号例如由接近电子器件转换成数字图像的图像点或“像素(pixel)”。因此,传感器产生具有C列L行矩阵形式的数字图像。矩阵中的坐标(c,l),该矩阵中的每个像素以本身已知的方式对应于光学系统23的焦平面中的笛卡尔坐标(x(c,l),y(c,l))的位置,例如,矩形敏感基本位点的中心的位置。

选择周期性阵列的间距(pitch)和填充因子以符合关于观察到的粒子的尺寸的奈奎斯特-香农(Nyquist-Shannon)判据,以便定义每个粒子的至少两个像素。因此,图像传感器16采集样本在光源的光谱范围内的透射图像。

由图像传感器16采集到的图像包括全息信息,就它是由粒子11a-11f衍射的波与已经穿过样本而不与所述样本进行交互的参考波之间的干涉所产生的而言。显而易见地,如上所述,可以理解,在CMOS或CCD传感器的上下文中,采集到的数字图像是强度图像,相位信息因而在这种情况下被编码在该强度图像中。

可替选地,源自于光源15的相干信号Sn可以被划分成两个分量,例如借助于半透明板。然后,第一分量充当参考波,第二分量由样本12衍射,其中光学系统23的像平面中的图像由衍射波与参考波之间的干涉产生。

参照图3a,在步骤(a)中,可以从全息图中重建样本12的多个总体图像,然后从样本的总体图像中提取每个输入图像。

实际上,可以理解,目标粒子11a-11f必须在每个输入图像中以统一的方式表示,特别地以预定方向(例如水平方向)为中心并在预定方向上对齐。输入图像还必须具有标准化的尺寸(也期望在输入图像中只看到目标粒子11a-11f)。因此,输入图像被称为“缩略图(thumbnail)”,并且可以定义例如250×250像素的尺寸。就期望的输入图像序列而言,例如在120分钟的时间间隔内,每分钟拍摄一幅图像,从而获得120幅输入图像的序列。

如所解释的,对每个总体图像的重建由设备10的数据处理装置或客户端2的那些装置20实施。

典型地,(对于采集时刻)构建一系列称为“电磁矩阵(electromagneticmatrices)”的复矩阵,基于样本12的强度图像(全息图)针对相对于光学系统23的聚焦平面的多个偏差(特别是定位在样本中的偏差),对沿着光学轴线传播的光波的波前进行建模。

这些矩阵可以被投影到真实空间(例如经由厄米标准(Hermitian standard)),以便在各个焦距处形成总体图像的堆栈。

从上所述,可以确定平均焦距(并且选择相应的总体图像,或者从全息图中重新计算),或者确定用于目标粒子的最佳焦距(并且再次选择相应的总体图像,或者从全息图中重新计算)。

在所有情况下,参照图3b,步骤(a)有利地包括分割所述总体图像,以便检测样本中的所述目标粒子,然后包括裁剪。特别地,每个输入图像可以从样本的总体图像之一中提取,以便以所述统一的方式代表所述目标粒子。

一般而言,分割允许检测所有感兴趣的粒子,通过去除诸如细丝或微菌落的伪影(artifact),以便改善一个或多个总体图像,然后选择所检测的粒子之一作为目标粒子,并且提取相应的缩略图。如所解释的,这可以针对所有检测到的粒子来进行。

分割可以以任何已知的方式实施。在图3b的示例中,首先进行精细分割以消除伪影,然后实施粗略分割,在这种情况下是为了检测粒子11a-11f。本领域技术人员可以使用任何已知的分割技术。

为了获得用于目标粒子11a-11f的输入图像序列,可以实施跟踪技术以便跟踪粒子从一个总体图像到下一个的任何移动。

应该注意,可以将针对样本采集到的所有输入图像(对于样本12的多个粒子或甚至所有粒子,随时间推移而这样做)进行池化,以便形成样本12的描述性库(换言之,实验的描述性库),如图3a的右侧可以看出,该描述性库特别地被复制到客户端2的存储装置21。参照与“粒子”级相对的“场(field)”级。例如,如果粒子11a-11f是细菌,并且样本12包含或不包含抗生素,则该描述性库包含关于这些细菌在整个采集场内的生长、形态、内部结构和光学性质的所有信息。正如将看到的,该描述性库可以被传送到服务器1,以便被包括在所述学习库中。

堆栈

正如将看到的,本方法的不同之处在于,它可以直接在输入图像序列上工作,而不需要逐个图像地工作,也不需要以中间方式提取特征图。此外,将看到,简单且轻便的CNN就足以执行可靠且有效的分类。

参照图4,本方法包括步骤(b),以三维堆栈(换言之,3D“堆栈(stack)”)的形式将序列的所述输入图像串接起来。更具体地,输入图像全都具有相同的尺寸并形成矩阵序列,因此它们只需要按照输入图像的顺序进行堆叠,以便获得三维堆栈。

因此,该三维堆栈可以被看作是具有与采集时刻一样多的通道的图像,正如下面将看到的,即使本方法以高度原创的方式将该堆栈处理为具有单个通道的单个三维对象(例如,如果存在尺寸为250×250的输入图像并且在120分钟内每分钟采集一幅图像,则尺寸为250×250×120),与RGB图像是具有三个通道的二维对象的方式相同。前两个维度通常是空间维度(即,输入图像的尺寸),而第三个维度是“时间”维度(采集时刻)。

优选地,步骤(b)包括对所述三维堆栈进行下采样(down-sampling),即减小输入的尺寸。

所述下采样可以在堆栈的时间维度和/或其空间维度,优选地在两者上来实施。

特别地:

-相对于时间维度,可以通过将采集时段切割成n个区间,并且通过选择对应于这些区间末端的序列中的n+1幅图像,例如,通过从120幅图像的序列中只保留5幅图像,这相当于每120/4=30分钟拍摄一幅图像(特别地,在1、30、60、90和120分钟结束时采集的图像)。然而,仍有可能以不统一的方式选择图像(例如,在采集时段的开始比结束时选择更多的图像);

-相对于空间维度,可以使用具有给定的采样因子(在每个轴线上以便保持比例)例如因子2的任何图像下采样技术来减少。

结合实施上面提到的两种下采样,导致尺寸为250×250×120的堆栈转换为尺寸为125×125×5的堆栈(堆栈的尺寸几乎缩小了100倍)

应该注意,这种下采样实际上可以在(通过选择和修改输入图像)生成堆栈之前发生。

分类

在步骤(c)中,所述三维堆栈借助于合适的卷积神经网络直接进行分类,该卷积神经网络被称为“3D CNN”,由于其能够处理作为堆栈的三维对象。实际上,如所提到的,重要的是理解三维堆栈由CNN处理为单个三维对象(具有单个通道)而不是具有多个通道的二维对象(例如,对于RGB图像就是这样的情况)。

术语直接分类或“端对端(end-to-end)”被理解为意指不单独提取所述目标粒子11a-11f的至少一个特征图:可以理解,CNN自然具有特征图形式的内部状态,但是这些状态从不被发送到CNN之外,所述CNN具有作为唯一输出的分类结果。

作为提醒,一般而言,CNN特别适合于视觉任务,更具体地说适合于图像分类。通常,CNN使用多个卷积层,并且当前的3D CNN使用至少一个3D卷积层来模拟各种输入图像之间的时空依赖性。

“3D卷积层”被理解为意指应用四维滤波器的卷积层,并且因而能够在已经是三维堆栈的多个通道上工作,也就是四维特征图。换言之,3D卷积层将四维滤波器应用到四维输入特征图,以便生成四维输出特征图。第四个也是最后一个维度是语义深度,就像在任何特征图中一样。

这应该区别于卷积层,该卷积层智能在代表二维对象(图像)的数个信道的三维特征图上工作。

3D卷积的概念可能看起来是违反直觉的,但是它概括了卷积层的概念,即仅预计了应用深度等于输入通道数量(即,输入特征图的深度)的多个“滤波器”,通过在输入的所有维度上扫描它们(对于图像来说是2D的),其中滤波器的数量定义了输出深度。

因此,本文所指的3D卷积应用了深度等于输入处的三维堆栈的通道数量的四维滤波器,并且在三维堆叠的整个体积上扫描这些滤波器,因此不仅在两个空间维度上,而且在时间维度上,即在3D上(因此命名为3D卷积)。因此,每个滤波器采集到一个三维堆栈,即,四维特征图。在常规的卷积层中,使用大量的滤波器肯定允许增加输出处的语义深度(通道的数量),但是输出将始终是三维特征图。

可以理解,3D卷积层仍然较重,并且需要较大的计算能力,但是,如所解释的,非常简单的架构(比已知的CNN诸如VGG616简单得多)就足够了。图5显示了当前3D CNN的实施例的架构。

按照惯例地,这种架构有利地包括一系列的“卷积”块,其由为了增加特征图的深度的3D卷积层、激活层(例如,ReLU函数)、以及允许减小特征图的尺寸(通常为2倍)的3D池化(pooling)层组成。值得注意的是两个卷积就够了,使得高度优选地,当前3D CNN仅包括两个卷积块。

“3D池化层”被理解为意指,就3D卷积而言,能够在四维特征图上工作的层具有已经是三维的堆栈的一个或多个通道。换言之,尺寸减小是在三维堆栈(即,四维特征图的前三个维度)的所有维度上。

在整篇本描述的剩余部分,将清楚地区分特征图在几何方向上的“维度”的数量,也就是说,这些图延伸的独立方向的数量(例如,向量是1维对象,图像是2维对象,而当前特征图是4维对象),以及这些特征图的“变量”的数量,换言之,每个维度上的尺寸,即独立自由度(实际上对应于向量空间中维度的概念,更具体地,具有给定变量数的特征图集合构成了维度等于该变量数的向量空间)的数量。

因此,在图5的示例中,如所解释的,3D CNN开始于分布在2个块中的6层。第一个块采用具有单个通道的三维堆栈作为输入(因此,当有利地进行如上提出的下采样时形成尺寸为125×125×5×1的对象),并且包括卷积+ReLU序列(第一3D卷积层和具有ReLU函数的激活层),将深度增加到30,然后是最大池化层(也有可能使用总体平均池化),其中62×62×2×30的特征图作为输出(如所解释的,3D池化层在三个维度上而不只是二个空间维度上工作;因此涉及除以2,包括时间维度)。

在所示的示例中,第一3D卷积层使用维度为3×3×3×1的30个滤波器,并且因此需要((3*3*3*1)+1)*30=570个参数。

第二个块具有与第一个块完全相同的架构,并且作为来自新的卷积+ReLU集合(第二个3D卷积层和具有ReLU功能的激活层)的输出而生成62×62×2×60(双倍深度)的特征图,并且作为来自最大池化层的输出而生成12×12×1×60的特征图(应该注意,在这种情况下,空间尺寸减少五倍,但是时间尺寸总是减少两倍)。

在这种情况下,第二3D卷积层使用维度为3×3×3×30的60个滤波器,并且因此需要((3*3*3*30)+1)*60=32460个参数。

在最后一个卷积块(在这种情况下是第二个)的输出处,3D CNN有利地包括“扁平”层,将该块的输出处的“最终”特征图(包含“最深”信息)转换成向量(一维对象)。因此,例如,12×12×1×60的特征图转变为12*12*1*60=8,640尺寸的向量。将理解,在任何级别上对任何图/滤波器尺寸都没有限制,并且上面提到的尺寸仅仅是示例。

最后,以常规方式,在完成时存在一个或多个全连接层(FC,或“密集”层,如图5所示)以及可选的最终激活层,例如softmax。在所示的示例中,第一层FC将尺寸为8640的向量转换成尺寸为100的较小向量(这需要(8640+1)*100=864100个参数),而第二层FC将尺寸为8640的向量转换成尺寸为2的最终向量(这需要(100+1)*2=202个参数)。

优选地,3D CNN由(即,确切地包括)卷积块序列组成,然后是扁平层,最后是一个或多个全连接层。

3D CNN的最后部分返回预期的结果,在这种情况下是输入图像序列的类别(尺寸为2的向量对应于二进制结果)

因此,可以看出,参数的总数小于900000,这对于CNN而言是相当低的(通常是数千万个参数),特别是考虑到输入数据是已经很大的图像序列的事实。因此,当前3D CNN可以由多个客户端2使用,包括具有适度计算资源的那些。

优选地,该方法可以包括步骤(a0):由服务器1的数据处理装置3从训练库训练3DCNN的参数。实际上,该步骤典型地在上游,特别是由远程服务器1实施。如所解释的,学习库可以包括一定量的学习数据,特别是与它们的类别相关联的图像序列(例如,用于二进制分类的“分裂”或“不分裂”)。

训练3D CNN可以以常规方式进行。学习成本函数可以由常规的“交叉熵(cross-entropy)”数据的附件组成,以经由梯度下降算法最小化。

在所有实施例中,如果适用的话,CNN的学习过的参数可以存储在客户端2的数据存储装置21上,以用于在分类中使用。应该注意,相同的CNN可以嵌入在多个客户端2上,只需要一个学习阶段。

计算机程序产品

根据第二方面和第三方面,本发明涉及一种计算机程序产品,包括用于执行(特别是在服务器1和/或客户端2的数据处理装置3、20上)用于对表示样本12中目标粒子11a-11f的至少一个输入图像进行分类的方法的代码指令,以及计算机设备件(服务器1和/或客户端2的存储器4、21)可读存储装置,该计算机程序产品存储在其上。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号