首页> 中国专利> 基于偏微分算子的等变3D卷积网络的3D形状图像分类方法

基于偏微分算子的等变3D卷积网络的3D形状图像分类方法

摘要

本发明公布了一种基于偏微分算子的等变3D卷积网络模型的3D形状图像分类方法,利用偏微分算子对卷积核进行参数化建模,对于3D旋转群和各卷积层的特征域求解得到等变卷积核,建立等变3D卷积网络模型PDO‑e3DCNN;PDO‑e3DCNN的输入为3D形状,输出为3D形状的预测分类,用于3D形状分类与识别视觉分析。本发明方法能够有效处理具有方向特征的图片数据,并且往往可以用更少的参数,在数据集上达到更低的3D形状图像分类错误率。

著录项

  • 公开/公告号CN112990315A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 北京大学;

    申请/专利号CN202110288109.X

  • 发明设计人 林宙辰;沈铮阳;

    申请日2021-03-17

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11360 北京万象新悦知识产权代理有限公司;

  • 代理人黄凤茹

  • 地址 100871 北京市海淀区颐和园路5号

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明属于模式识别、机器学习、人工智能技术领域,涉及3D形状分类方法,具体涉及一种基于偏微分算子的等变3D卷积网络模型的3D形状图像分类方法。

背景技术

在过去的几年中,卷积神经网络(CNN)模型已成为用于图像识别任务的主要机器学习方法。与全连接网络相比,采用CNN处理图像的一个显着优势是它们是平移等变的:先将图像平移然后通过若干个卷积层得到的特征图与先将原始图像通过卷积层然后再平移得到的结果相同。换句话说,每一层都保持了平移对称性,即等变性。同样,等变性带来了权重共享,通过它可以更有效地使用参数。然而,普通的CNN只能对平移群等变,而不能对其他变换等变,如旋转变换群。

为了在用CNN提取特征时,能够保持更多的对称性,Cohen和Welling通过直接旋转卷积核,提出了群等变卷积网络(G-CNN),它对于四折旋转变换群是等变的。为了探究更一般的等变性,Cohen和Welling提出了一种名为Steerable CNNs的理论,它将特征定义为特征域,而特征域的性质是它在群作用下的变换方式,是由给定的群表示所决定的。事实上,G-CNNs是Steerable CNNs的一个特例,因为当使用正则特征域时,Steerable CNNs会退化为G-CNNs。但是,他们提出的网络依然只能对四折旋转变换群等变。为了利用更多对称性,Weiler和Cesa进一步将Steerable CNNs的理论扩展到了欧几里得群E(2)及其子群,提出E2CNN。E2CNN是目前最一般的旋转等变的2D卷积神经网络,因为它可以处理所有常用的2D旋转群及其群表示。

对于3D情况,旋转等变性更为重要,因为旋转变换是不可避免的:即使3D物体是直立摆放的,仍然可能存在绕着竖直轴旋转的变换,更不用说一些3D数据甚至没有固有的方向,例如分子数据。此外,现在关于3D CNN的工作很少,因为3D CNN需要较大的计算量和存储空间。因此利用等变性减少计算量和存储量对于3D应用至关重要。

Worrall和Brostow将G-CNN的思想迁移到3D上,通过直接旋转3D卷积核设计出对于立方体群O等变的3D模型CubeNet。但是,由于一般的3D网格只存在立方体旋转对称性,因此CubeNet不能对更大的群等变,如二十面体群I,更不用说连续的旋转变换群SO(3)。事实上,CubeNet也只能利用正则特征域,而不能利用更一般的特征域,如商特征域。Weiler等人提出了SE3CNN,能够实现对连续群SO(3)的旋转等变。然而该方法只能用来处理连续群SO(3)的不可约表示,无法用于处理离散群。一些同期或后续的工作,如Tensor FieldNetwork(TFN)和LieConv,也只能处理连续群SO(3),无法将离散群的情况也囊括进来。

综上所述,目前的等变3D模型都只能处理特定的3D旋转群和他们对应的群表示,而不能将所有常用的群和群表示涵盖在一个统一的框架下。

发明内容

为了克服上述现有技术的不足,本发明提供一种基于偏微分算子(PDO)的等变3D卷积网络模型的3D形状分类方法,利用偏微分算子建模并设计得到等变的卷积网络模型,取名为PDO-e3DCNN(partial diffrential operator based equivariant 3D CNN),用于高效的进行3D形状分类与识别等视觉分析。

本发明利用偏微分算子对卷积核进行参数化建模,对于给定的3D旋转群和各个卷积层所使用的特征域,我们可以求解得到符合条件的等变卷积核。我们将这些卷积层堆叠起来,得到一个等变的3D CNN模型,它的输入为3D形状,输出为3D形状的预测分类。

本发明提供的技术方案是:

一种基于偏微分算子的等变3D卷积网络模型PDO-e3DCNN的3D形状图像分类方法,利用偏微分算子设计出等变的3D CNN模型,用于高效的进行图像分类与识别等视觉分析,包括以下步骤:

1)通过3D相机采集3D形状,采集得到的每个3D形状数据是一组三维坐标,表示该形状存在的位置坐标,将这些3D形状数据分为训练样本和测试样本,并将它们体素化;

2)根据步骤1)中的3D形状数据具有的旋转对称性,确定3D形状数据对应的等变群和特征域;

由三维旋转变换组成的等变群称为3D旋转群;特征域为各个卷积层包含的特征域。

若3D形状数据具有旋转对称性,则可以选取相对应的旋转变换群;对于一般的数据集,等变群和特征域可通过实验效果进行选定。

21)3D旋转群:

3D旋转群主要包括离散群和连续群SO(3),其中离散群主要包括克莱因四元群V,四面体群T,正方体群O和正十二面体群I;

22)特征域:

对于离散群,我们可选用的基础特征域包括标量特征域,正则特征域和商特征域,他们对应的群表示都是置换矩阵;对于连续群,我们选用的基础特征域包括标量特征域和不可约特征域。当然,我们也可以将这些基础特征域组合起来构成更一般的特征域。一般地,特征域f(x)在旋转变换g下的结果由对应的群表示ρ(g)所决定,也就是表示为式(1)

[π(g)f](x)=ρ(g)f(g

其中,ρ(g)是一个K×K的矩阵,K表示输入特征的通道数,π(g)表示群作用。因此,该特征域也可以叫做ρ-特征域。特别地,群表示ρ(g)需要满足对于G中任意两个元素g,h,ρ(gh)=ρ(g)ρ(h)。显然,ρ(g)=1是一个群表示,它决定的特征域也被叫做标量特征域。其他常用的特征域将在实施例步骤2中进一步详述。在该意义下,一个在群G上等变的卷积操作Ψ需要满足对于任意群G中的元素g,

π′(g)[Ψ[f]]=Ψ[π(g)[f]], 式(2)

其中,π(g)和π′(g)分别表示输入层和输出层上的群作用,类似地

[π′(g)f](x)=ρ′(g)f(g

其中,ρ′(g)是一个群表示。根据式(2),本发明中,等变性指的是:将变换g(旋转变换群G中的元素)作用在映射的输入f上,然后通过映射Ψ得到的结果,应该与通过映射Ψ再经过变换g相同。

3)构建基于偏微分算子的等变卷积网络模型:

31)构造等变的卷积核:

首先,我们将一个卷积操作Ψ建模为多个偏微分算子的线性组合:

其中,系数矩阵

其中,

其中,I

我们可以通过求解式(8)(求解方式在具体实施方式中进一步详述),得到B

32)等变的批量正则化(BN)和非线性激活函数:

为了在整个网络中保持等变性,我们需要BN层和非线性层同样是等变的。对于离散群,我们可以使用一般的逐点的激活函数,如ReLU;特别地,BN层需要对于每个基础特征域共享一套权值。对于连续群SO(3),我们可以选用SE3CNN中提出的等变版本的BN层和带门限的非线性激活函数。

33)构造整个PDO-e3DCNN:

我们根据所设定的等变群G和每层设定的特征域计算求解出相应的等变卷积Ψ再进行离散化得到

4)用训练样本对构造的PDO-e3DCNN进行训练

本发明中,卷积层参数的初始化方式为广义的何恺明初始化方法(Learningsteerable filters for rotation equivariant CNNs),全连接层参数初始化方式为Xavier初始化方式。利用训练样本图像对该等变CNN模型进行训练。该等变的3D CNN模型可以在深度学习框架Pytorch下实现。

本发明具体实施时,均采用反向传播算法,用Adam算法进行等变3D CNN模型训练。训练过程迭代2000轮,批大小为32,即每32个样本为一个批次。在每轮训练中我们按类别对训练样本进行重采样,使得每轮训练中各类别样本数大致相等。学习速率初始值为0.01,在701至1400轮学习速率为0.001,在1401至2000轮学习速率为0.0001。

5)利用步骤4)训练好的基于偏微分算子的等变CNN模型,对3D形状测试样本进行识别,得到预测的形状分类标签,由此实现形状分类识别。

与现有技术相比,本发明的有益技术效果是:

本发明提供了一种基于偏微分算子的等变3D模型PDO-e3DCNN的3D形状分类方法。在具体实施中,我们利用3D相机采集3D形状数据,将待处理的形状数据进行体素化,然后根据数据几何特征和实际经验,确定等变群和特征域,最后用一个基于偏微分算子的等变3D卷积网络进行特征提取和形状分类。

本发明提出的网络结构不仅具有等变性,也带来了更好的参数共享机制,能够显著提高参数利用率。在旋转的SHREC’17数据集上,本发明与传统的3D卷积网络模型以及一些现有的等变卷积如SE3CNN相比,都取得了明显更好的效果,它能够有效处理具有方向特征的图片数据,并且往往可以用更少的参数,在数据集上达到更低的3D形状分类错误率。

附图说明

图1是多种几何体示意图;

3D旋转群V,T,O,I和SO(3)分别由长方体、正四面体、正方体、正十二面体和球的旋转对称性组成。

图2是旋转变换g作用在ρ-特征域上的示意图;

当ρ(g)=1时,每个特征图上的向量移动到一个新的位置;当ρ(g)=g时,每个向量需要额外地根据g进行旋转;当ρ(g)是正则表示或者商表示时,向量中的元素将被置换。

图3是本发明具体实施实现基于偏微分算子的等变3D卷积网络模型进行3D形状分类的流程框图。

具体实施方式

下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。

本发明提供一种基于偏微分算子的等变3D卷积网络模型PDO-e3DCNN的3D形状分类方法,利用偏微分算子设计出等变的3D卷积网络模型,用于高效的进行3D形状分类与识别等视觉分析。

图3所示是本发明具体实施实现基于偏微分算子的等变3D卷积网络模型进行3D形状分类的方法流程,包括以下步骤:

步骤1:将3D形状分为训练样本和测试样本,本实施例所有数据集为旋转的SHREC’17数据集,它由51,162个3D形状组成,其中官方划分的训练数据35,764个,验证数据5,133个,测试数据10,265个,类别为55类。我们将这些形状体素化为64×64×64的数据。进行模型选择后,我们将训练数据和验证数据合起来进行训练。

步骤2:确定由三维旋转变换组成的等变群和各个卷积层包含的特征域;

对于现场采集的3D物体形状,可以使用连续群SO(3)或较大的离散旋转群,如正二十面体旋转群。因为他们包含较多的对称性。选用这些对称群可能会引起实现时的工程问题。我们此时可以选用较小的旋转群,如立方体群和四面体群,来缓解工程实施中遇到的问题。

1)3D旋转群:

3D旋转群主要包括离散群和连续群SO(3),其中离散群主要包括克莱因四元群V,四面体群T,正方体群O和正十二面体群I。如图1所示,3D旋转群V,T,O,I和SO(3)分别由长方体、正四面体、正方体、正十二面体和球的旋转对称性组成。其中离散群V,T,O,I的生成元和群的大小如表1所示,其中

表1几个离散群的生成元和大小

2)特征域:

总的来说,ρ-特征域由对应的群表示ρ(g)决定。因此,我们只需要考察群表示ρ(g)即可。最简单的特征域为标量特征域,此时ρ(g)=1。如图2所示,在这种情况下,旋转变换g将特征图中的向量都移动到新的位置。

21)离散群的特征域

对于离散群,除了标量特征域,我们可选用的的基础特征域还包括正则特征域和商特征域。

正则特征域由正则群表示决定,正则群表示也是离散群最重要的群表示。具体来说,特征图中的每个向量f(x)都是一个|G|维向量,由群G中的各个元素索引,|G|表示群中的元素个数。一个变换g作用在向量f(x)上的方式为,对于G中的任一元素

商特征域是比正则特征域更一般的一类特征域。具体来说,给定一个群G和它的子群H。左陪集G/H={gH,g∈G}将群G进行了良好的划分。对于H-商特征域而言,特征图中的每个向量f(x)是一个|G/H|维向量,由G/H中的元素索引。一个变换g作用在向量f(x)上的方式为,它将向量中

22)连续群SO(3)的特征域

由于连续群是个无限群,我们无法利用正则表示和商表示。在这里,我们选用不可约特征域,它由不可约表示所决定。具体来说,任何SO(3)的群表示都可以分解为维数为2m+1(m=0,1,2,…)的不可约表示。不可约特征域的向量f(x)是一个2m+1维的向量,不可约表示ρ(g)是m阶的Wigner-D矩阵,记作D

步骤3:构建成为基于偏微分算子的等变3D卷积网络分类模型

1)构造等变的卷积核:

首先,我们将一个卷积操作Ψ建模为多个偏微分算子的线性组合:

其中系数

其中,

其中I

11)离散群的基础特征域

当G为离散群时,我们并不需要显式地要求式8包含G中所有元素然后求解,仅需要G的生成元满足式8,就可以求解得到等变的卷积核了,这样能显著地减少计算量。

12)连续群的基础特征域

当G为连续群时,式8实际上包括无限个线性约束,无法求解。事实上,我们仅需要式8对于g

13)复合特征域

事实上,类比于传统深度学习中的多通道特征,我们也可以将之前介绍的基础特征域,包括标量特征域、正则特征域、商特征域和不可约特征域进行组合,得到更一般的特征域,来增强特征域表达能力。此时,对于等变卷积核的求解也可以进行相应的修改来简化计算。具体方式如下:若

此时,式5等价于

其中

因此,我们可以根据基础群表示ρ

事实上,我们可以应用奇异值分解(SVD)方便的求解式8。由于式8实际上是一个齐次线性方程组,因而他的一般解都含有不定系数,我们将求解到的一般解代入式4中的Ψ中,即可得到一般的含参数化的卷积核

2)等变卷积核的离散化

由于输入数据为离散数据,我们也需要对基于偏微分算子的连续卷积核Ψ进行离散化才能使用。事实上,任意一个式4中的偏微分算子都可以用一个3×3×3的卷积核进行二阶逼近。一般地,我们有

其中

为了便于展示,我们只列出了各个卷积核的部分元素,其他元素都是零。由于连续卷积核Ψ本质上是这些偏微分算子的线性组合,因而将它用这些卷积滤波进行离散化后,得到的离散卷积核依然是3×3×3的,在形式上与一般的3D CNN无异,因此我们的模型也是平移不变的。

3)等变的批量正则化(BN)和非线性激活函数:

为了在整个网络中保持等变性,我们需要BN层和非线性层同样是等变的。对于离散群,由于群表示都是置换矩阵,我们可以使用一般的逐点的激活函数,如ReLU;但是,BN层需要对于每个基础特征域共享一套权值。对于连续群SO(3),我们可以选用SE3CNN中提出的等变版本的BN层和带门限的非线性激活函数。

4)构造整个PDO-e3DCNN:

我们根据所设定的等变群G和每层设定的特征域计算求解出相应的等变卷积Ψ再进行离散化得到

步骤4:用训练样本对构造的PDO-e3DCNN进行训练

本发明中,卷积层参数的初始化方式为广义的何恺明初始化方法(Learningsteerable filters for rotation equivariant CNNs),全连接层参数初始化方式为Xavier初始化方式。利用训练样本图像对该等变CNN模型进行训练。该等变的3D CNN模型可以在深度学习框架Pytorch下实现。

本发明具体实施时,均采用反向传播算法,用Adam算法进行等变3D CNN模型训练。训练过程迭代2000轮,批大小为32,即每32个样本为一个批次。在每轮迭代中中我们按类别对训练样本进行重采样,使得每轮中各类别。学习速率初始值为0.01,在701至1400轮学习速率为0.001,在1401至2000轮学习速率为0.0001。

步骤5:利用步骤4)训练好的基于偏微分算子的等变3D CNN模型,对测试3D形状样本进行识别,得到预测的形状分类标签,由此实现形状分类识别。

本发明中的模型均使用反向传播算法,用Adam算法进行等变3D CNN模型训练。训练过程迭代2000轮,批大小为32,即每32个样本为一个批次。在每轮迭代中中我们按类别对训练样本进行重采样,使得每轮中各类别。学习速率初始值为0.01,在701至1400轮学习速率为0.001,在1401至2000轮学习速率为0.0001。卷积层参数的初始化方式为广义的何恺明初始化方法(Learning steerable filters for rotation equivariant CNNs),全连接层参数初始化方式为Xavier初始化方式。

在实施例中,我们使用9层的网络模型。具体来说,当使用克莱因四元群V的正则特征域时,输入层设定为1个标量特征域,之后的七层分别取8,8,12,12,16,16,16个正则特征域,在第2,4层之后分别接一个平均池化算子缩小特征图的尺寸,步长为2.第八层取512个标量特征域并接上一个空间全局平均池化用来提取不变的特征。最后我们使用一个全连接层进行形状分类。此外,我们还针对其他离散群和连续群设计了相似的网络结构,我们调整每层特征域的个数用来使得总参数量大约保持在0.15M左右,进行公平对比。

表1给出了当使用本发明模型PDO-e3DCNN和他的主要对比模型SE3CNN在SHREC’17数据集上的3D形状分类评分比较。其中离散群使用的是正则特征域,连续群使用的是不可约特征域。

表1

从表中可以看出,和SE3CNN对比,我们在SO(3)上等变的模型取得了更好的性能。此外,当使用离散群时,在正方体群O上等变的模型比V和T的更好,因为正方体群包含更多的旋转变换。我们观察到,当使用正二十面体群I时,性能反而下降,这主要是因为正二十面体的每个正则特征域包括60个通道,使得训练的模型过于庞大难以训练。值得一提的是,虽然SO(3)包括了所有的三维旋转,但是他的性能还是弱于一些离散群,如O和T,这可能是因为离散群的正则特征域用|G|个通道囊括了|G|个变换,而SO(3)所使用的不可约特征域仅用较少的通道数(1,3,5)容纳了无限的旋转变换,这会限制特征域的表达能力。

需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号