首页> 中国专利> 一种基于空间通道注意力机制神经网络的图像匹配方法

一种基于空间通道注意力机制神经网络的图像匹配方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及一种基于空间通道注意力机制神经网络的图像匹配方法。该方法包括步骤：步骤1：根据SIFT方法得到初始匹配集合c；步骤2：通过改进的OANet网络对输入数据进行处理从而得到匹配对为正确匹配的概率；步骤3：对步骤2得到的结果通过加权8点算法进行计算得到本质矩阵；步骤4，根据本质矩阵信息得到准确的相机姿态（旋转和平移）。本发明的网络能够有效地剔除异常值（离群点），同时估计成图像对的相机姿态。本发明的一种基于空间通道注意力机制神经网络的图像匹配方法在mAP5°方法取得很大的提升。

著录项

公开/公告号CN112489098A

专利类型发明专利
公开/公告日2021-03-12

原文格式PDF
申请/专利权人福建农林大学;
展开▼

申请/专利号CN202011461803.9
发明设计人代栾媛;刘鑫;陈日清;杨长才;魏丽芳;
展开▼

申请日2020-12-09
分类号G06T7/33(20170101);G06T7/73(20170101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构35100 福州元创专利商标代理有限公司;
代理人陈明鑫;蔡学俊
地址 350002 福建省福州市仓山区上下店路15号
入库时间 2023-06-19 10:11:51

说明书

技术领域

本发明涉及图像匹配领域，具体涉及一种基于空间通道注意力机制神经网络的图像匹配方法。

背景技术

特征匹配在三维重建、同时定位和建图、图像拼接、双目立体匹配等计算机视觉任务中扮演着十分重要的角色，是处理计算机视觉任务中的一个基础且重要的步骤。通常，特征匹配包含四个步骤，即特征提取、特征描述，初始匹配获取和误匹配剔除。由于初始匹配存在大尺度的变化、光照变化、遮挡和模糊等情况，所以初始匹配集合中通常包含大量的异常值。因此，误匹配剔除作为一个关键的后处理步骤可以从初始匹配集合中寻找正确的内点并剔除离群点从而得到更加准确的匹配结果。所以，研究一种准确、鲁棒且高效的匹配算法对实现智能视觉有着极为重要的理论研究意义和实际应用价值。

在过去的几十年里许多学者提出了大量不同种类的匹配方法。根据最近的工作，特征匹配方法可分为四类，即采样方法、非参数插值方法、图匹配方法和基于深度学习的方法。其中前三类又可以总结为传统的方法，所以目前匹配的方法可以分为两大类，即传统的方法和基于深度学习的方法。传统的方法通常使用特征点检测算法，例如经典的尺度不变特征变换(SIFT)算法和随机抽样一致性算法(RANSAC)以及最近比较流行的基于网格的运动统计(GMS)和局部保持匹配(LPM)等算法。近年来，受海量数据的影响，基于深度学习的特征匹配算法开始流行起来，并且在大数据集上取得了很好的效果。例如，LFGC提出了一种类似PointNet的体系结构来推断每个匹配的为内点的概率，它主要利用多层感知器(MLPs)来处理每个单独的匹配。LFGC还在整个匹配集上引入了一个简单的非参数上下文正则化(CN)来捕获全局上下文信息。ACNE使用了基于学习的注意力机制上下文标准化(ACN)，以获得有用的上下文信息。然而，非参数归一化运算只利用匹配的均值和方差，不加区分地处理每个匹配对。其他基于学习的方法也等价地处理每个匹配对。然而，当异常值在初始对应集中占主导地位时，这种不区分匹配对权重的操作会严重限制网络的性能，影响到最终的匹配结果。因此如何确定匹配对为正确匹配的概率，是进一步提升匹配性能所需要解决的重点和难点问题。

发明内容

本发明的目的在于克服上述技术缺陷，提供一种基于空间通道注意力机制神经网络的图像匹配方法。

为实现上述目的，本发明的技术方案是：一种基于空间通道注意力机制神经网络的图像匹配方法，包括如下步骤：

步骤S1、根据SIFT方法得到图像对I和I'初始匹配集合C；

步骤S2、通过改进的OANet网络对输入数据进行处理从而得到匹配对为正确匹配的概率；

步骤S3、对步骤S2得到的结果通过加权8点算法进行计算得到本质矩阵；

步骤S4、根据本质矩阵信息得到准确的相机姿态。

在本发明一实施例中，步骤S1具体实现如下：

步骤S11、首先使用SIFT算法来提取两幅图像(I,I')的关键点坐标和其对应的描述子；

步骤S12、根据描述子的最近邻相似约束，得到一个初始匹配集合C：

其中，c

在本发明一实施例中，步骤S2具体实现如下：

步骤S21、由步骤S1得到一个2000×4的初始匹配集合C，即初始内点集合C作为输入，经过一个带有128个神经元的单层感知器，得到一个128维度的特征；

步骤S22、把步骤S21的结果作为输入，经过SCSABlock1模块的处理后，得到一个新的128维度的特征F

其中SCSABlock1模块包含一个空间注意力机制模块、一个通道注意力机制模块和一个连接层；

步骤S23、将步骤S22的输出结果作为输入，依次经过3个PointCN块，得到一个128维度的特征；一个PointCN块由两个相同的PointCN模块组成，PointCN模块包括一个用来捕获全局信息的上下文正则化模块、一个Batch正则化模块、一个ReLU激活函数和一个具有128维的神经元的多层感知器；

步骤S24、将步骤S23的输出结果作为输入，经过DiffPool&DiffUnpool层学习得到一个128维度的特征，获得匹配的局部上下文信息；

步骤S25、将步骤S23和步骤S24输出的特征沿着通道维度连接起来作为输入，经过三个PointCN块捕获得到一个128维度的特征；

步骤S26、将步骤S25的输出特征作为输入，依次经过带有一个神经元的单层感知器、ReLU和tanh的激活函数学习得到匹配对作为内点的概率。

在本发明一实施例中，步骤S22具体实现如下：

步骤S221、设计一个空间注意力机制模块用来捕捉每对匹配的丰富上下文信息；所述空间注意力机制模块，首先，通过使用三个不同的PointCN模块来获取三个不同的特征映射Q,K,V∈R

SA＝Soft max(D(Q

其中，空间注意力矩阵SA∈R

最后，在特征映射V和空间注意力矩阵SA的转置之间执行点乘操作，来聚合所有匹配对的全局空间上下文信息，并将结果重塑为R

其中，F

步骤S222、设计一个通道注意力机制模块用来捕捉每个通道映射的丰富的全局上下文信息并且通道注意力机制模块能够着重关注重要的通道映射并提高其的表示能力；通道注意力机制矩阵的公式如下：

CA＝Soft max(D(F,F

其中，CA∈R

在通道注意力机制矩阵CA∈R

其中，F

步骤S223，结合两个注意力机制模块的输出，沿着它们的通道维度对两个模块的输出进行连接操作，然后使用PointCN模块处理用于把特征映射恢复到128维通道的连接特征映射；连接操作的公式如下：

F'＝Point CN(Concat(F

其中，F'∈R

在执行连接操作后的空间-通道注意力机制模块的输入特征映射F和信息融合输出特征F'之间进行逐元素求和操作；此过程用公式表示如下：

其中，F

在本发明一实施例中，步骤S24具体实现如下：

步骤S241、首先使用一个可微池化块映射2000对匹配到500个聚类，即特征映射从F

步骤S242、将特征映射F

步骤S243、将步骤S242学习到的特征作为输入，经过三个Order-Aware过滤模块，可以捕获到新的特征；其中，Order-Aware过滤模块可以捕获聚类的全局上下文信息；

步骤S244、将步骤S243捕获到的特征作为输入，经过可微上池化模块将将特征由2000个匹配对映射到500个聚类；可微上池化模块是可微池化模块的逆过程，将特征由500个聚类重新映射回到2000个匹配对。

在本发明一实施例中，步骤S26具体实现如下：

步骤S261、将步骤S25的输出特征作为输入，经过带有一个神经元的单层感知器把128维的特征转换为1维的逻辑值o；函数表示如下：

o＝f

其中，o为逻辑值；f

步骤S262、将步骤S261的逻辑值作为输入，依次经过ReLU和tanh的激活函数学习得到每个匹配作为内点的概率，相应的概率集合w＝{w

w＝tanh(ReLU(o))

其中，w

迭代使用两次SCSA-Net网络，将第一次得到的每个匹配作为内点的概率w

在本发明一实施例中，步骤S3中，对步骤S2得到的结果通过加权8点算法进行计算得到本质矩阵，其函数表示如下：

其中，

相较于现有技术，本发明具有以下有益效果：

本发明提出了一种基于空间通道注意力机制神经网络的图像匹配方法，在该方法中，本发明引入了两种类型的注意力机制模块，即空间和通道注意力机制模块。这两种类型的注意力机制模块能够分别通过选择性地聚集空间维度和通道维度中的相互信息来捕获特征映射的复杂的全局上下文信息。同时，结合两个模块的输出获得丰富的全局上下文信息并得到具有较强代表性性的特征映射。本发明的网络能够有效地剔除离群点，同时估计匹配对的相机姿态。这些可靠的匹配和相机姿态对于许多计算机视觉任务至关重要，如SfM、SLAM和立体声匹配。在离群点剔除和姿态估计任务方面的很多实验表明，本发明SCSA-Net比目前最先进的方法在室外和室内数据集上有了很好的性能改进并且在mAP5°方面表现突出。

附图说明

图1为本发明实施例的方法流程示意图。

图2为为改进的OANet的整体的框架图。

图3为空间注意力机制模块图。

图4为通道注意力机制模块图。

图5为本发明实施例在YFCC100M数据集进行特征匹配的效果图；其中，(a)、(b)与(c)分别为三种场景示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供一种基于空间通道注意力机制神经网络的图像匹配方法，包括如下步骤：

步骤S1、根据SIFT方法得到图像对I和I'初始匹配集合C；

步骤S2、通过改进的OANet网络对输入数据进行处理从而得到匹配对为正确匹配的概率；

步骤S3、对步骤S2得到的结果通过加权8点算法进行计算得到本质矩阵；

步骤S4、根据本质矩阵信息得到准确的相机姿态。

以下为本发明的具体实现过程。

需要指出的是，以下详细说明均为示例性的，旨在对本发明申请提供进一步的解释说明。除另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

参考附图1，本发明主要由四个步骤组成：步骤1：根据SIFT方法得到初始匹配集合C；步骤2：通过改进的OANet网络对输入数据进行处理从而得到匹配对为正确匹配的概率；步骤3：对步骤2得到的结果通过加权8点算法进行计算得到本质矩阵；步骤4，根据本质矩阵信息得到准确的相机姿态(旋转和平移)。

步骤1：根据SIFT方法得到图像对I和I'初始匹配集合C，包括以下步骤：

步骤1.1，首先使用传统的SIFT算法来提取两幅图像(I,I')的关键点坐标和其对应的描述子；

步骤1.2，根据描述子的最近邻相似约束，可以得到一个初始匹配集合C：

其中，c

步骤2，如图2所示，通过改进的网络对输入数据进行处理从而得到匹配对为正确匹配的概率,具体如下：

步骤2.1,由步骤1得到了一个2000×4的初始内点集合C作为输入，经过一个带有128个神经元的单层感知器，可以得到一个128维度的特征。

步骤2.2，把步骤2.1的结果作为输入，经过SCSABlock1模块的处理后，得到一个新的128维度的特征F

其中SCSABlock1模块包含一个空间注意力机制模块(SA)、一个通道注意力机制模块(CA)和一个连接层。

步骤2.2.1，设计了一个空间注意力机制(SA)模块用来捕捉每对匹配的丰富上下文信息，从而提高潜在内点的表示能力，并抑制潜在离群点的表示能力。其构成图3所示。该模块通过使用三个不同的PointCN模块来获取三个不同的特征映射Q,K,V∈R

空间注意力矩阵的获取公式如下：SA＝Soft max(D(Q

其中，空间注意力矩阵SA∈R

最后，在特征映射V和空间注意力矩阵SA的转置之间执行点乘操作，来聚合所有匹配对的全局空间上下文信息，并将结果重塑为R

用函数表示如下：F

其中，F

步骤2.2.2，设计了一个通道注意力机制(CA)模块用来捕捉每个通道映射的丰富的全局上下文信息并且的通道注意力机制(CA)模块能够着重关注一些重要的通道映射并提高其的表示能力。其构成图4所示。

通道注意力机制矩阵的公式如下：CA＝Soft max(D(F,F

其中，CA∈R

最后，在通道注意力机制矩阵CA∈R

一系列操作的公式如下：F

其中，F

步骤2.2.3，为了获得更强的特征映射，结合了两个注意力机制模块的输出。沿着它们的通道维度对两个模块的输出进行了连接操作。然后使用PointCN模块处理用于把特征映射恢复到128维通道的连接特征映射。

连接操作的公式如下：F'＝PointCN(Concat(F

其中，F'∈R

然后在空间-通道注意力机制模块(SCSA)的输入特征映射F和信息融合输出特征F'之间进行逐元素求和操作。

此过程用公式表示如下：F

其中，F

步骤2.3，将步骤2.2的输出结果作为输入，依次经过3个PointCN块，得到一个128维度的特征。

一个PointCN块由两个相同的PointCN模块(一个用来捕获全局信息的上下文正则化(CN)模块、一个Batch正则化模块、一个ReLU激活函数和一个具有128维的神经元的多层感知器)组成。

步骤2.4，将步骤2.3的输出结果作为输入，经过DiffPool&DiffUnpool层学习得到一个128维度的特征，获得匹配的局部上下文信息。

DiffPool&DiffUnpool层包括一个可微池化块、一个空间-通道自注意机制块(SCSA)、三个Order-Aware过滤块和一个可微上池化块。

步骤2.4.1，它首先使用一个可微池化块映射2000对匹配到500个聚类，即特征映射从F

步骤2.4.2，将特征映射F

步骤2.4.3，将步骤2.4.2学习到的特征作为输入，经过三个Order-Aware过滤模块，可以捕获到新的特征。

其中，Order-Aware过滤模块可以捕获聚类的全局上下文信息。

步骤2.4.4，将步骤2.4.3捕获到的特征作为输入，经过可微上池化模块将将特征由2000个匹配对映射到500个聚类；可微上池化模块是可微池化模块的逆过程，将特征由500个聚类重新映射回到2000个匹配对。

步骤2.5，将步骤2.4的输出特征作为输入，经过三个PointCN块捕获得到一个128维度的特征。

步骤2.6，将步骤2.5的输出特征作为输入，依次经过带有一个神经元的单层感知器、ReLU和tanh的激活函数学习得到匹配对作为内点的概率。

步骤2.6.1，将步骤2.5的输出特征作为输入，经过带有一个神经元的单层感知器把128维的特征转换为1维的逻辑值o。

函数表示如下：o＝f

其中，o为逻辑值；f

步骤2.6.2，将步骤2.6.1的逻辑值作为输入，依次经过ReLU和tanh的激活函数学习得到每个匹配作为内点的概率，相应的概率集合w＝{w

用函数表示如下：w＝tanh(ReLU(o))

其中，w

迭代使用两次SCSA-Net网络，将第一次得到的每个匹配作为内点的概率w

步骤3，对步骤2得到的权重信息通过加权8点算法进行计算得到本质矩阵

函数表示如下：

其中，

步骤4，根据本质矩阵信息得到准确的相机姿态(旋转和平移)

选取PointNet++、DFE、LFGC、ACNet、OANet、OANet++和的SCSA-Net算法分别在YFC100M和SUN3D数据集进行配准实验得到mAP5°的结果，如方法效果对比表1所示。在每个数据集上进行试验然后将获得最好的mAP5°的数值进行加粗。

方法效果对比表1

将本发明的方法在不同的数据集上进行实验，实验的结果显示，本发明在所有的对比方法上取得了最好的效果，其中在YFCC100M数据集上离群点剔除的可视化结果如图5所示。结合实际可知，本发明可以在三维重建和快速地实现无人机遥感图像的拼接等领域进行广泛的应用。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于空间通道注意力机制神经网络的图像匹配方法 [P] . 中国专利： CN112489098A . 2021-03-12
2. 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 [P] . 中国专利： CN112507800A . 2021-03-16
3. A METHOD CONVERTING MULTICHANNEL AUDIO CONTENT INTO OBJECT-BASED AUDIO CONTENT AND A METHOD FOR PROCESSING AUDIO CONTENT HAVING A SPATIAL POSITION [P] . 美国专利： US2020322743A1 . 2020-10-08

机译：一种将多通道音频内容转换为基于对象的音频内容的方法以及一种处理具有空间位置的音频内容的方法
4. A METHOD CONVERTING MULTICHANNEL AUDIO CONTENT INTO OBJECT-BASED AUDIO CONTENT AND A METHOD FOR PROCESSING AUDIO CONTENT HAVING A SPATIAL POSITION [P] . 欧洲知识产权局专利： EP3465678B1 . 2020-04-01

机译：一种将多通道音频内容转换为基于对象的音频内容的方法以及一种处理具有空间位置的音频内容的方法
5. A METHOD CONVERTING MULTICHANNEL AUDIO CONTENT INTO OBJECT-BASED AUDIO CONTENT AND A METHOD FOR PROCESSING AUDIO CONTENT HAVING A SPATIAL POSITION [P] . 欧洲知识产权局专利： EP3465678A1 . 2019-04-10

机译：一种将多通道音频内容转换为基于对象的音频内容的方法以及一种处理具有空间位置的音频内容的方法