首页> 中国专利> 一种基于最优传输理论的交叉视角地理定位方法

一种基于最优传输理论的交叉视角地理定位方法

摘要

本发明公开了一种基于最优传输理论的交叉视角地理定位方法。该方法的步骤如下:S1、获取待定位的无人机图像,同时获取由不同位置的带有定位信息的卫星图像组成的卫星图像集;S2、将无人机图像与卫星图像集中的每一张卫星图像组成图像对,输入经过训练的交叉视角地理定位网络,由交叉视角地理定位网络输出两者的匹配概率;S3、从卫星图像集中选择与无人机图像匹配概率最高的一张卫星图像,以该卫星图像中的定位信息对无人机图像进行定位。本发明将最优传输理论应用到交叉视角地理定位中,通过最优传输模型缓解交叉视角地理定位任务中的无人机视角与卫星视角的特征分布差异较大问题,优化整个网络的分类效果,从而提高匹配检索和定位的准确率。

著录项

  • 公开/公告号CN114926827A

    专利类型发明专利

  • 公开/公告日2022-08-19

    原文格式PDF

  • 申请/专利号CN202210522281.1

  • 申请日2022-05-13

  • 分类号G06V20/62(2022.01);G06V10/40(2022.01);G06V10/764(2022.01);G06V20/13(2022.01);G06V20/17(2022.01);

  • 代理机构杭州求是专利事务所有限公司 33200;杭州求是专利事务所有限公司 33200;

  • 代理人傅朝栋;张法高

  • 地址 312399 浙江省绍兴市上虞区曹娥街道江西路2288号浙大网新科技园A2楼810室

  • 入库时间 2023-06-19 16:26:56

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-06

    实质审查的生效 IPC(主分类):G06V20/62 专利申请号:2022105222811 申请日:20220513

    实质审查的生效

说明书

技术领域

本发明涉及交叉视角的地理定位领域,具体涉及一种对不同视角的图片进行匹配应用于定位和导航问题的方法。

背景技术

近年来,交叉视角地理定位技术发展迅速,受到越来越多的关注,即从不同的视角图像中检索出对应目标,可以应用到无人机送货、自动驾驶、机器人导航等领域。例如,在给定一个无人机视角图像,需要从卫星的候选图像中检索出同一地点的图像,得到真实匹配的卫星视角图像后,我们可以利用卫星图中带有的gps信息对无人机视角图像中对建筑物进行位置确定,进一步还可以协助实现导航功能。近年来,鉴于深度学习优良特性,研究人员将神经网络引入到交叉视角地理定位问题上。比如利用一个预先训练的CNN为交叉视角定位任务提取特征,CNN高层的特征中包含关于地理目标的语义信息,根据这些语义信息,完成地点建筑的检索任务。有研究人员通过减小对地面图像和航拍图像之间的特征距离,对预训练的网络进行微调,从而获得更好的性能。大多数方法通常只关注全局信息,而忽略了图片中的上下文信息。通过提取图片中建筑的上下文信息,可以提高检索的准确率。

最优传输(Optimal Transport)是多个学科交叉的研究领域,包括概率、分析以及优化等,其研究的主要目标是建立有效比较概率分布的几何工具。最优传输理论早已在数学界引起广泛关注,已经发展成为一个独立的数学分支,研究者包括很多杰出的数学家,最优传输在数学上具有比较完善的理论。近年来,最优传输理论常常被用来研究分布之间的变换问题,其被广泛应用于计算机科学领域,尤其是在计算机图形学、计算机视觉、医学图像处理以及深度学习等方面,并取得了显著的效果。

计算最优传输的方法也有很多,传统的最优传输是一个线性规划问题,它在数据极大的时候,求解复杂度过高。因此,研究人员常常采用熵正则化算法来实现最优传输。通过加入熵正则化限制最优传输问题解的复杂度,可以在大幅降低计算复杂度的同时得到最优传输问题的近似解。但是,需要一些有效的算法,才能够进一步释放熵正则化的潜力,Sinkhorn算法是其中的一种常见算法。Sinkhorn算法以较小代价将得到的特征分布转换成另一特征分布,在迭代后得到原始问题最优解的近似。

最接近的技术方案存在的缺点和本提案要解决的技术问题

近年来,无人机行业和地理定位技术呈快速发展趋势,无人机送货领域有着极大的研究空间。如疫情期间,无人机的无接触配送物资很好地展现出其实际意义。卫星图、无人机图视角差异较大,通过深度学习得出的特征分布差异也较大。现有方法将图像进行分块匹配,从而显式利用上下文信息,取得了不错的检索精度。但相匹配的图像块中,仍存在信息不对齐的情况。例如,某一建筑在一图像块的左上角,但在与其匹配的图像块中,此建筑可能在右下角。虽然两图像块中包含相同的建筑,但建筑的位置和拍摄角度仍存在较大的差异。为解决这一语义信息不对齐问题,本发明考虑利用最优传输理论将匹配图像块中的语义信息在高维特征中进行重新调整,从而减少图像块中的信息分布差异,进一步提高地理目标定位的准确率。

发明内容

本发明的目的在于解决现有技术中存在的问题,并提供一种基于最优传输理论的交叉视角地理定位方法。

本发明所采用的具体技术方案如下:

一种基于最优传输理论的交叉视角地理定位方法,其包括:

S1、获取无人机航拍视角下获取的待定位的无人机图像,同时获取由不同位置的带有定位信息的卫星图像组成的卫星图像集;

S2、将无人机图像与卫星图像集中的每一张卫星图像组成图像对,输入经过训练的交叉视角地理定位网络中,由交叉视角地理定位网络输出两者的匹配概率;

所述交叉视角地理定位网络中包括第一特征提取网络分支、第二特征提取网络分支和分类器;

所述第一网络分支中,首先采用第一特征提取网络对无人机图像进行特征提取,获得第一特征图;然后将所述第一特征图进行方环形分割,形成四个第一子特征图,再分别对四个第一子特征图进行平均池化处理,得到四个维度相同的第一特征矩阵;最后将四个第一特征矩阵分别进行最优传输处理,使无人机航拍视角的特征矩阵转换和对齐到卫星视角的特征矩阵,分别得到四个对齐后的特征矩阵;

所述第二网络分支中,首先采用第二特征提取网络对输入的卫星图像进行特征提取,获得第二特征图;然后将所述第二特征图进行方环形分割,形成四个第二子特征图,再分别对四个第二子特征图进行平均池化处理,得到四个维度相同的第二特征矩阵;

所述分类器中,以四个对齐后的特征矩阵和四个第二特征矩阵作为输入,输出图像对中两张图像的匹配概率;

所述交叉视角地理定位网络训练时采用的总损失函数为分类损失与对比损失之和,其中所述分类损失通过计算所述分类器输出结果的交叉熵损失得到,所述对比损失由四个对齐后的特征矩阵分别和四个第二特征矩阵两两配对计算对比损失后求和得到;

S3、从卫星图像集中选择与无人机图像匹配概率最高的一张卫星图像,以该卫星图像中的定位信息对无人机图像进行定位。

作为优选,所述第一特征提取网络和第二特征提取网络均为去掉最末尾的池化层和分类层的ResNet-50神经网络。

作为优选,所述无人机图像和卫星图像的图像尺寸均统一为256*256*3。

作为优选,对特征图进行所述方环形分割时,将整张N*N的特征图分割为三个位于外环的方环形子特征图和一个位于中心的方形子特征图,且方环形子特征图的环体宽度均为N/8,方形子特征图的尺寸为N/4*N/4。

作为优选,所述第一网络分支中,对每个第一特征矩阵分别进行最优传输处理时,首先进行Kantorovich relaxation松弛化处理,并将约束条件改为线性,允许每个元素的质量分给目的分布里的多个元素,实现矩阵转移;然后进行熵正则化,生成正则化的代价函数;最后使用Sinkhorn算法对熵正则化进行优化,迭代后求得最优解的近似,实现无人机视角图像和卫星视角图像的特征对齐。

作为优选,所述分类器采用全连接网络。

作为优选,所述对比损失采用contrast loss函数计算,。

作为优选,所述交叉视角地理定位网络通过最小化总损失函数进行训练,直至损失收敛后完成训练。

本发明相对于现有技术而言,具有以下有益效果:

本发明将最优传输理论应用到交叉视角地理定位中,通过最优传输模型缓解交叉视角地理定位任务中的无人机视角与卫星视角的特征分布差异较大问题,优化整个网络,增强分类效果,从而提高匹配检索和定位的准确率。

附图说明

图1是基于最优传输理论的交叉视角地理定位方法的步骤流程图。

图2是基于最优传输理论的交叉视角地理定位网络。

图3是最优传输理论OT模块结构图;

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。

在本发明的描述中,需要理解的是,当一个元件被认为是“连接”另一个元件,可以是直接连接到另一个元件或者是间接连接即存在中间元件。相反,当元件为称作“直接”与另一元件连接时,不存在中间元件。

在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于区分描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

本发明的核心在于针对交叉视角地理定位中存在不同视角图像特征分布差异过大问题,通过引入最优传输来缓解这一问题。本发明将最优传输理论应用到交叉视角地理定位领域上,通过建立跨视图域传输,可以促进不同视角图像之间的特征对齐,例如对齐同一建筑的无人机视角图像与卫星视角图像特征,将特征从一个域转化传输到另一个对应域,改变其中一个视角的图像特征分布,使其更接近另一视角的特征分布,从而实现更有意义的特征相似度比较,提高交叉视角地理定位的准确率。

如图1所示,在本发明的一个较佳实施例中,提供了一种基于最优传输理论的交叉视角地理定位方法,其包括以下步骤:

S1、获取无人机航拍视角下获取的待定位的无人机图像,同时获取由不同位置的带有定位信息的卫星图像组成的卫星图像集。

S2、将无人机图像与卫星图像集中的每一张卫星图像组成图像对,输入经过训练的交叉视角地理定位网络中,由交叉视角地理定位网络输出两者的匹配概率。

如图2所示,在上述交叉视角地理定位网络中包括第一特征提取网络分支、第二特征提取网络分支和分类器。第一特征提取网络分支、第二特征提取网络分支和分类器中各自的具体实现流程如下:

第一网络分支中,首先采用第一特征提取网络对无人机图像进行特征提取,获得第一特征图;然后将所述第一特征图进行方环形分割,形成四个第一子特征图,再分别对四个第一子特征图进行平均池化处理,得到四个维度相同的第一特征矩阵;最后将四个第一特征矩阵分别进行最优传输处理(即网络中的OT模块),使无人机航拍视角的特征矩阵转换和对齐到卫星视角的特征矩阵,分别得到四个对齐后的特征矩阵。

第二网络分支中,首先采用第二特征提取网络对输入的卫星图像进行特征提取,获得第二特征图;然后将所述第二特征图进行方环形分割,形成四个第二子特征图,再分别对四个第二子特征图进行平均池化处理,得到四个维度相同的第二特征矩阵。

需要说明的是,无人机图像和卫星图像的图像尺寸在输入网络之前,需要进行统一,其统一尺寸可根据实际进行调整。本实施例中,均统一为256*256*3。

需要说明的是,上述第一特征提取网络和第二特征提取网络理论上可以采用任意能够从图像中提取特征的网络,在本实施例中可以选择基于ResNet-50神经网络来构建。ResNet-50神经网络中包含一系列的卷积层和位于最末尾的池化层和分类层,本实施例中的第一特征提取网络和第二特征提取网络均采用去掉最末尾的池化层和分类层的ResNet-50神经网络,即仅保留池化层前面的主干部分。

需要说明的是,上述第一网络分支和第二网络分支中,均需要分别对第一特征图和第二特征图进行方环形分割。本发明中所谓的方环形分割,是指将原始的全局特征图分割为一系列方环形的子特征图,但位于最中心的一个子特征图并非方环形,而是方形。具体而言,对特征图进行方环形分割时,被分割的整张特征图大小记为N*N,则该特征图被均匀分割为四部分子特征图,包括三个位于外环的方环形子特征图和一个位于中心的方形子特征图,且方环形子特征图的环体宽度均为N/8,方形子特征图的尺寸为N/4*N/4。

需要说明的是,上述第一网络分支中,对每个第一特征矩阵分别进行最优传输处理时,其最优传输的具体技术实现流程可参见现有技术来实现。本发明的一实施例中,最优传输理论结构如图3所示,具体步骤如下:在本发明中,其基本流程可参见如下:首先进行Kantorovich relaxation松弛化处理,并将约束条件改为线性,允许每个元素的质量分给目的分布里的多个元素,实现矩阵转移;然后进行熵正则化,生成正则化的代价函数;最后使用Sinkhorn算法对熵正则化进行优化,迭代后求得最优解的近似,实现无人机视角图像和卫星视角图像的特征对齐。

分类器中,以四个对齐后的特征矩阵和四个第二特征矩阵作为输入,输出图像对中两张图像的匹配概率。

S3、从卫星图像集中选择与无人机图像匹配概率最高的一张卫星图像,视为这两张图像代表了同一个地面区域,由于卫星图像中本身携带有GPS定位信息,因此可以以该卫星图像中的定位信息赋予无人机图像,以便于进行定位或者导航。

需要说明的是,上述分类器理论上可以采用任意能够根据输入的特征矩阵输出相应匹配概率的分类网络。在本实施例中,可采用全连接网络来作为分类器。

上述交叉视角地理定位网络在实际应用前,需要进行训练,网络的训练流程与传统的网络训练流程一致,通过最小化总损失函数对网络参数进行优化即可,直至损失收敛后完成训练。

本发明中需要设定网络训练的总损失函数形式,具体采用的总损失函数为分类损失与对比损失之和,其中所述分类损失通过计算所述分类器输出结果的交叉熵损失得到,所述对比损失由四个对齐后的特征矩阵分别和四个第二特征矩阵两两配对(按照方环形分割时相同的位置关系进行配对)计算对比损失后求和得到。在实际实现时,对比损失可采用contrast loss函数计算。

下面通过一个具体实例来展示上述S2中的交叉视角地理定位网络的具体训练方式。在该实例中,输入的无人机图像和卫星图像大小尺寸均是batch*256*256*3,对数据集进行检查、规范,batch表示一个训练批次的样本量。

训练过程中的一轮迭代过程如步骤1~步骤5所示,具体如下:

步骤1:分别采用ResNet-50神经网络结构提取无人机俯拍视角下无人机图像的和卫星视角下的卫星图像的特征。在去掉ResNet-50网络最后的池化层和分类层后,无人机视角和卫星视角图像分别获得维度为batch*16*16*2048的特征图。

步骤2:对输出的两种图像的特征图分别进行方环形分割,将全局特征分离为四个特征部分f

步骤3:先分别对卫星图像和无人机图像得到的四个特征矩阵分别采用平均池化,即卫星图像和无人机图像分别得到四个维度相同(batch*1*1*2048)的特征矩阵,并分别表示为F

步骤4:对无人机视角图像特征F

本发明在实现最优传输问题上,通过先采用Kantorovich relaxation松弛化处理,将约束条件变为线性,相比原本蒙日问题求解难度大幅降低;再采用熵正则化处理,来降低时间复杂度和最优传输的计算代价;最后采用可微的Sinkhorn算法,通过运算求解,传输跨域特征之间关系的双随机矩阵编码,实现无人机视角图像和卫星视角图像的特征对齐,释放熵正则化的潜力。

步骤5:计算对比损失,对无人机视角图像最优传输得到的对齐后的四个特征矩阵F

需要说明的是,上述训练过程仅仅是本发明的一种优选实现方式,但其中的具体参数以及实现形式可以根据实际进行调整。

综上所述,本发明将最优传输理论应用到交叉视角地理定位中,通过最优传输模型转化域特征,缓解交叉视角地理定位任务中的无人机视角与卫星视角的特征分布差异较大问题,从而优化了整个定位网络,增强匹配效果。试验表明,本发明能够提高跨视角图像的匹配检索和定位的准确率。

以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号