首页> 中文期刊> 《哈尔滨理工大学学报》 >Transformer与CNN融合的单目图像深度估计

Transformer与CNN融合的单目图像深度估计

         

摘要

针对单目视觉图像深度估计时存在精度低的问题,提出一种Transformer和CNN融合的单目图像深度估计方法。首先,采用ResNet-50作为编码器-解码器网络的主干网络对图像特征进行提取,同时在编码器-解码器网络中采用层级融合的方法,将编码器各层级特征进行融合作为解码器的输入,提升深度估计网络对多尺度特征信息的利用率。其次,采用Transformer网络对解码器的输出特征进行全局分析,Transformer网络中的多头注意力机制从解码器输出的深层特征中估计深度信息,提高深度估计网络对多尺度特征的提取能力进而提高深度图的精准度。在NYU Depth-v2数据集上完成模型有效性验证。实验结果表明,与多尺度卷积神经网络相比,该方法在精度δ<1.25上提高24.3%,在均方根误差指标上降低61.3%。证明其在单目图像深度估计的可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号