首页> 中文学位 >面向室内场景的3D场景重建与语义理解
【6h】

面向室内场景的3D场景重建与语义理解

代理获取

目录

声明

摘要

表格索引

插图索引

算法索引

第一章 绪论

1.1 引言

1.2 背景介绍

1.2.1 视觉导航

1.2.2 语义地图

1.2.3 数据库

1.3 文章 内容与组织结构

第二章 RGB-D大尺度场景重建

2.1 相关工作

2.2 帧间对齐技术

2.2.1 求变换矩阵的相关技术

2.2.2 算法流程

2.3 环检测与全局优化

2.3.1 环检测

2.3.2 全局优化

2.4 全局场景表示

2.4.1 点云表示

2.4.2 Mesh表不

2.5 实验平台与效果

2.5.1 可佳机器人平台

2.5.2 实验效果

2.6 小结

第三章 对于物体类别与结构类别的RGB-D语义分割

3.1 概述

3.2 相关工作

3.3 CRF模型

3.3.1 CRF模型表示

3.3.2 Graph Cut推理

3.4 场景、物体、结构类别联合推理

3.4.1 超像素的单点势能

3.4.2 场景信息的单点势能

3.4.3 物体与物体的关系

3.4.4 物体与场景的关系

3.4.5 结构与物体关系

3.4.6 空间位置关系

3.4.7 模型学习与推理

3.5 实验结果

3.5.1 数据库

3.5.2 分类准确度

3.6 小结

第四章 时序一致性语义地图

4.1 相关工作

4.2 系统架构

4.3 计算时序信息

4.4 Dense CRF介绍

4.5 高阶Dense CRF模型

4.5.1 单点势能

4.5.2 成对点势能

4.5.3 高阶势能

4.5.4 模型的推理

4.6 实验结果

4.6.1 数据库

4.6.2 时序分割算法比较

4.6.3 时序一致语义地图

4.7 小结

第五章 语义地图自标注系统

5.1 动机

5.2 相关工作

5.3 标注帧提取

5.4 标注传播算法

5.5 实验结果

5.5.1 标注帧提取

5.5.2 标注传播

5.6小结

第六章 总结与展望

6.1 工作总结

6.2 未来工作的展望

6.2.1 场景重建

6.2.2 物体识别与CAD模型

6.2.3 可供性区域检测

6.2.4 环境的逻辑表示

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

在读期间参与的学术活动

展开▼

摘要

场景感知与理解是计算机视觉、人工智能、智能机器人的一项长期目标。近年来,随着深度传感器的发展,基于深度摄像头的室内场景感知技术得到了越来越多的关注与研究。本文关注于室内场景的构建与理解,提出了从RGB-D场景构建,RGB-D图像语义理解到语义场景地图的构建一整套系统。具体如下:
  第一,本文采用RGB-D图像进行场景拼接,构建全局场景地图。利用帧间对齐技术进行图像拼接,并用环检测和位姿图优化的方法消除帧间累积误差,从而保证可以进行大尺度的场景构建,在全局场景表示方面,提出了点云与Mesh两种表示方法。
  第二,为了达到语义理解的目的,对RGB-D图像进行语义分割,其目的是将图像中的每个像素点都分类成类别。将每个像素点与两种类别相关联:物体类别与结构类别。结构类别保证人们可以宏观结构上理解图像(如家具、墙、小物体的分布),而物体类别可以使我们了解到图像中物体的具体分布。通过条件随机场模型(CRF)的联合推理实现图像的语义分割。
  第三,通过将RGB-D场景重建技术和语义分割技术相结合,就可以构建全局场景的语义地图,但是RGB-D图像序列的语义分割结果不具有时序一致性,本文通过计算帧间超像素的对应关系捕获时序性信息,将其建模为高阶势能,利用高阶CRF模型进行推理,从而加强时序性约束,得到时序一致的语义地图。
  第四,人工标注图像进行训练往往要耗费大量人工与时间,本文提出减少人工标注工作量的方法。先从图像序列中选出极少的图像进行人工标注,再利用标注传播的方法自动标注剩余图像和场景,从而解决训练图像需要大量人工标注的问题。
  本文的主要贡献与创新之处在于:
  第一,本文通过多种方法保证了RGB-D重建系统的鲁棒性、实时性、尺度性和自主性。鲁棒性方面,本文将基于特征点对齐和基于ICP对齐的技术进行了结合,从而减少失败的情况。实时性方面,本文对重建过程中的几乎所有算法实现了GPU加速,包括角点、ORB特征点计算、特征点匹配、RANSAC算法、ICP算法、稀疏化算法、Marching cubes算法等等。在尺度性上,本文采用环检测与全局位姿图优化的方法进行误差消除,保证全局一致性。自主性方法,本文使用可佳机器人平台,利用其导航系统实现服务机器人自主构建室内场景3D地图的功能。
  第二,本文利用多种上下文关系进行RGB-D图像的语义分割。通过CRF图模型,本文实现了图像场景类别、超像素的物体类别和结构类别的联合推理。同时建立了多种成对点势能关系,包括场景与物体关系、物体与物体关系、物体与结构关系、空间位置关系等。通过图模型的联合推理,保证了分类结果在空间上的一致性。
  第三,本文通过对RGB-D图像序列计算时序信息,扩展CRF模型的高阶势能,利用高阶势能加强时序约束来保证最终语义地图的时序一致性,提高了语义地图准确度。
  第四,本文利用RGB-D图像序列之间的3D位姿关系,通过找出最小的可以覆盖整个场景的标注帧,利用标注传播的技术进行图像的自动标注,大大减少了人工标注训练数据的工作量。实验表明对于1831帧的图像序列,只需人工标注22帧的图像就可以实现93%的标注传播准确度。

著录项

  • 作者

    赵哲;

  • 作者单位

    中国科学技术大学;

  • 授予单位 中国科学技术大学;
  • 学科 计算机应用技术
  • 授予学位 博士
  • 导师姓名 陈小平;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.41;
  • 关键词

    RGB-D图像; 语义分割; 场景重建; 人工标注;

  • 入库时间 2022-08-17 10:18:04

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号