关键词:
视觉SLAM
动态环境
神经隐式表征
显式体积表示
大规模重建
摘要:
随着人工智能、机器人技术与计算机视觉的快速发展,同时定位与建图(Simultaneous Localization and Mapping,SLAM)作为实现智能机器人自主导航的关键技术,其重要性日益凸显。SLAM通过解决机器感知与环境建模的基础性问题,为空间认知与理解提供了核心框架。然而,现有SLAM方法在应对动态环境和大规模场景重建时仍面临诸多挑战:1)动态环境中特征点处理的精确性与实时性难以平衡,现有方法往往通过牺牲系统实时性能来提高定位精度;2)在建图任务中,神经隐式表示虽具备高质量场景重建能力,但在动态环境中容易产生“鬼影”等干扰,且计算资源需求过高;3)基于3D高斯泼溅(3D Gaussian Splatting,3DGS)的显式场景表示在动态环境中虽有计算效率优势,但缺乏有效的动态物体处理机制;4)大规模场景重建中,计算复杂度剧增与有限资源约束之间的矛盾制约了SLAM的应用范围。本文针对动态和大规模场景SLAM所面临的挑战,从特征处理、实时性能、重建质量和计算资源管理等多个角度展开研究,并通过实验验证了所提方法的有效性。主要研究内容为:
(1)针对动态场景中SLAM的实时性能与定位精度之间的平衡问题,提出了FDR-SLAM(Fast object detection,Depth-enhanced segmentation and dynamic detection Recovery SLAM)方法。该方法基于PConv(Partial Convolution)模块对目标检测网络结构进行改进,通过特征通道分组处理提升了推理速度,并基于此模型构建一个高效的动态SLAM框架;提出基于深度增强的动态区域分割方法,运用统计学分析方法对边界框内的像素进行考察,实现动静态区域的高效区分;同时提出一种基于历史动态描述子的漏检恢复策略,通过跨帧特征匹配补偿检测缺陷。实验结果表明,优化后的网络结构在检测精度仅损失0.5%的情况下,推理速度提升16.2%;相比于基线方法ORB-SLAM3,在TUM RGB-D数据集的高动态序列上的绝对轨迹误差降低了89.3%到96.1%,在Bonn动态数据集上降低了89.9%到98.8%。
(2)针对神经隐式表示方法在动态场景和大规模场景中的局限性,本文提出了DIDN-SLAM(Dynamic Implicit Dense Neural SLAM)方法。该方法提出了一种基于t分布的统计验证策略,区分场景中的动态物体与静态背景;在此基础上,基于自适应光线采样与多分辨率哈希编码的场景表示方法,利用网格结构组织三维空间并通过哈希映射实现特征表示,在维持重建质量的同时降低计算开销;同时提出一种联合优化重投影误差和特征点权重的方法,实现更稳健的相机跟踪。实验显示,相比现有的基于神经辐射场的SLAM方法,动态场景中该方法的跟踪精度提高了90%以上,在室内外环境中也展现出良好的动态物体移除和场景重建效果。
(3)针对基于3DGS的单目SLAM在动态场景中的局限性,本文提出一种基于3DGS的动态单目SLAM方法。该方法探索一种像素集补全策略,它结合光流分析和深度聚类,可对语义分割时漏检的动态区域进行补偿;引入一种非活动特征点的密集初始化方法,通过高斯金字塔渐进式训练,实现高质量场景初始化;同时提出动态像素集抑制策略,借助残差损失的软约束,控制对动态区域的过度抑制,并保留了场景重建的完整性。实验结果验证了方法在跟踪精度、重建质量与实时性方面的优越性。
(4)针对面向大规模场景重建的单目SLAM所面临的挑战,本文提出了一套基于3DGS的轻量级SLAM方法。该方法使用零样本深度估计模块作为代理深度获取深度信息;基于一种分层次的高斯管理策略,将高斯分为主导高斯与补充高斯两类,降低计算负载;探索一种基于误差检验的动态高斯添加机制,通过分析深度和颜色重投影误差来自适应地确定需要添加新高斯的区域。同时,还构建了火星表面仿真环境,集成Air Sim无人机模拟器采集数据。在公开和仿真数据集上的测试实验中,该方法显示出计算效率优势。
本文对动态和大规模场景SLAM的研究,从特征处理、场景表示、动态抑制与计算资源管理等多角度展开,为面向实际应用环境的SLAM系统提供了新的技术路径,实验结果验证了所提方法在性能与效率平衡方面的优越性。