万普插件库

jQuery插件大全与特效教程

无视一切干扰!谷歌开源最强3DGS!

编辑:3DCV

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

0. 这篇文章干了啥?

利用神经辐射场(NeRF)和最近兴起的3D高斯溅射(3DGS)技术从二维图像中重建三维场景一直是视觉研究的热点。目前大多数方法都假设图像是同时捕获的,姿态完美且没有噪声。虽然这些假设简化了三维重建任务,但在现实环境中却很少成立,因为移动物体(如人或宠物)、光照变化和其他伪光度不一致性会降低性能,从而限制了其广泛应用。

在NeRF训练中,已通过将不一致观测的权重降低或丢弃(基于颜色残差的大小)来融入对异常值的鲁棒性。适应于3DGS的类似方法解决了在Phototourism等数据集中观察到的全局外观变化和单帧瞬态问题。这些捕获包括在数周内和一天中不同时间发生的外观变化,这在大多数随意捕获中并不常见。特别是对于3DGS,自适应加密过程本身会在颜色残差中引入方差,从而损害在直接应用来自鲁棒NeRF框架的现有想法时对这些瞬态的检测。

在本文中,我们介绍了SpotlessSplats(SLS),这是一个通过训练图像中无监督检测异常值来进行鲁棒3D场景重建的3DGS框架。我们不是在RGB空间中检测异常值,而是利用文本到图像模型中的更丰富、学习到的特征空间。该特征嵌入的有意义语义结构使人们能够更容易地检测到与单个对象等相关的结构化异常值的空间支持。我们没有采用手动指定的鲁棒核来进行异常值识别,而是利用该特征空间中的自适应方法来检测异常值。

为此,我们在该框架内考虑了两种方法。第一种方法使用局部特征嵌入的非参数聚类作为查找结构化异常值图像区域的一种简单方式。第二种方法使用多层感知器(MLP),以无监督的方式训练,以预测特征空间中可能与干扰物相关的部分。我们还引入了一种(互补且通用的)稀疏化策略,该策略与我们的鲁棒优化兼容,即使在无干扰物的数据集上也能以两到四倍的较少溅射点实现相似的重建质量,从而在计算和内存方面实现了显著的节省。通过在随意捕获的场景的具有挑战性的基准测试上进行实验,SLS在重建精度上始终优于竞争方法。

下面一起来阅读一下这项工作~

1. 论文信息

标题:SpotlessSplats: Ignoring Distractors in 3D Gaussian Splatting

作者:Sara Sabour, Lily Goli, George Kopanas, Mark Matthews, Dmitry Lagun, Leonidas Guibas, Alec Jacobson, David J. Fleet, Andrea Tagliasacchi

机构:谷歌DeepMind、多伦多大学、斯坦福大学、西蒙·弗雷泽大学

原文链接:https://arxiv.org/abs/2406.20055

代码链接:https://github.com/SpoLessSplats/SpoLessSplats.github.io/raw/main/code.html

官方主页:https://spolesssplats.github.io/

2. 摘要

三维高斯溅射(3DGS)是一种很有前途的三维重建技术,它提供了高效的训练和渲染速度,使其适合实时应用。然而,当前的方法需要高度控制的环境——没有移动的人或风吹动的元素,以及一致的照明——以满足三维高斯溅射的视图间一致性假设。这使得现实世界捕获的重建变得困难。我们提出了SpotLessSplats,这是一种利用稳定扩散特性和鲁棒优化来有效忽略瞬时干扰物的新方法。我们的方法在视觉和定量上均达到了最先进的重建质量,适用于随意捕获的场景。

3. 效果展示

Teaser–SpotlessSplats干净地重建了具有许多瞬态遮挡物的场景(中间),同时避免了伪影(底部)。它正确地识别并屏蔽了所有瞬态(顶部),即使在有大量瞬态的捕获中也是如此(左侧)。

相比之下,3D GS的伪影问题很严重。

我们的方法准确地重建了具有不同瞬态遮挡水平的场景,避免了瞬态泄漏或定量和定性结果显示的重建不足。

4. 主要贡献

我们的主要贡献包括:

o 提出了一种自适应且鲁棒的损失函数,该损失函数利用文本到图像的扩散特征,能够可靠地识别因果捕获中的瞬态干扰因素,从而消除了对光度误差过拟合的问题。

o 提出了一种与我们的鲁棒损失函数兼容的新型稀疏化方法,该方法显著减少了高斯函数的数量,从而在不影响保真度的情况下节省了计算和内存资源。

o 在标准基准测试上对SLS进行了全面评估,展示了其达到最先进水平的鲁棒重建能力,并大幅优于现有方法。

5. 基本原理是啥?

我们提出基于语义来识别干扰物,即在训练过程中识别它们的重现。我们将语义视为从自监督的二维基础模型中计算得到的特征图。从训练图像中移除干扰物的过程就变成了识别可能导致较大光度误差的特征子空间的过程。例如,考虑一个在其他方面完全静态的场景中走来走去的狗。我们希望设计一个系统,该系统可以在每张图像的空间范围内或在数据集的更广泛时空范围内,识别出“狗”像素作为可能导致重建问题的原因,并自动将它们从优化中移除。我们的方法旨在减少对局部颜色残差进行异常值检测和过度拟合颜色误差的依赖,而是强调依赖语义特征之间的相似性来识别和排除干扰物。

6. 实验结果

我们通过在RobustNeRF和NeRF on-the-go数据集上进行三维重建来评估我们的方法。在图5中,我们定量地展示了SLS-mlp在RobustNeRF数据集上优于所有基于鲁棒NeRF的基线方法。结果进一步表明,我们显著改进了原始3DGS的性能,同时更接近理想的干净模型,特别是在“Yoda”和“Android”这两个场景中。我们还进一步与原始3DGS和NeRF-HuGS进行了定性比较。定性结果表明,原始3DGS试图将干扰物建模为带噪声的浮动飞溅(“Yoda”、“Statue”)或与视角相关的效果(“Android”),或两者的混合(“Crab”)。而使用基于分割的掩码的NeRF-HuGS则显示出过掩蔽的迹象(在所有四个场景中移除了静态部分),或在挑战性稀疏采样视图中出现欠掩蔽,导致瞬态对象(“Crab”)被包括在内。

在我们所有的实验中,启用我们提出的基于利用率的剪枝(UBP)将高斯数的数量减少了4倍到6倍。这种压缩导致启用UBP时训练时间至少减少2倍,在推理期间减少3倍。图7显示,在干净的MipNeRF360数据集上,使用UBP代替不透明度重置可以将高斯数的数量减少2倍到4.5倍,同时保持渲染质量。

7. 总结 & 限制性

我们提出了SpotlessSplats方法,这是一种用于三维通用场景(3DGS)的瞬时干扰物抑制技术。我们建立了一类掩蔽策略,这些策略利用语义特征来有效地识别瞬时干扰物,而无需任何明确的监督。具体而言,我们提出了一种名为“SLS-agg”的空间聚类方法,该方法快速且无需进一步训练,只需为每个聚类分配一个内点-外点分类即可。随后,我们提出了基于轻量级多层感知机(MLP)与三维通用场景(3DGS)模型同步训练的时空学习聚类方法“SLS-mlp”,该方法允许对语义相关的像素进行更高精度的分组,同时速度仅略慢于聚类。我们的方法利用Stable Diffusion特征的语义偏差和鲁棒技术,实现了最先进的瞬时干扰物抑制效果。此外,我们还引入了一种基于梯度的剪枝方法,该方法在使用显著更少的splat(样条)的情况下,仍能提供与原始3DGS相同的重建质量,并且与我们的干扰物抑制方法兼容。我们相信,我们的工作对于三维通用场景技术在现实世界复杂环境中的广泛应用具有重要意义。

局限性。尽管我们依赖文本到图像的特征通常有利于鲁棒的重建,但也带来了一些限制。一个限制是,当属于同一语义类的干扰物和非干扰物同时存在且彼此靠近时,我们的模型可能无法区分它们。此外,这些模型提供的低分辨率特征可能会遗漏一些细薄结构。特别是在使用聚类时,将特征上采样到图像分辨率会导致边缘不精确。我们的剪枝策略计算认知不确定性,如果阈值设置得过于激进,可能会移除场景中很少见的部分。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉技术星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言