配准一切点云！波恩大学斯坦福重磅开源RAP：无需显式匹配，配准任意3D点云数据！-智慧文博士

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Register Any Point: Scaling 3D Point Cloud Registration by Flow Matching

作者：Yue Pan, Tao Sun, Liyuan Zhu, Lucas Nunes, Iro Armeni, Jens Behley, Cyrill Stachniss

机构：University of Bonn、Stanford University

原文链接：https://arxiv.org/abs/2512.01850

代码链接：https://github.com/PRBonn/RAP

1. 导读

点云配准是将多个未进行姿态调整的点云对准到同一个参考框架中，这一过程是实现3D重建与机器人定位的核心步骤。在本文中，我们将点云配准视为一种条件生成过程：通过学习得到的连续的、逐点分布的速度场，可以将含有噪声的点云数据转化为配准后的场景数据，从而确定每个视图的正确姿态。与以往那些先通过对应关系匹配来估计点云对之间的变换关系，再优化这些变换以实现多视图配准的方法不同，我们的模型能够直接生成配准后的点云数据。由于采用了轻量级的局部特征提取机制，并在测试阶段实施了刚性约束机制，我们的方法在多视图配准任务中取得了领先的结果，尤其是在点云重叠程度较低的情况下；此外，该方法还具有很好的泛化能力，能够适应不同的尺度范围和传感器类型。此外，我们的方法还为后续任务提供了有力支持，包括重新定位、多机器人同时定位与地图构建，以及多会话间的地图合并等。

2. 效果展示

我们用于可缩放多视角点云注册的方法。为了对多个未摆姿势的点云进行注册，以往的工作通常首先进行对应匹配，然后优化姿态图(左上)。相比之下，我们引入了一种单阶段模型，它能够通过在欧几里得空间中进行流匹配直接生成已配准的点云(右上)，从而省去了进行明确对应匹配和姿态图优化的步骤。我们的模型能够适用于来自对象中心、室内和室外场景等不同点云数据，涵盖扫描、子地图和地图等不同层级(下)。

模型在武汉大学-TLS数据集上的多视角配准结果。请注意，我们的模型从未接受过基于陆地激光扫描点云数据集的训练而是实现了零样本泛化能力并适用于此数据集。左图:古建筑场景;右图:公园场景。不同颜色表示不同的点云。CD指的是已注册点云与真实点云之间的Chamfer 距离。

3. 引言

点云配准是三维视觉、机器人技术和摄影测量领域的基石，具有广泛的应用，包括将多个部分三维扫描数据合并为一个一致的三维模型，以及在现有三维地图中定位传感器以用于后续任务，如同时定位与建图（Simultaneous Localization and Mapping, SLAM）、三维重建和机器人操作。然而，在实际场景中获取可靠的配准结果是一个难题。真实世界的数据稀疏、嘈杂且密度不均匀；传感器在模态和校准方面存在差异；点云之间的重叠区域可能很小，局部匹配可能存在歧义。

目前主流的多视角点云配准方法遵循两阶段流程：首先对齐所有重叠的扫描对，然后求解全局位姿图以强制实现一致性。成对对齐通常依赖于使用鲁棒估计器匹配局部特征对应关系。尽管在概念上具有吸引力，但这种方法存在两个局限性：（i）二次复杂度：由于需要在所有扫描对之间进行穷举对应关系搜索，计算成本随扫描数量的增加呈二次方增长；（ii）全局上下文信息有限：成对阶段限制了对全局上下文信息的捕捉，在重叠区域较小和观测不完整的情况下会降低性能。尽管专用模块可以改善低重叠情况下的成对配准，并且一些研究通过分层配准或边缘选择来避免二次计算成本，但这些方法增加了复杂度，同时仍依赖于对成对对齐误差敏感的迭代位姿图优化。推荐课程：聊一聊经典三维点云方法，包括：点云拼接、聚类、表面重建、QT+VTK等。

近期，三维视觉研究通过利用前馈模型和生成模型摆脱了这种两阶段流程。在基于图像的三维重建中，前馈方法将整个运动恢复结构（Structure-from-Motion）过程封装到一个神经网络中，直接从一组图像中生成全局一致的位姿和稠密几何。VGGT表明，大型Transformer模型可以一次性从单个或多个视角推断出所有关键的三维属性，包括相机位姿和深度图。在点云领域，Rectified Point Flow（RPF）开创了一种生成式位姿估计方法，通过学习一个连续的流场，将点从随机噪声移动到其组装后的目标位置，从而在多个以对象为中心的基准测试中实现了位姿估计。这些发现表明，只要具备足够的容量和训练数据，单个前馈模型可以全面地推理多个部分观测结果，并生成一致的三维配准结果。

然而，将这种单阶段模型扩展到大规模、多视角三维配准任务时，会面临另一个关键挑战：采样过程并不总是能产生稳定、完全刚性的预测，特别是在杂乱环境中，其几何特征比以对象为中心的场景更加多样化。即使如RPF[56]那样，通过将最终预测显式投影到SE(3)上，这种事后校正也无法约束整个流轨迹，因此采样得到的流可能会偏离模型训练时所依据的流分布，从而限制性能。

这激发了我们的研究工作，即开发一种可扩展的生成模型，该模型能够在单阶段内对齐多个点云，同时显式地强制实施刚性约束。该模型并非进行穷举的成对位姿估计，而是学习将所有输入点云直接转换到一个规范坐标系中，从而有效地将它们融合为一个连贯的场景。为了使生成过程鲁棒且满足刚性约束，我们提出将刚性既作为流采样的引导信号，又作为选择生成结果的准则。为了进行大规模训练，我们从17个不同的数据集中整理了超过10万个样本，这些数据集涵盖了以对象为中心、室内和室外场景。在这种混合数据上进行欧几里得空间监督，提供了强大的场景先验，使模型能够补全部分视图，并在不同尺度和传感器模态之间实现泛化。我们将在https://github.com/PRBonn/RAP上发布代码和模型。

4. 主要贡献

我们的贡献主要体现在以下四个方面：

• 我们提出了一种生成式流匹配模型，该模型能够在单阶段内执行多视角点云配准，绕过了迭代位姿图优化。

• 我们引入了一种强制刚性约束的采样和选择策略，该策略对每个扫描施加刚性约束，提高了配准精度。

• 我们开发了一种大规模训练方法，该方法从17个异构数据集中聚合了超过10万个样本，能够在各种场景、尺度和传感器模态之间实现强大的泛化能力。

• 我们在成对和多视角基准测试中展示了鲁棒的性能，在具有挑战性的大规模、低重叠场景中，相较于现有最先进方法取得了显著改进。

5. 方法

从无位姿的点云开始，我们采样具有对应局部特征的点。我们使用具有交替注意力块的扩散Transformer进行条件流匹配，该模型从高斯噪声生成聚合点云。最后，我们使用奇异值分解（Singular Value Decomposition, SVD）从聚合点云中恢复单个变换，并将其应用于原始无位姿点云，以获得配准后的点云。

6. 实验结果

表2表明，与现有最先进的成对配准方法相比，我们的模型（无论是否采用基于刚性的生成选择）在标准基准测试上均达到了相当或更好的性能。

7. 总结 & 未来工作

我们提出了一种生成式多视角点云配准方法，该方法通过前向传播直接生成配准后的点云，绕过了传统的两阶段流程。我们的方法将配准视为条件生成问题，使用校正点流匹配，其中基于Transformer的模型预测一个连续的速度场，将点传输到配准位置。通过交替注意力Transformer进行整体推理，使得在低重叠条件下实现鲁棒配准，并在不同场景、尺度和传感器模态之间实现有效泛化。我们的模型在来自17个不同数据集的超过10万个样本上进行训练，在成对和多视角配准基准测试上达到了现有最先进的性能，特别是在低重叠率情况下表现出色。结合刚性强制采样器和生成选择策略进一步提高了测试时的性能。我们的工作朝着三维点云配准的基础模型迈进了一步，适用于SLAM、三维重建和机器人操作。

局限性与未来工作我们的方法与其他前馈重建方法一样，假设扫描是在同一场景中记录的。此外，目前的生成时间无法满足汽车激光雷达帧率的实时操作要求。通过在欧几里得空间而非变换群中建模流，我们的方法有可能处理非刚性变换，尽管这尚未得到探索。未来的工作可能会扩展到场景流估计以及合并来自摄影测量和前馈三维重建的点图。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉方向论文辅导来啦！可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等