news 2026/4/3 3:18:04

告别「上帝视角」,机器人仅凭几张图精准锁定3D目标,新基准SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别「上帝视角」,机器人仅凭几张图精准锁定3D目标,新基准SOTA

来自厦门大学、上海创智学院、复旦大学、字节跳动等机构的研究团队提出了一种全新的解决方案——MVGGT。

试想一下,如果你在一个未曾去过的杂乱房间,你只能快速地看三次房间里的布置,接下来就要求你去定位墙角的一张木桌子。

这就是具身智能体目前所面对的真实处境。在真实世界里,机器人缺少上帝视角,获得的往往只有几张稀疏、破碎的RGB照片。

面对这一难题,现有的3D指代分割方法往往难以奏效。

于是,来自厦门大学、上海创智学院、复旦大学、字节跳动等机构的研究团队提出了一种全新的解决方案——MVGGT

该工作根据上述问题定义了更符合需求的MV-3DRES任务,并且通过几何和语言双分支Transformer架构和创新的PVSO优化策略,实现了在稀疏多视角下对3D场景的高效理解和精确分割。

从理想点云到现实稀疏视角

三维指代表达分割(3DRES)是具身智能领域的一个重要任务,要求模型根据文本描述分割出三维场景中的目标对象。

尽管近年来的方法已经取得了显著成果,但他们都基于理想化假设:能够获取到密集、完整且可靠的点云输入。

而真实世界的智能体的感知,仅能通过少量随机拍摄的RGB图片来实现。而由这种稀疏的多视图图片生成的三维重建结果往往存在噪声而且是不完整的、模糊的。

于是引发了核心问题:当必须从稀疏、不一致的视图中推理时,该如何实现基于语言的三维感知?

为了解决上述问题,研究团队定义了一个贴近实际应用的新任务——多视图3D指代分割(MV-3DRES),即要求模型模型在没有稠密点云作为输入的情况下,直接利用稀疏的多视角RGB视图和文本指令,联合重建场景并分割被指代对象。

MVGGT——几何与语言的深度交融

针对稀疏视角下的感知难题,论文提出了一种端到端的双分支架构:Multimodal Visual Geometry Grounded Transformer(MVGGT)。

MVGGT的架构如上图所示,采用互补的双分支范式:

冻结的几何重建分支(Reconstruction Branch)

该分支以预训练的几何模型(Pi3)为基础,提供三维几何先验信息(相机位姿、深度图、粗糙点云结构)。

关键在于,该分支中的所有参数保持冻结,保证了训练过程中几何特征的稳定性,并消除了从稀疏图像中重新学习3D几何的需要。

可训练多模态分支(Multimodal Branch)

该分支接收几何特征,并利用交叉注意力机制将语言指令注入到视觉特征中。

简单来说,就是利用文本里的语义信息来辅助视觉判断,在画面不完整的时候,引导模型推断出正确的空间位置。

核心优化障碍:PVSO策略

但是,稀疏的多视图学习会带来一个棘手的优化挑战。

目标实例往往仅有极少数分散的点来表示,这远少于传统的3DRES方法中所使用的密集点云。

在这种较为极端的情况下,硬用Dice Loss这种标准损失函数是行不通的—前景的梯度信号极其微弱,容易被背景信号淹没,使得模型难以收敛。

这也就是研究团队在训练过程中发现的核心优化障碍:前景梯度稀释(Foreground Gradient Dilution,FGD)。

于是,研究团队引入了逐视图无目标抑制优化方法(PVSO):

2D梯度集中:将3D预测结果投影回2D图像空间。在2D视图中,目标占据的区域更大且更可靠,远高于3D空间,从而能够放大目标区域的梯度信号。

无目标视图的抑制:由于在稀疏视角中存在大量无目标视图(No-target views),PVSO引入了加权抑制机制,放大来自有效视图的有意义梯度,同时抑制来自无目标视图的误导性信号,有效防止了训练过程中的梯度偏差。

实验结果

为了填补评估标准的空白,研究团队构建了首个为多视图三维指代表达分割(MV-3DRES)定义设置、指标和数据协议的基准测试集——MVRefer。

该基准基于经典的ScanRefer和ScanNet数据集构建,模拟了在场景中随机采集8个稀疏视角的情况。

实验结果显示,MVGGT在各项指标上均显著优于现有的基线方法(如2D-Lift和Two-stage方法):

在MVRefer基准上,MVGGT在各项关键指标上均大幅领先于现有基线(如图中的2D-Lift和Two-stage方法)。在目标像素占比极低的困难(Hard)模式下,MVGGT依然保持了较高的分割精度,展现了极强的鲁棒性。

可视化结果进一步证明了模型的优势:

在深度噪声严重或遮挡复杂的场景中,基线方法往往会跟丢目标。

而MVGGT借助多模态语义的导航,往往能精准区分“墙面上的白板”等几何特征相似的目标。即使目标被杂物遮挡,它也能利用上下文信息实现精准定位目标实例。

总结

这项工作具有重要的实践意义,它提出了多视图三维指代表达分割(MV-3DRES)这一新任务设置,使三维接地与真实感知条件对齐,并提出了MVGGT和优化策略,实现了在没有稠密点云输入的情况下高质量的3D指代表达分割。这为具身智能在受限环境下的感知能力提供了新的思路与方向。

最后,研究团队诚挚邀请大家基于此基准进行测试与改进,共同探索稀疏感知在具身智能中的更多可能性,推动该领域向更高效、更通用的方向发展。

作者介绍

本论文共同第一作者为厦门大学与上海创智学院联合培养博士生吴昌鲡、厦门大学本科生王浩东,厦门大学博士后研究员纪家沂参与本研究,通讯作者为厦门大学多媒体可信感知与高效计算教育部重点实验室曹刘娟教授。该研究团队长期深耕3D视觉、多模态学习领域。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/19 23:43:25

金属检测机工作原理与核心性能参数详解

在现代化的工业生产线上,食品加工领域存在产品质量与安全问题,药品制造方面也有产品质量与安全考量,纺织生产过程里产品质量与安全不容忽视,塑料制品生产中产品质量与安全同样关键,产品质量与安全一直都是企业的生命线…

作者头像 李华
网站建设 2026/3/30 22:40:22

如何通过单北斗变形监测系统提升水库安全监测效果?

单北斗变形监测系统在水库安全监测中扮演着至关重要的角色。这套系统利用高精度的GNSS技术,实时追踪水库的形变情况,从而及时识别潜在安全隐患。在设备选择中,管理者不仅要关注其测量精度,还应考虑安装与维护便利性,以…

作者头像 李华
网站建设 2026/3/2 18:19:11

网页编辑器粘贴WORD图片到CKEDITOR如何自动上传PHP?

.NET程序员的“保姆级”CMS编辑器插件开发日记:从0到1搞定文档导入粘贴功能 咱西安.NET仔最近接了个CMS企业官网外包活,客户是做政务宣传的,需求就一句话:“新闻发布编辑器得加Word/Excel/PPT/PDF导入功能,能直接从Wo…

作者头像 李华
网站建设 2026/3/27 8:58:23

国企项目网页开发,文件上传下载有哪些实用的解决方案?

大文件传输系统建设方案(ASP.NET技术栈) 一、项目背景与核心需求 作为公司项目负责人,针对产品部门提出的100G级大文件传输需求,需构建一套高兼容性、高稳定性、全浏览器支持的解决方案。核心需求如下: 功能需求&…

作者头像 李华
网站建设 2026/3/3 15:18:56

个人介绍(mjhcsp)

我是mjhcsp,来自山东潍坊,这是官方账号,我只有12岁,只是六年级,可我的访问量达到了14万,现在大家观察到了我这段时间写C多了,因为我擅长C,但我也写其他。 版权问题 请注意&#xf…

作者头像 李华
网站建设 2026/3/5 3:27:34

第6章 寻找与甄别天使投资人的系统化方法

第6章 寻找与甄别天使投资人的系统化方法 天使投资是企业融资旅程的起点,也是最需要温度与信任的环节。寻找天使投资人,并非盲目地广撒网,而是一场基于理性规划与精准触达的系统性工程。这不仅关乎资金,更关乎企业基因的初次塑造—…

作者头像 李华