news 2026/4/3 4:45:47

【论文自动阅读】Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

快速了解部分

基础信息(英文):

  1. 题目:

  2. 时间年月:2025年12月

  3. 机构名:Peking University (CFCS, School of Computer Science), PKU-AgiBot Lab, AgiBot

  4. 3个英文关键词:Robotic Demonstration Generation, Spatial Generalization, Data Efficiency

1句话通俗总结本文干了什么事情

提出一种名为Real2Edit2Real的框架,通过3D控制界面连接3D可编辑性与2D视觉数据,无需仿真引擎和数字资产,从少量RGB机器人演示中生成多样化、多视图且物理一致的操作演示视频,大幅提升数据效率并解决空间泛化难题。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 机器人演示数据收集成本高,尤其是覆盖多样化空间配置以实现空间泛化时,需大量数据支撑;
  2. 现有仿真驱动方法存在Sim2Real视觉与物理鸿沟,且依赖场景/物体资产,难以直接增强真实数据;
  3. 基于3D点云的方法依赖深度传感器,不兼容主流多视图RGB输入的VLA范式,无法实现纹理级增强;
  4. 视频生成类方法仅优化视觉纹理,无法提升物体空间分布和机器人轨迹的多样性。

核心方法:关键技术、模型或研究设计(简要)

由三个核心模块构成:1. 度量尺度几何重建(混合真实与仿真数据微调VGGT,输出深度图和相机姿态);2. 深度可靠空间编辑(点云编辑+轨迹规划+机器人姿态校正,生成物理一致的深度信号);3. 3D控制视频生成(双注意力机制+深度控制接口+平滑物体重定位,合成多视图一致的操作视频)。

深入了解部分

相比前人创新在哪里

  1. 无仿真依赖:直接基于原始RGB演示生成数据,无需仿真引擎和数字资产,解决可扩展性问题;
  2. 双维度增强:同时实现物体空间轨迹多样化和纹理编辑,兼容主流VLA(视觉-语言-动作)训练范式;
  3. 几何一致性保障:提出混合训练范式提升重建准确性,通过机器人姿态校正确保运动学一致性,避免刚性体伪影;
  4. 极致数据效率:仅需1-5个源演示即可生成等效甚至优于50个真实演示的训练效果,数据效率提升10-50倍;
  5. 灵活扩展性:支持物体高度、背景纹理等扩展编辑,具备统一数据生成框架潜力。

解决方法/算法的通俗解释,以及具体做法

通俗解释

先“还原场景结构”:从机器人多个视角的RGB图像中,重建出真实尺度的3D场景和物体形状;再“编辑运动轨迹”:在3D空间中调整物体位置、规划新的机器人操作路径,同时修正机器人姿态确保动作合理;最后“生成真实视频”:以3D深度信息为核心,结合动作、边缘等线索,生成多视角同步、视觉逼真的操作演示视频。

具体做法
  1. 度量尺度几何重建:混合Agibot-DigitalWorld仿真数据(40K帧)和真实机器人深度数据(100K帧),全参数微调VGGT模型,通过相机损失、深度损失和点图损失优化,输出准确的深度图和相机姿态;
  2. 深度可靠空间编辑:将演示拆分为运动段(自由移动)和技能段(物体交互),随机采样物体变换矩阵,对技能段机器人点云应用相同变换,运动段通过Curobo运动规划生成新轨迹;结合背景修复和深度滤波处理噪声,通过逆运动学(IK)校正机器人姿态;
  3. 3D控制视频生成:基于GE-Sim(Cosmos-Predict2B)微调,采用双注意力机制(视图内注意力+跨视图注意力)保障多视图一致性;以深度为核心控制信号,辅以Canny边缘、动作和射线图;通过平滑插值物体平移/旋转,实现自然的物体重定位。

基于前人的哪些方法

  1. 几何重建:VGGT(Visual Geometry Grounded Transformer)—— 作为基础模型进行微调,解决稀疏视图重建问题;
  2. 视频生成:GE-Sim、Cosmos-Predict2B—— 作为 backbone 进行微调,保障视频生成的视觉质量;
  3. 轨迹生成:MimicGen系列—— 借鉴轨迹分割(运动段/技能段)的思路,适配物体交互逻辑;
  4. 目标分割:Grounded-SAM—— 用于分离前景物体和机器人手臂,支撑点云编辑;
  5. 运动规划:Curobo—— 用于生成运动段的机器人轨迹,确保路径可行性;
  6. 图像编辑:SeedEdit 3.0—— 用于背景修复,填补深度图中的缺失区域。

实验设置、数据、评估方式

实验设置
  • 硬件:Agibot Genie G1机器人,头部+左右手腕3个RGB相机,50cm×40cm工作台;
  • 政策:两种VLA政策(Go-1冻结骨干微调动作专家,π₀.₅全参数微调)+ Diffusion Policy(ViT-S编码器+DINO-v3预训练权重);
  • 训练配置:8张H100 GPU,几何重建训练150K迭代(20小时),视频生成训练20K迭代(60小时),单段20秒30FPS视频生成耗时48.6秒。
数据
  • 训练数据:几何重建(40K仿真帧+100K真实帧),视频生成(7K episodes,64个任务,来自Agibot-World);
  • 测试任务:4个真实世界操作任务(单臂到双臂)—— Mug to Basket(握杯入篮)、Pour Water(倒水)、Lift Box(提箱)、Scan Barcode(扫码);
  • 生成设置:从1-5个源演示中随机采样,生成200个含新颖物体配置的演示,评估时物体随机放置于工作台。
评估方式
  1. 主评估指标:政策在真实机器人上的操作成功率(任务完成次数/总尝试次数,每组20次尝试);
  2. 扩展评估:高度泛化(桌面vs平台高度)、纹理泛化(5种桌面纹理);
  3. 消融实验:验证几何重建质量、机器人姿态校正(RPC)、平滑物体重定位(SOR)、控制条件(深度/边缘)的必要性;
  4. 定性评估:生成视频的多视图一致性、视觉真实性、物体交互合理性。

提到的同类工作

  1. 仿真驱动演示生成:MimicGen、SkillMimicGen、Re3Sim;
  2. 3D高斯 splatting 相关:RoboSplat、Real2Render2Real;
  3. 3D点云编辑生成:DemoGen、R2RGen、UMIGen;
  4. 视频生成类增强:RoboTransfer、MVAug、EgoDemoGen;
  5. 政策模型:Diffusion Policy、Go-1、π₀.₅、OpenVLA。

和本文相关性最高的3个文献

  1. Xue, Z., et al. (2025). DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning. Robotics: Science and Systems (RSS)—— 同类3D点云编辑生成方法,但不支持RGB输入和VLA范式,是本文核心对比基准;
  2. Yu, J., et al. (2025). Real2render2real: Scaling robot data without dynamics simulation or robot hardware. Annual Conference on Robot Learning (CoRL)—— 从人类视频合成演示的代表性工作,依赖3D高斯 splatting 但存在视觉鸿沟,本文针对性解决该问题;
  3. Wang, J., et al. (2025). VGGT: Visual geometry grounded transformer. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)—— 本文几何重建模块的基础模型,通过混合数据微调实现机器人场景适配,是核心技术支撑。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/30 23:57:42

智普开源AutoGLM实战指南(连接优化与部署秘籍)

第一章:智普开源Open-AutoGLM连接Open-AutoGLM 是智普AI推出的开源自动化图学习框架,旨在简化图神经网络在复杂场景下的建模流程。该框架支持自动特征工程、模型选择与超参优化,适用于社交网络分析、推荐系统和知识图谱等任务。环境准备与依赖…

作者头像 李华
网站建设 2026/3/31 0:51:09

2025最新!专科生必备9个AI论文工具测评,写论文不再愁

2025最新!专科生必备9个AI论文工具测评,写论文不再愁 2025年专科生论文写作工具测评:为何需要这份榜单? 随着AI技术的不断进步,越来越多的专科生开始借助AI工具提升论文写作效率。然而,面对市场上琳琅满目的…

作者头像 李华
网站建设 2026/3/28 15:17:56

一文读懂RAG:大模型检索增强生成技术全攻略

文章全面介绍检索增强生成(RAG)技术,解释传统语言模型局限性及RAG如何通过结合检索与生成解决问题。详细解析RAG核心组件、关键步骤(用户意图理解、知识源解析、嵌入、索引、检索、整合、生成和引用)及高级方法(多模态RAG、记忆RAG和智能体RAG),帮助读者…

作者头像 李华
网站建设 2026/3/28 4:46:48

小白也能轻松掌握:RAG技术如何解决大语言模型的幻觉问题

RAG(检索增强生成)技术通过结合信息检索与生成式AI,有效解决大语言模型的幻觉、知识滞后、领域知识缺乏等问题。系统包含检索器、生成器和知识库三大核心组件,通过检索相关上下文信息增强LLM生成答案的准确性和可靠性,…

作者头像 李华