快速了解部分
基础信息(英文):
题目:
时间年月:2025年12月
机构名:Peking University (CFCS, School of Computer Science), PKU-AgiBot Lab, AgiBot
3个英文关键词:Robotic Demonstration Generation, Spatial Generalization, Data Efficiency
1句话通俗总结本文干了什么事情
提出一种名为Real2Edit2Real的框架,通过3D控制界面连接3D可编辑性与2D视觉数据,无需仿真引擎和数字资产,从少量RGB机器人演示中生成多样化、多视图且物理一致的操作演示视频,大幅提升数据效率并解决空间泛化难题。
研究痛点:现有研究不足 / 要解决的具体问题
- 机器人演示数据收集成本高,尤其是覆盖多样化空间配置以实现空间泛化时,需大量数据支撑;
- 现有仿真驱动方法存在Sim2Real视觉与物理鸿沟,且依赖场景/物体资产,难以直接增强真实数据;
- 基于3D点云的方法依赖深度传感器,不兼容主流多视图RGB输入的VLA范式,无法实现纹理级增强;
- 视频生成类方法仅优化视觉纹理,无法提升物体空间分布和机器人轨迹的多样性。
核心方法:关键技术、模型或研究设计(简要)
由三个核心模块构成:1. 度量尺度几何重建(混合真实与仿真数据微调VGGT,输出深度图和相机姿态);2. 深度可靠空间编辑(点云编辑+轨迹规划+机器人姿态校正,生成物理一致的深度信号);3. 3D控制视频生成(双注意力机制+深度控制接口+平滑物体重定位,合成多视图一致的操作视频)。
深入了解部分
相比前人创新在哪里
- 无仿真依赖:直接基于原始RGB演示生成数据,无需仿真引擎和数字资产,解决可扩展性问题;
- 双维度增强:同时实现物体空间轨迹多样化和纹理编辑,兼容主流VLA(视觉-语言-动作)训练范式;
- 几何一致性保障:提出混合训练范式提升重建准确性,通过机器人姿态校正确保运动学一致性,避免刚性体伪影;
- 极致数据效率:仅需1-5个源演示即可生成等效甚至优于50个真实演示的训练效果,数据效率提升10-50倍;
- 灵活扩展性:支持物体高度、背景纹理等扩展编辑,具备统一数据生成框架潜力。
解决方法/算法的通俗解释,以及具体做法
通俗解释
先“还原场景结构”:从机器人多个视角的RGB图像中,重建出真实尺度的3D场景和物体形状;再“编辑运动轨迹”:在3D空间中调整物体位置、规划新的机器人操作路径,同时修正机器人姿态确保动作合理;最后“生成真实视频”:以3D深度信息为核心,结合动作、边缘等线索,生成多视角同步、视觉逼真的操作演示视频。
具体做法
- 度量尺度几何重建:混合Agibot-DigitalWorld仿真数据(40K帧)和真实机器人深度数据(100K帧),全参数微调VGGT模型,通过相机损失、深度损失和点图损失优化,输出准确的深度图和相机姿态;
- 深度可靠空间编辑:将演示拆分为运动段(自由移动)和技能段(物体交互),随机采样物体变换矩阵,对技能段机器人点云应用相同变换,运动段通过Curobo运动规划生成新轨迹;结合背景修复和深度滤波处理噪声,通过逆运动学(IK)校正机器人姿态;
- 3D控制视频生成:基于GE-Sim(Cosmos-Predict2B)微调,采用双注意力机制(视图内注意力+跨视图注意力)保障多视图一致性;以深度为核心控制信号,辅以Canny边缘、动作和射线图;通过平滑插值物体平移/旋转,实现自然的物体重定位。
基于前人的哪些方法
- 几何重建:VGGT(Visual Geometry Grounded Transformer)—— 作为基础模型进行微调,解决稀疏视图重建问题;
- 视频生成:GE-Sim、Cosmos-Predict2B—— 作为 backbone 进行微调,保障视频生成的视觉质量;
- 轨迹生成:MimicGen系列—— 借鉴轨迹分割(运动段/技能段)的思路,适配物体交互逻辑;
- 目标分割:Grounded-SAM—— 用于分离前景物体和机器人手臂,支撑点云编辑;
- 运动规划:Curobo—— 用于生成运动段的机器人轨迹,确保路径可行性;
- 图像编辑:SeedEdit 3.0—— 用于背景修复,填补深度图中的缺失区域。
实验设置、数据、评估方式
实验设置
- 硬件:Agibot Genie G1机器人,头部+左右手腕3个RGB相机,50cm×40cm工作台;
- 政策:两种VLA政策(Go-1冻结骨干微调动作专家,π₀.₅全参数微调)+ Diffusion Policy(ViT-S编码器+DINO-v3预训练权重);
- 训练配置:8张H100 GPU,几何重建训练150K迭代(20小时),视频生成训练20K迭代(60小时),单段20秒30FPS视频生成耗时48.6秒。
数据
- 训练数据:几何重建(40K仿真帧+100K真实帧),视频生成(7K episodes,64个任务,来自Agibot-World);
- 测试任务:4个真实世界操作任务(单臂到双臂)—— Mug to Basket(握杯入篮)、Pour Water(倒水)、Lift Box(提箱)、Scan Barcode(扫码);
- 生成设置:从1-5个源演示中随机采样,生成200个含新颖物体配置的演示,评估时物体随机放置于工作台。
评估方式
- 主评估指标:政策在真实机器人上的操作成功率(任务完成次数/总尝试次数,每组20次尝试);
- 扩展评估:高度泛化(桌面vs平台高度)、纹理泛化(5种桌面纹理);
- 消融实验:验证几何重建质量、机器人姿态校正(RPC)、平滑物体重定位(SOR)、控制条件(深度/边缘)的必要性;
- 定性评估:生成视频的多视图一致性、视觉真实性、物体交互合理性。
提到的同类工作
- 仿真驱动演示生成:MimicGen、SkillMimicGen、Re3Sim;
- 3D高斯 splatting 相关:RoboSplat、Real2Render2Real;
- 3D点云编辑生成:DemoGen、R2RGen、UMIGen;
- 视频生成类增强:RoboTransfer、MVAug、EgoDemoGen;
- 政策模型:Diffusion Policy、Go-1、π₀.₅、OpenVLA。
和本文相关性最高的3个文献
- Xue, Z., et al. (2025). DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning. Robotics: Science and Systems (RSS)—— 同类3D点云编辑生成方法,但不支持RGB输入和VLA范式,是本文核心对比基准;
- Yu, J., et al. (2025). Real2render2real: Scaling robot data without dynamics simulation or robot hardware. Annual Conference on Robot Learning (CoRL)—— 从人类视频合成演示的代表性工作,依赖3D高斯 splatting 但存在视觉鸿沟,本文针对性解决该问题;
- Wang, J., et al. (2025). VGGT: Visual geometry grounded transformer. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)—— 本文几何重建模块的基础模型,通过混合数据微调实现机器人场景适配,是核心技术支撑。