快速了解部分
基础信息(英文)
- 题目: VLM4VLA: REVISITING VISION-LANGUAGE-MODELS IN VISION-LANGUAGE-ACTION MODELS
- 时间年月: 2025年(根据参考文献推断,文中提及当前时间为2026年,该文为近期研究)
- 机构名: Institute for Interdisciplinary Information Sciences, Tsinghua University; Qwen Team, Alibaba Inc.
- 3个英文关键词: Vision-Language-Action (VLA); Vision-Language Models (VLM); Embodied AI
1句话通俗总结本文干了什么事情
本文建立了一个标准化的测试框架(VLM4VLA),用来搞清楚什么样的视觉语言大模型(VLM)底座最适合用来做机器人的大脑(VLA),以及为什么现有的VLM在控制机器人时表现不佳。
研究痛点:现有研究不足 / 要解决的具体问题
目前大家虽然都在用预训练的视觉语言模型(VLM)来做机器人动作模型(VLA),但很少有人系统性地研究:到底什么样的VLM底座能力能转化为机器人干活的能力?大家普遍假设VLM越强,机器人越强,但这其实是个误区。
核心方法:关键技术、模型或研究设计(简要)
提出了VLM4VLA管道:设计了一个极简的插件(仅增加<1%的参数),把各种通用的VLM模型转换成能控制机器人的VLA策略模型,从而在公平的条件下对比不同VLM底座的性能。
深入了解部分
相比前人创新在哪里
- 公平对比视角:以前的研究往往因为网络结构不同(如Diffusion模型 vs MLP)导致无法公平比较底座的好坏,本文用最简单的MLP头实现了跨架构的公平对比。
- 反直觉的发现:打破了“VLM通用能力越强,机器人表现越好”的迷思,发现VLM的视觉编码器是瓶颈,且专门针对具身任务微调VLM(如做视觉问答)并不一定能提高机器人控制性能。
解决方法/算法的通俗解释
想象你要教不同的人(VLM底座)学会看图做家务。
- 以前的方法:给每个人配不同的复杂教学大纲(复杂的策略网络),导致分不清是人聪明还是大纲好。
- 本文的方法:给所有人发一本完全一样的、最简单的操作手册(VLM4VLA插件),然后看谁学得快。这个手册只教他们如何把看到的画面和听到的指令翻译成具体的动作坐标。
解决方法的具体做法
- 插入动作查询Token:在VLM的输入序列最后加一个可学习的“动作查询标记”(Action Query Token)。
- MLP解码:取这个标记对应的输出特征,通过一个简单的两层MLP网络(多层感知机),直接预测机器人的动作(位置和状态)。
- 全参数微调:在训练时,不仅微调新加的MLP,也会微调VLM底座的所有参数(包括视觉和语言部分),以测试其真实潜力。
基于前人的哪些方法
- 基于Vision-Language Models (VLMs)的预训练知识(如Qwen2.5-VL, Paligemma, Kosmos等)。
- 借鉴了RT-2和OpenVLA等将视觉语言模型用于机器人控制的思想,但简化了其复杂的策略头设计。
实验设置、数据、评估方式
- 模型底座:测试了9种主流VLM(如Qwen系列、Paligemma、Kosmos-2等)。
- 数据集:使用了3个基准数据集进行训练和评估:CALVIN(模拟桌面操作,测试泛化性)、SimplerEnv Bridge(真实数据训练,模拟环境测试)、Libero-Long(长程复杂任务)。
- 评估方式:计算任务完成的成功率。对比了从零训练、冻结部分参数微调、全参数微调等多种情况。
提到的同类工作
- OpenVLA:基于Llama-2的开源VLA模型。
- pi0:基于Paligemma-1的流模型(Flow Model)。
- ThinkAct:基于Qwen2.5VL-7B并结合强化学习的模型。
- RT-2:早期的视觉语言动作模型。
和本文相关性最高的3个文献
- OpenVLA (Kim et al., 2024):本文将其作为主要的基准(Baseline)进行对比,且复现了其在部分环境下的结果。
- pi0 (Black et al., 2024):本文复现了该模型并与VLM4VLA框架进行对比,指出了其扩散模型带来的不稳定性。
- Qwen2.5-VL (Bai et al., 2025b):本文实验中使用的核心VLM底座之一,也是阿里巴巴团队的同系列工作。