news 2026/4/3 3:36:39

【论文阅读】Vision Language Models are In-Context Value Learners

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文阅读】Vision Language Models are In-Context Value Learners

这里写自定义目录标题

  • 1 论文信息
  • 2 背景
  • 3 方法:上下文学习/情境学习(In-Context Learning)
    • 3.1 冻结权重
    • 3.2 示例输入
    • 3.2 自回归预测(Autoregressive Prediction)
    • 注意:无需训练
  • 4 总结

1 论文信息

团队:Google Deepmind
时间:2025
论文链接:https://arxiv.org/pdf/2411.04549
项目链接:https://generative-value-learning.github.io/

2 背景

  • 任务:对任务进度进行评估
  • 当前的问题:
    • 泛化性差:传统的价值估计方法通常在少量纯视觉数据上训练,缺乏对新任务、新场景的语义和时空理解,难以跨任务和跨机器人平台泛化 。
    • 数据需求大:训练一个能覆盖多种任务的进度估计器需要海量的多样化数据 。
  • 应用:数据集过滤;数据集加权

3 方法:上下文学习/情境学习(In-Context Learning)

3.1 冻结权重

GVL 直接使用预训练好的、冻结的(Frozen)基础 VLM(如 Gemini-1.5-Pro),无需针对特定的机器人任务进行任何模型训练或微调(No-finetuning) 。

3.2 示例输入

GVL 会在 Prompt 中提供 1 到 2 个完整的成功案例(可以是同一个机器人的,也可以是人类演示的),即few shot

  • 输入内容:从一段完整的成功视频(包含从开始到结束的全过程)中随机抽取 30 帧。

  • 处理方式:这 30 帧除了第 1 帧固定不动外,其余 29 帧的顺序被彻底打乱。

  • 标签信息:每一帧都会被打上一个对应的进度标签(0% 到 100%)。

  • 目的:这相当于告诉 VLM:“你看,这 30 张图是一次成功的任务,虽然顺序乱了,但你可以通过观察画面内容(比如物体的位置、机械臂的姿态)来判断它当时做到了什么程度。”

一些细节:

  • 锚点帧(Anchor Point):为了让模型理解进度的起点,GVL 在打乱帧序列时,始终保留原始视频的第一帧不被打乱,将其作为参考原点(Anchor Point) 。这让模型明确了“0% 进度”的具体画面状态。

  • 固定的帧采样:为了保持输入的一致性,GVL 通常会将每个轨迹示例固定子采样为 30 帧 。这种标准化的输入长度有助于 VLM 区分不同的示例块。

3.2 自回归预测(Autoregressive Prediction)

在给完示例后,Prompt 会接着给出当前你想要评估的目标视频。

  • 输入内容:同样采样 30 帧,且同样是打乱顺序的。

  • 任务要求:让 VLM 仿照上面的示例,为这 30 帧分别输出一个进度百分比。

  • VLM 的反应:因为它刚刚看过示例,它知道不能根据“第几张图”来猜进度,而必须去寻找画面中的语义关键点(例如:在“把杯子放到托盘”任务中,杯子离托盘越近,进度就应该越高)。

注意:无需训练

由于无需训练,它可以直接应用于数据集过滤、成功检测和优势加权回归等多种下游任务 。

4 总结

GVL 并不是在“训练”一个模型,而是在“引导”一个已经具备强大世界知识的模型(如 Gemini-1.5-Pro)。它通过打乱帧序这一巧妙手段,迫使模型放弃简单的时序推断,转而深入理解画面中的语义进度,而示例则是为这种深层理解提供了必要的“上下文参考” 。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/26 10:02:29

瑞普替尼Repotrectinib治疗ROS1阳性肺癌的真实世界颅内疗效与耐受性

瑞普替尼(Repotrectinib)作为全球首款获批的第二代NTRK/ROS1抑制剂,自问世以来便在ROS1阳性肺癌治疗领域掀起波澜。其独特的分子结构赋予其强大的血脑屏障穿透能力,使其在真实世界中对颅内病灶展现出卓越的疗效与良好的耐受性&…

作者头像 李华
网站建设 2026/3/30 1:29:02

CG2H40025F,25 W输出的GaN HEMT射频功率放大器, 现货库存

CG2H40025F型号介绍今天我要向大家介绍的是 MACOM 的一款放大器——CG2H40025F。 它具备高效率、高增益和宽频带能力,这使其非常理想地适用于线性和压缩放大器电路。它的工作频率可高达 6 GHz,在 2.0 GHz 时典型小信号增益为 17 dB,在 4.0 GH…

作者头像 李华
网站建设 2026/3/31 22:16:39

Git commit规范实践:在PyTorch-CUDA环境中进行版本控制

Git commit规范实践:在PyTorch-CUDA环境中进行版本控制 在深度学习项目日益复杂的今天,一个模型能否快速迭代、稳定复现、顺利上线,往往不只取决于算法设计本身,更依赖于背后的工程体系是否健全。我们常常遇到这样的场景&#xff…

作者头像 李华
网站建设 2026/4/2 12:51:48

Gitee:国产项目管理工具如何破解企业协同效率困局

Gitee:国产项目管理工具如何破解企业协同效率困局 当前中国企业正面临数字化转型的关键阶段,项目管理工具作为企业研发效率的"加速器",其选择直接影响团队协作效能与产品交付质量。在众多解决方案中,Gitee凭借其本土化基…

作者头像 李华