news 2026/4/3 3:20:17

【ICLR26-鲁继文团队-清华大学】Astra:具有自回归去噪功能的通用交互式世界模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【ICLR26-鲁继文团队-清华大学】Astra:具有自回归去噪功能的通用交互式世界模型

文章:ASTRA: GENERAL INTERACTIVE WORLD MODEL WITH AUTOREGRESSIVE DENOISING

代码:https://github.com/EternalEvan/Astra

单位:清华大学、快手科技


一、问题背景

当下扩散Transformer技术让视频生成模型能产出高质量短片,但真正能落地的“世界模型”仍有明显短板:现有模型要么只能生成独立短片段,无法响应相机运动、机器人操作等实时动作输入;要么在长时预测中难以平衡时序连贯性与动作响应性,容易出现误差累积、视觉漂移;同时,面对相机控制、机器人姿态、键盘指令等异质动作模态,通用性不足,难以适配自动驾驶、机器人操作等复杂真实场景。构建兼具交互性、长时一致性与多场景适配能力的通用世界模型,成为行业亟待突破的核心需求。

二、方法创新

ASTRA以“自回归去噪”为核心框架,用三大关键设计破解行业痛点:

  1. 动作感知适配器(ACT-Adapter):在预训练视频扩散模型基础上,通过轻量线性层将动作信号直接注入 latent 空间,搭配“无动作引导(AFG)”机制,既保留高保真生成能力,又实现对动作指令的精准响应。

  2. 噪声增强历史记忆:采用“噪声掩码”策略,训练时对历史帧注入随机噪声,避免模型过度依赖过往视觉信息(即“视觉惯性”),巧妙平衡长时时序一致性与动作响应灵敏度。

  3. 动作专家混合体(MoAE):通过模态投影、动态路由与专家聚合,将相机姿态、机器人动作、键盘指令等异质动作统一编码,让模型灵活适配多场景交互需求。

三、实验结果

ASTRA在多数据集与自建Astra-Bench基准上表现亮眼:

  • 定量指标全面领先:在指令遵循度、主体/背景一致性、运动流畅度等6项核心指标上,显著超越Wan-2.1、MatrixGame、YUME等SOTA模型,旋转误差低至1.23、平移误差4.86,指令遵循度达0.669。

  • 长时预测稳定可靠:能生成8-10秒高连贯视频,避免了同类模型常见的长序列误差累积问题。

  • 跨场景泛化能力强:不仅在自动驾驶、机器人操作、相机控制等目标场景表现优异,还能适配室内环境、动漫风格、Minecraft游戏等未训练场景,动作响应精准度保持稳定。

四、优势与局限

核心优势
  1. 交互性突出:可实时响应多模态动作输入,生成结果与指令高度对齐,打破传统视频生成的“被动输出”局限。

  2. 通用性极强:通过MoAE统一异质动作模态,无缝适配探索、机器人、自动驾驶等多类场景。

  3. 参数高效:仅新增366.8M可训练参数,远少于同类模型,无需重训大模型即可实现功能升级。

现存局限

推理效率不足是主要短板:基于扩散生成与自回归迭代机制,每帧需多步去噪处理,难以满足实时交互场景(如在线控制、交互式机器人)的低延迟需求。

五、一句话总结

ASTRA通过自回归去噪框架+三大创新设计,打造出兼具高保真、强交互、长时一致的通用世界模型,为自动驾驶、机器人操作等真实场景的模拟与探索提供了高效解决方案,同时也为轻量化实时世界模型的研发指明了方向。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/23 15:33:46

bypass-paywalls-chrome-clean深度测评:如何合法绕过付费内容限制

bypass-paywalls-chrome-clean深度测评:如何合法绕过付费内容限制 【免费下载链接】bypass-paywalls-chrome-clean 项目地址: https://gitcode.com/GitHub_Trending/by/bypass-paywalls-chrome-clean 本文将对一款名为bypass-paywalls-chrome-clean的付费内…

作者头像 李华
网站建设 2026/3/24 14:03:51

ESP32 I2C从机通信深度优化:预加载技术实战突破

ESP32 I2C从机通信深度优化:预加载技术实战突破 【免费下载链接】arduino-esp32 Arduino core for the ESP32 项目地址: https://gitcode.com/GitHub_Trending/ar/arduino-esp32 🔧 当智能工厂遇上通信瓶颈:一个真实的I2C困境 某汽车…

作者头像 李华
网站建设 2026/3/31 5:57:10

从零到一:企业微信回调接口调试的极简内网穿透实战指南

企业微信回调接口调试:CPolar内网穿透的实战技巧与避坑指南 作为一名长期奋战在企业微信开发一线的技术顾问,我深知回调接口调试是每个开发者都会遇到的"拦路虎"。记得去年团队新来的小王,为了调试一个简单的审批回调,硬…

作者头像 李华
网站建设 2026/4/3 3:04:57

BUUCTF:[CISCN2019 华北赛区 Day2 Web1]Hack World 布尔盲注实战解析

1. 布尔盲注技术解析 布尔盲注是SQL注入攻击中的一种特殊形式,它不像常规注入那样可以直接获取数据库信息。当Web应用没有显示位且不返回详细错误信息时,攻击者只能通过页面返回的"真/假"状态来推断数据。这种技术就像蒙着眼睛玩猜谜游戏&…

作者头像 李华