Qwen3-VL：突破性的256K上下文视觉语言模型技术解析，程序员必学指南-智慧文博士

Qwen3-VL是Qwen系列最强大的视觉语言模型，支持高达256K token的交错上下文，能无缝整合文本、图像和视频。模型包含密集和MoE架构两类变体，通过交错MRoPE位置编码、DeepStack视觉对齐和显式时间戳等创新技术，在多模态基准测试中实现了卓越性能，同时保持了强大的纯文本理解能力，成为高保真跨模态理解应用的理想选择。

Qwen3-VL 发布于9月底，技术报告则刚于 arivX 上架。

Qwen3-VL 是 Qwen 系列中迄今为止能力最强的视觉语言模型，在广泛的多模态基准测试中均取得了卓越的性能。它原生支持高达 256K token 的**交错（interleaved）**上下文，能够无缝集成文本、图像和视频数据。

该模型家族包含密集模型（2B/4B/8B/32B）和 MoE 模型（30B-A3B/235B-A22B）两类变体，以适应多样化的延迟与质量平衡需求。

在同等的 token 预算和延迟约束下，Qwen3-VL 在密集架构和 MoE 架构中均实现了更优越的性能。

引言

**视觉语言模型（VLMs）**近年来取得了实质性进展，已从基础的视觉感知演进为跨图像和视频的高级多模态推理。VLMs 的快速发展催生了下游应用领域的迅速扩张——涵盖长上下文理解、STEM 推理、GUI 理解与交互以及 Agent 工作流等。至关重要的是，这些进步绝不能削弱底层 LLM 的语言能力；多模态模型被期望在语言基准测试中匹配甚至超越其纯文本对应模型。

本报告正式介绍了Qwen3-VL及其在通用和高级应用领域的突破。基于 Qwen3 系列，研究团队构建了四个稠密模型（2B/4B/8B/32B）和两个 MoE 模型（30B-A3B / 235B-A22B）。每个模型均使用高达 256K token 的上下文窗口进行训练，以支持长上下文理解。

通过优化训练语料库和策略，研究团队在视觉-语言训练过程中成功保留了底层 LLM 的语言能力，从而大幅提升了模型的整体性能。Qwen3-VL 发布了“非思考型（non-thinking）”和“思考型（thinking）”两类变体；后者展示了显著增强的多模态推理能力，并在复杂的推理任务中取得了卓越表现。

本文首先介绍了架构方面的改进，主要涵盖以下三个组件：

增强的位置编码：在 Qwen2.5-VL 中，团队曾使用 MRoPE 作为文本和视觉的统一位置编码方案。然而观察发现，将向量（embedding）维度分块为时间（）、水平（）和垂直（）组会导致频谱不平衡，从而阻碍长视频的理解。因此，他们采用了交错式 MRoPE（interleaved MRoPE），将、和均匀分布在低频和高频频带上，从而产生更准确的位置表示。
用于跨层融合的 DeepStack：为了加强视觉-语言的对齐，Qwen3-VL 引入了开创性的 DeepStack 机制。来自视觉编码器不同层的视觉 token 通过轻量级残差连接路由至对应的 LLM 层，在不增加额外上下文长度的情况下增强了多级特征融合。
显式视频时间戳：Qwen3-VL 使用显式的时间戳 token 来标记帧组，取代了 Qwen2.5-VL 中通过位置编码进行的绝对时间对齐，从而提供了更简洁、直接的时间表示。

此外，在优化方面，Qwen3-VL 将损失函数从“每样本损失”调整为“平方根归一化的每 token 损失（square-root-normalized per-token loss）”，以便在训练期间更好地平衡文本和多模态数据的贡献。

为了构建一个能力更强、更稳健的视觉-语言基础模型，Qwen3-VL 在质量、多样性和结构方面对训练数据进行了全面革新。关键升级包括：增强的图像描述（caption）监督、扩展的全能识别与 OCR 覆盖范围、具备 3D/空间推理的标准化定位（grounding），以及引入针对代码、长文档和具有时间定位功能的视频的新语料库。

研究团队进一步注入了**思维链（Chain-of-Thought，CoT）**推理数据以及高质量、多样化的 GUI-智能体交互数据，以桥接感知、推理和行动。这些创新共同赋予了模型更强的多模态理解力、精确的定位能力以及工具增强的智能。

训练流程包含两个阶段：预训练和后训练。

预训练分为四个阶段：首先是预热对齐阶段，仅更新融合（视觉-语言投影）层而冻结模型其余部分；随后是全参数训练，上下文窗口依次递增为 8K、32K 和 256K 序列长度。
后训练包含三个阶段：(i) 在长思维链数据上的监督微调，(ii) 来自更强教师模型的知识蒸馏，以及 (iii) 强化学习。

上述创新使 Qwen3-VL 不仅成为一个稳健的视觉-语言基础模型，更成为一个适用于现实世界多模态智能的灵活平台——能够跨越不同的应用领域，无缝集成感知、推理和行动。在本文随后的章节中，将详细展示模型架构、训练框架及广泛的评估结果，证明其在文本、视觉和多模态推理基准上均具有一致且极具竞争力的性能。

模型架构

承袭 Qwen2.5-VL 的设计，Qwen3-VL 采用了三模块架构，包含一个视觉编码器、一个基于 MLP 的视觉-语言融合模块（Merger），以及一个 LLM。图1展示了详细的模型结构。

图1：Qwen3-VL 框架集成了一个视觉编码器和一个语言模型解码器，用于处理包括文本、图像和视频在内的多模态输入。视觉编码器专为处理动态、原生分辨率的视觉输入而设计，将其映射为可变长度的视觉 token。

为了增强感知能力并保留丰富的视觉信息，团队引入了开创性的DeepStack机制，将来自视觉编码器多层的视觉 token 注入到 LLM 的对应层中。此外，他们采用了交错 MRoPE (Interleaved MRoPE)为多模态输入编码位置信息，以获得平衡的频谱，并引入基于文本的时间戳 token，以更有效地捕捉视频序列的时间结构。

LLM：Qwen3-VL 基于 Qwen3 基座构建，包含三个稠密变体（Qwen3-VL-2B/4B/8B/32B）和两个 MoE 变体（Qwen3-VL-30B-A3B, Qwen3-VL-235B-A22B）。其中，旗舰模型Qwen3-VL-235B-A22B拥有 235B 的总参数量，每个 token 激活参数量为 22B。该模型在广泛的多模态任务集中优于大多数 VLM，并在多数语言基准测试中超越了其纯文本对应模型。
视觉编码器：Qwen3-VL 采用SigLIP-2架构作为视觉编码器，利用官方预训练检查点进行初始化，并支持动态输入分辨率的持续训练。为了有效适应动态分辨率，团队遵循 CoMP 的方法，采用 2D-RoPE 并根据输入尺寸对绝对位置向量（embedding）进行插值。具体而言，默认配置使用 SigLIP2-SO-400M 变体，而对于小规模 LLM（2B 和 4B），则使用 SigLIP2-Large (300M)。
基于 MLP 的视觉-语言融合模块：与 Qwen2.5-VL 一致，Qwen3-VL 使用两层 MLP 将来自视觉编码器的视觉特征压缩为单个视觉 token，并与 LLM 的隐藏层维度对齐。此外，为了支持DeepStack机制，Qwen3-VL 部署了专用的融合模块。

交错 MRoPE (Interleaved MRoPE)

Qwen2-VL 引入了 MRoPE 用于对多模态输入的位置信息进行建模。在其原始公式中，向量维度被划分为时间 ()、水平 () 和垂直 () 子空间，每个子空间被分配了不同的旋转频率。这种划分导致了频谱不平衡，随后的研究表明这会降低模型在长视频理解基准上的性能。

为了解决这一问题，Qwen3-VL 通过在向量维度上交错、和分量来重新设计频率分配。这种设计确保了每个时空轴在低频和高频频带上都能得到均匀的表示。由此产生的平衡频谱减轻了原始方法的频谱偏差，并显著改善了针对视频的长程位置建模能力。

DeepStack

Qwen3-VL 借鉴DeepStack的思路，将视觉 token 注入到 LLM 的多个层级中。与原始 DeepStack 方法（堆叠来自多尺度视觉输入的 token）不同，Qwen3-VL 扩展了 DeepStack，使其能够从 **Vision Transformer（ViT）**的中间层提取视觉 token。这种设计保留了从低级到高级表示的丰富视觉信息。

具体而言，如图1所示，Qwen3-VL 从视觉编码器的三个不同层级选取特征。随后，专用的视觉-语言融合模块将这些多级特征投影为视觉 token，并将其直接添加到 LLM 前三层对应的隐藏状态中。

视频时间戳（Video Timestamp）

在 Qwen2.5-VL 中，使用了一种时间同步的 MRoPE 变体来赋予模型时间感知能力。然而，团队发现了该方法的两个主要局限性：

时间 ID 稀疏问题：将时间位置 ID 直接与绝对时间绑定，会导致长视频产生过大且稀疏的时间位置 ID，从而削弱模型理解长时序上下文的能力。
训练成本高昂：该方案下的有效学习需要跨各种帧率 (fps) 进行广泛且均匀的采样，这显著增加了训练数据构建的成本。

为了解决这些问题，团队采用了一种基于文本 token 的时间编码策略。在此策略中，每个视频时间片段（video temporal patch）前都会添加一个以格式化文本字符串表示的时间戳——例如<3.0 seconds>。此外，在训练过程中，模型同时生成秒和 HMS（小时:分钟:秒）两种格式的时间戳，以确保模型能够学习解释多样化的时间码表示。

尽管这种方法会导致上下文长度略有增加，但它使模型能够更有效、更精确地感知时间信息，从而促进了**视频定位（video grounding）和密集描述生成（dense captioning）**等时间感知型视频任务。

预训练

训练方案

本章首先基于预训练的 SigLIP-2 模型，通过持续进行动态分辨率训练来增强视觉编码器。

Qwen3-VL 的整体模型采用三模块架构，包含该视觉编码器、一个基于 MLP 的视觉-语言融合模块，以及一个 Qwen3 的 LLM 主干。基于此架构，预训练方法被系统地规划为四个不同阶段，旨在从基础对齐到长上下文理解逐步构建模型能力。表1展示了这些阶段的概览。

阶段	目标	训练范围	Token 预算	序列长度
S0	视觉-语言对齐	融合层 (Merger)	67B	8K
S1	多模态预训练	全参数 (All)	~1T	8K
S2	长上下文预训练	全参数 (All)	~1T	32K
S3	超长上下文适应	全参数 (All)	100B	256K

表1：Qwen3-VL 在不同阶段的训练设置和超参数

阶段0：视觉-语言对齐

初始阶段 (S0) 重点在于有效地弥合视觉编码器与 LLM 之间的模态差异。关键在于，在此阶段仅训练 MLP 融合模块的参数，而视觉编码器和 LLM 主干均保持冻结状态。

Qwen3-VL 使用了一个约 67B token 的精选数据集，包含高质量的图像-标题对、视觉知识库以及 OCR 数据。所有训练均在 8K 的序列长度下进行。这种“对齐优先”的策略在进行全参数训练之前，为跨模态理解奠定了坚实的基础。

阶段1：多模态预训练

继初始对齐之后，阶段1 (S1) 转入全参数多模态预训练。在此阶段，团队解冻所有模型组件——视觉编码器、融合模块和 LLM——以进行联合端到端训练。模型在一个海量且多样化的数据集（约 1T token）上进行训练。

为了保持 LLM 强大的语言能力，数据组合包含了视觉-语言数据和纯文本数据。视觉-语言数据部分丰富多样，加入了图文交错文档、**视觉定位（Visual Grounding）**任务、视觉问答、STEM 领域数据，以及少量的视频数据以引入时间理解能力。序列长度保持在 8K。

阶段2：长上下文预训练

阶段2 (S2) 旨在显著扩展模型的上下文处理能力。此阶段的一个关键变化是将序列长度增加至四倍，达到 32K，同时所有模型参数继续保持可训练状态。训练在约 1T token 的数据集上进行，并调整了数据配比以支持长上下文任务。纯文本数据的比例被调高以增强长文理解能力，而剩余的 VL 数据则结合了更大量的视频数据和**面向智能体（Agent-oriented）**的指令遵循数据。这一阶段对于赋予模型处理和推理更长视频及复杂多步骤任务的能力至关重要。

阶段3：超长上下文适应

最终阶段 (S3) 是一个专门设计的阶段，旨在将模型的上下文窗口推向其运行极限。在此阶段，团队将序列长度大幅提升至 256K。模型在一个为此目的专门精选的、更聚焦的 100B token 数据集上进行训练。该数据同样由纯文本数据和 VL 数据组成，并重点侧重于长视频和长文档理解任务。这一最终适应阶段夯实了 Qwen3-VL 处理和分析极长序列输入的熟练度，这也是综合文档分析和长视频摘要等应用的一项关键能力。

预训练数据

图像标题与交错图文数据

为了构建一个用于通用视觉-语言理解的稳健基础模型，团队显著扩展并精炼了两个核心数据模态：图像-标题对和交错图文序列。策略重点在于构建高质量、多样化且语义丰富的多模态定位数据，并辅以专门构建的模型和严格的过滤流程。

图像标题数据

团队整理了一个大规模的时下语料库，主要包含源自网络的中文和英文多语言图像-文本对。对此，他们应用了一个以专门的Qwen2.5-VL-32B模型为中心的多阶段精炼流程，该模型经过微调，专门用于标题重生成（recaptioning）。它利用与每张图像关联的原始文本，生成更全面、流畅且细粒度的标题——在丰富视觉元素描述（如物体属性、空间布局和上下文语义）的同时，提升文本部分的语言质量和信息量。

去重工作仅基于重生成的文本进行，采用语义相似度度量，确保留在去除冗余样本的同时不牺牲视觉多样性。为了进一步提高对代表性不足概念的覆盖率，团队在视觉向量（visual embeddings）上应用聚类算法，以识别数据分布中的稀疏区域并进行针对性的增强。最终得到的是一个高保真的标题数据集，在规模、多样性和描述粒度之间取得了平衡。

交错图文数据

团队收集了源自近期中英文网站的多样化现实世界多模态文档。所有文档均使用经过微调以进行细粒度领域识别的轻量级 Qwen 评分器进行领域分类。基于跨领域的验证实验，团队利用该高效评分器系统地剔除了有害或低价值的类别——例如广告、促销内容和标题党（clickbait）——以过滤掉不良样本。

对于书籍级（book-scale）的交错数据，他们采用了一个微调后的 Qwen2.5-VL-7B 模型来执行高精度的多模态解析，精确地提取文本并将其与嵌入的图表、示意图和照片对齐。

为了支持超长上下文建模，团队构建了一个专门的子集，将连续页面合并为长度高达 256K token 的序列，同时保留自然的页面顺序和多模态连贯性。

在预处理阶段，团队执行了严格的质量控制：

移除纯文本或图文对齐度低的片段；
对于超长书籍序列，要求满足最低页数和最低图文比例，以确保在整个上下文中存在有意义的视觉-文本交互。

这产生了一个干净、多样且具有布局感知能力的交错语料库，专为定位理解和长程多模态推理进行了优化。

知识

对于多模态大语言模型（MLLM）而言，世界知识（World Knowledge）对于在各类下游任务中实现稳健的视觉理解、定位推理和实体感知生成至关重要。为了使 Qwen3-VL 全面掌握现实世界和虚构概念，团队构建了一个以定义明确的实体为中心的大规模预训练数据集，涵盖超过十几个语义类别——包括动物、植物、地标、食物，以及车辆、电子产品和服装等日常物品。

现实世界实体的分布呈长尾（long-tailed）特征：著名概念频繁出现且标注质量高，而大多数概念则较为罕见。为解决这一不平衡问题，团队采用了基于重要性的采样策略。高显著性的实体采样权重更高，以确保充足的学习信号；而低显著性的实体则以较小比例包含其中，以在不淹没训练过程的前提下维持广泛的覆盖率。这种方法有效地平衡了数据质量、效用和多样性。

所有保留的样本均需经过多阶段的精炼流程。除了针对噪声和未对齐情况的标准过滤外，团队还用更丰富、由 LLM 生成的描述替换了原始或稀疏的标题——例如通用的替代文本（alt-text）。这些增强后的标题不仅能识别主要实体，还能描述其视觉属性、周围环境、空间布局以及与其他物体或人的交互，从而提供更完整且具有定位感的文本表示。

总之，这些努力产生了一个知识丰富、上下文感知且注重判别性的训练信号，显著增强了 Qwen3-VL 在现实世界场景中识别、推理及准确描述视觉概念的能力。

OCR、文档解析与长文档理解

OCR

为了增强在现实世界图像上的 OCR 性能，团队利用由粗到精（coarse-to-fine）的流程，整理了一个包含 3000 万自研样本的数据集。该流程通过集成来自 OCR 专用模型的**伪标签（pseudo-labels）**以及 Qwen2.5-VL 的修正结果来精炼 OCR 标注，且无需任何人工介入。

除了 Qwen2.5-VL 已支持的 10 种语言（不含中英文）外，团队还额外纳入了 29 种语言，合成了约 3000 万个高质量多语言 OCR 样本，并整理了超过 100 万张内部收集的现实世界多语言图像。

文档解析

针对文档解析，团队从 Common Crawl 收集了 300 万份 PDF 文档，均匀分布在 10 种文档类型中（每类 30 万样本），此外还包括 400 万份内部文档。首先，利用一个内部布局模型预测文本及非文本区域的阅读顺序和边界框；随后，使用 Qwen2.5-VL-72B 执行区域级的识别。最终输出被重组为具备位置感知能力且与布局对齐的解析数据。

为了确保跨异构格式解析的稳健性，他们设计了一个支持两种表示形式的统一标注框架：

QwenVL-HTML：包含细粒度的、元素级的边界框；
QwenVL-Markdown：仅对图像和表格进行定位，其中表格采用 LaTeX 编码。

团队构建了一个拥有精确标注的大规模合成 HTML 语料库，并将其系统地转换为 Markdown 格式。为了进一步提升模型的泛化能力，他们在大量真实文档集合上生成伪标签并进行了质量过滤。最终的训练集结合了合成数据和高质量伪标签数据，以同时增强扩展性和稳健性。

长文档理解

为了增强模型理解多页 PDF（通常跨越数十页）的能力，团队利用了一个大规模长文档语料库。

首先，他们通过合并单页文档样本来合成长文档解析序列。在每个序列中，多页图像被置于开头，随后紧跟由 OCR 或 HTML 解析得到的对应文本。

其次，他们构建了长文档视觉问答数据。具体而言，团队对高质量多页 PDF 进行采样，并生成了一组多样的视觉问答示例，要求模型跨越多个页面及异构文档元素（如图表、表格、插图和正文）进行推理。他们仔细平衡了问题类型的分布，并确保支持性证据来源于广泛的模态和布局组件，从而促进在超长上下文中进行稳健的、基于定位的多跳推理。

定位与计数（Counting）

视觉定位（Visual Grounding）是多模态模型的一项基础能力，使其能够准确识别、解释和定位从特定对象到任意图像区域的广泛视觉目标。Qwen3-VL 系统地增强了定位能力，并支持两种定位形式：边界框（bounding boxes）和点（points）。这些表示形式允许在不同场景和下游任务中对图像内容进行精确且灵活的解释。此外，Qwen3-VL 扩展了模型的定位能力以支持计数，从而实现了针对视觉实体的定量推理。以下简要介绍用于定位和计数的数据构建流程。

基于框的定位

团队首先聚合了广泛使用的开源数据集，包括 COCO、Objects365、OpenImages 以及 RefCOCO/+/g。为了进一步丰富数据的多样性，他们还开发了一套自动化合成流程，可在广泛的场景中生成高质量的对象标注。

该流程分三个阶段进行：

使用 Qwen2.5-VL 从未标注图像中提取候选对象；
利用开放词汇表检测器（具体为 Grounding DINO ）和 Qwen2.5-VL 对这些候选对象进行定位和标注；
对生成的标注进行质量评估，系统性地过滤掉低置信度或不准确的标注。

通过这些方法，团队构建了一个涵盖广泛视觉上下文和对象类别的大规模、高多样性框级定位数据集。

基于点的定位

为了确保基于点定位的稳健性，团队整理了一个结合公开数据和合成生成数据的综合数据集。它集成了三个来源：

来自 PixMo 的公开指向和计数标注；
源自公开对象检测和实例分割基准的对象定位数据；
由专为针对细粒度图像细节而设计的合成流程生成的高精度指向标注。

计数

基于上述定位数据，团队整理了一个高质量子集作为计数数据集的基础，该数据集包含三种不同的任务形式：直接计数、基于框的计数和基于点的计数。这三种任务类型共同构成了一个全面的计数数据集。

与 Qwen2.5-VL 不同， Qwen3-VL 采用了缩放至范围的归一化坐标系统。这一设计提高了模型对不同输入图像分辨率和长宽比变化的稳健性，同时也简化了后处理步骤，并增强了预测坐标在下游应用中的可用性。

空间理解和 3D 识别

为了促进与物理世界的复杂交互，Qwen3-VL 被设计为具备对空间上下文的深度理解能力。这使得模型能够解释空间关系，推断对象的可供性（affordances），并执行动作规划及具身推理。此外，它还能从单张单目图像中估计对象的 3D 空间位置。为了支持这些能力，团队创建了两个专注于空间理解和 3D 定位的综合数据集。

空间理解

除了对象定位，Qwen3-VL 还经过训练，能够推理 2D 场景中的空间关系、对象可供性以及可行动作——这些能力对于具身智能和交互式应用至关重要。为此，团队构建了一个超越标准定位的专用数据集，其中包含：

关系标注：例如，“笔记本电脑左边的杯子”；
可供性标签：例如，“可抓取（graspable）”、“可按压（pressable）”、“可坐（sittable）”；
需要规划的动作条件查询：例如，“为了拿到显示器后面的书，我应该先移动什么？”。

这些样本源自精选的现实世界场景和合成生成的布局，其自然语言查询是通过模板化和基于 LLM 的方法自动生成的，以确保多样性和复杂性。关键在于，所有的空间引用都是相对于其他对象或场景帧来表达的，而非使用绝对坐标，从而鼓励稳健的关系推理。这种训练使得 Qwen3-VL 不仅能回答“在哪里”的问题，还能回答“如何做”和“能做什么”——从而奠定智能体与视觉环境交互的基础。

3D 定位

为了进一步增强模型从图像理解物理世界的能力，团队构建了一个专门用于 3D 视觉定位的预训练数据集。数据源自包含各种室内外场景的公共集合，并被重新格式化为视觉问答形式。每个样本包含：

一张单视图相机图像；
一段自然语言指代表达（referring expression）；
对应的9-DoF 3D 边界框标注（采用结构化 JSON 格式），指定了对象的空间位置和语义标签。

由于 3D 边界框源自多种传感器和数据源，表现出不同的相机内参和固有噪声。为此，团队过滤掉了严重遮挡和不准确的标签，并遵循 Omni3D 的方法，将所有数据统一到一个虚拟相机坐标系中。此外，他们还合成了一个大规模的描述性语料库，用于生成丰富的 3D 定位文本查询。这些描述不仅仅是命名对象类别，还包括详细的属性、布局安排、空间位置、视觉可供性以及与周围对象的交互——从而产生了更加细粒度且具有定位感的指代表达。

代码

团队通过在训练语料库中纳入两类代码相关数据，增强了 Qwen3-VL 系列的专用编程能力，使模型能够在纯文本和视觉定位上下文中阅读、编写和推理程序。

纯文本编码

团队重用了来自 Qwen3 和 Qwen3-Coder 系列的广泛代码语料库。这个大规模数据集涵盖了广泛的编程语言和领域——包括软件开发、算法问题解决、数学推理和面向智能体的任务——确立了模型对代码语法、算法逻辑和通用程序生成的基础理解。

多模态编码

为了解决同时需要视觉理解和代码生成的任务，团队整理了一套多样化的多模态编码任务数据。该数据集源自开源数据集和内部合成流程，旨在教导模型联合理解视觉输入并生成功能性代码。数据涵盖了几个关键任务，包括：

将 UI 截图转换为响应式 HTML/CSS；
根据图像生成可编辑的 SVG 代码；
解决视觉编程挑战；
回答多模态编程问题（例如，包含图像的 StackOverflow 帖子）；
将视觉表示（如流程图、图表和 LaTeX 方程）转录为相应的代码或标记语言。

这种新颖的数据组合使 Qwen3-VL 能够成为视觉感知与可执行逻辑之间的桥梁。

视频

Qwen3-VL 的视频理解能力已得到实质性提升，能够对跨帧的时间动态进行稳健建模，对空间关系进行细粒度感知，并对超长视频序列进行连贯摘要。这种增强得益于一个包含两大主要创新的数据处理流程：

时间感知视频理解

(i) 密集描述合成（Dense Caption Synthesis）：对于长视频序列，团队采用一种由短至长的描述合成策略，以生成整体的、带有交错时间戳的，且在时间上连贯的故事级描述。利用内部的描述生成模型，Qwen3-VL 进一步生产了细粒度标注，联合捕捉事件级的时间摘要和特定片段的视觉细节。

(ii) 时空视频定位（Spatio-Temporal Video Grounding）：团队整理并合成了大规模的视频数据，并在对象、动作和人物层级进行标注，以增强模型的时空定位能力，从而提升其进行细粒度视频理解的能力。

视频数据平衡与采样

(i) 来源平衡：为了确保数据的平衡与多样性，团队组建了一个涵盖多种视频来源的大规模数据集，包括教学内容、电影、第一人称视角录像等。通过利用视频标题、时长和分类标签等元数据进行系统性整理，实现了数据集的平衡。

(ii) 长度自适应采样：在预训练阶段，团队根据不同的序列长度约束，动态调整采样参数（如每秒帧数 fps 和最大帧数）。这种自适应策略减轻了由次优采样操作（例如帧选择过稀疏或空间分辨率过低）导致的信息丢失，从而在保留视觉细节的同时优化了训练效率。

科学、技术、工程和数学（STEM）

多模态推理是 Qwen3-VL 的核心，而 STEM 推理则是其最本质的组成部分。团队遵循“分而治之（divide-and-conquer）”的策略：首先独立开发细粒度的视觉感知能力和稳健的语言推理能力，随后以协同的方式将二者集成，以实现高效的多模态推理。

视觉感知数据

团队开发了一套专用的合成数据生成流程，通过程序化（基于代码）渲染来构建几何图表。利用该流程，生成了：

100 万个点定位（point-grounding）样本，涵盖交点、顶点和重心等；
200 万个面向感知的视觉问答对，旨在实现对图表的细粒度视觉理解。

为了获取高保真的文本描述，团队进一步实施了双阶段标题生成框架：首先是初始生成阶段，随后是严格的基于模型的验证阶段。两个阶段均采用专用模型集成，以确保准确性和描述的粒度。这一过程产生了一个包含 600 万个丰富注释的图表标题综合数据集，涵盖了多样的 STEM 学科。

多模态推理数据

Qwen3-VL 的多模态推理数据主要由超过 6000 万道 K–12 及本科水平的练习题组成，这些题目均经过了严格的清洗和重构流程的精心整理。

质量过滤：剔除低质量项目，包括图像损坏、内容无关、答案不完整或错误的题目。
重构阶段：对练习题进行中英文互译，并标准化答案格式——例如分步解题列表、数学表达式和符号表示——以确保一致性和统一的展示效果。

关于长思维链 (Long CoT)问题解决数据，团队合成了超过 1200 万个配有图像的多模态推理样本。为了确保推理过程的连续性和丰富性，Qwen3-VL 直接利用由强推理模型生成的原始推理路径（rollouts）。

为了保证数据的可靠性和适用性，每个样本的推理轨迹都经过了严格验证——结合了基于规则的检查和基于模型的验证——并且任何包含模棱两可答案或**语码转换（code-switching）**的实例都会被显式过滤。此外，为了提升推理质量，Qwen3-VL 通过拒绝采样仅保留具有挑战性的问题。

语言推理数据 (Linguistic Reasoning Data)

除多模态推理数据外，团队还纳入了来自 Qwen3 的推理数据，因为多模态推理能力很大程度上通过语言推理能力衍生而来。

Agent

GUI

为了赋予 Qwen3-VL 自主与 GUI 交互的智能体能力，团队整理并合成了涵盖桌面、移动和 Web 环境的大规模跨平台数据。

界面感知：利用元数据、解析工具和人工标注构建任务，如元素描述、密集描述（dense captioning）和密集定位（dense grounding），从而实现对多样化用户界面的稳健理解。
智能体能力：通过自进化的轨迹生产框架组装多步任务轨迹，并辅以有针对性的人工审计；同时精心设计并增强了 CoT 的推理依据，以加强在现实世界执行过程中的规划、决策制定和反思性自我修正能力。
函数调用

为了在多模态语境下实现通用的函数调用能力，团队构建了一个多模态函数调用轨迹合成流程。

首先指示有能力的模型根据图像生成用户查询及其对应的函数定义。
随后对模型生成的函数调用及其推理依据进行采样，并合成函数响应。
重复此过程，直至判定用户的查询已解决。

在每一步之间，因格式错误导致的轨迹会被过滤掉。这一流程使模型能够基于海量图像构建大规模的多模态函数调用轨迹，且无需实现可执行的实际函数。

搜索

在通用函数调用能力中，团队将执行搜索的能力视为在现实场景中促进长尾实体（long-tail entities）知识集成的关键。为此，他们利用在线图像搜索和文本搜索工具收集了多模态事实检索轨迹，鼓励模型针对不熟悉的实体执行搜索。通过这种方式，模型学会了从网络上收集信息以生成更准确的回复。

后训练

训练方案

后训练流程是一个三阶段过程，旨在精炼模型的指令遵循能力，增强其推理能力，并使其与人类偏好对齐。每个阶段的具体数据和方法将在后续章节中详细说明。

监督微调（SFT）

第一阶段旨在赋予模型指令遵循能力并激活潜在的推理技能。该阶段分为两个步骤：首先在 32k 上下文长度下进行初始训练，随后扩展至 256k 上下文窗口，重点关注长文档和长视频数据。

为了满足不同需求，团队将训练数据划分为用于non-thinking模型的标准格式，以及用于thinking模型的 CoT 格式，后者显式地对推理过程进行建模。

由强至弱蒸馏

第二阶段采用知识蒸馏技术，即由强大的教师模型将其能力迁移给学生模型。关键在于，团队利用纯文本数据进行蒸馏以微调 LLM 主干。该方法被证明高度有效，在以文本为中心和多模态的任务中均显著提升了模型的推理能力。

强化学习（RL）最后阶段利用 RL 进一步增强模型性能并进行对齐。该阶段分为推理 RL和通用 RL。团队在广泛的文本和多模态领域（包括但不限于数学、OCR、定位和指令遵循）中应用大规模强化学习，以改进更细粒度的能力。

冷启动数据与 SFT 数据

团队的主要目标是在 Qwen2.5-VL 的基础能力（精通约 8 个核心领域和 30 个细粒度子类别）之上，赋予模型处理广泛现实世界场景的能力。他们战略性地扩展了其功能范围，通过整合来自社区反馈、学术文献和实际应用的见解，促进了新能力的引入。这些能力包括但不限于：用于具身智能的空间推理、用于细粒度视觉理解的基于图像的推理、视频中用于稳健对象跟踪的时空定位，以及对长达数百页的技术文档的理解。

以这些目标任务为导向并基于真实用例，团队通过从开源数据集和网络资源中精心筛选和合成样本，系统地整理了 SFT 数据集。这一有针对性的数据工程工作对于确立 Qwen3-VL 作为更全面、稳健的多模态基础模型起到了关键作用。

该数据集包含约120万个样本，其构成经过战略性设计以培养稳健的多模态能力。数据集分为单模态和多模态数据，其中 1/3 为纯文本条目，其余 2/3 为图像-文本和视频-文本对。多模态内容的整合专为使模型能够解释复杂的现实世界场景而设计。

为了确保全球适用性，数据集在主要的中文和英文语料库之外，还扩展了多样的多语言样本，从而拓宽了语言覆盖范围。此外，通过纳入各种视觉设置（从单图到多图序列）下的单轮和多轮对话，数据集模拟了真实的会话动态。

至关重要的是，该数据集还包含专门设计的交错图像-文本示例，以支持高级智能体行为，例如工具增强的图像搜索和基于视觉定位的推理。这种异构的数据构成确保了全面的覆盖范围，并增强了数据集在训练可泛化且复杂的多模态智能体方面的代表性。

鉴于 Qwen3-VL 原生支持 256K token 的上下文长度，团队采用分阶段训练策略以优化计算效率。该策略包含两个阶段：首先是序列长度为 32K token 的初始**单轮（one-epoch）**训练阶段，随后是全 256K token 长度的第二轮训练。在后一阶段，模型采用课程学习方式，将长上下文输入与 32K token 长度采样的数交错进行训练。长上下文输入包括数百页的技术文档、整本教科书以及时长达两小时的视频等材料。

训练数据的质量是决定视觉-语言模型性能的关键因素。源自开源和合成途径的数据集往往充斥着巨大的变异性和噪声，包括冗余、无关或低质量的样本。为了缓解这些缺陷，实施严格的数据过滤协议至关重要。因此，数据整理过程包含一个两阶段过滤流程：查询过滤（Query Filtering）和响应过滤（Response Filtering）。

查询过滤

在初始阶段，团队利用 Qwen2.5-VL 识别并剔除难以验证的查询。指令模棱两可的查询会被进行最小程度的修订以增强清晰度，同时保留原始语义意图。此外，系统会剔除缺乏实质内容的网络源查询。关键在于，所有剩余查询均需经过对其复杂性和上下文相关性的最终评估，确保仅保留具有适当挑战性和相关性的样本进入下一阶段。

响应过滤

该阶段整合了两种互补策略：

基于规则的过滤：应用一组预定义的启发式规则来剔除存在质量缺陷（如重复、不完整或格式错误）的响应。为了保持语义相关性并坚持伦理原则，模型还会丢弃任何离题或可能生成有害内容的查询-响应对。
基于模型的过滤：利用源自 Qwen2.5-VL 系列的奖励模型进一步精炼数据集。这些模型对多模态问答对进行多维评估。具体而言：

(a) 根据正确性、完整性、清晰度和有帮助性等一系列标准对答案进行评分；
(b) 对于视觉定位任务，评估特别强调验证对视觉信息的准确解释和利用；

这一多维过滤框架确保只有满足质量、可靠性和伦理完整性严格标准的数据才能进入 SFT 阶段。

长 CoT 冷启动数据

思考型模型的基础是一个精心策划的长思维链 (Long Chain-of-Thought) 冷启动数据集，旨在激发和精炼复杂的推理能力。该数据集建立在涵盖纯文本和多模态数据的多样化查询集合之上，并保持视觉-语言样本与纯文本样本之间约的比例，以确保技能的平衡发展。

多模态部分虽然涵盖了视觉问答、OCR、2D/3D 定位和视频分析等成熟领域，但特别强调丰富与 STEM 和智能体工作流相关的任务。这一战略重心旨在推动模型在需要复杂、多步推断的问题上的性能。纯文本部分则紧密对齐 Qwen3 使用的数据，包含数学、代码生成、逻辑推理和通用 STEM 领域中具有挑战性的问题。

为了保证高质量和适当的难度水平，团队实施了严格的多阶段过滤协议：

难度筛选：团队选择性地保留基准模型通过率较低或生成较长、较详细响应的实例。这使得数据集充满了对当前模型真正具有挑战性的问题。
多模态必要性过滤：对于视觉-语言数学问题，团队引入了一个关键的过滤步骤：丢弃所有 Qwen3-30B-nothink 模型在不访问视觉输入的情况下即可正确解答的样本。这确保了剩余的实例真正需要多模态理解，而无法仅凭文本线索解决。
响应质量控制：与 Qwen3 的方法论一致，团队对生成的响应进行清洗。对于包含多个候选答案的查询，首先移除包含错误最终结果的答案。随后，过滤掉表现出不良模式的响应，例如过度重复、不恰当的语码混杂，或显示出明显猜测迹象而缺乏充分推理步骤的答案。

这一严格的筛选过程产生了一个高质量、具有挑战性的数据集，专为引导高级多模态推理能力而量身定制。

由强至弱蒸馏

Qwen3-VL 采用 Qwen3 中描述的“由强至弱蒸馏”流程，以进一步提升轻量级模型的性能。该蒸馏过程主要包含两个阶段：

异策略蒸馏（Off-policy Distillation）：在第一阶段，教师模型生成的输出被组合起来用于响应蒸馏。这有助于轻量级学生模型习得基础推理能力，为随后的同策略训练奠定坚实基础。
同策略蒸馏（On-policy Distillation）：在第二阶段，学生模型基于提供的提示词生成响应，这些同策略序列随后被用于微调学生模型。团队通过最小化 KL 散度来对齐学生模型和教师模型预测的 Logits。

RL

推理RL

Qwen3-VL 在广泛的文本和多模态任务集上训练模型，包括数学、编程、逻辑推理、视觉定位和视觉谜题。每个任务的设计都确保其解决方案可以通过规则或代码执行器进行确定性验证。

数据准备

团队从开源和专有渠道整理训练数据，并应用严格的预处理和人工标注以确保高质量的 RL 查询。对于多模态查询，他们使用 Qwen3-VL-235B-A22B 的初步检查点为每个查询采样 16 个响应；若某个查询的所有响应均不正确，则将其丢弃。

随后，团队对每个任务进行初步的 RL 实验，以识别并移除改进潜力有限的数据源。这一过程产出了约 30,000 个涵盖多种文本和多模态任务的 RL 查询。在训练每个模型时，他们为所有查询采样 16 个响应，并过滤掉通过率超过 90% 的简单查询。他们还将特定任务的数据集打乱并组合，构建混合任务批次，确保每个任务的样本比例一致且预定义。该比例通过广泛的初步实验确定。

奖励系统

团队实施了一个统一的奖励框架，为所有任务提供精确反馈。该系统提供共享的基础设施——包括数据预处理、效用函数以及用于集成多种奖励类型的奖励管理器——而核心奖励逻辑则按任务分别实现。他们使用特定于任务的格式提示词来引导模型输出符合要求的格式，因此不依赖显式的格式奖励。

为了减少**语码转换（code-switching）**现象，当响应语言与提示词语言不一致时，会施加惩罚。

RL 算法

团队采用了SAPO（一种平滑且自适应的策略梯度方法）进行 RL 训练。SAPO 在多样的文本和多模态任务中，以及在不同的模型规模和架构上，均带来了某种程度的性能提升。

通用RL

通用 RL 阶段旨在增强模型的泛化能力和运行稳健性。为此，团队采用多任务 RL 范式，其中奖励函数基于 SFT 阶段的一套综合任务制定，包括视觉问答、图像描述、OCR、文档解析、定位和时钟识别。奖励机制旨在优化模型性能的两个主要维度：

指令遵循：该维度评估模型对显式用户指令的遵循程度。它评估模型处理内容、格式、长度及结构化输出（如 JSON）等复杂约束的能力，确保生成的响应精确匹配用户要求。
偏好对齐：对于开放式或主观查询，该维度通过优化有帮助性、事实准确性和风格得体性，使模型输出与人类偏好对齐。这有助于培养更自然、更具吸引力的用户交互。

此外，该阶段还作为一个矫正机制，用于“摒弃”在 SFT 期间根深蒂固的强大但有缺陷的知识先验。团队通过引入专门设计的、可验证的任务来解决这一问题，这些任务旨在触发特定错误，例如反直觉的对象计数和复杂的时钟时间识别。这种有针对性的干预旨在用事实知识取代错误的先验。

另一个关键目标是减少诸如不恰当的语码混杂、过度重复和格式错误等劣质行为。然而，由于这些问题的出现频率较低，使得通用 RL 成为一种样本效率低下的矫正策略。

为了克服这一点，团队在此阶段整理了一个专用数据集。该数据集隔离了已知会诱发此类不良行为的提示词。这种集中训练使得应用有针对性的、高频率惩罚成为可能，从而有效地抑制这些残留错误。

RL 过程的反馈通过混合奖励系统提供，该系统结合了两种互补的方法：

基于规则的奖励：该方法为具有**可验证标准答案（ground truths）**的任务（如格式遵循和指令遵循）提供明确、高精度的反馈。通过使用定义明确的启发式规则，该方法提供了一种评估正确性的稳健机制，并有效缓解了“奖励黑客（reward hacking）”现象（即模型利用学习到的奖励函数中的模糊性）。
基于模型的奖励：该方法使用 Qwen2.5-VL-72B-Instruct 或 Qwen3 作为复杂的评判模型（judgers）。评判模型针对标准答案参考评估每个生成的响应，并在多个维度上对其质量进行评分。对于严格的基于规则匹配无法胜任的细微或开放式任务，这种方法提供了卓越的灵活性。它在最大限度减少假阴性方面特别有效，避免了因格式或措辞不传统而惩罚有效响应的情况。

以图思考（Thinking with Images）

受关于“以图思考”的杰出先驱工作的启发，团队通过双阶段训练范式赋予了 Qwen3-VL 类似的智能体能力。

第一阶段：团队合成了一个包含约 10K 个定位样本的冷启动智能体数据集，内容主要是简单的两轮视觉问答任务（如属性检测）。随后，他们在 Qwen2.5-VL-32B 上执行 SFT，以模拟视觉智能体的行为模式：思考 → 行动 → 分析反馈 → 回答。为了进一步增强其推理能力，团队应用了多轮、工具集成的 RL。

第二阶段：团队利用第一阶段训练好的 Qwen2.5-VL-32B 视觉智能体进行蒸馏，生成了一个规模更大（约 120K）、更多样化的多轮智能体交互数据集，涵盖了更广泛的视觉任务。随后，他们应用类似的冷启动 SFT 和工具集成 RL 流程（此时同时使用蒸馏数据和合成数据）对 Qwen3-VL 进行后训练。

这两个阶段的多轮、工具集成 RL 过程几乎相同，仅在底层数据上有所区别。在 RL 过程中，团队采用了三种互补的奖励信号，以鼓励稳健的、基于工具的推理：

答案准确性奖励：利用 Qwen3-32B 来衡量最终答案是否正确。
多轮推理奖励：利用 Qwen2.5-VL-72B 来评估助手是否正确解释了工具或环境的反馈，并通过连贯的、循序渐进的推理得出答案。
工具调用奖励：通过将实际工具调用次数与专家估计的目标次数进行比较，鼓励模型适当地使用工具。该目标由 Qwen2.5-VL-72B 根据任务复杂性离线确定。

早期实验显示，无论任务需求如何，模型都有退化为仅执行单次工具调用以“骗取（hack）”前两个奖励的趋势。为了缓解这一问题，团队明确引入了工具调用奖励，以促进与任务复杂性相适应的自适应工具探索。

基础设施

Qwen3-VL 在阿里云的PAI-灵骏 (PAI-Lingjun)AI 计算服务上训练 Qwen3-VL 系列模型，该服务提供了 AI 和高性能计算等计算密集型场景所需的高性能算力。

在预训练阶段，系统采用了基于Megatron-LM框架的混合并行策略，集成了：

张量并行（Tensor Parallelism, TP）
流水线并行（Pipeline Parallelism, PP）
上下文并行（Context Parallelism, CP）
专家并行（Expert Parallelism, EP）
ZeRO-1 数据并行（Data Parallelism, DP）

这种配置在模型规模、计算负载和通信开销之间实现了细粒度的平衡，即使在高达 10,000 个 GPU 的规模下，也能实现高硬件利用率，并保持高吞吐量和低通信延迟。

对于本地部署和性能评估，团队采用了基于vLLM或SGLang的部署策略。vLLM 利用PagedAttention实现高效的内存管理和高吞吐量推理，而 SGLang 则在结构化生成和处理复杂提示词方面表现出色。这两个后端共同提供了稳定、高效且灵活的模型推理与评估能力。

小结

本文介绍了Qwen3-VL，这是一系列最先进的视觉-语言基础模型，拓展了多模态理解与生成的边界。通过整合高质量的多模态数据迭代与架构创新——例如增强型交错 MRoPE（enhanced interleaved-MRoPE）、DeepStack 视觉-语言对齐以及基于文本的时间定位（text-based temporal grounding）——Qwen3-VL 在广泛的多模态基准测试中实现了前所未有的性能，同时保持了强大的纯文本能力。其对 256K token 交错序列的原生支持，实现了跨越长篇复杂文档、图像序列和视频的稳健推理，使其成为要求高保真跨模态理解的现实世界应用的理想选择。

此外，密集模型和 MoE 模型变体的同时推出，确保了能够灵活适应多样化的延迟与质量需求，配合后训练策略——涵盖了非思考型和思考型模式——进一步丰富了应用选择。

展望未来，通义团队将 Qwen3-VL 视为具身 AI 智能体（embodied AI agents）的基础引擎，旨在无缝连接数字与物理世界。此类智能体不仅能够感知并推理丰富的多模态输入，还能在动态环境中执行果断的、上下文感知的动作——包括与用户交互、操纵数字接口，以及通过基于定位的多模态决策来引导机器人系统。

未来的工作将聚焦于扩展 Qwen3-VL 在交互式感知、工具增强推理以及实时多模态控制方面的能力，终极目标是实现能够在虚拟和物理领域中与人类共同学习、适应并协作的 AI 系统。此外，团队正积极探索统一理解-生成架构，利用视觉生成能力进一步提升整体智能水平。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Qwen3-VL：突破性的256K上下文视觉语言模型技术解析，程序员必学指南

引言

模型架构

交错 MRoPE (Interleaved MRoPE)

DeepStack

视频时间戳（Video Timestamp）

预训练

训练方案

预训练数据

语言推理数据 (Linguistic Reasoning Data)

后训练

训练方案

由强至弱蒸馏

RL

以图思考（Thinking with Images）

基础设施

小结

AI大模型从0到精通全套学习大礼包

01.从入门到精通的全套视频教程

02.AI大模型学习路线图（还有视频解说）

03.学习电子书籍和技术文档

04.大模型面试题目详解

05.这些资料真的有用吗?

OpCore Simplify：黑苹果EFI自动生成工具技术指南

4步颠覆传统配置流程：OpCore-Simplify让技术民主化成为现实

ViLT视觉语言Transformer：彻底变革多模态预训练的高效架构

同程旅行开的薪资太低，果断拒了！

资源下载工具完全指南：无水印保存与批量采集实用技巧

免费实现显卡性能跃升：让所有显卡型号无关的游戏体验升级方案