阶跃星辰Step-3.5-Flash模型团队分享实录-智慧文博士

Datawhale干货

分享：吴鑫，阶跃星辰算法专家

前天，距离阶跃星辰发布开源基座模型 Step 3.5 Flash 仅过去两天，Datawhale 联合阶跃星辰团队带来了全网第一手深度揭秘。

这是一场关于“如何打造真正为 Agent 而生的极速模型”的技术分享，由阶跃星辰算法专家、Coding Agent 基座研发团队的吴鑫主讲。

当行业还在卷参数规模时，Step 3.5 Flash 选择了一条“高智能密度+极速推理”的非典型路径。

Step 3.5 Flash 已全面开源：

1. GitHub：https://github.com/stepfun-ai/Step-3.5-Flash/tree/main

2. OpenRouter：https://openrouter.ai/stepfun/Step-3.5-Flash:free

3. 魔搭社区：https://modelscope.cn/models/stepfun-ai/Step-3.5-Flash

以下内容基于 24000 字的直播原文整理，在不改变原意的情况下进行了结构化梳理。

一、最重要的升级点：为什么要做 Flash？

“在Agent时代，推理速度就是生产力。”

Step 3.5 Flash 的参数配置乍看之下充满矛盾：总参数量高达 196B，但激活参数却仅有 11B。这是一个极致稀疏的 MoE 架构，稀疏度达到了 20:1。

为什么要在这个时间点，发布这样一个“大得不像Flash，快得不像196B”的模型？

吴鑫：我们的 CTO 在知乎上也分享过，Chatbot 时代，模型只要“够读”就行。但在 Agent 时代，Agent 的生产力直接挂钩于它的迭代速度。

Step 3.5 Flash 的核心定位非常明确：面向实时 Agent 工作流的开源基座。

大家看我们的 Model Page，Step 3.5 Flash 处于坐标轴的右上角，这意味着它的智能密度（Intelligence Density）非常高。

参数策略：总参 196B，激活 11B，稀疏度 20:1。
性能指标：推理速度高达 350 TPS（Tokens Per Second），混合上下文支持 256K。

我们在做技术决策时基于一个核心假设：Agent 场景下的 Intelligence，不仅仅在于模型参数量的 Scale，更在于智能密度的 Scale。

我们发现，模型在编程或 Agent 场景的能力，与 LiveBench、Verified、Terminal-bench 这些学术榜单的分数是强相关的。所以我们选择了 Flash 这个型号，把智能密度做高，同时把成本打到最低，让开发者在构建 Agent 时真的“用得起、等得起”。

二、技术团队背后的思考：Midi-train 与架构取舍

“模型不再单一扩展参数量，更需要原子能力作为智能基石。”

在训练策略上，Step 3.5 Flash 引入了一个被称为 Midi-train 的中间阶段。这不同于传统的预训练（Pre-train）或后训练（Post-train）。这是阶跃星辰团队为了解决 Coding Agent “懂代码但不懂框架”这一痛点所做的针对性优化。

吴鑫：这一代模型相比前两代，最大的技术变量就是 Midi-train。

在这个阶段，我们给模型灌输了大量的原子能力（Atomic Capabilities）数据。比如在 Coding 场景，我们不会只教它写 Python，我们会针对前端场景，把 Three.js 的语法、GPU 进行科学计算的能力、甚至页面渲染的“美观度”都拆解成原子能力喂给模型。

我们非常意外地发现，有了这些原子能力垫底，Post-train 阶段变得异常顺利。模型在面对复杂任务时，展现出了一种近乎直觉的组合能力。它不需要我们去灌输大量的任务模板，就能自己把这些原子能力串联起来。

关于架构设计的两个关键点：

MTP (Multi-Token Prediction) 的双刃剑：我们要快，所以上了 MTP。这不仅仅是为了刷 TPS 数据，而是为了让 Agent 的交互体验不卡顿。但这也带来了一些意想不到的工程挑战。比如上线第一天我们发现，因为生成速度太快（一个 Delta 里包含了多个 Token），导致下游传统的 Stream Parser 逻辑直接崩了。 “我们其实是昨天才解决的一个 bug。” 这种生成速度过快导致传统逻辑跪掉的问题，反向倒逼了我们工程链路的升级。
注意力机制的混合（SWA vs Full Attention）：我们在 Sliding Window Attention (SWA) 和 Full Attention 之间做了一个 3:1 的混合比例。为什么不用全 SWA？因为 Agent 需要 State（状态）存储。在长 Context 下，SWA 会有信息损失，而全 Attention 又太慢。我们目前的配比是为了在保留因果关系（Causal Dependency）和推理速度之间寻找最优解。
Test-Time Scaling（测试时扩展）：因为 Flash 推理速度非常快，所以 Parallel Scaling（并行推理）技术特别适合它。我们让模型同时生成多个候选答案，然后通过一个 Controller 去总结和反思。更神奇的是，即使 Candidates 里面没有正确答案，经过 Controller 的反思后，模型也可能最终推理出正确答案。这是我们意想不到的结果，也是只有在推理成本足够低时才能玩得起的技术。

三、真实场景：当 Agent 开始写 Agent

“它不需要我教，自己去看了文档，把代码跑通了。”

吴鑫在现场没有跑分，而是直接演示了几个“高压”场景。其中最引人注目的是用 Step 3.5 Flash 去探索和编写 Deep Research 的 Wrapper。这不仅是写代码，而是模型在理解业务逻辑。

吴鑫：我想展示一个 Agentic Coding 的 Case。

我们让模型去探索 Deep Research 的 Wrapper。大家注意看视频里的速度（虽然稍微加速了），但模型输入了 10K tokens，几乎是瞬间就开始输出。

Markdown 解析：它的文档还没读到一半，4个章节已经写出来了。
格式化：信息提取非常准确，Markdown 表格、标题、Emoji 的使用完全符合人类开发者的习惯。

还有一个 Step GUI 的例子，这是我们主推的“端云结合”路线。Step 3.5 Flash 在云端作为“大脑”，规划任务；Step GUI 模型在端侧作为“手”，执行操作。

这个 Case 是让 Step 3.5 Flash 相对于 GUI 还是算一个稍大一点的模型，所以它作为大脑去规划和指挥 GUI 模型去干具体的活。比如搜到一个 arXiv 上的文章，把摘要总结出来，然后再发出去。这种功能对于平常没有时间去读非常多论文，但又在了解学术的小伙伴，应该是非常有用的。

另一个 Case 是比价：让 GUI 去比对不同电商平台里面 MacBook 的价格。可以看到端侧模型还是更快的，大脑也非常快。

端云协同，大模型做规划，小模型做执行，这是阶跃星辰在探索的一条差异化路线。

四、接入与实操：兼容与“翻车”现场

“目前 OpenRouter 可能会报 Rate Limit，因为它太快了。”

作为一个刚发布两天的模型，Step 3.5 Flash 对开发者生态的适配做得非常激进。它不仅支持标准的 OpenAI 格式，还深度适配了 Claude Code 的 MCP (Model Context Protocol) 协议。

吴鑫：大家现在就可以上手玩。我们在 OpenRouter 上提供了限免额度（Step 3.5 Flash-free）。

关于接入 MCP Tools 和适配 Skills：我们非常看重 Skills。现场演示里，我把一个 AI Daily News 的 Skill 扔给了 Claude Code 框架下的 Step 3.5 Flash。大家可以看到，它自己去 GitHub 拉取了最新的 Skill 代码，安装依赖，然后开始搜索今天的新闻。

关于“翻车”：刚才有个报错，Rate Limit Exceeded。这不是模型挂了，是因为它生成速度太快，两个请求之间的时间间隔太短，触发了 OpenRouter 的 RPM（每分钟请求数）限制。另外，大家可能会发现 Step 3.5 Flash 有时候思维链（CoT）特别长。这是我们已知的一个 Issue。现在的 Token Efficiency（效率）还不够高，虽然生成得快，但我们希望它能更精简。这是下一版优化的首要目标——在缩短 CoT 的同时，保持住智能水平。

五、主创团队核心 QA 实录

Q1：为了追求 350 TPS 的速度，是否牺牲了工具调用的成功率？

吴鑫：从原理上讲，速度快并不会降低成功率。但在工程细节上，确实会有影响。刚才提到的 MTP 技术，因为推得太快，导致很多下游的解析器（Parser）跟不上。比如我们把 output 分为 thinking content 和 tool call，流式传输时如果切分太快，传统的解析逻辑会出错。这些 Bug 我们基本上都在上线后 24 小时内修复了。但反过来看，我们的目标是，利用高 TPS 带来的时间冗余，让 Agent 有机会进行 Self-Correction（自修正）。错了没关系，因为它快，它有时间再试一次。

Q2：对于不同编程语言的支持有差异吗？

吴鑫：这是一个犀利的问题。坦白讲，我们在 Python 上花了很多功夫。内部指标显示，Python 的支持是最好的，因为我们在 Midi-train 阶段对脚本式语言做了更充分的训练和压缩。对于 C# 或者 C++，虽然也支持，但目前确实存在一些 Noise，我们正在持续补强多语言的原子能力。

Q3：关于 Test-time Scaling（测试时计算扩展）？

吴鑫：我们的 Parallel Scaling（并行推理）技术是和 Flash 模型绝配的。即使 Candidate 里没有正确答案，经过并行推理 + Controller 的反思，模型也可能最终推理出正确答案。因为 Flash 足够快、成本足够低，我们才敢在 Test-time 耗费更多的 Token 去换取更高的智能上限。

Q4：对于复杂的业务系统开发，如何与 Step 3.5 Flash 协作？

吴鑫：我们把能力分为“0 到 1”和“1 到 100”。你可以先描述需求，补充技术栈，让 Step 3.5 Flash 生成一个初版框架（0 到 1），然后在此基础上通过不断的 Prompt 指令进行细节更新（1 到 100）。你描述得越详细，它生成得越好。

在复杂任务中，如果你想让模型不只是编程，还要像数字员工一样操作办公软件，可以给它配置 MCP 工具（比如操作聊天软件、Excel 的工具）。模型理解了这些工具后，就能在长程任务中去编排和使用它们。

Q5：Step 3.5 Flash 是否支持多模态输入？

吴鑫：目前的 Flash 版本是一个纯文本模型。如果涉及到多模态输入，系统会自动路由到我们之前的多模态模型。我们专注于把 Text-to-Action 做到极致，而视觉理解则通过 MCP 工具（如 Step Search 或外挂视觉工具）来解决。

最后：目前 Step 3.5 Flash 已上线官网及 OpenRouter 限免。相关的 Technical Report 和黑客松活动（如汤泉 Hackathon）也将陆续推出。同时，也欢迎大家加入我们阶跃星辰。

这只是 Step 系列的一个开始，后续一定会有 3.6、4.0，甚至更强的版本。但在此刻，这就是我们能拿出的，最适合 Agent 开发者的基座模型。

写在最后

整场直播下来，最大的感受就是：Step 3.5 Flash 真的很快。

快到还没有介绍完，它就已经写完了。快到触发了 API 的 Rate Limit，快到可以支撑 Multi-Agent 并行协作。

但更重要的是，这个“快”不是牺牲智能换来的。从榜单分数到实际 Case，Step 3.5 Flash 在保持高智能密度的同时，做到了极致的推理速度。

在 Agent 时代，推理速度就是生产力。

如果你也想体验这种“眼睛跟不上”的速度，可以去 OpenRouter 上免费试用 Step 3.5 Flash。如果你想深入了解技术细节，可以关注阶跃星辰即将发布的 Tech Report 和后续的 AMA 活动。

开源是一种表态，工程是一种信仰。但速度，才是 Agent 时代的入场券。

一起“点赞”三连↓