news 2026/4/3 4:09:06

阶跃星辰Step-3.5-Flash模型团队分享实录

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
阶跃星辰Step-3.5-Flash模型团队分享实录

Datawhale干货

分享:吴鑫,阶跃星辰算法专家

前天,距离阶跃星辰发布开源基座模型 Step 3.5 Flash 仅过去两天,Datawhale 联合阶跃星辰团队带来了全网第一手深度揭秘。

这是一场关于“如何打造真正为 Agent 而生的极速模型”的技术分享,由阶跃星辰算法专家、Coding Agent 基座研发团队的吴鑫主讲。

当行业还在卷参数规模时,Step 3.5 Flash 选择了一条“高智能密度+极速推理”的非典型路径。

Step 3.5 Flash 已全面开源:

1. GitHub:https://github.com/stepfun-ai/Step-3.5-Flash/tree/main

2. OpenRouter:https://openrouter.ai/stepfun/Step-3.5-Flash:free

3. 魔搭社区:https://modelscope.cn/models/stepfun-ai/Step-3.5-Flash

以下内容基于 24000 字的直播原文整理,在不改变原意的情况下进行了结构化梳理。

一、最重要的升级点:为什么要做 Flash?

“在Agent时代,推理速度就是生产力。”

Step 3.5 Flash 的参数配置乍看之下充满矛盾:总参数量高达 196B,但激活参数却仅有 11B。这是一个极致稀疏的 MoE 架构,稀疏度达到了 20:1。

为什么要在这个时间点,发布这样一个“大得不像Flash,快得不像196B”的模型?

吴鑫:我们的 CTO 在知乎上也分享过,Chatbot 时代,模型只要“够读”就行。但在 Agent 时代,Agent 的生产力直接挂钩于它的迭代速度。

Step 3.5 Flash 的核心定位非常明确:面向实时 Agent 工作流的开源基座。

大家看我们的 Model Page,Step 3.5 Flash 处于坐标轴的右上角,这意味着它的 智能密度(Intelligence Density) 非常高。

  • 参数策略: 总参 196B,激活 11B,稀疏度 20:1。

  • 性能指标: 推理速度高达 350 TPS(Tokens Per Second),混合上下文支持 256K。

我们在做技术决策时基于一个核心假设:Agent 场景下的 Intelligence,不仅仅在于模型参数量的 Scale,更在于智能密度的 Scale。

我们发现,模型在编程或 Agent 场景的能力,与 LiveBench、Verified、Terminal-bench 这些学术榜单的分数是强相关的。所以我们选择了 Flash 这个型号,把智能密度做高,同时把成本打到最低,让开发者在构建 Agent 时真的“用得起、等得起”。

二、 技术团队背后的思考:Midi-train 与架构取舍

“模型不再单一扩展参数量,更需要原子能力作为智能基石。”

在训练策略上,Step 3.5 Flash 引入了一个被称为 Midi-train 的中间阶段。这不同于传统的预训练(Pre-train)或后训练(Post-train)。这是阶跃星辰团队为了解决 Coding Agent “懂代码但不懂框架”这一痛点所做的针对性优化。

吴鑫:这一代模型相比前两代,最大的技术变量就是 Midi-train。

在这个阶段,我们给模型灌输了大量的 原子能力(Atomic Capabilities) 数据。 比如在 Coding 场景,我们不会只教它写 Python,我们会针对前端场景,把 Three.js 的语法、GPU 进行科学计算的能力、甚至页面渲染的“美观度”都拆解成原子能力喂给模型。

我们非常意外地发现,有了这些原子能力垫底,Post-train 阶段变得异常顺利。模型在面对复杂任务时,展现出了一种 近乎直觉的组合能力。它不需要我们去灌输大量的任务模板,就能自己把这些原子能力串联起来。

关于架构设计的两个关键点:

  1. MTP (Multi-Token Prediction) 的双刃剑:我们要快,所以上了 MTP。这不仅仅是为了刷 TPS 数据,而是为了让 Agent 的交互体验不卡顿。 但这也带来了一些意想不到的工程挑战。比如上线第一天我们发现,因为生成速度太快(一个 Delta 里包含了多个 Token),导致下游传统的 Stream Parser 逻辑直接崩了。 “我们其实是昨天才解决的一个 bug。” 这种生成速度过快导致传统逻辑跪掉的问题,反向倒逼了我们工程链路的升级。

  2. 注意力机制的混合(SWA vs Full Attention):我们在 Sliding Window Attention (SWA) 和 Full Attention 之间做了一个 3:1 的混合比例。 为什么不用全 SWA?因为 Agent 需要 State(状态)存储。在长 Context 下,SWA 会有信息损失,而全 Attention 又太慢。我们目前的配比是为了在保留 因果关系(Causal Dependency) 和推理速度之间寻找最优解。

  3. Test-Time Scaling(测试时扩展):因为 Flash 推理速度非常快,所以 Parallel Scaling(并行推理) 技术特别适合它。 我们让模型同时生成多个候选答案,然后通过一个 Controller 去总结和反思。更神奇的是,即使 Candidates 里面没有正确答案,经过 Controller 的反思后,模型也可能最终推理出正确答案。 这是我们意想不到的结果,也是只有在推理成本足够低时才能玩得起的技术。

三、 真实场景:当 Agent 开始写 Agent

“它不需要我教,自己去看了文档,把代码跑通了。”

吴鑫在现场没有跑分,而是直接演示了几个“高压”场景。其中最引人注目的是用 Step 3.5 Flash 去探索和编写 Deep Research 的 Wrapper。这不仅是写代码,而是模型在理解业务逻辑。

吴鑫:我想展示一个 Agentic Coding 的 Case。

我们让模型去探索 Deep Research 的 Wrapper。大家注意看视频里的速度(虽然稍微加速了),但模型输入了 10K tokens,几乎是瞬间就开始输出。

  • Markdown 解析: 它的文档还没读到一半,4个章节已经写出来了。

  • 格式化: 信息提取非常准确,Markdown 表格、标题、Emoji 的使用完全符合人类开发者的习惯。

还有一个 Step GUI 的例子,这是我们主推的“端云结合”路线。Step 3.5 Flash 在云端作为“大脑”,规划任务;Step GUI 模型在端侧作为“手”,执行操作。

这个 Case 是让 Step 3.5 Flash 相对于 GUI 还是算一个稍大一点的模型,所以它作为大脑去规划和指挥 GUI 模型去干具体的活。比如搜到一个 arXiv 上的文章,把摘要总结出来,然后再发出去。这种功能对于平常没有时间去读非常多论文,但又在了解学术的小伙伴,应该是非常有用的。

另一个 Case 是比价:让 GUI 去比对不同电商平台里面 MacBook 的价格。可以看到端侧模型还是更快的,大脑也非常快。

端云协同,大模型做规划,小模型做执行,这是阶跃星辰在探索的一条差异化路线。

四、 接入与实操:兼容与“翻车”现场

“目前 OpenRouter 可能会报 Rate Limit,因为它太快了。”

作为一个刚发布两天的模型,Step 3.5 Flash 对开发者生态的适配做得非常激进。它不仅支持标准的 OpenAI 格式,还深度适配了 Claude Code 的 MCP (Model Context Protocol) 协议。

吴鑫: 大家现在就可以上手玩。我们在 OpenRouter 上提供了限免额度(Step 3.5 Flash-free)。

关于接入 MCP Tools 和 适配 Skills: 我们非常看重 Skills。现场演示里,我把一个 AI Daily News 的 Skill 扔给了 Claude Code 框架下的 Step 3.5 Flash。 大家可以看到,它自己去 GitHub 拉取了最新的 Skill 代码,安装依赖,然后开始搜索今天的新闻。

关于“翻车”: 刚才有个报错,Rate Limit Exceeded。这不是模型挂了,是因为它生成速度太快,两个请求之间的时间间隔太短,触发了 OpenRouter 的 RPM(每分钟请求数)限制。 另外,大家可能会发现 Step 3.5 Flash 有时候 思维链(CoT)特别长。这是我们已知的一个 Issue。现在的 Token Efficiency(效率)还不够高,虽然生成得快,但我们希望它能更精简。这是下一版优化的首要目标——在缩短 CoT 的同时,保持住智能水平。

五、 主创团队核心 QA 实录

Q1:为了追求 350 TPS 的速度,是否牺牲了工具调用的成功率?

吴鑫:从原理上讲,速度快并不会降低成功率。但在工程细节上,确实会有影响。 刚才提到的 MTP 技术,因为推得太快,导致很多下游的解析器(Parser)跟不上。比如我们把 output 分为 thinking content 和 tool call,流式传输时如果切分太快,传统的解析逻辑会出错。这些 Bug 我们基本上都在上线后 24 小时内修复了。 但反过来看,我们的目标是,利用高 TPS 带来的时间冗余,让 Agent 有机会进行 Self-Correction(自修正)。错了没关系,因为它快,它有时间再试一次。

Q2:对于不同编程语言的支持有差异吗?

吴鑫:这是一个犀利的问题。 坦白讲,我们在 Python 上花了很多功夫。内部指标显示,Python 的支持是最好的,因为我们在 Midi-train 阶段对脚本式语言做了更充分的训练和压缩。 对于 C# 或者 C++,虽然也支持,但目前确实存在一些 Noise,我们正在持续补强多语言的原子能力。

Q3:关于 Test-time Scaling(测试时计算扩展)?

吴鑫:我们的 Parallel Scaling(并行推理)技术是和 Flash 模型绝配的。 即使 Candidate 里没有正确答案,经过并行推理 + Controller 的反思,模型也可能最终推理出正确答案。 因为 Flash 足够快、成本足够低,我们才敢在 Test-time 耗费更多的 Token 去换取更高的智能上限。

Q4:对于复杂的业务系统开发,如何与 Step 3.5 Flash 协作?

吴鑫:我们把能力分为“0 到 1”和“1 到 100”。你可以先描述需求,补充技术栈,让 Step 3.5 Flash 生成一个初版框架(0 到 1),然后在此基础上通过不断的 Prompt 指令进行细节更新(1 到 100)。你描述得越详细,它生成得越好。

在复杂任务中,如果你想让模型不只是编程,还要像数字员工一样操作办公软件,可以给它配置 MCP 工具(比如操作聊天软件、Excel 的工具)。模型理解了这些工具后,就能在长程任务中去编排和使用它们。

Q5:Step 3.5 Flash 是否支持多模态输入?

吴鑫:目前的 Flash 版本是一个纯文本模型 。如果涉及到多模态输入,系统会自动路由到我们之前的多模态模型。 我们专注于把 Text-to-Action 做到极致,而视觉理解则通过 MCP 工具(如 Step Search 或外挂视觉工具)来解决。

最后:目前 Step 3.5 Flash 已上线官网及 OpenRouter 限免。相关的 Technical Report 和黑客松活动(如汤泉 Hackathon)也将陆续推出。同时,也欢迎大家加入我们阶跃星辰。

这只是 Step 系列的一个开始,后续一定会有 3.6、4.0,甚至更强的版本。但在此刻,这就是我们能拿出的,最适合 Agent 开发者的基座模型。

写在最后

整场直播下来,最大的感受就是:Step 3.5 Flash 真的很快。

快到还没有介绍完,它就已经写完了。快到触发了 API 的 Rate Limit,快到可以支撑 Multi-Agent 并行协作。

但更重要的是,这个“快”不是牺牲智能换来的。从榜单分数到实际 Case,Step 3.5 Flash 在保持高智能密度的同时,做到了极致的推理速度。

在 Agent 时代,推理速度就是生产力。

如果你也想体验这种“眼睛跟不上”的速度,可以去 OpenRouter 上免费试用 Step 3.5 Flash。如果你想深入了解技术细节,可以关注阶跃星辰即将发布的 Tech Report 和后续的 AMA 活动。

开源是一种表态,工程是一种信仰。但速度,才是 Agent 时代的入场券。

一起“赞”三连

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/31 9:56:50

MII与RMII接口详解:嵌入式以太网MAC-PHY通信基础

1. MII与RMII接口:以太网MAC-PHY通信的物理层基石在嵌入式Linux网络驱动开发中,理解MAC(Media Access Control)与PHY(Physical Layer)之间的接口规范,是构建稳定、可靠以太网通信链路的前提。这…

作者头像 李华
网站建设 2026/4/3 2:42:40

阴阳师辅助效率神器:OAS自动化攻略完全指南

阴阳师辅助效率神器:OAS自动化攻略完全指南 【免费下载链接】OnmyojiAutoScript Onmyoji Auto Script | 阴阳师脚本 项目地址: https://gitcode.com/gh_mirrors/on/OnmyojiAutoScript 阴阳师辅助工具OAS(Onmyoji Auto Script)是每一位…

作者头像 李华
网站建设 2026/3/28 10:56:33

Linux内核Regmap API:寄存器访问的协议无关抽象

1. Regmap API 的设计动因与工程价值在嵌入式 Linux 驱动开发实践中,寄存器访问是贯穿始终的核心操作。无论是操作 SoC 内部外设(如 UART、I2C 控制器、PWM 定时器),还是与外部芯片(如传感器、电源管理 IC、音频编解码…

作者头像 李华
网站建设 2026/3/29 20:57:11

Linux IIO驱动开发实战:LSM6DSOX六轴IMU全链路实现

1. Linux IIO子系统驱动开发:以LSM6DSOX传感器为例的完整实现Linux内核自2.6.38版本起正式引入IIO(Industrial I/O)子系统,专为高精度、多通道、低速率工业传感器设计。与传统的字符设备驱动不同,IIO提供了一套标准化的…

作者头像 李华
网站建设 2026/3/31 0:58:57

Degrees of Lewdity中文整合包零基础入门指南

Degrees of Lewdity中文整合包零基础入门指南 【免费下载链接】DOL-CHS-MODS Degrees of Lewdity 整合 项目地址: https://gitcode.com/gh_mirrors/do/DOL-CHS-MODS 一、整合包概述 Degrees of Lewdity中文整合包是针对中国玩家开发的一站式游戏资源解决方案&#xff0…

作者头像 李华
网站建设 2026/3/29 8:35:06

K歌设备语音助手推荐:夏杰语音VS科大讯飞,谁更懂你的欢唱时光

家用K歌设备已成为年轻人解压、家庭聚会的必备神器,而语音助手作为K歌体验的“灵魂搭档”,直接决定了欢唱的流畅度与便捷性。在众多语音助手品牌中,科大讯飞与新锐实力派夏杰语音脱颖而出,二者各有特色,但针对K歌设备场…

作者头像 李华