门控机制已被广泛应用于各类模型中,从LSTM中的遗忘门,到现代FFN中的SwiGLU,再到Mamba等状态空间模型,门控始终扮演着调节信息流、增强非线性表达的角色。近年来,研究者也尝试将门控引入注意力机制——AlphaFold2、Forgetting Transformer等工作都在Softmax注意力输出端加入了门控。然而,这些尝试大多将其作为整体架构的一部分,缺乏对门控本身作用的系统解耦。
为此,通义千问联合爱丁堡大学、斯坦福大学、麻省理工学院、清华大学的研究者们系统性地探究了引入门控机制对Softmax注意力的影响。研究团队基于1.7B密集模型与15B混合专家模型(MoE),在超过3.5万亿个token的数据集上进行训练。研究发现,在缩放点积注意力(SDPA)之后施加一个**头专属的Sigmoid门控,能够持续提升模型性能。通过对不同门控位置和计算形式的对比分析,研究团队将这种有效性归因于两个关键因素:1) 在Softmax注意力的低秩映射上引入非线性;2) 利用依赖于查询的稀疏门控得分来控制SDPA的输出。稀疏门控机制不仅能够有效缓解注意力池(Attention Sink)和巨量激活(Massive Activation)问题,还能显著提升模型在长上下文外推任务中的表现。研究团队已将效果最佳的SDPA输出门控机制集成至Qwen3-Next模型。此外,该论文从全球5524篇论文中脱颖而出,斩获NeurIPS 2025最佳论文奖!
01实验
如图1所示,研究团队在不同位置引入门控进行对比分析,观察到:
(i) 如表1所示,在SDPA输出处应用头专属门控(G1)能带来最显著的性能提升;
(ii) 如图1右侧所示,SDPA输出门控还能显著提升训练稳定性,几乎完全消除损失尖峰(loss spikes),支持使用更大的学习率,并增强模型的可扩展性。
02分析
通过对不同门控位置和计算形式的对比分析,研究团队将这种有效性归因于两个关键因素:
(1)在Softmax注意力的低秩映射上引入非线性
在多头注意力机制中,第i个token在第k个注意力头的输出可表示为:
其中,
根据上述公式,由于,可以将
合并为一个作用于所有
的低秩线性映射。采用GQA时,
在同一组注意力头间共享,这进一步削弱了表达能力。
考虑到在两个线性映射之间引入非线性可增强其表达能力,团队提出两种改进方案来缓解低秩问题:
G2(Value 输出门控):
G1(SDPA 输出门控):
虽然在G1和G2位置应用门控都能引入这种非线性,但二者带来的性能增益存在差异。这一观察结果促使团队进一步分析门控在这两个位置的影响效应。
(2)利用依赖于查询的稀疏门控得分来控制SDPA的输出。
团队分析了在value(G2)和SDPA输出位置(G1)应用门控模型的门控分数(表1“Gate Score”列)。所有层的平均门控分数呈现在表4中,分数分布可视化见图3。主要发现包括:
(i)有效门控分数具有稀疏性。SDPA输出门控(元素级/头级)展现出最低的平均门控分数。其分数分布高度集中在0附近,表明具有显著稀疏性。
(ii)头专属稀疏至关重要。强制跨注意力头共享门控分数会提高整体门控分数并削弱性能增益。
(iii)查询依赖性具有关键影响。由于SDPA输出门控分数源自当前查询对应的隐藏状态,因此当门控分数具有查询依赖性(而非由键和值决定),这意味着门控分数稀疏性可能过滤掉与查询无关的上下文信息。
(iv)低稀疏度门控效果欠佳。为验证门控分数稀疏性的重要性,团队通过修改门控公式来降低稀疏度:将sigmoid函数替换为改进的非稀疏版本,将门控分数约束在[0.5, 1.0]区间。如表4第(7)行所示,非稀疏sigmoid门控的增益远逊于SDPA输出sigmoid门控。
(3)SDPA输出门控可缓解注意力池和巨量激活
观察到门控机制以查询依赖的方式为SDPA输出引入稀疏性,研究团队提出假设:稀疏门控机制能够过滤掉与当前查询token无关的上下文,从而缓解注意力池问题。
为验证这一假设,研究团队分析了注意力分数的分布(对所有注意力头取平均)以及分配给首token的注意力分数比例。如图2和表4所示,可以观察到:
- 对SDPA输出施加查询依赖、头专属的门控机制,能引入稀疏门控机制从而有效缓解注意力池。
- SDPA输出中的稀疏性还能降低模型内部的巨量激活,且稀疏性越强激活幅度越小。
这或许解释了为何引入门控后训练稳定性得以提升:通过抑制巨量激活,模型在BF16训练过程中对数值误差的敏感性降低。
(4)SDPA输出门控有助于扩展上下文长度
如表5所示,基于“无注意力池”(attention-sink-free)模式,门控模型在长度外推任务中表现卓越。 当使用YaRN将上下文从32K扩展至128K时,基线模型和带门控模型在原始32k范围内的性能均有所下降,但带门控模型的性能下降幅度更小。基线模型在128K长度下的RULER得分仅为31.6,而门控模型达到58.8,领先近27个点。
基于上述观察,研究团队推测:引入门控有助于模型更好地适应上下文长度的扩展。一种可能的解释是,基线模型依赖固定的“注意力池”来调节Softmax分母。当使用YaRN等技术调整上下文长度时,这种静态机制难以适应,从而导致性能明显下降。相比之下,带门控的模型主要依靠动态门控分数来控制信息流,具备更强的泛化能力,无需重训即可稳健处理超长序列。
03总结
该成果系统研究了softmax注意力机制中的门控作用,揭示了其对模型性能、训练稳定性和注意力动态的重要影响。这种简单机制能增强非线性特性,引入查询依赖性稀疏,并消除"注意力池"现象。此外,门控机制还有助于扩展上下文长度,使模型无需重新训练即可有效泛化至更长序列。
研究团队通过对门控机制、模型机制等的深入理解,不仅为LLM架构设计提供了新思路,也为构建更稳定、更高效、更可控的大模型奠定了基础。此外,团队还发布了消除"注意力池"的模型,为未来注意力机制研究提供基础。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。