梁文锋署名，DeepSeek新年开启宏观架构新篇章，破解梯度爆炸与显存墙-智慧文博士

2025年的最后一天，DeepSeek发了篇梁文锋署名的重磅论文。

论文提出的mHC（Manifold-Constrained Hyper-Connections, 流形约束超连接）架构，通过将超连接的残差空间投影到双随机矩阵流形上，成功解决了扩展残差宽度带来的训练不稳定性。

同时配合内核融合与通信重叠等工程优化，以仅6.7%的额外开销实现了模型性能与规模的同步提升。

mHC架构对大规模训练有效，并提供了切实的性能改进和卓越的可扩展性。这将有助于更深入地理解拓扑架构设计，并为基础模型的发展提出有前景的方向。

超宽残差流引发的数值风暴与系统瓶颈

深度神经网络在过去十年的飞速发展，很大程度上归功于残差连接（Residual Connection）这一简洁而深刻的设计。

从ResNet到如今主宰大语言模型的Transformer架构，恒等映射（Identity Mapping），一直是维持深层网络信号传播稳定性的定海神针。

它确保了信号在正向传播中不会随深度增加而过度衰减或放大，同时也保证了反向传播时梯度的顺畅流动。

近期出现的超连接（Hyper-Connections, HC）技术试图打破传统残差连接的局限。

传统的残差流宽度通常与层输入的维度一致，限制了信息的承载能力。

HC通过引入一个扩展因子n，将残差流的宽度扩展为输入的n倍，构建了一个更宽阔的信息高速公路。

这种设计在不显著增加计算量（FLOPs）的前提下，通过增加拓扑结构的复杂性，显著提升了模型的性能。

这种看似完美的扩展方案在实际的大规模训练中遭遇了严峻挑战。

随着网络层数的叠加，原本作为稳定锚点的恒等映射属性被破坏殆尽。

在标准残差中，多层传递可以看作是多个变换的累加，而在HC中，层与层之间的信号传递变成了多个矩阵的连乘。由于原始的HC对连乘矩阵没有任何约束，这些矩阵相乘后的复合映射会迅速偏离恒等变换。

实验数据显示，在27B参数规模的模型训练中，HC方案在12k步左右出现了剧烈的损失发散，梯度范数也随之剧烈波动。

更直观的指标是最大增益幅度（Amax Gain Magnitude），即信号在经过多层传递后的放大倍数。

在HC中，这个数值在正向传播和反向传播中均飙升至3000以上，这意味着信号在网络深处发生了严重的爆炸，彻底破坏了训练的稳定性。

除了数值上的不稳定性，HC还带来了一堵厚重的内存墙。

现代深度学习硬件的瓶颈往往不在于计算能力，而在于内存访问带宽（IO）。HC引入的n倍宽残差流，使得每个Token在每一层的显存读写量成倍增加。

这种巨大的IO开销会导致严重的训练吞吐量下降。

此外，由于矩阵包含可学习参数的线性层，反向传播时需要保存大量的中间激活值，这不仅挤占了宝贵的GPU显存，还迫使开发者不得不使用梯度检查点（Gradient Checkpointing）技术，进一步增加了计算负担。

在涉及跨节点通信的流水线并行中，更宽的残差流也直接导致通信数据量翻了n倍，极大地增加了通信气泡的时间。

利用双随机矩阵流形重塑恒等映射机制

面对HC带来的稳定性挑战，DeepSeek并没有选择退回到简单的恒等映射，而是提出了一种更为精妙的数学解决方案mHC。

mHC的核心思想是将残差流中的可学习映射矩阵投影到一个特定的几何流形上，使其既能像恒等映射一样保持信号传播的稳定，又能像原始HC一样允许不同残差流之间的信息交互。

DeepSeek选择的这个特定流形是双随机矩阵（Doubly Stochastic Matrices）集合，几何上也称为Birkhoff多胞形（Birkhoff Polytope）。

一个矩阵被称为双随机矩阵，必须满足三个条件：所有元素非负，每一行的和为1，每一列的和也为1。将矩阵约束为双随机矩阵带来了一系列极其优越的数学性质。

首先是范数保持性质，双随机矩阵的谱范数（最大奇异值）被严格限制在1以内。这意味着这个线性映射是一个非扩张映射，信号经过它处理后，能量不会被无限放大，从而从根源上消除了梯度爆炸的风险。

其次是复合封闭性，双随机矩阵的乘积依然是双随机矩阵。这保证了无论网络堆叠多少层，从浅层到深层的复合映射依然保持在双随机矩阵的流形内，稳定性得以在全网深度上延续。

从几何视角来看，双随机矩阵可以被视为置换矩阵（Permutation Matrices）的凸组合。特征的均值被严格守恒，这是一种非常良态的信号传播机制。它既允许信息在不同的残差流之间串门和融合，又像能量守恒定律一样限制了总信号强度的失控。

当扩展因子n=1时，双随机条件退化为标量1，mHC也就自然回退到了经典的恒等映射，这说明mHC是残差连接的一种更通用的推广形式。

为了在实际计算中实现这一约束，mHC引入了Sinkhorn-Knopp算法。

通过数学上的重构，mHC成功驯服了狂野的超连接。

实验结果表明，在采用mHC后，原本高达3000的信号增益幅度被压制到了1.6左右，这仅仅是因为Sinkhorn-Knopp有限次迭代带来的微小误差，相比之下已经降低了三个数量级。

这种数量级的差异直接转化为训练曲线的平滑，模型不再出现损失值的突然跳变，梯度更新也变得平稳有序。

软硬协同优化突破显存带宽与通信限制

数学上的优雅往往需要工程上的强力支撑才能转化为实际的性能。

mHC引入的n倍宽残差流和Sinkhorn-Knopp迭代计算，如果在传统框架下直接实现，将带来无法接受的显存和时间开销。

为此，DeepSeek团队进行了一系列深度的基础设施优化，从内核融合到通信调度，将不可行变成了高效。

针对内存墙问题，核心策略是极致的内核融合（Kernel Fusion）。

在标准的PyTorch实现中，RMSNorm、矩阵乘法、激活函数等操作是分步执行的，每一步都需要将数据从显存搬运到芯片上再搬运回去。

对于mHC这种IO密集型操作，这种模式是致命的。DeepSeek利用TileLang编程模型，开发了定制化的混合精度内核。

显存占用的优化则依赖于精细的重计算（Recomputing）策略。由于n流残差引入了巨大的中间激活值，如果全部保存用于反向传播，显存会瞬间爆满。

mHC采取了一种用计算换显存的策略，在显存占用和计算时间之间取得了最佳平衡。这一策略使得mHC在训练大模型时，显存消耗得到了有效控制，无需牺牲批量大小（Batch Size）。

在大规模分布式训练场景下，流水线并行（Pipeline Parallelism）是必不可少的。

然而，mHC导致的n倍跨节点通信量是一个巨大的瓶颈。

为了解决这个问题，DeepSeek扩展了DualPipe调度策略。

DualPipe原本用于重叠计算和通信，但在mHC场景下，传统的重叠策略失效了，因为通信时间过长。

新的调度方案将计算流分为普通优先级和高优先级。为了不阻塞通信流，负责处理MLP层（前馈网络）的内核被赋予高优先级，并且避免在注意力层使用运行时间过长的持久化内核（Persistent Kernels）。

这种设计允许计算任务被灵活抢占，确保通信与计算在时间轴上能够完美错开。即使在流水线阶段的边界处，通过解耦重计算与通信的依赖，也实现了高效的掩盖。

这一系列软硬兼施的优化效果显著。

在27B参数模型的实际训练中，相比于基线模型，引入扩展因子n=4的mHC仅增加了6.7%的训练时间开销。考虑到mHC带来的性能提升，这微小的额外成本几乎可以忽略不计。

这证明了通过深度的系统级优化，复杂的数学结构完全可以在现有硬件上高效运行。

从3B到27B的实战验证与扩展性分析

DeepSeek在不同规模的模型上对mHC进行了全面验证，模型架构基于混合专家模型（MoE），涵盖了3B、9B和27B参数量级，扩展因子n统一设定为4。

实验不仅关注最终的性能指标，还深入考察了训练过程的稳定性以及随计算量（Compute）和数据量（Token）变化的扩展规律（Scaling Laws）。

在最核心的27B模型对比实验中，mHC展现了压倒性的稳定性优势。相比于基线模型，HC在训练中途频繁出现损失值的震荡和梯度的剧烈波动，而mHC的训练曲线如履平地，损失值稳步下降，最终的验证集损失比基线低了0.021。

这在预训练领域是一个相当可观的差距，通常意味着模型在下游任务上的表现会有显著提升。

梯度范数的监测曲线也证实了这一点，mHC的梯度行为与最稳定的标准残差网络几乎一致，完全消除了HC那种心电图般的剧烈跳动。

下游任务的评测结果进一步印证了mHC的有效性。

在包含BBH、DROP、GSM8K、MATH等8个主流基准测试中，mHC全面超越了基线模型，并在绝大多数任务上击败了原始的HC。

特别是在需要复杂推理能力的BBH和DROP任务上，mHC分别取得了2.1%和2.3%的显著提升。

这表明，mHC不仅修复了训练的不稳定性，其通过流形约束引入的特征混合机制，实际上增强了模型处理复杂信息流和进行深层推理的能力。

扩展性实验（Scaling Experiments）为mHC的应用前景提供了更广阔的支撑。

在计算扩展曲线（Compute Scaling Curve）中，研究人员绘制了不同计算预算下（对应3B、9B、27B模型）mHC相对于基线的性能提升幅度。

结果显示，随着模型规模和计算量的增加，mHC带来的性能红利并没有衰减，始终保持在稳定的正向区间。

这意味着mHC是一项具有良好扩展性的技术，不会因为模型变大而失效。

同时，在3B模型的Token扩展曲线（Token Scaling Curve）中，随着训练数据量的增加，mHC始终保持着对基线的性能压制。

DeepSeek的这项研究开启了一个新的宏观架构设计视角。

通过引入几何流形约束，神经网络可以在保持数学性质良好的前提下，大幅增加拓扑结构的复杂度。

mHC证明了，只要有正确的数学约束和极致的工程优化，我们完全可以在不显著增加计算和时间成本的情况下，突破现有架构的性能天花板。

这为未来万亿参数模型的架构演进，提供了一条既稳健又高效的新路径。

参考资料：

https://arxiv.org/abs/2512.24880

梁文锋署名，DeepSeek新年开启宏观架构新篇章，破解梯度爆炸与显存墙

超宽残差流引发的数值风暴与系统瓶颈

利用双随机矩阵流形重塑恒等映射机制

软硬协同优化突破显存带宽与通信限制

从3B到27B的实战验证与扩展性分析

HunyuanOCR能否替代商业OCR软件？开源社区观点汇总

无需级联！腾讯混元OCR端到端架构让文档问答和字幕提取更高效

BioMedical文献扫描：HunyuanOCR处理专业术语的表现

寒武纪MLU兼容测试：国产AI芯片搭载HunyuanOCR可行性分析

SmartCity智慧城市中枢：多源OCR数据汇聚形成城市知识图谱

北京一般种植牙价格是多少钱