百度百舸持续开源生产级代码，联合 SGLang 社区打造先进 AI Infra-智慧文博士

当前，Token 的消耗量呈现出年均百倍增长的态势。国家数据局统计显示，截至今年6月底，我国日均Token消耗量从2024年初的1000亿，已经突破至30万亿，1年半时间增长了300多倍。

随着以DeepSeek、Ernie 为代表的 MoE 类推理模型爆火，大规模分布式推理系统的建设成了支持 AI 落地的挑战。推理成本、推理效率、推理稳定性，正在取代参数规模，成为决定AI商业化上限的关键变量。

围绕这一新的行业挑战，在12月14日由百度百舸与SGLang社区联合主办的技术分享活动上，百度百舸将自己在生产系统上的最新实践成果，SGLang将业界最新成果和动态，做了一次系统性分享。

百度百舸持续开源生产级代码，联合 SGLang 社区打造先进 AI Infra

在活动开场致辞中，百度智能云AI计算首席科学家王雁鹏明确表示：百度百舸正在将生产级代码持续开源到开源社区。百度在大规模生产环境中积累的大模型训推系统的各种能力，包括经过大规模系统打磨过的高度稳定的、高度优化的各种核心组件，都将逐一向行业分享。

同时，王雁鹏强调，开源并非一时的决定，而是百度坚信的技术方向和演进路径。未来，百度会持续联合各个社区，以开源的力量推动行业共同成长。

百度智能云AI计算首席科学家王雁鹏

作为大模型时代崛起的重要开源项目之一的SGLang，百度智能云10月份携手SGLang社区，将一套针对DeepSeek-V3.2推理性能优化的 MTP（Multi-Token Prediction，多token预测）技术代码正式开源。SGLang 社区表示这是一项巨大的贡献，社区实测显示，采用这套技术，DeepSeek-V3.2模型解码吞吐量能提升超过2倍。

在王雁鹏看来，推理引擎正变得越来越重要。智能经济时代，推理引擎消耗的算力，将成为最核心的生产资料。如果推理成本做不到足够低，身处大模型产业链上的玩家，就将失去竞争力，难以获取Scaling的效益。

在本次 Meetup 中，百度百舸团队围绕如何建设大规模分布式推理基础设施、DeepSeek V3.2 推理引擎等方面展开了系统性分享。

百度主任架构师田健重点介绍了百度百舸在大规模分布式推理集群基础设施上的实践。

随着大模型到达千亿、万亿规模的时代，其推理的部署也遇到了“不可能三角”的挑战，需要在模型规模指数级增长、部署效率与稳定性和资源成本与弹性之间，寻求新的平衡。

百度百舸新一代大规模分布式推理基础设施，以三大核心支柱破解大模型部署困局：通过自动化编排将分布式实例“原子化”，大幅简化跨节点管理复杂度；创新“静默实例”技术实现秒级资源激活，灵活应对潮汐流量；依托高性能流量调度与“班车调度”算法，极致压榨集群性能。

百度高级架构师刘伟分享了百度百舸基于万卡级生产系统实战经验，面向DeepSeek V3.2在推理引擎层面做的深度优化工作：通过轻量级CP让长文本推理的TTFT近乎线性降低，更创新研发ESS系统破解长文本推理的显存墙困境。

面对DeepSeek V3等MoE模型部署中FFN计算密度不足、GPU利用率低的痛点，百度高级工程师刘国维带来了百度百舸在DeepSeek V3系列模型上的AE分离框架实战，展示了在复杂并行与分离架构下，百度百舸如何在性能、稳定性与运维复杂度之间取得工程平衡。

SGLang 社区：推理框架的边界正在被不断拓展

来自SGLang 社区的 5 位开发者分享了4 个业内最新进展，展现了 SGLang 社区在行业最前沿的动态。

SGLang 核心开发者张懿带来了SGLang在Linear Model优化与Diffusion支持上的最新进展。

随着长序列推理场景等的普及，传统KV Cache管理方式面临挑战。SGLang 在内存管理、投机推理适配等方面进行了大量工程优化，使推理框架能够更好地适配新一代模型结构。

在此基础上，面向DeepSeek等主流模型所指向的统一模型技术迭代路线，SGLang也在尝试从语言模型走向统一生成引擎。11月上线的SGLang Diffusion，便对外释放了一个强烈信号，即SGLang的目标并不是一个LLM引擎，而是统一推理执行层。

来自SGLang Diffusionteam的范舒翼、陈茜，系统介绍了面向图像与视频生成的高性能推理引擎 SGLang Diffusion。在图像与视频生成场景中，SGLang Diffusion通过Pipeline组合、并行策略与Kernel复用，将Diffusion推理性能整体拉升到Diffusers的2–6倍区间，为未来DeepSeek等“理解+生成”统一模型的问世，预留了系统优化空间。

在推理加速方向，SGLang开发者李升桂带来了SpecForge项目，解决了投机推理在真实系统中落地难、稳定性差的问题，让这一理论上成熟的方法，真正具备工程可用性。

同时，来自SGLang RL Team成员李冀，也展示了SGLang在强化学习场景下的最新进展，进一步拓展了推理框架的适用边界。

随着大模型发展重心从训练范式加速转向推理范式，Token消耗需求呈现出远超以往的增长曲线。百度将持续联合开源社区，打造行业领先的AI Infra，不断逼近推理系统的上限，持续满足行业对Token消耗年增百倍的诉求。

百度百舸持续开源生产级代码，联合 SGLang 社区打造先进 AI Infra

百度百舸持续开源生产级代码，联合 SGLang 社区打造先进 AI Infra

SGLang 社区：推理框架的边界正在被不断拓展

数据越采越多，为什么用电管理反而更难了？

人工智能如何很快将人机交互提升到新的水平

Kotaemon TensorRT优化路径探索：NVIDIA显卡特调

Kotaemon如何监控系统健康？内置Metrics暴露详解

Kotaemon是否适合你？适用场景与局限性全面评估

如何用Kotaemon处理超长上下文对话历史？