news 2026/4/3 4:57:21

NPCC(Network-based Proactive Congestion Control)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
NPCC(Network-based Proactive Congestion Control)

文章目录

    • 为什么需要NPCC
    • NPCC是如何工作的
    • NPCC的应用



NPCC(Network-based Proactive Congestion Control)是一种以网络设备为核心的主动拥塞控制技术,支持在网络设备上智能识别拥塞状态,主动发送CNP拥塞通知报文,准确控制服务器发送RoCEv2报文的速率,既可以确保拥塞时的及时降速,又可以避免拥塞已经缓解时的过度降速。


为什么需要NPCC

目前RoCEv2(RDMA over Converged Ethernet version 2)网络应用最广泛的拥塞控制机制,是在网络设备上发现拥塞后,由网络设备向接收端服务器发送携带拥塞标记的报文,接收端服务器随后向发送端服务器发送CNP拥塞通知报文(Congestion Notification Packets,简称CNP报文),以通知发送端服务器降低发送报文的速率,从而缓解拥塞。

传统的拥塞控制机制

智能无损网络中的AI ECN技术采用的就是上述拥塞控制机制,它仅要求网络设备在报文中打上拥塞标记,其他协议功能在服务器上实现。但当接收端服务器与发送端服务器距离较远时,该机制存在以下问题:

  • 响应慢:发生拥塞的是网络设备,然而对拥塞进行反馈的是接收端,当网络规模较大时,过长的拥塞反馈路径可能让发送端不能及时降速,甚至提前升速导致拥塞加剧;
  • 响应不准确:网络拥塞状态只能通过报文中的拥塞标记获得,接收端生成的CNP报文个数不能准确缓解拥塞。且在拥塞缓解过程中,转发设备仍然会持续进行拥塞标记,很容易造成吞吐过低。

NPCC功能支持在网络设备上智能识别拥塞状态,由网络设备主动向发送端服务器发送CNP报文,使发送端服务器及时降低发送报文的速率。不仅解决了拥塞反馈路径过长的问题,而且可以准确控制发送的CNP报文个数。既可以确保拥塞时的及时降速,又可以避免拥塞已经缓解时的过度降速。但由于启用NPCC功能的网络设备需要自行维护RoCEv2流表、计算CNP报文数目、构造和发送CNP报文,这个过程需要花费的时间相对较长,因此,在两端服务器距离较远的场景中使用NPCC更有收益。


NPCC的拥塞控制机制

NPCC是如何工作的

NPCC工作原理

NPCC的工作原理如上图所示。

  1. 维护RoCEv2流表,获取路径信息。
    开启NPCC功能的网络设备会根据报文的源IP地址、目的IP地址、Dest QP字段和端口索引信息建立和维护RoCEv2流表,以获知RoCEv2流的地址信息和转发路径。

  2. 检测队列拥塞状态,计算CNP报文数目。
    网络设备对端口中开启了NPCC功能的队列的队列长度(即缓存占用量)进行检测,根据队列的拥塞状态智能计算主动发送的CNP报文数目:

  • 队列长度上涨:队列浅时,发送少量CNP报文,防止拥塞状态误判断;队列深时,发送较多的CNP报文,快速缓解队列拥塞,降低转发时延。
  • 队列长度下降:队列浅时,不发送CNP报文,防止过度降速造成吞吐下降;队列深时,发送少量的CNP报文,在尽量保证吞吐和时延性能的情况下缓解队列拥塞。
  • 队列长度突发小抖动:认为出现了微突发场景,此时不发送CNP报文,防止出现过度降速。
  1. 构造CNP报文并转发。
    网络设备根据计算出的CNP报文数目和RoCEv2流表中的地址信息构造CNP报文,并向发送端服务器主动发送CNP报文,服务器收到后降低RoCEv2报文的发送速率。

NPCC的应用

如下图所示,在数据中心互联的长距场景中,DeviceA和DeviceB作为数据中心互联的出口设备,当DeviceA的出端口发生拥塞时,DeviceA会向DC2的接收端服务器发送携带拥塞标记的报文,DC2的接收端服务器随后向DC1的发送端服务器发送CNP报文,DC1的发送端服务器接收到CNP报文后降低发送报文的速率。由于两个数据中心距离很远,消耗时间较长,因此无法达到及时降速的效果。

在DeviceA上开启NPCC功能后,当DeviceA的出端口发生拥塞时,由DeviceA直接向DC1的发送端服务器发送CNP报文,可以达到及时降速,缓解拥塞的效果。


数据中心互联的长距场景


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/30 11:26:39

【计网全栈通关】第 1 篇:体系结构从 OSI 到 TCP/IP

0. 导读无论是为了应对考研 408 的严苛理论,还是三级网络技术的实操考点,体系结构都是一切的基石。本文将带你跳出枯燥的课本,用对比视角深度掌握网络的分层逻辑与城域网核心技术。1. 考研核心:分层模型与协议原理1.1 三大模型对比…

作者头像 李华
网站建设 2026/3/30 8:36:20

AI侦测模型数据增强实战:云端自动扩增,效率翻倍

AI侦测模型数据增强实战:云端自动扩增,效率翻倍 引言:为什么需要云端数据增强? 当你训练AI侦测模型时,是否经常遇到这样的困境:标注好的数据集太小,模型总是过拟合;想在本地做数据…

作者头像 李华
网站建设 2026/3/31 17:29:05

荣耀设备优势是什么?学生/上班族/长辈等群体适用机型推荐

荣耀x60pro价格 身边越来越多人换手机时会优先考虑荣耀,不管是学生党、上班族还是长辈,似乎都能在荣耀的产品线里找到合心意的机型。 作为用过荣耀三款不同系列设备的“老用户”,我发现它能圈粉各个群体,关键在于精准击中了不同人…

作者头像 李华
网站建设 2026/3/31 0:36:44

AI侦测模型压缩部署:云端量化蒸馏+边缘设备导出

AI侦测模型压缩部署:云端量化蒸馏边缘设备导出 引言:为什么需要模型压缩? 想象一下,你有一个功能强大的AI侦测模型,可以准确识别摄像头画面中的人、车、物体。但当你尝试把这个模型部署到摄像头等边缘设备时&#xf…

作者头像 李华
网站建设 2026/3/11 12:59:35

AI黑客画像生成:Stable Diffusion安全应用

AI黑客画像生成:Stable Diffusion安全应用实战指南 引言:当AI绘画遇上网络安全 想象一下这样的场景:作为威胁情报分析师,你手头有一堆零散的攻击日志和IP地址,但始终无法在脑海中勾勒出攻击者的完整形象。这时&#…

作者头像 李华
网站建设 2026/4/1 2:07:37

从零部署AI侦测模型:保姆级云端教程,1小时1块钱

从零部署AI侦测模型:保姆级云端教程,1小时1块钱 1. 为什么选择云端GPU做毕业设计? 毕业设计要用到目标检测,但实验室GPU要排队两周,而deadline只剩一个月——这是很多AI专业学生遇到的经典困境。传统本地部署面临三个…

作者头像 李华