NPCC（Network-based Proactive Congestion Control）-智慧文博士

文章目录

- 为什么需要NPCC
- NPCC是如何工作的
- NPCC的应用

NPCC（Network-based Proactive Congestion Control）是一种以网络设备为核心的主动拥塞控制技术，支持在网络设备上智能识别拥塞状态，主动发送CNP拥塞通知报文，准确控制服务器发送RoCEv2报文的速率，既可以确保拥塞时的及时降速，又可以避免拥塞已经缓解时的过度降速。

为什么需要NPCC

目前RoCEv2（RDMA over Converged Ethernet version 2）网络应用最广泛的拥塞控制机制，是在网络设备上发现拥塞后，由网络设备向接收端服务器发送携带拥塞标记的报文，接收端服务器随后向发送端服务器发送CNP拥塞通知报文（Congestion Notification Packets，简称CNP报文），以通知发送端服务器降低发送报文的速率，从而缓解拥塞。

传统的拥塞控制机制

智能无损网络中的AI ECN技术采用的就是上述拥塞控制机制，它仅要求网络设备在报文中打上拥塞标记，其他协议功能在服务器上实现。但当接收端服务器与发送端服务器距离较远时，该机制存在以下问题：

响应慢：发生拥塞的是网络设备，然而对拥塞进行反馈的是接收端，当网络规模较大时，过长的拥塞反馈路径可能让发送端不能及时降速，甚至提前升速导致拥塞加剧；
响应不准确：网络拥塞状态只能通过报文中的拥塞标记获得，接收端生成的CNP报文个数不能准确缓解拥塞。且在拥塞缓解过程中，转发设备仍然会持续进行拥塞标记，很容易造成吞吐过低。

NPCC功能支持在网络设备上智能识别拥塞状态，由网络设备主动向发送端服务器发送CNP报文，使发送端服务器及时降低发送报文的速率。不仅解决了拥塞反馈路径过长的问题，而且可以准确控制发送的CNP报文个数。既可以确保拥塞时的及时降速，又可以避免拥塞已经缓解时的过度降速。但由于启用NPCC功能的网络设备需要自行维护RoCEv2流表、计算CNP报文数目、构造和发送CNP报文，这个过程需要花费的时间相对较长，因此，在两端服务器距离较远的场景中使用NPCC更有收益。

NPCC的拥塞控制机制

NPCC是如何工作的

NPCC工作原理

NPCC的工作原理如上图所示。

维护RoCEv2流表，获取路径信息。
开启NPCC功能的网络设备会根据报文的源IP地址、目的IP地址、Dest QP字段和端口索引信息建立和维护RoCEv2流表，以获知RoCEv2流的地址信息和转发路径。
检测队列拥塞状态，计算CNP报文数目。
网络设备对端口中开启了NPCC功能的队列的队列长度（即缓存占用量）进行检测，根据队列的拥塞状态智能计算主动发送的CNP报文数目：

队列长度上涨：队列浅时，发送少量CNP报文，防止拥塞状态误判断；队列深时，发送较多的CNP报文，快速缓解队列拥塞，降低转发时延。
队列长度下降：队列浅时，不发送CNP报文，防止过度降速造成吞吐下降；队列深时，发送少量的CNP报文，在尽量保证吞吐和时延性能的情况下缓解队列拥塞。
队列长度突发小抖动：认为出现了微突发场景，此时不发送CNP报文，防止出现过度降速。

构造CNP报文并转发。
网络设备根据计算出的CNP报文数目和RoCEv2流表中的地址信息构造CNP报文，并向发送端服务器主动发送CNP报文，服务器收到后降低RoCEv2报文的发送速率。

NPCC的应用

如下图所示，在数据中心互联的长距场景中，DeviceA和DeviceB作为数据中心互联的出口设备，当DeviceA的出端口发生拥塞时，DeviceA会向DC2的接收端服务器发送携带拥塞标记的报文，DC2的接收端服务器随后向DC1的发送端服务器发送CNP报文，DC1的发送端服务器接收到CNP报文后降低发送报文的速率。由于两个数据中心距离很远，消耗时间较长，因此无法达到及时降速的效果。

在DeviceA上开启NPCC功能后，当DeviceA的出端口发生拥塞时，由DeviceA直接向DC1的发送端服务器发送CNP报文，可以达到及时降速，缓解拥塞的效果。

数据中心互联的长距场景

【计网全栈通关】第 1 篇：体系结构从 OSI 到 TCP/IP

0. 导读无论是为了应对考研 408 的严苛理论，还是三级网络技术的实操考点，体系结构都是一切的基石。本文将带你跳出枯燥的课本，用对比视角深度掌握网络的分层逻辑与城域网核心技术。1. 考研核心：分层模型与协议原理1.1 三大模型对比…

李华

AI侦测模型数据增强实战：云端自动扩增，效率翻倍

AI侦测模型数据增强实战：云端自动扩增，效率翻倍引言：为什么需要云端数据增强？ 当你训练AI侦测模型时，是否经常遇到这样的困境：标注好的数据集太小，模型总是过拟合；想在本地做数据…

李华

荣耀设备优势是什么？学生/上班族/长辈等群体适用机型推荐

荣耀x60pro价格身边越来越多人换手机时会优先考虑荣耀，不管是学生党、上班族还是长辈，似乎都能在荣耀的产品线里找到合心意的机型。作为用过荣耀三款不同系列设备的“老用户”，我发现它能圈粉各个群体，关键在于精准击中了不同人…

李华

AI侦测模型压缩部署：云端量化蒸馏+边缘设备导出

AI侦测模型压缩部署：云端量化蒸馏边缘设备导出引言：为什么需要模型压缩？ 想象一下，你有一个功能强大的AI侦测模型，可以准确识别摄像头画面中的人、车、物体。但当你尝试把这个模型部署到摄像头等边缘设备时&#xf…

李华

AI黑客画像生成：Stable Diffusion安全应用

AI黑客画像生成：Stable Diffusion安全应用实战指南引言：当AI绘画遇上网络安全想象一下这样的场景：作为威胁情报分析师，你手头有一堆零散的攻击日志和IP地址，但始终无法在脑海中勾勒出攻击者的完整形象。这时&#…

李华

从零部署AI侦测模型：保姆级云端教程，1小时1块钱

从零部署AI侦测模型：保姆级云端教程，1小时1块钱 1. 为什么选择云端GPU做毕业设计？ 毕业设计要用到目标检测，但实验室GPU要排队两周，而deadline只剩一个月——这是很多AI专业学生遇到的经典困境。传统本地部署面临三个…

李华