资源监控脚本编写：实时查看GPU利用率与显存消耗-智慧文博士

资源监控脚本编写：实时查看GPU利用率与显存消耗

引言：为何需要实时监控GPU资源？

在深度学习模型推理和训练过程中，GPU资源的使用情况直接关系到任务效率、系统稳定性以及硬件成本。尤其是在部署像“万物识别-中文-通用领域”这类由阿里开源的视觉大模型时，其对显存和计算能力的需求较高，稍有不慎就可能导致显存溢出（OOM）或GPU利用率长期偏低，造成资源浪费。

当前项目运行环境基于PyTorch 2.5，位于/root目录下，并已提供完整的pip依赖列表文件。用户通过激活conda activate py311wwts环境后即可执行推理脚本推理.py。然而，在实际调试与部署中发现，缺乏对 GPU 利用率与显存消耗的实时可观测性，使得性能瓶颈难以定位。

本文将手把手教你编写一个轻量级资源监控脚本，能够在模型推理期间持续输出 GPU 使用状态，帮助你： - 实时掌握显存占用趋势 - 分析 GPU 利用率是否饱和 - 快速识别内存泄漏或资源闲置问题 - 优化批处理大小（batch size）与推理频率

技术选型：为什么选择`pynvml`而非`nvidia-smi`？

虽然nvidia-smi是最常用的 GPU 监控工具，但它本质上是一个命令行程序，频繁调用会带来较大的系统开销，且解析输出较为繁琐。相比之下，pynvml（Python NVIDIA Management Library）是 NVIDIA 提供的官方 Python 接口，具有以下优势：

| 对比维度 |nvidia-smi命令行 |pynvmlPython 库 | |----------------|-------------------------------|----------------------------------| | 调用频率 | 高频调用性能差 | 支持毫秒级低延迟查询 | | 数据结构化 | 输出为字符串，需正则解析 | 返回字典/数值类型，便于处理 | | 多卡支持 | 支持但需额外参数 | 原生支持多GPU枚举 | | 安装依赖 | 系统自带 | 需安装pynvml包（轻量） | | 可嵌入性 | 不易集成进主流程 | 可无缝嵌入训练/推理代码 |

✅结论：对于需要嵌入到推理.py中进行细粒度监控的场景，pynvml是更优选择。

实现步骤详解：构建实时监控模块

我们将分三步实现一个可复用的 GPU 监控类GPUMonitor，并将其集成进现有推理流程。

第一步：安装依赖并验证环境

确保pynvml已安装。由于你在/root下已有requirements.txt或类似依赖文件，建议检查是否包含：

pip install pynvml

⚠️ 注意：某些环境中pynvml可能以nvidia-ml-py名义发布，请使用如下命令统一安装：
bash pip install nvidia-ml-py

验证安装成功：

import pynvml pynvml.nvmlInit() print("NVML 初始化成功，GPU 数量：", pynvml.nvmlDeviceGetCount())

若无报错并正确输出 GPU 数量，则环境准备就绪。

第二步：编写核心监控类`GPUMonitor`

以下是完整可运行的GPUMonitor类实现，支持单卡与多卡环境下的实时监控。

import pynvml import time from typing import Dict, List class GPUMonitor: def __init__(self, device_ids: List[int] = None): """ 初始化GPU监控器 :param device_ids: 指定监控的GPU ID列表，None表示所有GPU """ try: pynvml.nvmlInit() except Exception as e: raise RuntimeError(f"NVML初始化失败，请确认NVIDIA驱动正常：{e}") self.device_count = pynvml.nvmlDeviceGetCount() self.device_ids = device_ids if device_ids is not None else list(range(self.device_count)) # 校验设备ID合法性 for dev_id in self.device_ids: if dev_id >= self.device_count or dev_id < 0: raise ValueError(f"无效的GPU ID: {dev_id}，可用范围 [0, {self.device_count - 1}]") def get_gpu_info(self, device_id: int) -> Dict[str, any]: """ 获取指定GPU的详细信息 """ handle = pynvml.nvmlDeviceGetHandleByIndex(device_id) mem_info = pynvml.nvmlDeviceGetMemoryInfo(handle) utilization = pynvml.nvmlDeviceGetUtilizationRates(handle) return { "gpu_id": device_id, "name": pynvml.nvmlDeviceGetName(handle).decode("utf-8"), "temp_celsius": pynvml.nvmlDeviceGetTemperature(handle, pynvml.NVML_TEMPERATURE_GPU), "power_watts": pynvml.nvmlDeviceGetPowerUsage(handle) / 1000.0, # 单位 mW → W "power_limit_watts": pynvml.nvmlDeviceGetPowerManagementLimit(handle) / 1000.0, "memory_used_mb": mem_info.used / (1024 ** 2), "memory_total_mb": mem_info.total / (1024 ** 2), "memory_utilization_percent": (mem_info.used / mem_info.total) * 100, "gpu_utilization_percent": utilization.gpu, "encoder_util": utilization.encoder, "decoder_util": utilization.decoder, } def monitor_once(self) -> List[Dict]: """ 单次采集所有指定GPU的状态 """ return [self.get_gpu_info(dev_id) for dev_id in self.device_ids] def start_monitoring(self, interval_sec: float = 1.0, duration_sec: float = None): """ 持续监控GPU状态 :param interval_sec: 采样间隔（秒） :param duration_sec: 总监控时长，None表示无限循环 """ start_time = time.time() print(f"[GPU监控启动] 间隔={interval_sec}s，目标设备={self.device_ids}") print(f"{'时间':<12} {'GPU':<4} {'显存(MB)':<10} {'占比(%)':<8} {'算力(%)':<7} {'温度(°C)':<8} {'功耗(W)':<6}") print("-" * 60) try: while True: current_time = time.time() if duration_sec and (current_time - start_time) > duration_sec: break timestamp = time.strftime("%H:%M:%S") stats = self.monitor_once() for stat in stats: print( f"{timestamp:<12}" f"{stat['gpu_id']:<4}" f"{stat['memory_used_mb']:<10.1f}" f"{stat['memory_utilization_percent']:<8.1f}" f"{stat['gpu_utilization_percent']:<7.1f}" f"{stat['temp_celsius']:<8.1f}" f"{stat['power_watts']:<6.1f}" ) time.sleep(interval_sec) except KeyboardInterrupt: print("\n[GPU监控结束] 用户中断") finally: pynvml.nvmlShutdown()

第三步：集成进`推理.py`主流程

假设你的原始推理.py结构如下：

import torch from PIL import Image import models # 假设为阿里开源模型 def load_model(): model = models.load("wuyi-shibie-chinese-base") model.eval() return model.cuda() def infer(image_path): image = Image.open(image_path).convert("RGB") input_tensor = transform(image).unsqueeze(0).cuda() with torch.no_grad(): output = model(input_tensor) return parse_output(output)

我们可以在推理前后加入监控逻辑，例如监控整个推理过程中的资源变化：

# 在文件顶部导入 from gpu_monitor import GPUMonitor # 假设上面的类保存为 gpu_monitor.py # 主函数修改示例 if __name__ == "__main__": # 启动独立线程进行监控（避免阻塞） import threading monitor = GPUMonitor(device_ids=[0]) # 根据实际情况调整 stop_event = threading.Event() def run_monitor(): monitor.start_monitoring(interval_sec=0.5, duration_sec=None) monitor_thread = threading.Thread(target=run_monitor, daemon=True) monitor_thread.start() time.sleep(1) # 等待监控启动 print("开始加载模型...") model = load_model() time.sleep(1) print("开始推理...") result = infer("/root/workspace/bailing.png") print("推理完成：", result) stop_event.set() monitor_thread.join(timeout=2)

💡提示：若不想长期运行监控，也可改为上下文管理器模式，仅在关键阶段启用。

实践问题与优化建议

❌ 常见问题1：`pynvml.nvmlInit()`报错“Driver Not Loaded”

原因：NVIDIA 驱动未正确加载或容器内权限不足。

解决方案： - 检查nvidia-smi是否能正常运行 - 若在 Docker 中，确保使用--gpus all启动 - 检查内核模块：lsmod | grep nvidia

❌ 常见问题2：监控影响推理性能

现象：每 0.1 秒采样一次导致 CPU 占用升高。

优化方案： - 将采样间隔从0.1s放宽至0.5s- 使用异步非阻塞方式记录日志到文件，而非打印到终端 - 关键阶段（如前向传播）结束后再集中采样一次

# 示例：只在推理前后采样 before_stat = monitor.monitor_once()[0] output = model(input_tensor) after_stat = monitor.monitor_once()[0] print(f"推理前显存: {before_stat['memory_used_mb']:.1f}MB") print(f"推理后显存: {after_stat['memory_used_mb']:.1f}MB") print(f"新增占用: {after_stat['memory_used_mb'] - before_stat['memory_used_mb']:.1f}MB")

✅ 最佳实践建议

按阶段监控：模型加载、预处理、推理、后处理分别记录资源使用
写入日志文件：生产环境应将监控数据写入.csv或 JSON 文件便于分析
设置告警阈值：当显存 > 90% 或温度 > 85°C 时触发警告
结合 TensorBoard：可将 GPU 数据推送至可视化仪表盘

扩展功能：自动检测显存峰值

有时我们关心的是最大瞬时显存占用，而非平均值。可以扩展GPUMonitor添加峰值追踪功能：

class PeakGPUMonitor(GPUMonitor): def __init__(self, device_ids=None): super().__init__(device_ids) self.peak_memory_mb = {dev_id: 0 for dev_id in self.device_ids} def update_peaks(self): stats = self.monitor_once() for stat in stats: dev_id = stat["gpu_id"] used_mb = stat["memory_used_mb"] if used_mb > self.peak_memory_mb[dev_id]: self.peak_memory_mb[dev_id] = used_mb def get_peak_memory(self): return self.peak_memory_mb

使用方式：

peak_monitor = PeakGPUMonitor([0]) # 在推理过程中定期调用 for _ in range(10): peak_monitor.update_peaks() infer("image.png") print("显存峰值:", peak_monitor.get_peak_memory())

总结：构建可持续观测的AI服务基础设施

本文围绕“万物识别-中文-通用领域”这一阿里开源图像识别模型的实际部署需求，介绍了如何通过pynvml构建一套轻量、高效、可嵌入的 GPU 资源监控系统。

🎯 核心收获总结

技术价值：实现了对 GPU 显存、算力、温度等关键指标的程序化访问
工程落地：提供了可直接集成进推理.py的完整类实现
问题定位：帮助识别模型加载阶段的显存突增、推理空转等性能瓶颈
扩展性强：支持多卡、峰值统计、阈值告警等高级功能

🛠️ 推荐下一步动作

将GPUMonitor类保存为gpu_monitor.py并放入工作区
修改推理.py路径指向/root/workspace/bailing.png
运行前先测试python gpu_monitor.py是否能正常输出 GPU 状态
在每次模型升级或输入尺寸变更时，重新采集资源数据以评估影响

🔍最终目标：让每一次推理都“看得见”，让每一帧显存都“可追溯”。

通过这套监控机制，你不仅能更好地驾驭当前的中文通用识别模型，也为未来更大规模的视觉系统部署打下坚实基础。

资源监控脚本编写：实时查看GPU利用率与显存消耗