PETRV2-BEV模型训练全攻略：从零开始搭建自动驾驶感知系统-智慧文博士

PETRV2-BEV模型训练全攻略：从零开始搭建自动驾驶感知系统

1. 环境准备与快速开始

想象一下，当自动驾驶汽车行驶在路上时，它需要通过多个摄像头感知周围环境。这些摄像头就像人的眼睛，但每个眼睛看到的视角不同。BEV（Bird's Eye View，鸟瞰图）模型的神奇之处在于，它能将这些不同视角的画面"拼接"成一个从上往下看的统一视图，让车辆能更直观地理解周围物体位置。

PETRV2是当前最先进的BEV感知模型之一，基于飞桨框架开发。它能够：

有效融合多个摄像头的数据
实时处理复杂道路场景
准确检测车辆、行人、障碍物等目标

为什么选择云端训练？训练BEV模型需要强大的GPU算力，普通电脑很难胜任。星图AI算力平台提供了即用即取的GPU资源，就像租用共享单车一样方便，无需购买昂贵硬件。

1.1 快速搭建训练环境

首先激活预配置的conda环境：

conda activate paddle3d_env

验证环境是否正常：

python --version pip list | grep paddle

这个环境已经预装了PaddlePaddle、Paddle3D等必要依赖，省去了繁琐的环境配置过程。

2. 数据与模型准备

2.1 下载预训练模型

预训练模型就像一个有经验的司机，已经学习过大量驾驶数据，能够加速我们的训练过程：

wget -O /root/workspace/model.pdparams https://paddle3d.bj.bcebos.com/models/petr/petrv2_vovnet_gridmask_p4_800x320/model.pdparams

2.2 准备训练数据

我们使用nuscenes v1.0-mini数据集，这是自动驾驶领域的标准数据集：

# 下载数据集 wget -O /root/workspace/v1.0-mini.tgz https://www.nuscenes.org/data/v1.0-mini.tgz # 解压到指定目录 mkdir -p /root/workspace/nuscenes tar -xf /root/workspace/v1.0-mini.tgz -C /root/workspace/nuscenes

这个mini版本包含10个驾驶场景，每个场景约20秒，适合快速验证和调试。

3. 完整训练流程

3.1 数据预处理

原始数据需要转换成模型能理解的格式：

cd /usr/local/Paddle3D # 清理旧的标注文件 rm /root/workspace/nuscenes/petr_nuscenes_annotation_* -f # 生成PETR格式的标注信息 python3 tools/create_petr_nus_infos.py --dataset_root /root/workspace/nuscenes/ --save_dir /root/workspace/nuscenes/ --mode mini_val

这个过程会生成训练所需的标注文件，包括物体边界框、类别标签等信息。

3.2 验证预训练模型

在开始训练前，我们先测试预训练模型的性能：

python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/

评估结果解读：

mAP: 0.2669 # 平均精度，越高越好 mATE: 0.7448 # 位置误差，越低越好 NDS: 0.2878 # 综合评分，主要参考指标

从结果可以看出，预训练模型在mini数据集上已经有不错的表现，特别是对车辆（car: 0.446）和交通锥（traffic_cone: 0.637）的检测效果较好。

3.3 开始模型训练

现在开始正式训练，我们使用以下参数：

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval

参数说明：

epochs 100：训练100轮
batch_size 2：每次处理2个样本（根据GPU显存调整）
learning_rate 1e-4：学习率，控制参数更新幅度
do_eval：每轮训练后都进行验证

3.4 可视化训练过程

训练过程中，我们可以实时查看损失曲线和指标变化：

visualdl --logdir ./output/ --host 0.0.0.0

由于云服务器通常不直接开放Web端口，需要通过SSH隧道访问：

ssh -p 31264 -L 0.0.0.0:8888:localhost:8040 root@gpu-09rxs0pcu2.ssh.gpu.csdn.net

然后在浏览器访问http://localhost:8888即可看到训练可视化界面。

3.5 模型导出与部署

训练完成后，将模型导出为推理格式：

# 创建导出目录 rm -rf /root/workspace/nuscenes_release_model mkdir -p /root/workspace/nuscenes_release_model # 导出模型 python tools/export.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model output/best_model/model.pdparams \ --save_dir /root/workspace/nuscenes_release_model

导出的模型包含三个文件：

model.pdmodel：模型结构
model.pdiparams：模型权重
model.pdiparams.info：模型信息

3.6 运行演示程序

最后，我们可以运行demo程序查看实际效果：

python tools/demo.py /root/workspace/nuscenes/ /root/workspace/nuscenes_release_model nuscenes

这个demo会加载测试数据，使用训练好的模型进行推理，并可视化检测结果，让你直观地看到模型的表现。

4. 进阶训练选项

如果你有更多时间和计算资源，可以尝试训练更大的xtreme1数据集：

4.1 准备xtreme1数据集

cd /usr/local/Paddle3D rm /root/workspace/xtreme1_nuscenes_data/petr_nuscenes_annotation_* -f python3 tools/create_petr_nus_infos_from_xtreme1.py /root/workspace/xtreme1_nuscenes_data/

4.2 训练xtreme1数据集

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/xtreme1_nuscenes_data/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval