YOLO-v8.3实战教程：结合LabelImg制作VOC格式数据集-智慧文博士

YOLO-v8.3实战教程：结合LabelImg制作VOC格式数据集

1. 引言

1.1 学习目标

本文旨在为计算机视觉开发者和深度学习初学者提供一套完整的YOLOv8.3实战指南，重点讲解如何从零开始构建一个符合PASCAL VOC标准的数据集，并使用LabelImg工具完成标注流程。通过本教程，读者将掌握：

LabelImg的安装与基本操作
创建符合VOC格式的目录结构
标注图像并生成XML标签文件
将VOC数据集转换为YOLO训练所需的格式
在YOLOv8镜像环境中进行模型训练的完整流程

最终实现端到端的目标检测项目开发能力。

1.2 前置知识

建议读者具备以下基础：

Python编程基础
Linux命令行基本操作
深度学习与目标检测的基本概念

本教程基于CSDN提供的YOLO-V8镜像环境展开，已预装PyTorch、Ultralytics等必要依赖，无需手动配置复杂环境。

2. YOLO技术背景与核心价值

2.1 YOLO系列发展概述

YOLO（You Only Look Once）是由华盛顿大学的Joseph Redmon和Ali Farhadi提出的一种实时目标检测算法，首次发布于2015年。其核心思想是将目标检测任务视为单一的回归问题，直接在图像上预测边界框和类别概率，实现了极高的推理速度。

经过多个版本迭代，Ultralytics公司推出的YOLOv8在精度、速度和灵活性方面达到新的高度。而YOLO-v8.3作为后续优化版本，在小目标检测、边缘设备部署和多任务支持（检测+分割）上进一步提升。

2.2 为什么选择YOLOv8.3？

相比早期版本和其他检测框架（如Faster R-CNN、SSD），YOLOv8.3具有以下优势：

高效率：单次前向传播即可完成检测，适合实时应用
易用性：API简洁，支持Python一键调用
模块化设计：可灵活替换主干网络、 Neck结构和检测头
多任务支持：统一架构支持目标检测、实例分割、姿态估计等任务

这些特性使其广泛应用于智能安防、自动驾驶、工业质检等领域。

3. 环境准备与项目初始化

3.1 使用YOLO-V8镜像环境

本文所使用的YOLO-V8镜像是由CSDN提供的深度学习开发环境，包含以下组件：

Ubuntu 20.04 LTS
Python 3.9
PyTorch 1.13 + CUDA 11.7
Ultralytics YOLOv8 官方库
Jupyter Notebook 交互式开发环境
OpenCV、NumPy、Pillow 等常用视觉库

该镜像可通过CSDN星图平台一键部署，极大简化了环境搭建过程。

3.2 启动Jupyter开发环境

登录镜像后，可通过以下步骤启动Jupyter：

jupyter notebook --ip=0.0.0.0 --port=8888 --allow-root --no-browser

访问提示中的URL地址即可进入Web IDE界面，推荐在此环境下编写代码并调试。

注意：若需远程SSH连接，请参考官方文档开启端口映射与密钥认证。

4. 数据集构建：使用LabelImg制作VOC格式标注

4.1 LabelImg简介与安装

LabelImg是一款开源的图形化图像标注工具，支持PASCAL VOC和YOLO两种格式输出。它采用Python + Qt开发，跨平台兼容性强。

在YOLO-V8镜像中已预装LabelImg，可直接运行：

labelImg

若未安装，可通过pip快速获取：

pip install labelimg

4.2 创建VOC格式数据集结构

PASCAL VOC数据集有严格的目录规范，建议创建如下结构：

dataset/ ├── JPEGImages/ # 存放原始图像（.jpg） ├── Annotations/ # 存放XML标注文件 ├── ImageSets/ │ └── Main/ # 存放训练/验证集划分文件 │ ├── train.txt │ └── val.txt

创建命令如下：

mkdir -p dataset/{JPEGImages,Annotations,ImageSets/Main}

4.3 使用LabelImg进行图像标注

步骤一：加载图像目录

打开LabelImg后点击“Open Dir”按钮
选择dataset/JPEGImages目录
设置保存路径为dataset/Annotations

步骤二：开始标注

按快捷键W创建矩形框
输入对象类别名称（如car、person）
完成后按Ctrl+S保存，自动生成同名XML文件

步骤三：设置自动保存模式

勾选“Auto Save mode”，每次切换图片时自动保存标注结果，避免遗漏。

最佳实践：建议统一使用英文类别名，避免编码问题；标注过程中保持类别拼写一致。

5. VOC转YOLO格式：适配模型训练需求

5.1 VOC与YOLO标签格式差异

格式	坐标表示	文件扩展名	示例
VOC	[xmin, ymin, xmax, ymax]	.xml	包含完整XML结构
YOLO	[class_id, x_center, y_center, width, height]	.txt	单行数值

YOLO要求归一化的相对坐标（范围0~1），因此需要转换。

5.2 编写VOC转YOLO脚本

import os import xml.etree.ElementTree as ET from pathlib import Path def convert_voc_to_yolo(voc_dir, yolo_dir, class_names): """ 将VOC格式XML标注转换为YOLO格式TXT :param voc_dir: XML文件目录 :param yolo_dir: 输出TXT目录 :param class_names: 类别列表 """ os.makedirs(yolo_dir, exist_ok=True) for xml_file in Path(voc_dir).glob("*.xml"): tree = ET.parse(xml_file) root = tree.getroot() image_width = int(root.find('size/width').text) image_height = int(root.find('size/height').text) yolo_lines = [] for obj in root.findall('object'): class_name = obj.find('name').text if class_name not in class_names: continue class_id = class_names.index(class_name) bbox = obj.find('bndbox') xmin = float(bbox.find('xmin').text) ymin = float(bbox.find('ymin').text) xmax = float(bbox.find('xmax').text) ymax = float(bbox.find('ymax').text) # 归一化并计算中心点与宽高 x_center = ((xmin + xmax) / 2) / image_width y_center = ((ymin + ymax) / 2) / image_height width = (xmax - xmin) / image_width height = (ymax - ymin) / image_height yolo_lines.append(f"{class_id} {x_center:.6f} {y_center:.6f} {width:.6f} {height:.6f}") # 保存为.txt文件 txt_path = os.path.join(yolo_dir, xml_file.stem + ".txt") with open(txt_path, "w") as f: f.write("\n".join(yolo_lines)) # 示例调用 CLASS_NAMES = ["person", "car", "dog"] # 替换为实际类别 convert_voc_to_yolo( voc_dir="dataset/Annotations", yolo_dir="dataset/labels", class_names=CLASS_NAMES )

5.3 生成数据集划分文件

创建训练集和验证集列表：

import os from sklearn.model_selection import train_test_split image_files = [f"JPEGImages/{f}" for f in os.listdir("dataset/JPEGImages")] train_files, val_files = train_test_split(image_files, test_size=0.2, random_state=42) with open("dataset/ImageSets/Main/train.txt", "w") as f: f.write("\n".join(train_files)) with open("dataset/ImageSets/Main/val.txt", "w") as f: f.write("\n".join(val_files))

6. 配置YOLO训练参数与启动训练

6.1 创建数据配置文件

新建data.yaml文件：

train: /root/dataset/images/train val: /root/dataset/images/val nc: 3 names: ['person', 'car', 'dog']

确保路径正确指向图像和标签目录。

6.2 启动模型训练

进入Ultralytics项目目录并执行训练脚本：

from ultralytics import YOLO # 加载预训练模型 model = YOLO("yolov8n.pt") # 开始训练 results = model.train( data="data.yaml", epochs=100, imgsz=640, batch=16, name="exp_voc" )

训练过程将在控制台输出损失曲线、mAP等指标，同时保存最佳权重至runs/detect/exp*/weights/best.pt。

6.3 推理与可视化

训练完成后进行推理测试：

results = model("dataset/JPEGImages/test.jpg") results[0].show() # 显示带框图像

7. 总结

7.1 核心收获回顾

本文系统地介绍了基于YOLOv8.3的目标检测全流程实践，涵盖：

利用LabelImg高效构建VOC格式数据集
实现VOC到YOLO格式的自动化转换
在CSDN YOLO-V8镜像中完成环境配置与模型训练
提供可复用的Python脚本与配置模板

7.2 最佳实践建议

标注质量优先：确保边界框紧密贴合目标，避免漏标或误标
数据多样性：覆盖不同光照、角度、遮挡情况以提升泛化能力
定期验证：每10个epoch手动检查验证集效果，防止过拟合
备份权重：保留多个checkpoint以便回退分析

7.3 下一步学习路径

尝试使用Albumentations进行数据增强
探索YOLOv8的分割与姿态估计功能
部署模型至ONNX或TensorRT加速推理

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

YOLO-v8.3实战教程：结合LabelImg制作VOC格式数据集