YOLO26上手指南-智慧文博士

YOLO26当前支持目标检测、实例分割、图像分类、姿态识别、旋转框检测、目标跟踪六大计算机视觉任务，是当前最好用的框架之一。

本文为YOLO26标准仓库ultralytics[1]的使用教程。

安装环境

ultralytics支持两种基本运行模式，源码运行和命令行运行。

下面主要以源码运行为例，进行各项功能的使用。

克隆代码：

git clone https://github.com/ultralytics/ultralytics.git

用uv安装环境：

uv sync

激活环境：

source .venv/bin/activate

目标检测

模型训练

创建一个新的py文件，输入以下命令，即可开始一轮模型训练。

fromultralyticsimportYOLO# Load a COCO-pretrained YOLO26n modelmodel=YOLO("yolo26n.pt")# Train the model on the COCO8 example dataset for 1 epochsresults=model.train(data="ultralytics/cfg/datasets/coco8.yaml",epochs=1,imgsz=640)

其中：

“yolo26n.pt”：指的是用型号官方提供的yolo26n这款预训练模型为基础，进行参数初始化，类似可选的模型共有5种：n/s/m/l/x，参数量和性能依次从小到大，如下表所示：
ultralytics/cfg/datasets/coco8.yaml：指的是用该路径的配置文件，配置文件由两部分构成：数据集路径和类别标签。

path:coco8train:images/trainval:images/valtest:# test images (optional)# Classesnames:0:person1:bicycle2:car

path为项目根路径，train表示以项目根路径为基准，训练集的路径；val表示以项目根路径为基准，验证集的路径；test表示以项目根路径为基准，验证集的路径。

验证集的路径是必须要有的，因为模型在每次训练完之后，默认会执行一轮验证，保存验证集上最佳的模型权重。

测试集可以不需要填写，如果要验证模型的泛化性能的话，可以填写，并在后面做验证时，需要指定测试集。

运行上面的代码后，会自动下载coco8这个数据集，8张图片，4张训练，4张验证。

数据集默认的存放路径为../dataset

一个标准的训练数据集需要按照以下的文件结构排列，标签必须是labels文件夹，名称不可随意修改。

coco8/ ├── images/ │ ├── train/ │ │ ├── 0001.jpg │ │ ├── 0002.jpg │ │ └── ... │ └── val/ │ ├── 0101.jpg │ ├── 0102.jpg │ └── ... ├── labels/ │ ├── train/ │ │ ├── 0001.txt │ │ ├── 0002.txt │ │ └── ... │ └── val/ │ ├── 0101.txt │ ├── 0102.txt │ └── ...

在每一个txt标签中，单个目标以以下五个值排列，例如：

16 0.606687 0.341381 0.544156 0.51

这五个值分别表示：类别id、中心点横坐标、中心点纵坐标、目标宽度、目标高度，宽度和高度是归一化之后的值。

<class_id> <x_center> <y_center> <width> <height>

如果要训练其它的数据集，只需要按照以上规则进行处理即可。

训练完成后，模型默认保存在以下路径：

runs/detect/train/weights

其中，有两个模型：

best.pt：在验证集上效果最好的模型权重
last.pt：最后一轮训练保存的模型权重

在训练时，如果gpu是nvidia的gpu，会自动用cuda进行训练。

如果是macOS系统，会自动用cpu，需要指定device为mps，才能加速训练。

model.train的这个接口，还可以传递更多参数：

核心训练参数：

参数	类型	默认值	说明
`data`	str	-	数据集配置文件路径（如`coco8.yaml`）
`epochs`	int	100	训练轮数
`time`	float	-	最大训练小时数，设置后覆盖`epochs`
`patience`	int	100	早停机制，验证指标不提升的等待轮数
`batch`	int	16	批次大小，-1 表示自动批次
`imgsz`	int/list	640	训练/验证图像尺寸
`save`	bool	True	是否保存训练检查点和预测结果
`save_period`	int	-1	每 N 轮保存一次检查点，< 1 则禁用
`cache`	bool/str	False	缓存图片到 RAM (`True`/‘ram’) 或磁盘 (`'disk'`)
`device`	int/str/list	-	训练设备：`0`/`[0,1,2,3]`/`'cpu'`/`'mps'`，`-1`自动选择空闲 GPU
`workers`	int	8	数据加载工作线程数

优化器与学习率参数：

参数	类型	默认值	说明
`optimizer`	str	auto	优化器：SGD/Adam/Adamax/AdamW/NAdam/RAdam/RMSProp/auto
`lr0`	float	0.01	初始学习率（SGD=1e-2，Adam=1e-3）
`lrf`	float	0.01	最终学习率比例，最终 LR = lr0 × lrf
`momentum`	float	0.937	SGD 动量或 Adam beta1
`weight_decay`	float	0.0005	权重衰减（L2 正则化）
`warmup_epochs`	float	3.0	热身轮数（支持小数）
`cos_lr`	bool	False	使用余弦学习率调度器

数据增强参数：

参数	类型	默认值	说明
`hsv_h`	float	0.015	HSV 色调增强幅度
`hsv_s`	float	0.7	HSV 饱和度增强幅度
`hsv_v`	float	0.4	HSV 亮度增强幅度
`degrees`	float	0.0	旋转角度（±）
`translate`	float	0.1	平移比例（±）
`scale`	float	0.5	缩放增益（±）
`shear`	float	0.0	剪切角度（±）
`perspective`	float	0.0	透视变换比例（0–0.001）
`flipud`	float	0.0	垂直翻转概率
`fliplr`	float	0.5	水平翻转概率
`mosaic`	float	1.0	Mosaic 数据增强概率
`mixup`	float	0.0	MixUp 增强概率
`cutmix`	float	0.0	CutMix 增强概率
`copy_paste`	float	0.0	分割 copy-paste 概率
`close_mosaic`	int	10	最后 N 轮禁用 mosaic 增强
`erasing`	float	0.4	分类随机擦除概率（仅分类任务）

训练控制参数：

参数	类型	默认值	说明
`project`	str	-	项目名称（结果保存根目录）
`name`	str	-	实验名称（结果保存在`project/name`）
`exist_ok`	bool	False	是否覆盖同名实验目录
`pretrained`	bool/str	True	使用预训练权重（布尔值）或从路径加载权重（字符串）
`resume`	bool	False	从运行目录中最后一个检查点恢复训练
`fraction`	float	1.0	使用训练集的比例（1.0 = 全部）
`freeze`	int/list	-	冻结前 N 层（整数）或特定层索引（列表）
`multi_scale`	float	0.0	多尺度训练（变化图像尺寸）
`compile`	bool/str	False	启用`torch.compile()`

验证与日志参数：

参数	类型	默认值	说明
`val`	bool	True	训练时是否运行验证
`split`	str	val	验证集分割：`val`/`test`/`train`
`plots`	bool	True	保存训练/验证过程中的图表和图像
`save_json`	bool	False	保存结果到 COCO JSON 用于外部评估
`conf`	float	-	置信度阈值（预测默认 0.25，验证默认 0.001）
`iou`	float	0.7	NMS 使用的 IoU 阈值
`max_det`	int	300	每张图最大检测数
`verbose`	bool	True	打印详细日志
`seed`	int	0	随机种子，保证可复现性
`deterministic`	bool	True	启用确定性操作（可复现但可能更慢）
`amp`	bool	True	自动混合精度（AMP）训练

损失函数权重参数：

参数	类型	默认值	说明
`box`	float	7.5	边界框损失权重
`cls`	float	0.5	分类损失权重
`dfl`	float	1.5	分布焦点损失权重
`pose`	float	12.0	姿态损失权重（仅姿态任务）
`kobj`	float	1.0	关键点目标损失权重（仅姿态任务）
`rle`	float	1.0	RLE 损失权重（仅姿态任务）
`angle`	float	1.0	旋转角度损失权重（仅 OBB 任务）

任务特定参数参数：

分割任务：

overlap_mask: bool = True（训练时合并实例掩码）
mask_ratio: int = 4（掩码下采样比例）

分类任务：

dropout: float = 0.0（分类头 dropout）

模型验证

模型验证用于在数据的验证集/测试集上，验证训练完的模型性能。

下面是一个基本用法：

fromultralyticsimportYOLO model=YOLO("runs/detect/train/weights/best.pt")metrics=model.val(data="coco8.yaml",imgsz=640)

model.val还支持以下参数：

参数	类型	默认值	说明
`data`	str	-	数据集配置文件路径（如`coco8.yaml`）
`imgsz`	int/list	640	验证图像尺寸（方形或 [h,w]）
`batch`	int	16	批次大小，-1 表示自动批次
`device`	int/str/list	-	验证设备：`0`/`[0,1,2,3]`/`'cpu'`/`'mps'`
`workers`	int	8	数据加载工作线程数
`split`	str	val	数据集分割：`val`/`test`/`train`
`rect`	bool	True	是否使用矩形批次（val 方法默认启用）
`save_json`	bool	False	保存结果到 COCO JSON 用于外部评估
`conf`	float	0.001	置信度阈值（验证默认 0.001）
`iou`	float	0.7	NMS 使用的 IoU 阈值
`max_det`	int	300	每张图最大检测数
`half`	bool	False	如果支持，使用半精度（FP16）
`dnn`	bool	False	使用 OpenCV DNN 进行 ONNX 推理
`plots`	bool	True	保存验证过程中的图表和图像
`project`	str	-	项目名称（结果保存根目录）
`name`	str	-	实验名称（结果保存在`project/name`）
`exist_ok`	bool	False	是否覆盖同名实验目录
`verbose`	bool	True	打印详细日志
`cache`	bool/str	False	缓存图片到 RAM (`True`/‘ram’) 或磁盘 (`'disk'`)

模型推理

模型推理用于对指定图片/图片文件夹进行检测。

下面是一个基本用法：

fromultralyticsimportYOLO model=YOLO("runs/detect/train/weights/best.pt")results=model.predict("ultralytics/assets/bus.jpg",save=True)

结果默认保存在 runs/detect/predict 路径中。

model.predict 还支持以下参数：

核心参数：

参数	类型	默认值	说明
`source`	str/Path/int/PIL/np.ndarray/tensor/list	必填	图像/视频源：文件路径、URL、摄像头索引、PIL 图像、numpy 数组、torch 张量
`conf`	float	0.25	置信度阈值（预测默认 0.25，低于此值的检测将被过滤）
`iou`	float	0.7	NMS 使用的 IoU 阈值
`imgsz`	int/list	640	输入图像尺寸（方形或 [h,w]）
`batch`	int	1	批次大小（predict 方法默认为 1）
`device`	int/str/list	-	推理设备：`0`/`[0,1,2,3]`/`'cpu'`/`'mps'`
`stream`	bool	False	流模式（视频/摄像头建议开启）

输出控制参数：

参数	类型	默认值	说明
`show`	bool	False	在窗口中显示图像/视频
`save`	bool	False	保存预测结果图像
`save_txt`	bool	False	保存结果为`.txt`文件（xywh 格式）
`save_conf`	bool	False	在结果中保存置信度分数
`save_crop`	bool	False	保存裁剪的预测区域到文件
`save_frames`	bool	False	保存视频预测的每一帧
`project`	str	-	项目名称（结果保存根目录）
`name`	str	-	实验名称（结果保存在`project/name`）
`exist_ok`	bool	False	是否覆盖同名实验目录
`verbose`	bool	True	打印详细日志

可视化参数：

参数	类型	默认值	说明
`show_labels`	bool	True	在图像上绘制类别标签
`show_conf`	bool	True	在图像上绘制置信度值
`show_boxes`	bool	True	在图像上绘制边界框
`line_width`	int	-	边界框线宽（未设置则根据图像尺寸自动缩放）
`retina_masks`	bool	False	使用高分辨率分割掩码（仅分割任务）
`vid_stride`	int	1	视频源每隔 N 帧读取一帧
`stream_buffer`	bool	False	True 缓存所有帧；False 只保留最新帧（低延迟流）

其它参数：

参数	类型	默认值	说明
`augment`	bool	False	预测时应用测试时增强（TTA）
`agnostic_nms`	bool	False	类别无关 NMS
`max_det`	int	300	每张图最大检测数
`half`	bool	False	如果支持，使用半精度（FP16）
`dnn`	bool	False	使用 OpenCV DNN 进行 ONNX 推理
`visualize`	bool	False	可视化模型特征（预测）或 TP/FP/FN 混淆矩阵（验证）
`embed`	list[int]	-	从指定层索引返回特征嵌入
`prompts`	-	-	SAM 类模型的提示词

模型转换

模型转换值得是将pytorch模型格式转换成其它格式，用来加速推理或特定用途。

以pt转onnx为例，代码如下：

fromultralyticsimportYOLO model=YOLO("runs/detect/train/weights/best.pt")model.export(format="onnx")

其它支持的格式和对应的参数有：

格式	参数值	说明	适用场景
PyTorch	`torchscript`	TorchScript	通用部署
ONNX	`onnx`	Open Neural Network Exchange	跨平台部署
OpenVINO	`openvino`	Intel OpenVINO	Intel 硬件加速
TensorRT	`engine`	NVIDIA TensorRT	NVIDIA GPU 推理加速
CoreML	`coreml`	Apple CoreML	iOS/macOS 部署
TensorFlow	`saved_model`	TF SavedModel	TensorFlow 生态
TFLite	`tflite`	TensorFlow Lite	移动端/嵌入式
TensorFlow.js	`tfjs`	TensorFlow.js	Web/Node.js 部署
PaddlePaddle	`paddle`	PaddlePaddle	百度生态
MNN	`mnn`	阿里 MNN	移动端部署
NCNN	`ncnn`	腾讯 NCNN	移动端/嵌入式
pb	`pb`	TensorFlow Frozen Graph	TensorFlow 1.x
Edge TPU	`edgetpu`	Google Edge TPU	Google Coral 设备
IMX	`imx`	NXP i.MX	NXP 芯片
RKNN	`rknn`	Rockchip RKNN	瑞芯微芯片

核心参数：

参数	类型	默认值	说明
`format`	str	torchscript	导出格式（见上表）
`imgsz`	int/list	640	输入图像尺寸（方形或 [h,w]）
`batch`	int	1	导出模型的批次大小
`device`	str	-	导出使用的设备：`0`/`'cpu'`/`'mps'`
`half`	bool	False	导出为 FP16 半精度
`int8`	bool	False	导出为 INT8 精度（需要校准数据）
`dynamic`	bool	False	动态输入尺寸（支持变化图像大小）
`simplify`	bool	True	ONNX/engine 图简化
`opset`	int	-	ONNX opset 版本（未设置则使用测试过的默认值）
`workspace`	float	-	TensorRT 工作空间大小（GiB），如`4`
`nms`	bool	False	将 NMS 融入导出的模型
`optimize`	bool	False	TorchScript 移动端优化
`keras`	bool	False	TF SavedModel 启用 Keras 层

了解完目标检测之后，其它几个计算机视觉任务，接口都是差不多的，ultralytics在接口一致性上做的很好。

实例分割

下面是实例分割的推理代码，接口和上面完全一致，只是换了一个模型。

fromultralyticsimportYOLO model=YOLO("yolo26n-seg.pt")results=model.predict("ultralytics/assets/zidane.jpg",save=True)

图像分类

图像分类的推理只需把模型后缀改成cls。

fromultralyticsimportYOLO model=YOLO("yolo26n-cls.pt")results=model.predict("ultralytics/assets/zidane.jpg",save=True)

姿态识别

姿态识别的推理只需把模型后缀改成pose。

fromultralyticsimportYOLO model=YOLO("yolo26n-pose.pt")results=model.predict("ultralytics/assets/zidane.jpg",save=True)

旋转框检测

旋转框检测的推理只需把模型后缀改成obb。

fromultralyticsimportYOLO model=YOLO("yolo26n-obb.pt")results=model.predict("ultralytics/assets/zidane.jpg",save=True)

目标跟踪

目标跟踪会有点不一样，它仍然是基于检测模型去做，但是传入的是视频，并且需要指定跟踪算法。

示例代码如下：

fromultralyticsimportYOLO model=YOLO("yolo26n.pt")results=model.track(source="video.mp4",stream=True,show=True,tracker="botsort.yaml")

跟踪算法除了botsort，还支持bytetrack。

这两个跟踪算法的具体参数，可以在 ultralytics/cfg/trackers 的相应配置文件下去进行调整。

ultralytics除了支持YOLO26以外，还支持从YOLOv3开始的一系列YOLO算法和RT-DETR算法，模型结构具体可在 ultralytics/cfg/models 中进行查看。

参考

[1] https://github.com/ultralytics/ultralytics

YOLO26上手指南

安装环境

目标检测

模型训练

模型验证

模型推理

模型转换

实例分割

图像分类

姿态识别

旋转框检测

目标跟踪

参考

网络安全检测技术全景图：从核心方法到主流工具，构建你的主动预警体系

Llama3-8B企业级部署案例：生产环境中的稳定性调优实践

通义千问3-14B性能优化：RTX4090上80token/s加速秘籍

针对毕业论文选题需求，国内Top10优质平台推荐榜单及详细指南

BGE-M3部署教程：负载均衡与自动扩展配置指南

看完就想试！Qwen3-4B创作的Python游戏代码展示