MindSpore开发之路：训练过程的得力助手：回调函数（Callbacks）详解-智慧文博士

训练进行到哪里了？损失值（Loss）是在下降吗？
模型的精度（Accuracy）表现如何？
训练到一半，如果程序意外中断，我能从断点处恢复吗？
我能否在训练过程中根据某些条件动态地调整学习率？

要解决这些问题，我们就需要引入一个强大的工具——回调函数（Callbacks）。

1. 回调函数是说明

回调函数就像是我们在模型训练这个“长途旅行”中设置的多个“服务站”。每当训练进行到某个特定节点（如一个epoch结束、一个step完成），模型就会自动“停靠”在这些服务站，执行我们预先定义好的任务，比如记录日志、保存模型、或者调整参数。它们是监控和控制训练过程的关键。

本篇文章将详细介绍MindSpore中的回调机制，让您学会如何利用这些“得力助手”来掌控您的模型训练。

2. 回调函数的基本使用

在MindSpore中，回调函数主要与高阶APImindspore.Model配合使用。在使用model.train()方法时，我们可以通过callbacks参数传入一个或多个回调函数组成的列表。

from mindspore.train.callback import LossMonitor from mindspore import Model # 假设 net, loss_fn, optimizer, dataset 已经定义好 model = Model(net, loss_fn, optimizer) # 创建一个回调函数实例（这里是损失监控器） loss_callback = LossMonitor(per_print_times=100) # 每100个step打印一次loss # 在训练时传入回调函数列表 model.train(epoch=10, train_dataset=dataset, callbacks=[loss_callback])

MindSpore在mindspore.train.callback模块中为我们提供了许多开箱即用的回调函数，下面我们来认识几个最常用的。

3. 核心内置回调函数

3.1`LossMonitor`：实时损失监控器

这是最基础、最常用的回调。它能帮助我们在训练过程中实时打印损失函数的值，让我们直观地判断模型是否在有效地学习（通常表现为损失值稳步下降）。

关键参数：
- per_print_times(int): 每隔多少个step打印一次loss信息。默认为1。
使用示例：

from mindspore.train.callback import LossMonitor # 每100个step打印一次loss loss_cb = LossMonitor(100) # 如果想在每个epoch结束时打印平均loss，可以这样做 # loss_cb = LossMonitor(len(dataset)) model.train(epoch=5, train_dataset=dataset, callbacks=[loss_cb])

输出可能如下所示：

epoch: 1 step: 100, loss is 2.301
epoch: 1 step: 200, loss is 2.298
...

3.2`ModelCheckpoint`：模型状态保存器

训练一个好的模型非常耗时，如果因为意外情况导致训练中断，之前的所有努力都将付诸东流。ModelCheckpoint就是我们的“存档”工具，它可以在训练过程中自动保存模型的权重参数（checkpoint文件）。

工作原理：你可以设置策略，比如“保存训练过程中精度最高的模型”或“每隔5个epoch保存一次模型”。这样，即使训练中断，你也可以加载最近保存的模型权重，从断点处继续训练或直接用于推理。
关键参数：
- prefix(str): checkpoint文件的前缀名。
- directory(str): 保存checkpoint文件的目录。
- config(CheckpointConfig): 一个更详细的配置对象，用于设置保存策略。
CheckpointConfig的关键参数：
- save_checkpoint_steps(int): 每隔多少个step保存一次。
- keep_checkpoint_max(int): 最多保留多少个checkpoint文件。当生成新的文件时，旧的会被删除。
- save_checkpoint_seconds(int): 每隔多少秒保存一次。
使用示例：

from mindspore.train.callback import ModelCheckpoint, CheckpointConfig # 1. 配置保存策略 config = CheckpointConfig( save_checkpoint_steps=1875, # 每1875个step保存一次（假设等于一个epoch） keep_checkpoint_max=10 # 最多保留10个模型文件 ) # 2. 创建ModelCheckpoint回调 # 文件名会是类似 "MyNet-1_1875.ckpt", "MyNet-2_3750.ckpt" ... ckpt_cb = ModelCheckpoint(prefix="MyNet", directory="./checkpoints", config=config) model.train(epoch=10, train_dataset=dataset, callbacks=[loss_cb, ckpt_cb])

3.3`TimeMonitor`：训练耗时监控器

这个回调用于监控训练的耗时，可以帮助我们评估训练效率，分析性能瓶颈。

关键参数：
- data_size(int): 每个epoch的step总数（通常是len(dataset)）。
使用示例：

from mindspore.train.callback import TimeMonitor time_cb = TimeMonitor(data_size=len(dataset)) model.train(epoch=10, train_dataset=dataset, callbacks=[time_cb])

输出会显示每个step的平均耗时以及每个epoch的总耗时。

4. 自定义你的回调函数

虽然内置回调很方便，但有时我们需要实现更个性化的功能，比如：

在每个epoch结束后，在验证集上评估一次模型精度并打印。
当loss连续多个epoch不再下降时，提前终止训练（Early Stopping）。
动态调整学习率。

这时，我们就可以通过继承mindspore.train.callback.Callback基类来创建自己的回调函数。

核心方法重写：你只需要在你关心的“时间点”重写对应的方法即可。
- train_begin(run_context): 训练开始时执行。
- train_end(run_context): 训练结束时执行。
- epoch_begin(run_context): 每个epoch开始时执行。
- epoch_end(run_context): 每个epoch结束时执行。
- step_begin(run_context): 每个step开始时执行。
- step_end(run_context): 每个step结束时执行。
自定义回调示例：

让我们创建一个简单的回调，它会在每个epoch结束后打印一条分割线，并报告当前是第几个epoch。

from mindspore.train.callback import Callback class EpochEndInfo(Callback): """一个在每个epoch结束后打印信息的自定义回调""" def epoch_end(self, run_context): # run_context可以获取到训练过程中的一些信息 cb_params = run_context.original_args() epoch_num = cb_params.cur_epoch_num print(f"----------------- Epoch {epoch_num} is finished! -----------------", flush=True) # 使用自定义回调 epoch_info_cb = EpochEndInfo() model.train(epoch=5, train_dataset=dataset, callbacks=[loss_cb, epoch_info_cb])

输出会是：

epoch: 1 step: 100, loss is 1.892
...
----------------- Epoch 1 is finished! -----------------
epoch: 2 step: 100, loss is 1.532
...

5. 总结

回调函数（Callback）是MindSpore训练流程中一个极其灵活且强大的工具。通过它，我们可以像插件一样，在训练的各个阶段插入自定义逻辑，而无需修改训练主循环的代码。

在本文中，我们学习了：

回调函数的基本用法：在model.train()中通过callbacks参数传入。
核心内置回调：使用LossMonitor监控损失，使用ModelCheckpoint保存模型，使用TimeMonitor监控耗时。
自定义回调：通过继承Callback基类并重写特定方法（如epoch_end）来实现个性化功能。

熟练掌握回调函数的使用，将使你的模型训练过程更加透明、可控和高效。

MindSpore开发之路：训练过程的得力助手：回调函数（Callbacks）详解

1. 回调函数是说明

2. 回调函数的基本使用

3. 核心内置回调函数

3.1`LossMonitor`：实时损失监控器

3.2`ModelCheckpoint`：模型状态保存器

3.3`TimeMonitor`：训练耗时监控器

4. 自定义你的回调函数

5. 总结

Windows WSL部署Ubuntu子系统到其它磁盘上

AI部署深度剖析

转速恒压频比交流变频调速系统Simulink仿真

SWMM深度二次开发专题8：网络分析-最短路径查询

AI综合治理平台服务系统：让智能治理既有精度又有温度

Z-Image-ComfyUI定时任务功能：预约生成图像

1. 回调函数是说明

2. 回调函数的基本使用

3. 核心内置回调函数

3.1LossMonitor：实时损失监控器

3.2ModelCheckpoint：模型状态保存器

3.3TimeMonitor：训练耗时监控器

4. 自定义你的回调函数

5. 总结

Windows WSL部署Ubuntu子系统到其它磁盘上

AI部署深度剖析

转速恒压频比交流变频调速系统Simulink仿真

SWMM深度二次开发专题8：网络分析-最短路径查询

AI综合治理平台服务系统：让智能治理既有精度又有温度

Z-Image-ComfyUI定时任务功能：预约生成图像

3.1`LossMonitor`：实时损失监控器

3.2`ModelCheckpoint`：模型状态保存器

3.3`TimeMonitor`：训练耗时监控器