类脑智能技术与系统——脉冲神经网络（下）-智慧文博士

第三节：代理梯度法及ANN-to-SNN转换

一、代理梯度（Surrogate Gradient）法

（一）核心问题：为什么需要代理梯度？

1. 代理梯度怎么做

脉冲神经元的激活函数（发放脉冲）是一个不可微的阶跃函数。

前向传播：可以顺利工作。输入膜电位，输出脉冲（0或1）。

反向传播（BP）：需要计算损失函数对权重的梯度。这涉及到计算脉冲输出对膜电分的导数。阶跃函数在阈值点处的导数是无穷大（δ函数），在其他点的导数为零。这直接导致梯度无法有效传播（梯度消失），使得标准的BP算法失效。

2. 代理梯度法的核心思想：

在前向传播时使用真实的、不可微的脉冲函数，但在反向传播计算梯度时，用一个平滑的、可微的“代理”函数来替代它。

(二) 工作机制

1. 前向传播 (Forward Pass)：

使用真实的脉冲发放函数（如LIF模型）。计算膜电位 U_i[t]，若超过阈值 U_{th} 则输出脉冲 S_i[t] = 1，否则为 0。

膜电位随后被重置。

2. 反向传播 (Backward Pass)：

当计算梯度时，忽略真实的脉冲函数，而是使用一个预先定义好的、可微的代理函数来替代真实的、不可微的导数。这个代理函数（通常称为代理梯度或超梯度）提供了梯度下降所需的方向信号。

(三) 常用的代理梯度函数

代理函数的选择是一种艺术，其设计原则是：形状上与真实的脉冲发放过程近似，且易于计算。

这些函数通常在膜电位 u 接近阈值 U_{th} 时产生一个非零的梯度峰值，模拟了脉冲在此处发放的“敏感性”。

(四) 优势与挑战

1. 优势：

端到端训练：可以直接使用成熟的基于梯度的优化器（如Adam），训练非常深的SNN。

高性能：在图像分类、语音识别等静态数据集上，可以达到接近同等ANN的精度。

灵活性：可以构建复杂的网络结构（如ResNet, VGG for SNN）。

2. 挑战：

生物合理性低：并不是大脑中真实存在的学习机制。

训练开销大：需要沿时间展开（BPTT），计算和内存成本较高。

性能-延迟权衡：通常需要模拟足够多的时间步才能达到高精度，这会增加推理时的延迟。

二、ANN-to-SNN转换

（一）核心思想

1. 一种非常巧妙的迁移策略：

先训练一个高性能的传统人工神经网络（ANN），然后将其权重和结构尽可能地“转换”或“映射”到一个等价的脉冲神经网络（SNN）中。

2. 理论基础：

在一定的条件下，SNN中神经元的脉冲发放率（ firing rate ）可以近似模拟ANN中ReLU激活函数的输出值。

(二) 转换流程与关键技术

1. 训练一个ANN：

使用标准的深度学习方法和数据集（如ImageNet）训练一个ANN。关键限制：该ANN的激活函数必须为 ReLU。因为ReLU的输出值（≥0）可以直接对应脉冲发放率（≥0）。

2. 权重迁移：

将训练好的ANN的所有权重 $W$ 直接复制到SNN中对应的突触连接上。这是转换过程中最直接的一步。

3. 激活值映射（最核心的步骤）：

需要将ANN中ReLU层的输出激活值 a，转换为SNN中对应层神经元的脉冲发放率 r。

核心挑战：确定一个缩放因子。SNN的脉冲发放率有其上限（最多在每个时间步都发放脉冲，即 r_{max} = 1），而ReLU的输出值理论上无上限。

解决方案：权重归一化（Weight Normalization）。通过分析ANN各层的最大激活值，对权重和阈值进行缩放，确保SNN中所有的发放率都不会饱和（即不会所有神经元始终以最大频率发放）。常见方法是基于数据的归一化，即使用一批数据遍历ANN，记录每层的最大激活值，并将其作为该层SNN神经元的阈值 U_{th} 的缩放基准。

4. 模拟与推理：

转换完成后，向SNN输入数据（通常是静态图像重复输入多个时间步），并统计输出层神经元在一段时间（T个时间步）内的脉冲发放数量。发放数量最多的神经元，即为SNN的预测类别。

（三）优势与挑战

1. 优势：

性能强大：可以轻松获得在ImageNet等复杂数据集上达到state-of-the-art精度的SNN，而无需担心SNN训练不收敛的问题。

无需训练SNN：避免了直接训练SNN的所有困难。

桥梁作用：是连接成熟ANN领域和新兴SNN领域的强大工具。

2. 挑战与不足：

高延迟：为了精确地用发放率模拟ReLU值，通常需要数百甚至上千个时间步进行模拟，推理速度慢。

无法利用时序信息：转换过程完全忽略了脉冲的精确时序所包含的信息，只利用了发放率。这浪费了SNN处理时空模式的内在优势。

无法进行在线学习：转换后的SNN是静态的，其权重是固定的，无法像使用STDP或代理梯度的SNN那样进行持续学习。

（四）总结与对比