【医学图像算法手册003】深度学习骨干网络回顾
深度学习骨干网络(Backbone)是医学图像算法的核心组件,用于从CT\text{CT}CT、MRI\text{MRI}MRI、X-ray\text{X-ray}X-ray或超声图像中提取结构化特征。后续的分割、检测、配准、超分辨等所有任务,都依赖骨干网络的特征表达质量。因此了解CNN\text{CNN}CNN、RNN\text{RNN}RNN、Transformer\text{Transformer}Transformer三类主干架构的设计思想,是从经典算法迈向SOTA\text{SOTA}SOTA模型的重要基础。
本文从基本概念开始,通过循序渐进的方式建立读者的认知,使其既能理解数学本质,又能清楚各结构在医学图像中的应用逻辑。
一、 为什么需要骨干网络?
医学图像具有与自然图像不同的特性:
- 结构复杂(例如胸部CT\text{CT}CT涉及多器官、多组织)
- 噪声显著(特别是超声、低剂量CT\text{CT}CT)
- 分辨率高且常为 3D
- 医疗标注稀缺,数据量受限
因此,我们需要一个能够提取稳定、具有可泛化能力的特征表示的“特征提取器”——这就是骨干网络。
骨干网络解决的问题是:
如何把原始图像转换为机器能够理解的、具有医学意义的特征映射(Feature Map)。
二、 卷积神经网络(CNN):医学图像特征提取的基础
CNN\text{CNN}CNN是医学图像处理中最常用的骨干网络,其有效性来自对医学图像结构的高度契合:器官边界、肿瘤轮廓、纹理由空间局部相关性构成,而卷积操作正是为此而设计的。
1. 卷积(Convolution)是什么?
卷积的目标是用一个小窗口(卷积核)扫描图像,并提取局部信息。
二维卷积的数学形式为:
Y(i,j)=∑m=−kk∑n=−kkW(m,n) X(i−m,j−n)Y(i,j)=\sum_{m=-k}^{k}\sum_{n=-k}^{k} W(m,n)\, X(i-m,j-n)Y(i,j)=m=−k∑kn=−k∑kW(m,n)X(i−m,j−n)
含义:
- XXX:输入图像
- WWW:卷积核(可训练的参数)
- 输出YYY:新的特征图(Feature Map)
卷积核通过学习,可识别:
- 边缘
- 纹理
- 形状变化(如肿瘤边界)
- 噪声模式
2. 池化(Pooling)是什么?为什么要池化?
池化层是一种空间下采样(Spatial Downsampling)操作,目标是:
- 压缩特征图尺寸
- 保留主要结构
- 增强尺度和位置的鲁棒性
以最大池化(Max Pooling)为例:
Y(i,j)=max(m,n)∈Ω(i,j)X(m,n)Y(i,j)=\max_{(m,n)\in \Omega(i,j)}X(m,n)Y(i,j)=