TPAMI 2025 | 中石大北交大联合提出WeCLIP系列：冻结CLIP-DINO做骨干，弱监督语义分割性能与效率双突破！-智慧文博士

点击上方“小白学视觉”，选择加"星标"或“置顶” 重磅干货，第一时间送达

弱监督语义分割（WSSS）作为计算机视觉领域的重要研究方向，长期面临着标注成本与模型性能之间的权衡难题。近日，一篇题为《Frozen CLIP-DINO: A Strong Backbone for Weakly Supervised Semantic Segmentation》的研究论文，提出了创新性的单阶段解决方案WeCLIP及其进阶版本WeCLIP+，在PASCAL VOC 2012测试集上实现了83.9%的mIoU，刷新了弱监督语义分割任务的性能纪录。本文将系统解析这一突破性方法的技术原理与实验成果。

论文信息

题目：Frozen CLIP-DINO: A Strong Backbone for Weakly Supervised Semantic Segmentation

冻结的CLIP-DINO：用于弱监督语义分割的强大主干网络

作者：Bingfeng Zhang, Siyue Yu, Jimin Xiao, Yunchao Wei, Yao Zhao

研究背景与动机

弱监督语义分割旨在利用图像级标签等低成本标注信息实现像素级分割，现有方法主要分为两类：

多阶段方法：通过生成伪标签间接训练分割模型，流程复杂且训练成本高昂
单阶段方法：直接利用弱监督信号训练模型，但性能普遍落后于多阶段方法

尽管CLIP模型在跨模态语义理解方面展现出强大能力，现有研究仅将其用于改进伪标签生成，尚未探索其作为分割骨干网络的潜力。同时，自监督学习模型DINO所具备的细粒度语义表示能力，为补充CLIP特征提供了可能。基于此，研究团队提出将冻结的CLIP与DINO模型结合，构建高性能单阶段分割框架。

方法架构解析

1. WeCLIP框架设计

WeCLIP的核心创新在于将冻结的CLIP模型直接作为语义特征提取骨干，通过轻量级解码器实现端到端分割。其整体架构包含四个关键模块：

WeCLIP整体框架

冻结CLIP骨干：保持CLIP的图像编码器与文本编码器参数固定，避免微调带来的计算开销
初始CAM生成：利用GradCAM从CLIP特征生成类别激活图，提供初始定位线索
轻量级解码器：采用Transformer架构，将CLIP各层特征融合并生成分割预测
RFM优化模块：通过解码器动态特征与CLIP注意力图建立特征关系，优化初始CAM

解码器设计是WeCLIP的核心亮点，其通过MLP转换各层CLIP特征，经卷积融合后输入多头Transformer层，实现从冻结特征到分割掩码的精准映射。RFM模块则创新性地利用解码器生成的亲和图筛选高质量注意力图，动态修正静态CAM，有效解决了伪标签误差累积问题。

2. WeCLIP+的增强策略

为进一步提升性能，WeCLIP+引入冻结DINO模型构建混合骨干网络，主要改进包括：

WeCLIP+整体框架

双模型特征融合：结合CLIP的跨模态语义与DINO的细粒度特征，仅使用两者最后一层特征即实现高效解码
共享解码器设计：采用参数共享的Transformer结构，使CLIP与DINO特征相互促进，可学习参数减少至WeCLIP的58%
RFM+优化模块：利用CLIP与DINO的联合特征生成亲和图，结合模型预测结果优化CAM，进一步提升伪标签质量

对比可视化结果显示，WeCLIP+生成的伪标签在边界完整性与细节保留方面显著优于WeCLIP：

伪标签质量对比

实验结果与分析

1. 性能对比

在PASCAL VOC 2012数据集上，WeCLIP+以83.9%的mIoU显著超越现有方法，较此前最佳多阶段方法CPAL提升9.2%，甚至超过使用SAM模型的S2C方法6.4%：

VOC数据集性能对比

在MS COCO数据集上，WeCLIP+同样以56.3%的mIoU刷新纪录，较单阶段方法提升超过9.6%：

COCO数据集性能对比

2. 效率分析

与现有方法相比，WeCLIP系列展现出卓越的计算效率：

可学习参数仅为传统方法的24%
单张2080Ti显卡即可完成训练（<12G显存）
30,000次迭代仅需5小时，训练成本大幅降低

训练成本对比

3. 消融实验

组件有效性验证表明：

RFM模块为WeCLIP带来6.2%的mIoU提升
DINO特征引入使性能提升3.9%，RFM+进一步贡献4.5%增益
3层Transformer解码器性能最优，过深易导致过拟合

Transformer层数影响

多尺度策略分析显示，WeCLIP+得益于DINO特征，在1.0-1.5倍尺度下性能最佳，印证了双模型特征的互补性：

多尺度策略影响

可视化效果与创新价值

定性结果显示，WeCLIP+能够精准分割复杂场景中的细小物体与模糊边界，在自行车链条、动物毛发等细节表现上远超对比方法：

分割效果可视化

该研究的核心价值在于：

首次将冻结CLIP直接作为分割骨干，验证了预训练模型零微调的可行性
提出CLIP-DINO混合骨干，实现跨模态与自监督特征的高效融合
设计动态伪标签优化机制，解决了静态监督的固有缺陷

从初始CAM到最终分割结果的进化过程，直观展现了方法的迭代优化能力：

CAM优化过程

总结与展望

WeCLIP系列方法通过创新性地利用冻结预训练模型，在弱监督语义分割领域实现了性能与效率的双重突破。其单阶段架构设计为工业界应用提供了实用解决方案，而"冻结骨干+动态优化"的技术路线，也为其他弱监督任务提供了重要借鉴。未来研究可进一步探索多模态预训练模型在更精细分割任务中的应用潜力，推动低成本视觉理解技术的实际落地。

下载1：OpenCV-Contrib扩展模块中文版教程 在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。 下载2：Python视觉实战项目52讲 在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。 下载3：人工智能0基础学习攻略手册 在「小白学视觉」公众号后台回复：攻略手册，即可获取《从 0 入门人工智能学习攻略手册》文档，包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源，可以下载离线学习。 交流群 欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~