【电子科大-李晶晶组-AAAI26】利用专用提示引导泛化视觉

文章：Generalizing Vision-Language Models with Dedicated Prompt Guidance

代码：https://github.com/TL-UESTC/GuiDG

单位：电子科技大学

视觉语言模型（比如大家熟知的CLIP）凭借海量预训练数据，具备了不错的零样本识别能力——即使没专门训练过某个类别，也能大致认出。但当它们需要适配具体下游任务时，问题就来了：

简单说，现有方法大多用一个“全能模型”应对所有场景，却始终无法解决“专”与“博”的核心矛盾，这也成为制约视觉语言模型落地的关键瓶颈。

GuiDG框架的核心思路很简单：与其让一个模型“单打独斗”，不如组建一支“专业团队”——让不同专家各司其职，再用智能模块整合意见。整个过程分为两步：

先把训练数据按场景拆分（比如分成“真实照片”“卡通”“素描”等领域），给每个领域单独训练一个“小专家”。

设计一个轻量级的“跨模态注意力模块（CMAttn）”，相当于团队的“智能裁判”：

此外，研究者还构建了一个全新的测试集ImageNet-DG，结合ImageNet及其多个变体，专门用来检验模型在少样本场景下的泛化能力，解决了现有测试集场景单一的问题。

GuiDG在多个主流测试集（OfficeHome、PACS、VLCS等）和新构建的ImageNet-DG上都进行了验证，结果十分亮眼：

以ImageNet-DG测试集为例，GuiDG让基线模型的平均准确率提升了1.5-2.5个百分点，在最难的“自然对抗样本”（人类都难识别的图片）识别任务中，提升效果尤为显著。

GuiDG通过“培养领域专家+智能整合意见”的两步策略，在几乎不增加计算成本的前提下，完美平衡了视觉语言模型的“专精性”与“泛化性”，为下游任务适配提供了高效且可靠的新方案。

打工人必备！免费好用又简单上手的 AI PPT 工具作为一名在职场上摸爬滚打多年的打工人，相信大家都有过被 PPT 折磨的痛苦经历。好不容易熬夜做好一份 PPT，结果领导突然说要修改方向，或者客户临时提出新的需求，咱们就又得…

李华

手把手教你用Qwen3-4B-Instruct-2507实现长文档智能处理 1. 引言：为什么需要端侧长文档处理能力？ 在当前AI应用快速落地的背景下，长文本理解与生成已成为企业级和消费级智能系统的核心需求。无论是法律合同分析、科研论文摘要，还…

李华

FSMN 语音端点检测 (VAD) 离线控制台部署指南本镜像提供了一个基于阿里巴巴 FSMN-VAD 模型构建的离线语音端点检测（Voice Activity Detection）Web 交互界面。该服务能够自动识别音频中的有效语音片段，并排除静音干扰，输出精准的…

李华

5分钟部署DeepSeek-R1-Distill-Qwen-1.5B，vLLM让AI对话快速上线 1. 引言：轻量级大模型服务化的新选择随着大语言模型在垂直场景中的广泛应用，如何高效地将高性能模型快速部署为可交互的API服务，成为AI工程化落地的关键环节。De…

李华

周末项目：用GLM-TTS给老照片配音，总成本不到5元你有没有翻过家里的老相册？泛黄的照片里，爷爷坐在院子里抽烟，奶奶在厨房忙碌，爸爸小时候穿着背带裤笑得灿烂……这些画面静止了岁月，却少了声音…

李华

Wan2.2教程：创建交互式教育视频的初步探索 1. 引言随着人工智能技术在多媒体内容创作领域的深入应用，文本到视频（Text-to-Video）生成模型正逐步从实验室走向实际生产环境。特别是在教育、广告、影视等对内容创意和视觉表现力要…

李华