MLLM Token压缩技术研究综述：解决大模型高计算成本的实用指南-智慧文博士

多模态大模型(MLLM)处理高分辨率图像和长视频时面临巨大计算成本，Token压缩技术成为解决方案。本文基于压缩位置系统分类了现有方法，包括Vision Encoder、Projector和LLM模块中的压缩策略，以及多模块协同压缩。同时针对不同场景提供了选择合适压缩策略的指导，包括视频时空压缩、视觉与文本引导压缩策略比较、Token合并与丢弃的适用场景、即插即用与重训练方法权衡等。文章还探讨了当前挑战和未来研究方向。

近年来多模态大模型在视觉感知，长视频问答等方面涌现出了强劲的性能，但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上万个视觉 token ，带来极高的显存占用和延迟，限制了模型的可扩展性和本地部署。

正是这种紧迫的需求催生了 MLLM Token Compression ，迅速成为研究爆点，两年内在该垂直领域产出了约 200 篇论文。但是随着研究工作的快速涌现，领域内的方法也变得极其庞杂难以归类，进一步具体到落地场景里面，往往因为方法多样而难以选择。

针对这一背景，来自北京大学、中国科学技术大学等机构的研究人员，首先基于压缩位置对方法进行了系统归类，然后讨论了对于特定的部署场景应该选择何种压缩机制，最后探讨了目前的挑战和具有前景的方向。

Github 链接: https://github.com/yaolinli/MLLM-Token-Compression
论文链接: https://www.techrxiv.org/doi/full/10.36227/techrxiv.176823010.07236701/v1

图 1. MLLMs 中 Token 压缩代表性工作时间线

基于压缩位置视角的系统分类（where to compress）

图 2. MLLM Token 压缩方法的系统分类

研究人员根据 Token 压缩方法在 MLLM 架构中应用的位置，对现有方法进行了系统性的分类。在从视觉输入到文本输出的整个处理过程中，Token 压缩策略可以逐步部署在三个架构模块中：

Vision Encoder：在此阶段进行压缩可以降低视觉感知阶段的计算开销；
Projector：在从视觉表示空间向语言表示空间转换的过程中整合 Token 削减技术；
Large Language Model：在此阶段进行压缩可实现整体的跨模态效率优化。

（1）Vision Encoder 中的压缩

图 3. MLLMs 中视觉编码器模块所采用的 Token 压缩策略示意图

在 MLLMs 中，视觉数据本质上比文本具有更高的冗余性，而由于视觉编码器是编码视觉输入的第一个模块，在这一初始阶段减少视觉 Token 可以为整个 MLLM 系统带来显著的效率提升。研究人员首先回顾并将在视觉编码器模块中应用的视觉侧 Token 压缩方法分为两大类：视觉编码器内部压缩（Inside-VE）和视觉编码器外部压缩（Outside-VE）。由于视觉编码器不同的层会捕捉不同尺度的视觉信息，从低层纹理到高层概念，因此 Inside-VE 往往通过开发多尺度压缩方案来协调各层之间的压缩。Outside-VE 的设计具有即插即用的特点，对原始架构的改动极小，并且可以根据是否引入文本信号进行灵活的设计。

（2）Projector 中的压缩

图 4. MLLMs 中 projector 模块所采用的 Token 压缩策略示意图

Projector module 作为一个接口，将原始的视觉嵌入转换为与语言兼容的表示形式，从而确保 vision encoder 提取的信息能被大语言模型有效利用。虽然像 Q-Former 这样的早期 projector 架构通过将大量的视觉嵌入提炼为一组紧凑的查询 Token，实现了高效 Token 压缩，但后续的大量研究为 projector 引入了额外的设计增强，以实现更细粒度和任务自适应的压缩。研究人员将这些方法大致分为三大类并进行了详细的讨论：基于变换的方法，基于查询的方法和重要性驱动的方法。

（3）LLM 中的压缩

图 5. MLLMs 中 projector 模块所采用的 Token 压缩策略示意图

由于 LLM 的参数量通常远超视觉编码器和投影器，会成为性能瓶颈的关键组件，在这一阶段进行高效压缩会产生直接收益。MLLM 早期发展阶段非常关注短文本视觉问答（VQA），因此这一时期的压缩策略专注于预填充阶段，会在输入序列第一次在 LLM 中 forward 时就对视觉 token 进行压缩。但是随着思维链技术的飞速发展，研究重心已转向长视觉问答场景，这些技术通常在 decoding 阶段选择性地剪枝或合并 KV Cache 来降低内存和计算成本。

（4）多模块压缩

除了在单个组件内应用 Token 压缩外，近期已有越来越多的方法开始探索跨多个模块的压缩策略，以实现更高的压缩效率和更优的表征质量。这类方法主要关注如何协调不同组件之间的压缩，并将其组织为一个多阶段过程，从而最大限度地提高整体效率和表征质量。对于这种混合压缩策略，研究人员详细介绍并分析了两种新兴的设计范式：多模块协同压缩以及多阶段渐进式压缩。

表 1. 代表性 MLLMs token 压缩策略总结

不同使用场景下如何选择合适的压缩策略（how to select）

由于 Token 压缩设计方法的激增，有必要制定相关指南，以帮助从业者针对特定的部署场景选择最佳策略，研究人员对关键的选择因素进行了全面对比。

（1）针对视频输入的时空增强压缩

虽然现有的空间压缩策略可以直接应用于单帧，但它们通常无法利用帧间的冗余。为了填补这一空白，最近的研究提出了时空增强的 Token 压缩方法，这些方法明确考虑了时间结构，以实现高效的长序列建模。研究人员进一步详细介绍了应该使用哪些策略解决时空联合压缩，时序结构保留以及超长序列等实际挑战。

（2）纯视觉压缩 vs. 文本引导压缩

现有方法根据其是否利用了文本信息（用户指令）可分为纯视觉压缩和文本引导压缩，这两种策略是互补的，一种实用的设计是：首先通过纯视觉压缩导出紧凑的视觉表示，然后在语言模块中应用文本引导的选择机制，以精炼出与给定文本查询相关的 Token。

（3）Token Merging vs. Token Dropping

Token Merging 提供了平滑的聚合，适用于密集或在时间上冗余的视觉输入；而当高层语义已足够稀疏时，Token Dropping 的效率则更具优势。未来的框架可能会受益于自适应的混合设计，根据模态特征和冗余类型，在 “软聚合” 和 “硬剪枝” 之间进行动态切换。

（4）即插即用方法 vs. 重训练方法

即插即用方法非常适合在训练资源有限或任务需求相对温和的情况下，进行快速部署和推理加速。然而，它们的性能上限相对有限，最近的研究进一步通过实验证明免训练 Token 压缩方法在需要高分辨率视觉理解任务中，会出现显著的性能下降。相比之下，重训练方法在细粒度多模态理解方面表现优异，能够提供更高的性能上限，但代价是大量的额外训练开销。

（5）加速训练 vs. 加速推理

由于任务的相似性，原则上所有可用于 LLM 预填充的加速推理策略也都可以用于加速训练，但是大多数 sota MLLM 仍然使用最简单的 Token 压缩机制，如 pooling，pixel unshuffle 等。为什么这些多样化的方法没有被主流 LVLM 广泛采用？研究人员分析了三个主要原因：Flash Attention 兼容性问题，训练验证成本高昂导致的策略保守，归纳偏置导致的泛化性下降（Inductive bias）。由于目前的 MLLM 旨在用于通用目的，任何特定能力的退化都是不可接受的。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓