150k数据反超Qwen-2509！支持10图输入，MICo-150k刷新多图融合SOTA-智慧文博士

项目主页：

https://mico-150k.github.io/

GitHub：

https://github.com/A113N-W3I/MICo-150K

Online Demo：

https://huggingface.co/spaces/kr-cen/Qwen-Image-MICo

Arxiv链接：

https://arxiv.org/abs/2512.07348

作者团队 & 指导教师

作者单位：

香港理工大学、清华大学、中山大学、OPPO Y-Lab

指导教师：

港理工 Chair Professor 张磊教授，IEEE Fellow，TIP、TPAMI 高级主编，Google scholar 引用量 12w+

背景

随着图像生成模型的迅速发展，越来越多的 condition 被加入到生成过程中，开源模型和闭源模型的差距也不断缩小。

然而有一种 condition 却是最难也最综合的：直接输入多张图像，让模型同时整合来自多张图像的语义信息。

例如结合人物、场景、物体等多种视觉输入，生成 ID 一致性好又语义丰富的合成结果。

Nano-Banana、GPT-Images 在这个任务上表现很好，但开源模型却存在非常大的 gap，部分是因为这一领域缺乏高质量的开源数据集。

〓现有的多图融合数据构造流程

1: 原始图像/视频 frame

2: 分割前景物体

3: 视频中同一主体的另一个 frame

4: 对分割出的前景物体进行增广

近年来多图融合（Multi-Image Composition，MICo）方法不断发展，但现有数据构造流程仍然高度依赖传统范式，导致模型在真实复杂场景中的泛化能力受到明显制约。

一、目标分割质量受限：语义不完整、边界含糊

当前主流方法通常从高质量图片或视频帧中出发，借助开放词汇检测器（OVD）和 SAM 对目标进行自动分割，以获取可复用的源图像。然而，这一过程往往存在两个关键问题：

分割结果不完整：遮挡区域、细节结构容易丢失
语义边界模糊：模型难以准确区分“主体的一部分”与“附属物”

二、生成式增强路径单一：风格雷同、多样性不足

为了扩充数据规模，一些方法会进一步利用 S2I（Subject-to-Image）或 inpainting 模型对目标进行生成式增强。然而，由于这些增强过程高度依赖少量固定生成模型，往往带来新的问题：

生成结果在风格、构图和纹理上高度相似
场景与姿态变化有限，缺乏真实世界的复杂性

三、视频帧扩展受限：场景单一、想象空间不足

另一条常见路径是从视频中检索同一主体的更多帧作为补充来源。然而现实中可用的视频素材往往集中于：

少量高质量视频
相对固定的拍摄环境与背景

总结来看

现有多图融合数据集的构造方式，本质上受限于分割不充分、生成同质化、场景来源单一这三重问题。

即便通过多条路径（2→1、2→3、4→1、4→3）构造训练对，数据在语义完整性、多样性和想象空间上仍然存在明显短板。

MICo-150K：高质量、全面且开源的数据集

为突破多图融合（Multi-Image Composition，MICo）任务长期受限于数据质量与多样性的瓶颈，MICo-150K 构建了一条从高质量真实数据出发、以组合驱动生成、并通过多重自动验证闭环保证质量的数据构造流程，构建了 MICo-150k 数据集：

包含超过 150,000 个高质量组合样本
定义了 7 种子任务和 27 个细粒度组合类型
同时提供了最鲁棒、最综合的真实世界 Decomposition & Recomposition（De & Re）子集
每个组合样本配有精致的 prompt 和视觉内容标签

〓图（a）为普通任务数据合成流程，图（b）为 De & Re 子集数据合成流程

“Composed-by-Retrieval”组合策略

针对每一个多图融合任务，系统会从 Human、Object、Cloth、Scene 四类素材池中随机且多样化地采样多张源图像，并提供多种组合作为候选，基于这些 candidate 的 caption，通过 GPT-4o 自动选择一个语义合适的多图组合 prompt。

这种 “Composed-by-Retrieval” 策略确保了“组合关系来自真实图像语义，而非凭空想象”。

De&Re 真实世界子集

我们收集了高质量人像写真，并使用 nano-banana 将图中的人物、衣物、场景等信息 decompose 出来，经过人工质量验证后，再 recompose 回去，构成最接近真实世界分布的 De & Re（DeCompose and ReCompose）子集

自动化质量验证

为避免常见的语义缺失与身份漂移问题，MICo-150K 在生成后引入了严格的自动验证机制：

QwenVL2.5-72B：验证生成图像是否准确覆盖并反映了所有源图像的语义要素
ArcFace：对涉及人物的样本进行身份一致性检测

与现存数据集相比，MICo-150K 不仅规模大，而且质量高、语义一致性强，为模型学习更复杂的空间和语义结构提供了理想基础。

〓 MICo-150k 四个 task 的 case 例子

充分的实验表明，BLIP-3o、BAGEL、Qwen-Image、Lumina-DiMMO、OmniGen2 等不同架构、不同初始能力的模型，在 MICo-150k 训练之后都取得了极大进步，证明了数据集的稳健性。

〓左侧 “Source Images” 为 label；右侧第一行为训练前模型输出，第二行为训练后模型输出

Qwen-MICo：训练于 MICo-150K 的新一代 MICo 模型

基于 MICo-150K，我们以 Qwen- Image 为 base 训练了 Qwen-MICo 模型，将其作为 MICo 任务的 baseline model：

✨ 只用 MICo-150K 训练，无需额外大规模混合预训练

✨ 在三图像合成任务上超越了 Qwen-Image-2509（训练数据量远超 150K）

✨ 同时支持任意数量图像的输入组合（相比之下，Qwen-2509 仅支持最多 3 张图像输入）

强化研究评估与开放生态

除了数据集和模型之外，论文还推出了：

📌 MICo-Bench 基准套件

每个 MICo 子任务含 100 个测试实例
加入 300 个 De&Re 真实世界挑战案例
用以更加全面评估 MICo 性能

📌 Weighted-Ref-VIEScore 指标

一个针对 MICo 任务定制的性能评估指标
更贴合人类视觉语义一致性判断

〓和传统评估方式相比，我们为每一个 case 提供了一个参考融合结果，避免 evaluator 的跨图注意力机制失效而导致评估错误

一些 insights!

我们发现：

BAGEL、Qwen-Image、BLIP-3o 等模型本身并没有在多图融合任务上训练过，但是将多张图片 token concat 到一起直接输入，模型本身涌现出一定的多图融合能力。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

150k数据反超Qwen-2509！支持10图输入，MICo-150k刷新多图融合SOTA

Python+Vue的仓库管理系统/超市进销存Pycharm django flask

ESP32项目从零实现：温湿度监测入门

Unity游戏翻译终极指南：XUnity.AutoTranslator完全掌握

成就管理游戏工具：5个步骤轻松掌握Steam成就修改技巧

2025年企业级智能体式AI实施指南白皮书：战略落地与价值创造框架｜附37页PDF文件下载

专业级Windows系统优化深度指南：Windows10Debloater性能提升实战解析