news 2026/4/3 2:59:35

150k数据反超Qwen-2509!支持10图输入,MICo-150k刷新多图融合SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
150k数据反超Qwen-2509!支持10图输入,MICo-150k刷新多图融合SOTA

项目主页:

https://mico-150k.github.io/

GitHub:

https://github.com/A113N-W3I/MICo-150K

Online Demo:

https://huggingface.co/spaces/kr-cen/Qwen-Image-MICo

Arxiv链接:

https://arxiv.org/abs/2512.07348

作者团队 & 指导教师

作者单位:

香港理工大学、清华大学、中山大学、OPPO Y-Lab

指导教师:

港理工 Chair Professor 张磊教授,IEEE Fellow,TIP、TPAMI 高级主编,Google scholar 引用量 12w+

背景

随着图像生成模型的迅速发展,越来越多的 condition 被加入到生成过程中,开源模型和闭源模型的差距也不断缩小。

然而有一种 condition 却是最难也最综合的:直接输入多张图像,让模型同时整合来自多张图像的语义信息。

例如结合人物、场景、物体等多种视觉输入,生成 ID 一致性好又语义丰富的合成结果。

Nano-Banana、GPT-Images 在这个任务上表现很好,但开源模型却存在非常大的 gap,部分是因为这一领域缺乏高质量的开源数据集。

〓 现有的多图融合数据构造流程

1: 原始图像/视频 frame

2: 分割前景物体

3: 视频中同一主体的另一个 frame

4: 对分割出的前景物体进行增广

近年来多图融合(Multi-Image Composition,MICo)方法不断发展,但现有数据构造流程仍然高度依赖传统范式,导致模型在真实复杂场景中的泛化能力受到明显制约。

一、目标分割质量受限:语义不完整、边界含糊

当前主流方法通常从高质量图片或视频帧中出发,借助开放词汇检测器(OVD)和 SAM 对目标进行自动分割,以获取可复用的源图像。然而,这一过程往往存在两个关键问题:

  • 分割结果不完整:遮挡区域、细节结构容易丢失

  • 语义边界模糊:模型难以准确区分“主体的一部分”与“附属物”

二、生成式增强路径单一:风格雷同、多样性不足

为了扩充数据规模,一些方法会进一步利用 S2I(Subject-to-Image)或 inpainting 模型对目标进行生成式增强。然而,由于这些增强过程高度依赖少量固定生成模型,往往带来新的问题:

  • 生成结果在风格、构图和纹理上高度相似

  • 场景与姿态变化有限,缺乏真实世界的复杂性

三、视频帧扩展受限:场景单一、想象空间不足

另一条常见路径是从视频中检索同一主体的更多帧作为补充来源。然而现实中可用的视频素材往往集中于:

  • 少量高质量视频

  • 相对固定的拍摄环境与背景

总结来看

现有多图融合数据集的构造方式,本质上受限于分割不充分、生成同质化、场景来源单一这三重问题。

即便通过多条路径(2→1、2→3、4→1、4→3)构造训练对, 数据在语义完整性、多样性和想象空间上仍然存在明显短板。

MICo-150K:高质量、全面且开源的数据集

为突破多图融合(Multi-Image Composition,MICo)任务长期受限于数据质量与多样性的瓶颈,MICo-150K 构建了一条从高质量真实数据出发、以组合驱动生成、并通过多重自动验证闭环保证质量的数据构造流程,构建了 MICo-150k 数据集:

  • 包含超过 150,000 个高质量组合样本

  • 定义了 7 种子任务和 27 个细粒度组合类型

  • 同时提供了最鲁棒、最综合的真实世界 Decomposition & Recomposition(De & Re)子集

  • 每个组合样本配有精致的 prompt 和视觉内容标签

〓 图(a)为普通任务数据合成流程,图(b)为 De & Re 子集数据合成流程

“Composed-by-Retrieval”组合策略

针对每一个多图融合任务,系统会从 Human、Object、Cloth、Scene 四类素材池中随机且多样化地采样多张源图像,并提供多种组合作为候选,基于这些 candidate 的 caption,通过 GPT-4o 自动选择一个语义合适的多图组合 prompt。

这种 “Composed-by-Retrieval” 策略确保了“组合关系来自真实图像语义,而非凭空想象”。

De&Re 真实世界子集

我们收集了高质量人像写真,并使用 nano-banana 将图中的人物、衣物、场景等信息 decompose 出来,经过人工质量验证后,再 recompose 回去,构成最接近真实世界分布的 De & Re(DeCompose and ReCompose)子集

自动化质量验证

为避免常见的语义缺失与身份漂移问题,MICo-150K 在生成后引入了严格的自动验证机制:

  • QwenVL2.5-72B:验证生成图像是否准确覆盖并反映了所有源图像的语义要素

  • ArcFace:对涉及人物的样本进行身份一致性检测

与现存数据集相比,MICo-150K 不仅规模大,而且质量高、语义一致性强,为模型学习更复杂的空间和语义结构提供了理想基础。

〓 MICo-150k 四个 task 的 case 例子

充分的实验表明,BLIP-3o、BAGEL、Qwen-Image、Lumina-DiMMO、OmniGen2 等不同架构、不同初始能力的模型,在 MICo-150k 训练之后都取得了极大进步,证明了数据集的稳健性。

〓 左侧 “Source Images” 为 label;右侧第一行为训练前模型输出,第二行为训练后模型输出

Qwen-MICo:训练于 MICo-150K 的新一代 MICo 模型

基于 MICo-150K,我们以 Qwen- Image 为 base 训练了 Qwen-MICo 模型,将其作为 MICo 任务的 baseline model:

✨ 只用 MICo-150K 训练,无需额外大规模混合预训练

✨ 在三图像合成任务上超越了 Qwen-Image-2509(训练数据量远超 150K)

✨ 同时支持任意数量图像的输入组合(相比之下,Qwen-2509 仅支持最多 3 张图像输入)

强化研究评估与开放生态

除了数据集和模型之外,论文还推出了:

📌 MICo-Bench 基准套件

  • 每个 MICo 子任务含 100 个测试实例

  • 加入 300 个 De&Re 真实世界挑战案例

  • 用以更加全面评估 MICo 性能

📌 Weighted-Ref-VIEScore 指标

  • 一个针对 MICo 任务定制的性能评估指标

  • 更贴合人类视觉语义一致性判断

〓 和传统评估方式相比,我们为每一个 case 提供了一个参考融合结果,避免 evaluator 的跨图注意力机制失效而导致评估错误

一些 insights!

我们发现:

  • BAGEL、Qwen-Image、BLIP-3o 等模型本身并没有在多图融合任务上训练过,但是将多张图片 token concat 到一起直接输入,模型本身涌现出一定的多图融合能力。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/20 9:35:15

Python+Vue的仓库管理系统/超市进销存Pycharm django flask

这里写目录标题项目介绍项目展示详细视频演示技术栈文章下方名片联系我即可~解决的思路开发技术介绍性能/安全/负载方面python语言Django框架介绍技术路线关键代码详细视频演示收藏关注不迷路!!需要的小伙伴可以发链接或者截图给我 项目介绍 基于Pytho…

作者头像 李华
网站建设 2026/3/17 9:21:49

ESP32项目从零实现:温湿度监测入门

从零开始做一个温湿度监测器:ESP32 DHT11 实战入门你有没有想过,只用几块钱的硬件和一段简单的代码,就能做出一个能“感知环境”的小设备?比如让它实时告诉你房间有多潮湿、温度是否适宜——这不仅是智能家居的第一步&#xff0c…

作者头像 李华
网站建设 2026/3/29 13:16:12

Unity游戏翻译终极指南:XUnity.AutoTranslator完全掌握

Unity游戏翻译终极指南:XUnity.AutoTranslator完全掌握 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 还在为外语游戏内容而苦恼吗?XUnity.AutoTranslator让语言障碍不再是问题&a…

作者头像 李华
网站建设 2026/4/2 10:17:52

成就管理游戏工具:5个步骤轻松掌握Steam成就修改技巧

成就管理游戏工具:5个步骤轻松掌握Steam成就修改技巧 【免费下载链接】SteamAchievementManager A manager for game achievements in Steam. 项目地址: https://gitcode.com/gh_mirrors/st/SteamAchievementManager SteamAchievementManager(简称…

作者头像 李华
网站建设 2026/3/30 11:37:16

专业级Windows系统优化深度指南:Windows10Debloater性能提升实战解析

专业级Windows系统优化深度指南:Windows10Debloater性能提升实战解析 【免费下载链接】Windows10Debloater Sycnex/Windows10Debloater: 是一个用于Windows 10 的工具,可以轻松地卸载预装的应用和启用或禁用系统功能。适合对 Windows 10、系统优化和想要…

作者头像 李华