news 2026/4/7 19:22:38

SAM3在医疗影像里“指鹿为马”?MedSAM3来了——文本一句话,精准分割病灶

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SAM3在医疗影像里“指鹿为马”?MedSAM3来了——文本一句话,精准分割病灶

SAM3在医疗影像里“指鹿为马”?MedSAM3来了——文本一句话,精准分割病灶

熟悉计算机视觉的朋友,对“分割万物”的SAM(Segment Anything Model)系列一定不陌生。从初代SAM到最新的SAM 3,这个“通才”模型靠着“点一点、框一框就能分割目标”的能力圈粉无数,甚至能听懂自然语言——比如一句“分割图片里的猫”,它就能精准圈出猫咪轮廓。

可当这位“全能选手”闯进医疗影像这个专业赛道,却突然“水土不服”:让它分割“肝脏”,它把肺部标成病灶;让它找“细胞核”,它分不清“细胞”和“细胞核”的差别。面对X光、MRI、CT这些满是“专业密码”的影像,SAM 3就像没学过医学术语的门外汉,频频闹笑话。

好在,香港科技大学(广州)、西安交通大学、伊利诺伊大学厄巴纳-香槟分校等机构的团队,用新作MedSAM3帮SAM 3“补了医学课”。这个专为医疗影像设计的模型,不仅能听懂“乳腺肿瘤”“肺动脉”这类专业术语,还能靠智能体(Agent)迭代优化,把分割精度拉到新高度。今天我们就来聊聊,MedSAM3是怎么让“通用分割大神”变成“医疗影像专家”的。

先看SAM 3的医疗“翻车现场”:通才不懂“医学行话”

SAM 3在自然图像上有多厉害?给它一张街景图,说“分割路边的梧桐叶”,它能精准到每一片叶子的脉络。可一换医疗影像,画风立刻跑偏——

  • 器官“指鹿为马”:在LiTS肝脏CT数据集上,输入提示“肝脏(liver)”,SAM 3却把肺部区域标成了“肝脏”;在皮肤镜影像(ISIC 2018)里,让它找“病变(lesion)”,它反而圈出了周围健康的皮肤。不是模型不努力,是它根本没把“肝脏”这个词和CT里的解剖结构对应起来。

  • 术语“傻傻分不清”:医学里“细胞(cell)”和“细胞核(nucleus)”是两个概念,可SAM 3分不清。在MoNuSeg细胞核分割任务中,用“细胞”当提示,结果还凑合;换成更精准的“细胞核”,分割效果直接暴跌,仿佛在说“这俩不是一个东西吗?”

  • 性能“落差巨大”:在2D、3D医疗数据集上,SAM 3的表现甚至不如几十年前的传统模型(比如U-Net)。比如在PROMISE12前列腺MRI数据集上,U-Net的Dice系数(分割精度指标,越接近1越好)能到0.8以上,SAM 3却经常低于0.4,连“及格线”都摸不到。

问题的核心很简单:SAM 3的“词汇库”虽广,却没装“医学词典”。它能理解“通用概念”,却不懂“医疗语义”——就像一个只会说日常英语的人,突然要读医学论文,自然抓瞎。

MedSAM3的破局之道:先补“医学课”,再配“智能助手”

为了让SAM 3懂医疗,团队没搞“推倒重来”,而是用了两招“精准改造”:先通过医学概念微调让模型“认对器官、懂术语”,再加个MedSAM3 Agent帮它“解决复杂问题、迭代优化”。

第一招:轻量化微调——给SAM 3“灌医学术语”

团队没有丢掉SAM 3强大的通用能力,而是像“给手机装专业APP”一样,轻量适配医疗场景:

  • 冻结“通用基础”:保留SAM 3的图像编码器和文本编码器——这部分是它“看懂图像、听懂语言”的核心,比如能识别影像里的“明暗对比”“边缘轮廓”,能理解“肿瘤”是“异常组织”的含义。

  • 更新“医疗模块”:只对模型的“检测器(Detector)”等任务相关模块做微调。相当于给SAM 3的“输出系统”装了个“医学转换器”,让它知道“文本里的‘肝脏’,对应影像里哪块区域”。

  • 精选“教材内容”:训练数据用的是“医学影像+精炼概念短语”的配对组合,短语严格按数据集官方文档来(比如“乳腺肿瘤”“视网膜静脉”,不超过3个词)。避免模糊表述,比如不说“肚子里的器官”,只说“肝脏”,确保模型学的是“标准医学术语”。

这么一套操作下来,MedSAM3相当于“既保留了SAM 3的学习能力,又背熟了医学词典”。再让它分割“肺动脉”,它不会再把主动脉标错;说“息肉”,它能精准圈出肠道里的异常凸起。

第二招:MedSAM3 Agent——给模型配个“医学智囊”

光懂术语还不够,临床场景里的需求往往更复杂。比如医生可能会说:“分割出肝脏里所有直径大于5mm的肿瘤”——这不是“一句话分割”能搞定的,需要“拆解任务+检查结果+修正错误”的逻辑。

团队给MedSAM3加了个“智能大脑”——MedSAM3 Agent,这个基于多模态大语言模型(MLLM,实验用了Gemini 3 Pro)的框架,工作起来像个“辅助诊断医生”:

  1. 接任务:用户输入影像和复杂指令(比如“分割CT里的前列腺,并排除周围血管”);

  2. 拆步骤:Agent分析指令,把它拆成“先定位前列腺区域→再去掉血管部分”两个小任务;

  3. 做执行:调用MedSAM3先分割前列腺,得到初步结果;

  4. 查错误:Agent检查分割 mask(掩码),发现“边缘包含了部分血管”;

  5. 改方案:调整提示词为“分割前列腺,排除周围血管”,再次调用MedSAM3;

  6. 再检查:直到分割结果符合要求,才停止迭代。

这个“感知-行动-反馈”的循环,相当于给MedSAM3加了“自我修正能力”。面对复杂临床需求,它不再是“一次分割定生死”,而是像医生一样“反复检查、优化结果”。

实验结果:从“翻车”到“SOTA”,数据不会说谎

是骡子是马,拉出来遛遛。团队在4个经典医疗数据集(乳腺超声BUSI、视网膜RIM-ONE、皮肤病变ISIC 2018、息肉Kvasir-SEG)上做了测试,MedSAM3的表现直接“碾压”前辈:

数据集U-Net(传统模型)MedSAM(早期医疗模型)SAM 3(通用模型)MedSAM3(文本+框提示)
BUSI(乳腺)0.76180.75140.71100.7772(SOTA)
RIM-ONE(视网膜)0.84800.84790.83030.8977(SOTA)
ISIC 2018(皮肤)0.87600.91770.81780.9058(接近SOTA)
Kvasir-SEG(息肉)0.82440.76570.76710.8831(SOTA)
从数据能看出来:
  • 文本+几何提示最香:当MedSAM3同时接收“文本术语”和“目标框”时,精度最高——比如在RIM-ONE视网膜数据集上,Dice系数比SAM 3高6.7个百分点,比传统U-Net高4.97个百分点;

  • Agent再提精度:加了MedSAM3 Agent后,BUSI数据集的Dice系数从0.7772涨到0.8064——相当于原本“90分的分割结果”,被优化到“95分”;

  • 多模态都能打:不管是2D的X光、皮肤镜,还是3D的CT、MRI,甚至医疗视频,MedSAM3都能稳定输出高精度结果,而SAM 3在3D影像上几乎“没法用”。

可视化结果更直观:在低对比度的乳腺超声图里,MedSAM3能精准圈出微小肿瘤;在肺部CT里,它能分清“肺动脉”和“肺静脉”——这些都是SAM 3做不到的。

写在最后:医疗AI的“通才变专才”之路

MedSAM3的厉害之处,不只是“把分割精度提上去了”,更在于它提供了一条通用大模型适配专业领域的可行路径

不用抛弃通用模型的强大基础,只需通过“领域概念微调”补全专业知识,再用“智能体框架”提升复杂任务能力——就能让“通才”快速变成“专才”。

更让人期待的是,团队已经计划开源代码和模型(代码仓库:https://github.com/Joey-S-Liu/MedSAM3,论文地址:https://arxiv.org/abs/2511.19046)。未来,医生或许能对着医疗影像说一句“分割出脑肿瘤周围的水肿区”,MedSAM3就能立刻给出精准结果;甚至在远程诊疗中,它能帮基层医生快速定位病灶,缩小诊疗差距。

从“分割万物”到“精准分割病灶”,MedSAM3不仅是一次技术升级,更让我们看到:通用AI的价值,最终要落地到具体领域的需求里。而医疗领域,恰恰最需要这样“懂专业、能落地”的AI工具。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/31 13:37:46

Openresty基础知识详解:轻松驾驭高性能web网关

nginx 采用模块化设计,使得每一个 http 模块可以仅专注于完成一个独立的、简单的功能,而一个请求的完整处理过程可以由无数个 http 模块共同合作完成。为了灵活有效地指定下一个http 处理模块是哪一个;http 框架依据常见的的处理流程将处理阶…

作者头像 李华
网站建设 2026/4/3 10:17:30

TCP半关闭状态分析和skynet对半关闭状态的支持

对半关闭状态进行了解决的有JAVA的netty、skynet开源框架。大多数网络连接程序在read0时即调用close()关闭TCP连接;但是,在read0到调用close()之间,可能还有很多数据需要发送(send),如果read0时即调用close…

作者头像 李华
网站建设 2026/3/20 22:26:43

玩转 DeepSeek Markdown 思维导图生成器

首页›玩转 DeepSeek 思维导图生成器 玩转 DeepSeek Markdown 思维导图生成器 从入门到精通,掌握所有使用技巧、高级功能和最佳实践,让你的思维导图制作效率提升 10 倍。本教程涵盖需求输入技巧、模式选择策略、流式输出优化、续写技巧、Markdown 编辑…

作者头像 李华
网站建设 2026/4/7 12:25:31

如何快速掌握Scarab:空洞骑士模组管理的完整指南

如何快速掌握Scarab:空洞骑士模组管理的完整指南 【免费下载链接】Scarab An installer for Hollow Knight mods written in Avalonia. 项目地址: https://gitcode.com/gh_mirrors/sc/Scarab 你是否曾经为了安装空洞骑士模组而烦恼?手动复制文件、…

作者头像 李华
网站建设 2026/4/5 4:55:05

【30天从零学Python】重要补充三、双向链表

30天从零学Python 通信工程专业科班生,用了几十年MATLAB,为了过大厂机考,不得不自学Python。 文章目录30天从零学Python重要补充三、双向链表1. 双向链表基础1.1 双向链表的节点类定义1.2 双向链表类定义和方法2. 主要坑点总结重要补充三、双…

作者头像 李华