MedGemma 1.5效果实测：中英文混合提问‘post-COVID fatigue management’响应质量-智慧文博士

MedGemma 1.5效果实测：中英文混合提问‘post-COVID fatigue management’响应质量

1. 为什么这次测试值得你花三分钟看完

你有没有试过用AI查“新冠后疲劳怎么治”？搜出来的结果要么是泛泛而谈的科普文章，要么是堆砌术语的论文摘要，真正能帮你理清思路、分步拆解、给出可操作建议的几乎没有。

MedGemma 1.5不一样。它不是简单地把医学词典塞进大模型，而是用Chain-of-Thought（思维链）方式，像一位经验丰富的主治医生那样——先在脑子里过一遍逻辑：这个症状属于哪类病理机制？有哪些循证依据？指南怎么推荐？患者可能忽略的关键点是什么？最后才用你能听懂的话说出来。

这次我们没测“高血压”“糖尿病”这类常见问题，而是选了一个更真实、更棘手的临床场景：中英文混合输入“post-COVID fatigue management”。为什么选它？因为一线医生和患者实际交流中，术语用英文、解释用中文、追问用口语，才是常态。一个医疗AI如果连这种“混搭式提问”都接不住，再高的参数也白搭。

下面全程不讲架构、不聊微调细节，只看它怎么想、怎么说、靠不靠谱。

2. 实测环境与基础设定

2.1 本地运行条件

硬件：NVIDIA RTX 4090（24GB显存），无网络连接
软件：Ollama v0.3.7 + 自定义MedGemma-1.5-4B-IT量化镜像（Q4_K_M精度）
推理配置：temperature=0.3，max_tokens=2048，top_p=0.9
对比基准：未启用任何RAG或外部知识库，纯模型本体推理

说明：所有测试均在离线状态下完成，输入输出全程不经过任何云端服务。这也是MedGemma最核心的价值前提——你的提问内容，从敲下回车那一刻起，就只存在显存里。

2.2 测试问题设计逻辑

我们没有用教科书式标准问法，而是模拟真实咨询场景，设计了三组递进式提问：

类型	示例输入	设计意图
直击主干	“post-COVID fatigue management”	检验模型对专业英文术语的语义锚定能力，是否能准确识别这是“长新冠疲劳综合征”的管理路径，而非普通疲乏或抑郁
中英混输	“post-COVID fatigue management，中医怎么调理？”	验证跨语言语义融合能力：前半句是循证医学框架，后半句切换为传统医学语境，模型能否不割裂、不冲突地组织回答
追问深化	“那运动处方具体怎么安排？每周几次？每次多久？”	测试上下文理解深度和临床颗粒度——不是泛泛说“适度运动”，而是给出可执行的频次、时长、强度分级建议

这三步，恰恰是普通用户从“听说有个病”到“我该怎么动”最自然的思考链条。

3. 关键响应质量逐层拆解

3.1 第一问：“post-COVID fatigue management”

输入后，模型首先输出<thought>块，我们截取关键推演路径：

<thought> 1. Identify term: "post-COVID fatigue" = persistent fatigue after acute SARS-CoV-2 infection, distinct from general tiredness or depression. 2. Check clinical guidelines: NICE (2023), WHO (2022), and CDC (2023) all emphasize multidisciplinary assessment first — rule out anemia, thyroid dysfunction, sleep apnea, deconditioning. 3. Management pillars: (a) Energy conservation + pacing; (b) Graduated exercise (not "push through"); (c) Cognitive behavioral support; (d) Symptom-specific pharmacotherapy only if indicated. 4. Avoid common pitfalls: Do not prescribe stimulants routinely; do not dismiss as "just anxiety". </thought>

亮点解析：

准确区分“post-COVID fatigue”与普通疲劳、焦虑、抑郁——这是临床误诊高发区；
主动引用NICE/WHO/CDC三大权威指南年份，说明知识截止点清晰，非模糊套话；
明确列出四大管理支柱，且每项都有临床动作指向（如“pacing”译为“能量守恒+节奏控制”，比直译“ pacing”更易懂）；
特别标注“避免误区”，直击基层医生常犯错误，体现临床经验沉淀。

最终中文回答共412字，结构清晰：先定义→再筛查要点→分四块讲管理→最后强调禁忌。没有一句空话，每句话都能对应到临床操作。

3.2 第二问：“post-COVID fatigue management，中医怎么调理？”

这是真正的压力测试。很多医疗模型遇到中西医混杂提问，会直接切分成两段：前半段讲西医指南，后半段生硬贴上“中医认为……”，中间毫无逻辑衔接。

MedGemma 1.5的<thought>块显示它做了主动整合：

<thought> 1. Reconfirm core pathology: post-viral fatigue with autonomic dysregulation and mitochondrial inefficiency — aligns with TCM "Qi deficiency" and "blood stasis" patterns. 2. Cross-reference evidence: Cochrane review (2022) on acupuncture for chronic fatigue shows moderate effect on fatigue severity; Chinese clinical consensus (2023) recommends modified Liu Jun Zi Tang for spleen-stomach Qi deficiency type. 3. Integrate approach: Suggest combining pacing (Western) with timed herbal dosing (e.g., take decoction 30 min before meals to enhance absorption); avoid conflicting modalities (e.g., no heavy tonics during acute inflammatory phase). </thought>

亮点解析：

没有强行“翻译”西医概念为中医名词，而是找到病理交集点（自主神经紊乱+线粒体功能障碍 ≈ 气虚+血瘀）；
引用Cochrane系统评价和国内临床共识双信源，不偏废任一体系；
给出可操作的整合方案：比如“西式节奏控制”配“中药饭前30分钟服用”，甚至提醒“急性炎症期忌用大补药”——这才是真正在临床上跑通的逻辑。

最终回答中，中医部分占全文43%，但不是孤立模块，而是与西医管理形成时间轴协同（如：第一周重评估+休息，第二周起加针灸，第三周根据舌脉调整方剂），读起来像一份真实门诊记录。

3.3 第三问：“那运动处方具体怎么安排？每周几次？每次多久？”

多数模型到这里就开始模糊：“建议适量运动”“循序渐进”。但MedGemma 1.5给出了带临床分级的运动处方表：

阶段	目标	运动类型	频次	单次时长	强度监控方式
第1–2周（适应期）	恢复基础耐力	散步、八段锦	每日1次	5–10分钟	心率≤静息+20次/分，自觉用力程度RPE≤3/10
第3–4周（提升期）	改善心肺功能	固定自行车、椭圆机	隔日1次	15–20分钟	RPE≤4/10，无次日加重疲劳
第5周起（维持期）	建立长期习惯	快走+轻阻力训练	每周3次	25–30分钟	RPE≤5/10，可连续完成无不适

亮点解析：

所有数据均有出处：RPE量表来自美国运动医学会（ACSM）指南，心率阈值参考2022年《British Journal of Sports Medicine》长新冠康复共识；
明确标注“次日加重疲劳”为退出指标——这是患者自我管理最关键的红线；
用“八段锦”替代笼统的“中医导引”，用“固定自行车”替代“有氧运动”，术语精准到可直接抄作业。

更关键的是，它在表格后补充了一句：“若完成第2周计划后仍感明显气短、心悸或静息心率升高＞10次/分，建议暂停并复查甲状腺功能与铁蛋白。”——这不是模板话术，而是把实验室检查指征嵌入运动管理流程，真正体现“以患者为中心”的闭环思维。

4. 和同类医疗模型的直观对比

我们用同一问题“post-COVID fatigue management”横向测试了三款主流本地医疗模型（均在同等硬件下运行），重点观察四个维度：

评估维度	MedGemma 1.5	Llama-3-Med-8B	Phi-3-Med-4B	备注
术语识别准确性	准确定位为长新冠疲劳综合征，排除慢性疲劳综合征（CFS）等混淆诊断	提及CFS但未明确区分	❌ 将其等同于“viral fatigue”，未提长新冠概念	医学术语混淆将直接导致后续建议偏差
思维链可见性	全程输出`<thought>`块，逻辑步骤可追溯	❌ 无推理过程输出	❌ 仅返回最终答案	可解释性是医疗AI信任基石
中英文混输处理	中文回答中自然嵌入英文术语（如“Pacing”“RPE”），并即时括号解释	英文术语不加解释，中文用户难理解	❌ 遇英文词直接跳过或音译	实际使用中高频出现
临床颗粒度	给出分阶段运动处方、检查指征、禁忌红线	仅列“建议运动”，无频次/时长/强度	❌ 回答停留在“多休息、均衡饮食”层面	决定能否落地的关键差异