RAG系统大对决：让AI自己做决策真的更香吗？Enhanced vs Agentic全方位实测揭秘！-智慧文博士

研究背景

想象一下，你问ChatGPT一个问题，它不仅要从自己的"大脑"里找答案，还要翻遍外部知识库，然后再给你回复。这就是RAG（检索增强生成）系统做的事情。但问题来了：是让系统按照固定流程一步步走，还是让AI自己当"项目经理"，自主决定每一步该干什么？

这篇论文就是要回答这个问题。研究团队把RAG系统分成了两大阵营：

Enhanced RAG（增强型RAG）：就像一条精心设计的流水线，有专门的"查询改写工"、"文档排序工"等模块，各司其职
Agentic RAG（智能体RAG）：让大语言模型当总指挥，它自己决定要不要检索、要不要改写查询，完全自主控制

目前业界对这两种方案各有追捧，但到底哪个更好用？在什么场景下该选哪个？成本和性能怎么平衡？这些问题都没有明确答案。于是研究团队决定做一次"华山论剑"式的全面对比。

他们的核心贡献有两点：第一，从四个关键维度评估了两种系统的实际表现；第二，详细分析了成本和计算时间的差异，给实际应用提供了非常实用的参考。

核心方法：四大维度的"拳拳到肉"对比

研究团队选了四个关键维度来PK这两种系统，每个维度都对应Naïve RAG的一个痛点：

1. 用户意图处理：该不该检索的判断力

问题情境：用户问"今天天气怎么样"，系统不应该去知识库里翻文档；但问"公司Q3销售报告的关键数据是什么"，就必须检索。这个判断能力很重要。

Enhanced的做法：用semantic-router框架，提前准备一堆"有效问题"和"无效问题"的例子，新问题来了就跟这些例子比相似度，判断属于哪一类。

Agentic的做法：让GPT-4o自己决定，它可以选择"调用RAG工具"或者"直接回答"。

测试方法：在FIQA（金融问答）、FEVER（事实验证）、CQADupStack（论坛问答）三个数据集上各准备500个有效查询和500个无效查询，看谁判断得准。

2. 查询改写：让问题和文档"说同一种语言"

问题情境：用户问"自由职业的税务影响是什么？“，知识库里的文档可能写的是"自由职业者需要缴纳以下税种……”，表述方式不一样，直接匹配效果差。

Enhanced的做法：强制执行HyDE改写——把问题改写成一段假想的答案，比如"自由职业需要缴纳特定税种……"，然后用这段文本去匹配知识库。

Agentic的做法：提示词里告诉Agent可以改写查询，但Agent自己决定要不要改、怎么改。

评估指标：用NDCG@10（归一化折损累积增益）来衡量检索质量，这是信息检索领域的黄金标准。

其中：

是第个文档的相关性标签。

3. 文档列表优化：检索完还能再精选

问题情境：第一次检索可能拿到20个文档，但其中有些不太相关，需要进一步筛选。

Enhanced的做法：用基于ELECTRA的重排序模型，把20个文档重新排序，选出最相关的10个。

Agentic的做法：Agent可以多次调用检索工具，每次都能调整查询策略，自己迭代优化。

4. 底层模型影响：换个"大脑"性能差多少

实验设计：用Qwen3系列的四个模型（0.6B、4B、8B、32B参数）分别测试，看模型大小对两种系统的影响是否一致。

评估方式：用Selene-70B作为"AI裁判"，评价生成答案的质量。这个模型在LLM-as-a-Judge竞技场排名很高，而且在金融问答任务上跟人类评价高度一致。

实验效果：谁更强？要看具体场景

用户意图处理：Enhanced在复杂场景更稳

结果很有意思：在FIQA（金融）和CQADupStack（英语语法）这种领域边界清晰的场景，Agentic RAG表现更好，F1分数分别达到98.8和99.8。但在FEVER（事实验证）这种开放域任务上，Agentic的召回率只有49.3%，比Enhanced低了35个百分点！

原因很明确：当任务边界模糊时，Agent经常"过度热情"，本不该检索的也去检索了。而Enhanced的基于示例的路由系统，在这种情况下反而更稳定。

查询改写：Agent的灵活性胜出

在所有数据集上，Agentic RAG的检索质量平均高出Enhanced RAG 2.8个NDCG@10点。特别是在NQ（自然问题）数据集上，Agentic达到51.7，比Enhanced的43.9高了近8个点。

这说明什么？Agent能根据具体问题灵活决定改写策略，而Enhanced是"一刀切"的强制改写，有时候反而画蛇添足。

文档优化：Enhanced的重排序完胜

这个结果出人意料：Enhanced RAG通过重排序模块，在FIQA上从45.0提升到51.0（提升6个点），在CQADupStack上从46.0提升到48.0。

但Agentic RAG呢？即使允许它多次调用检索工具，性能反而比基线还差（FIQA降到43.4，CQADupStack降到44.4）。看来Agent虽然能自主决策，但在"精挑细选文档"这件事上，还是不如专门训练的重排序模型靠谱。

模型大小影响：两者表现趋同

无论Enhanced还是Agentic，随着底层模型从0.6B增大到32B，性能都稳步提升，而且提升曲线几乎一致。这说明模型能力的影响是跨系统的，选哪种架构和选多大的模型可以独立考虑。

成本分析：Agentic的"奢侈税"不容忽视

这部分数据可能是最让实际应用者关注的：

Token消耗对比（FIQA数据集）：

Agentic比Enhanced多消耗2.7倍的输入token
输出token多1.7倍
整体耗时增加1.5倍

在CQADupStack数据集上差距更大：

输入token多3.9倍
输出token多2.0倍

换算成真金白银：如果你用OpenAI的API，Agentic RAG的成本可能是Enhanced的3-4倍。对于大规模应用，这不是小数目。

为什么会这样？因为Agentic需要不断"思考"——每一步都要推理要不要调用工具、怎么调用，这些中间步骤都要消耗token。而Enhanced是固定流程，该干啥干啥，不用额外"思考"。

从分布图可以看出，Agentic的token消耗和耗时都有明显的"长尾"现象——有些查询特别费劲，Agent要反复调用工具好几次。

论文总结：没有银弹，只有权衡

这篇论文最大的价值在于：打破了"新技术一定更好"的神话。

主要发现可以总结为：

窄领域任务选Agentic，开放域任务选Enhanced：在金融、语法这种边界清晰的场景，Agent的理解力能发挥优势；但在FEVER这种"什么都能问"的场景，基于规则的路由反而更可靠。
查询改写环节Agentic占优：灵活的改写策略确实能提升检索质量，平均提升2.8个NDCG点，这个优势是实打实的。
文档精选必须上重排序：Agent多次检索的策略没有Enhanced的专用重排序模型好用，这可能是Agentic架构的最大短板。论文建议：为什么不在Agentic里也加个重排序工具？
成本差异不可忽视：3-4倍的成本增加对很多应用来说是难以承受的。除非你对性能有极致要求，否则优化好的Enhanced RAG可能更实惠。
模型大小影响两者一致：这意味着你可以先选架构，再根据预算选模型，两个决策相对独立。

实用建议：

如果你是企业开发者，在小规模、预算有限的场景下，Enhanced RAG可能是更明智的选择——性能够用，成本可控。

如果你追求极致的用户体验，或者应用场景特别复杂多变，那Agentic RAG的灵活性值得你为之付费。

但最理想的方案可能是"混合架构"：用Enhanced的重排序模块 + Agentic的灵活决策，取两者之长。研究团队也坦言，他们的Agentic实现只用了一个工具（RAG），如果给Agent配置更丰富的工具箱，结果可能完全不同。

这场对决没有绝对的赢家，但给了我们一个清晰的参考系：选RAG系统，要看场景、看预算、看需求，盲目追新不如理性权衡。

添加微信，备注”LLM“进入大模型技术交流群

最后唠两句

为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选

很简单，这些岗位缺人且高薪

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200% ，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

那0基础普通人如何学习大模型？

深耕科技一线十二载，亲历技术浪潮变迁。我见证那些率先拥抱AI的同行，如何建立起效率与薪资的代际优势。如今，我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理，分享于此，为你扫清学习困惑，共赴AI时代新程。

我整理出这套 AI 大模型突围资料包【允许白嫖】：

✅从入门到精通的全套视频教程
✅AI大模型学习路线图（0基础到项目实战仅需90天）
✅大模型书籍与技术文档PDF
✅各大厂大模型面试题目详解
✅640套AI大模型报告合集
✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（0基础到项目实战仅需90天）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

RAG系统大对决：让AI自己做决策真的更香吗？Enhanced vs Agentic全方位实测揭秘！

研究背景

相关工作：RAG技术的演进脉络

核心方法：四大维度的"拳拳到肉"对比

1. 用户意图处理：该不该检索的判断力

2. 查询改写：让问题和文档"说同一种语言"

3. 文档列表优化：检索完还能再精选

4. 底层模型影响：换个"大脑"性能差多少

实验效果：谁更强？要看具体场景

用户意图处理：Enhanced在复杂场景更稳

查询改写：Agent的灵活性胜出

文档优化：Enhanced的重排序完胜

模型大小影响：两者表现趋同

成本分析：Agentic的"奢侈税"不容忽视

论文总结：没有银弹，只有权衡

最后唠两句

那0基础普通人如何学习大模型？

①从入门到精通的全套视频教程

② AI大模型学习路线图（0基础到项目实战仅需90天）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

交易所前端无法显示？从入门到进阶的完整排查与解决指南

网络基础：初识TCP/IP协议

主流小程序开发平台梳理与对比分析

AccessibilityService使用这个做一个简单的app需要多长时间？

做一个应用商店里面那种自动连点器大概需要1-2周时间

【MySQL飞升篇】面试必问：MySQL与Redis缓存一致性，看这篇就够了

研究背景

相关工作：RAG技术的演进脉络

核心方法：四大维度的"拳拳到肉"对比

1. 用户意图处理：该不该检索的判断力

2. 查询改写：让问题和文档"说同一种语言"

3. 文档列表优化：检索完还能再精选

4. 底层模型影响：换个"大脑"性能差多少

实验效果：谁更强？要看具体场景

用户意图处理：Enhanced在复杂场景更稳

查询改写：Agent的灵活性胜出

文档优化：Enhanced的重排序完胜

模型大小影响：两者表现趋同

成本分析：Agentic的"奢侈税"不容忽视

论文总结：没有银弹，只有权衡

最后唠两句

那0基础普通人如何学习大模型 ？

①从入门到精通的全套视频教程

② AI大模型学习路线图（0基础到项目实战仅需90天）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

交易所前端无法显示？从入门到进阶的完整排查与解决指南

网络基础：初识TCP/IP协议

主流小程序开发平台梳理与对比分析

AccessibilityService使用这个做一个简单的app需要多长时间？

做一个应用商店里面那种自动连点器大概需要1-2周时间

【MySQL飞升篇】面试必问：MySQL与Redis缓存一致性，看这篇就够了

那0基础普通人如何学习大模型？