【必藏】从零开始构建RAG知识库评估框架：三大核心指标量化你的AI系统效果-智慧文博士

作者介绍了一套用于评估RAG知识库的量化框架，包含三项核心指标：Recall Score(检索召回率)衡量系统是否检索到正确知识；Correctness(答案正确度)评估模型回答是否正确；Groundedness(基于知识库程度)检测模型回答是否基于知识库而非虚构。通过这套轻量级Python评估系统，企业可以客观量化知识库建设效果，识别问题并持续优化，将主观"感觉"转变为可度量、可追踪的工程能力。

让知识库变得可度量：RAG知识库评估框架探索实践

一、背景与目的：知识库建设不能再「凭感觉」了

过去半年我们花了很多工夫来建设企业内部研发知识库，除了智能体的搭建，在知识输入上，我们梳理导入了包含研发架构管理制度与规范、各类内部平台操作与引导的知识内容，但始终不好回答一个关键问题：

内部知识库到底建设得好不好？有没有真正帮助到研发？

以前的评判方法非常粗糙：

看访问量？有人点了不代表有用
看采纳率？人工抽样能覆盖的问题太有限，而且采不采纳完全看抽样人主观判断
问一线同事？夸你两句你还当真了

最终只能靠「感觉」来判断效果，而这在一个科技团队内显然不那么「工程」与「科学」。

所以我们希望知识库的评估能够：

可量化（给出明确的分数）
可复现（能重复执行）
可对比（知道新知识有没有提升效果）

因此，我们构建了一套知识库评估框架，系统地评测量化我们的知识库与智能体回答能力。

二、指标体系：用三项核心算法量化知识库效果

要评价一个RAG知识库，业内已经有了比较成熟的评估框架，在探索中我们先选了三个核心指标：

1. Recall Score（检索召回率）

Recall Score 指标主要用来衡量系统是否检索到了正确的知识。构建知识库的第一步是检索，检索不准，后续生成就无从谈起。我们采用了余弦相似度（cosine similarity）来作衡量：

余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。

其中emb代表文字经过向量模型后的向量值，retrieved是检索到的文档内容，ground_truth是我们写的基准答案，如果知识库能够正确检索出与真实答案语义一致的内容，RecallScore 就会更高。

2. Correctness（答案正确度）

Correctness 指标用来衡量模型回答是否正确。即便检索正常，模型仍可能出现表达偏差或理解不准。我们使用同样的余弦相似度，将模型回答与标准答案比较：

上一个RecallScore指标是用来衡量找得对不对，而Correctness是用来衡量如Qwen3、Deepseek等大模型是否正确利用了检索出来的材料做出回答。直观区别就是Correctness中的answer是经过了大模型后的输出答案。

有四个场景可以进一步加深理解：

场景 A：RecallScore低，Correctness高

反映的是检索错了，但模型乱答出了正确内容（就是蒙对）。要么是问题非常简单，要么是模型本身能力很强，这种情况说明知识库白建了，而且还会让我们误以为自己做得很好。

场景 B：RecallScore高，Correctness低

检索对了，但模型回答错了。这说明知识库建设没问题，问题出在模型生成阶段，可以考虑换模型。

场景 C：RecallScore高，Correctness高

这就是我们想要的场景，知识库建设得好，模型回答得也好。

场景 D：RecallScore低，Correctness低

这说明知识库检索链路错误，导致模型没有拿到正确文档，并且模型也没办法推理出正确答案。好好回炉重建吧。

3. Groundedness（基于知识库程度）

Groundedness 指标用来衡量模型回答是否引用了知识库，而不是瞎编。简而言之就是用来衡量是否有「幻觉」，大模型是否自己加戏了。我们将模型回答与检索文档进行相似度匹配：

高Groundedness说明回答基于知识库，可信度高；低Groundedness说明有幻觉风险，需要调整。

仔细看就会发现，这三个指标就是对retrieved、answer、ground_truth这三个向量值C32求余弦，总结如下：

指标	衡量什么	反映什么
RecallScore	检索是否找到正确知识	RAG是否准确
Correctness	回答是否正确	大模型对问题理解与表达是否准确
Groundedness	回答是否基于知识	大模型是否有幻觉

三、系统建设：一套轻量可扩展的评估Pipeline

整个评测系统采用Python编写，在内网运行。总体架构沿用了知识系统自身的基础能力，因此非常轻量、易维护。（一句话就是，接口现成的，代码AI写的，vibe coding我谢谢你）

有四个核心模块：

1. retriever.py：向量检索

在向量模型上，用与内部知识库一致的bge-m3向量模型，确保评估一致性。

2. generator.py：调用 Dify 知识库问答接口

实际就是用Dify走一遍和真实用户一致的流程，都是标准接口。

3. evaluator.py：基于向量的三项指标计算

每个问题都会输出三项评分，算三个余弦值，代码就不贴了。

4. main.py：跑一遍完整测试集

也不赘述了。有需要可以去搂一眼：https://github.com/dumbray/rag_eval

四、评估结果与优化方向

我们先梳理了20道内部研发平台的高频问题，作为第一版benchmark，实际跑下来的平均分：

Recall Score：0.54
Correctness：0.75
Groundedness：0.59

整体表现只能说还行吧，提升空间还是很大的，而且这个分数跟人工抽样采纳率和用户的实际体验感受也差不多。

检索准确率（0.54）说明检索还需要增强
回答正确率（0.75）说明模型生成能力相对稳定，回答质量是可以了
Groundedness （0.59）说明还是有少量幻觉存在的

未来我们计划从以下几方面持续演进：

1. 扩充基准问题集

当前20道题还属于「小样本」，未来会持续扩展：

问题数量起码要到100+
问题覆盖范围要扩展至平台、工具链、流程规范等全范围
从实际日志、问答群中收集真实问题

还有就是现有问题是人工写的，后续也可以让大模型自动从知识库中抽取问题扩充问题集

2. 扩展评估指标

目前是纯向量相似度，但未来可以考虑：

引入 LLM-based 的一致性判断（如 GPT-Score）
引入 NLI（自然语言推理）判断回答是否“逻辑正确”
使用更适合评估的 Ranking 模型

（这些都是大模型跟我说的，有没有可行性之后再说吧）

大模型未来如何发展？普通人能从中受益吗？

在科技日新月异的今天，大模型已经展现出了令人瞩目的能力，从编写代码到医疗诊断，再到自动驾驶，它们的应用领域日益广泛。那么，未来大模型将如何发展？普通人又能从中获得哪些益处呢？

通用人工智能（AGI）的曙光：未来，我们可能会见证通用人工智能（AGI）的出现，这是一种能够像人类一样思考的超级模型。它们有可能帮助人类解决气候变化、癌症等全球性难题。这样的发展将极大地推动科技进步，改善人类生活。

个人专属大模型的崛起：想象一下，未来的某一天，每个人的手机里都可能拥有一个私人AI助手。这个助手了解你的喜好，记得你的日程，甚至能模仿你的语气写邮件、回微信。这样的个性化服务将使我们的生活变得更加便捷。

脑机接口与大模型的融合：脑机接口技术的发展，使得大模型与人类的思维直接连接成为可能。未来，你可能只需戴上头盔，心中想到写一篇工作总结”，大模型就能将文字直接投影到屏幕上，实现真正的心想事成。

大模型的多领域应用：大模型就像一个超级智能的多面手，在各个领域都展现出了巨大的潜力和价值。随着技术的不断发展，相信未来大模型还会给我们带来更多的惊喜。赶紧把这篇文章分享给身边的朋友，一起感受大模型的魅力吧！

那么，如何学习AI大模型？

在一线互联网企业工作十余年里，我指导过不少同行后辈，帮助他们得到了学习和成长。我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑。因此，我坚持整理和分享各种AI大模型资料，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频。

学习阶段包括：

1.大模型系统设计
从大模型系统设计入手，讲解大模型的主要方法。包括模型架构、训练过程、优化策略等，让读者对大模型有一个全面的认识。

2.大模型提示词工程
通过大模型提示词工程，从Prompts角度入手，更好发挥模型的作用。包括提示词的构造、优化、应用等，让读者学会如何更好地利用大模型。

3.大模型平台应用开发
借助阿里云PAI平台，构建电商领域虚拟试衣系统。从需求分析、方案设计、到具体实现，详细讲解如何利用大模型构建实际应用。

4.大模型知识库应用开发
以LangChain框架为例，构建物流行业咨询智能问答系统。包括知识库的构建、问答系统的设计、到实际应用，让读者了解如何利用大模型构建智能问答系统。

5.大模型微调开发
借助以大健康、新零售、新媒体领域，构建适合当前领域的大模型。包括微调的方法、技巧、到实际应用，让读者学会如何针对特定领域进行大模型的微调。

6.SD多模态大模型
以SD多模态大模型为主，搭建文生图小程序案例。从模型选择、到小程序的设计、到实际应用，让读者了解如何利用大模型构建多模态应用。

7.大模型平台应用与开发
通过星火大模型、文心大模型等成熟大模型，构建大模型行业应用。包括行业需求分析、方案设计、到实际应用，让读者了解如何利用大模型构建行业应用。

学成之后的收获👈

•全栈工程实现能力：通过学习，你将掌握从前端到后端，从产品经理到设计，再到数据分析等一系列技能，实现全方位的技术提升。

•解决实际项目需求：在大数据时代，企业和机构面临海量数据处理的需求。掌握大模型应用开发技能，将使你能够更准确地分析数据，更有效地做出决策，更好地应对各种实际项目挑战。

•AI应用开发实战技能：你将学习如何基于大模型和企业数据开发AI应用，包括理论掌握、GPU算力运用、硬件知识、LangChain开发框架应用，以及项目实战经验。此外，你还将学会如何进行Fine-tuning垂直训练大模型，包括数据准备、数据蒸馏和大模型部署等一站式技能。

•提升编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握将提升你的编码能力和分析能力，使你能够编写更高质量的代码。

学习资源📚

AI大模型学习路线图：为你提供清晰的学习路径，助你系统地掌握AI大模型知识。
100套AI大模型商业化落地方案：学习如何将AI大模型技术应用于实际商业场景，实现技术的商业化价值。
100集大模型视频教程：通过视频教程，你将更直观地学习大模型的技术细节和应用方法。
200本大模型PDF书籍：丰富的书籍资源，供你深入阅读和研究，拓宽你的知识视野。
LLM面试题合集：准备面试，了解大模型领域的常见问题，提升你的面试通过率。
AI产品经理资源合集：为你提供AI产品经理的实用资源，帮助你更好地管理和推广AI产品。

👉获取方式： 😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】

【必藏】从零开始构建RAG知识库评估框架：三大核心指标量化你的AI系统效果