news 2026/4/3 5:00:26

【Agent】Evaluation and Benchmarking of LLM Agents: A Survey

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【Agent】Evaluation and Benchmarking of LLM Agents: A Survey

note

文章目录

  • note
    • 一、论文想解决什么问题?(Why)
      • 核心问题
    • 二、论文的核心贡献(What)
      • 1️⃣ 提出一个 **二维评测分类体系(Taxonomy)**
      • 2️⃣ 系统梳理已有工作
      • 3️⃣ 明确指出 **企业级 Agent 评测的缺口**
    • 三、二维评测框架(核心)
    • 第一维:Evaluation Objectives(评什么)
      • 1️⃣ Agent Behavior(外在行为表现)
      • 2️⃣ Agent Capabilities(内部能力)
        • • Tool Use(工具调用)
        • • Planning & Reasoning(规划与推理)
        • • Memory & Context(记忆与上下文)
        • • Multi-Agent Collaboration(多 Agent 协作)
      • 3️⃣ Reliability(可靠性)
      • 4️⃣ Safety & Alignment(安全与对齐)
    • 第二维:Evaluation Process(怎么评)
      • 1️⃣ Interaction Mode(交互模式)
      • 2️⃣ Evaluation Data(评测数据)
      • 3️⃣ Metrics Computation(怎么算分)
      • 4️⃣ Tooling(工具)
      • 5️⃣ Context(评测环境)
  • Reference

一、论文想解决什么问题?(Why)

核心问题

  • 现在LLM Agent 越来越复杂
    会规划、用工具、有记忆、能多轮互动、能协作

  • 评测方法仍停留在 LLM 级别

    • 单轮 QA
    • accuracy / BLEU / pass@k
  • 👉这些方法已经不足以评测 Agent

论文用一个很形象的比喻(在 Introduction):

评测 LLM ≈ 测发动机
评测 Agent ≈ 测整辆车在不同路况下的表现


二、论文的核心贡献(What)

论文做了三件非常重要的事:

1️⃣ 提出一个二维评测分类体系(Taxonomy)

  • 不是堆 benchmark
  • 而是抽象出评测的“空间坐标系”

2️⃣ 系统梳理已有工作

  • 把零散的 benchmark、指标、工具
  • 放进统一框架里对齐

3️⃣ 明确指出企业级 Agent 评测的缺口

  • 可靠性
  • 合规
  • 长时交互
  • 权限与审计

三、二维评测框架(核心)

第一维:Evaluation Objectives(评什么)

👉Agent 本身哪些“能力 / 属性”需要被评测

1️⃣ Agent Behavior(外在行为表现)

黑盒视角,像用户一样看 Agent

  • ✅ 任务是否完成(Task Completion)
  • ✅ 输出质量(质量、可读性、准确性)
  • ✅ 延迟 & 成本(Latency & Cost)

📌 典型指标:

  • Success Rate
  • pass@k
  • TTFT
  • Token cost

2️⃣ Agent Capabilities(内部能力)

白盒 / 过程导向,Agent 是怎么做到的

• Tool Use(工具调用)
  • 会不会调用
  • 选没选对
  • 参数对不对
  • 是否能执行成功
• Planning & Reasoning(规划与推理)
  • 工具序列是否合理
  • 中间决策是否正确
  • 是否能动态调整(ReAct)
• Memory & Context(记忆与上下文)
  • 多轮对话是否记得关键信息
  • 长时任务是否一致
• Multi-Agent Collaboration(多 Agent 协作)
  • 是否能分工
  • 是否有效沟通
  • 是否同步目标

👉这是 Agent 和普通 LLM 最大的分水岭


3️⃣ Reliability(可靠性)

企业和生产最关心的,但研究里最容易忽略的

  • 一致性(同样输入是否稳定)
  • 鲁棒性(输入扰动、工具失败)

📌 重点提出:

  • pass@k 不够
  • pass^k(每次都成功)才是生产级要求

4️⃣ Safety & Alignment(安全与对齐)

不只是“有没有骂人”,而是:

  • 公平性
  • 有害内容
  • 合规 & 隐私
  • 企业政策遵循

第二维:Evaluation Process(怎么评)

1️⃣ Interaction Mode(交互模式)

  • Static / Offline(离线)
  • Dynamic / Online(交互式)

👉 论文强调:
Agent 必须大量用动态评测


2️⃣ Evaluation Data(评测数据)

  • 人工标注
  • 合成数据
  • 模拟环境
  • 真实日志

3️⃣ Metrics Computation(怎么算分)

三大类:

  • Code-based(规则/执行)
  • LLM-as-a-Judge
  • Human-in-the-loop

👉 强调没有银弹,需要组合


4️⃣ Tooling(工具)

  • LangSmith
  • DeepEval
  • OpenAI Evals
  • AgentOps

提出一个概念:

Evaluation-driven Development(EDD)
评测不是收尾,而是开发过程的一部分


5️⃣ Context(评测环境)

  • Mock API
  • Sandbox
  • Web Simulator
  • 真实系统

Reference

[1] Evaluation and Benchmarking of LLM Agents: A Survey

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/27 6:06:07

夜莺监控设计思考(三)时序库、agent 的一些设计考量

夜莺和 agent 对接的设计逻辑夜莺和时序库对接的设计逻辑如果是夜莺老用户,应该知道在 V4 以及之前的版本,夜莺是有自研时序库的。而 V5 开始放弃了自研时序库,转而做各类数据源的对接,这其中是怎么一个考虑?V4 之前的…

作者头像 李华
网站建设 2026/3/15 12:09:06

华为OD机试双机位C卷 - 去除多余空格 (C++ Python JAVA JS GO)

去除多余空格 2025华为OD机试双机位B卷 - 华为OD上机考试双机位B卷 200分题型 华为OD机试双机位C卷真题目录点击查看: 华为OD机试双机位C卷真题题库目录|机考题库 算法考点详解 题目描述 去除文本多余空格,但不去除配对单引号之间的多余空格。给出关…

作者头像 李华
网站建设 2026/3/31 6:33:06

TDengine 新性能基准测试工具 taosgen

从 3.3.7.0 开始,在 TDengine 安装包中多了一个新工具 taosgen, 此工具是替换 taosBenchmark 的新的基准性能测试工具,taosgen 支持数据生成、写入性能测试等功能。taosgen 以“作业”为基础单元,作业是由用户定义,用于完成特定任…

作者头像 李华
网站建设 2026/3/13 6:10:13

JavaWeb-Request应用与Cookie[特殊字符]️Session

HtttpServletRequest代表客户端的请求,用户通过Http协议访问服务器,HTTP请求中的所有信息会被封装到HttpServlertRequest,通过这个HttpServlertRequest方法,获得客户端的所有信息; 获取前端传递的参数请求转发 LoginSe…

作者头像 李华
网站建设 2026/4/1 20:22:50

go构建web服务

构建最简单的HTTP服务 创建HTTP服务仅需几行代码,利用标准库net/http包实现核心功能。建立一个监听8080端口的服务,对所有请求返回"hello, world"响应。 mkdir simple-http-server cd simple-http-server go mod init simple-http-server在mai…

作者头像 李华