news 2026/4/3 2:45:25

LiveMCPBench:在大型工具环境中评估 LLM 代理的新基准

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LiveMCPBench:在大型工具环境中评估 LLM 代理的新基准

总结

本文提出了一种新的基准–LiveMCPBench,用于评估大型工具使用环境中代理的能力。

传统基准假定只有少量的应用程序接口和模拟工具环境,不能充分反映现实中多样和动态的工具环境。

因此,作者利用标准化接口–模型上下文协议(MCP),构建了 LiveMCPTool,其中包括 70 个 MCP 服务器和 527 个真实工具。

此外,他们还引入了可实现评估自动化的 LiveMCPEval,通过使用 LLM 作为评估者,他们实现了与人类评估者 81% 的一致率。

我们还提出了可实现工具探索和顺序使用的 MCP Copilot Agent,并对十种最先进的模型进行了比较。
结果证实,Claude-Sonnet-4 的成功率约为 79%,而大多数模型的成功率仅为 30%-50%,这表明在大规模工具环境中的能力存在显著差异。

这项研究为评估提供了一个现实的、可重复的基础,并为未来的代理研究奠定了基础。

建议采用的方法

作者设计了一个由四个主要元素组成的框架,以评估代理是否能有效利用大型 MCP 工具套件。

首先,设计了各种日常任务,并收集了六个领域的 95 项实际任务,包括办公室工作、生活信息、金融、旅行和购物。
这提供了现实世界中需要时间变化和综合使用多种工具的任务。

其次,我们建立了LiveMCPTool,其中包含70个服务器和527个工具,不依赖外部API密钥,并随时提供给研究人员使用。

第三,我们提出了 LiveMCPEval,这是一种由 LLM 判断代理工具使用过程的方法。
这样就能在包含解决方案多样性和时间依赖性的环境中进行稳健的评估。

最后,我们开发了 MCP Copilot Agent,它基于 ReACT 策略,集成了工具探索和顺序执行功能。
该框架克服了传统方法中应用程序接口(API)不稳定性和小规模性的问题,并提供了一个现实的、可重复的评估环境。

实验

在 Claude-Opus-4、Claude-Sonnet-4、GPT-4.1、Gemini-2.5-Pro 和 DeepSeek-V3 等 10 个主要模型上进行了实验,使用 95 个任务来比较性能。

在使用DeepSeek-V3进行评估时,采用了LLM-as-a-Judge方法,并与人工评估结果进行了核对。
结果显示,Claude-Sonnet-4 的成功率最高,达到 78.95%,其次是 Claude-Opus-4,为 70.53%。

另一方面,GPT-4.1 和 Gemini-2.5-Pro 的成功率仅为 40%左右,这证实了许多模型都无法找到和组合工具。
其中,工具使用不当、未指定参数和 “检索错误”(未找到合适的工具)是主要的失败因素。

此外,对每个模型利用行为的分析表明,克劳德系统积极探索和利用多种工具,而其他模型则倾向于依赖单一工具。
此外,性价比权衡分析确定 Claude-Sonnet-4 和 Qwen2.5-72B 为具有成本效益的模型。

这些结果得出结论,目前的许多模型在大型工具环境中仍有局限性,未来需要改进任务分解和动态规划能力。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/28 4:34:37

LAMIC:一种无需学习、布局可控的多参考图像生成方法

概述 本文提出了一种新方法,即 LAMIC,用于在可控图像生成过程中使用多张参考图像进行带有布局信息的高质量合成。 传统的扩散模型在基于单个参考图像生成时具有优势,但在处理多个参考图像时,会出现 "不一致的身份退化 "…

作者头像 李华
网站建设 2026/3/19 10:43:50

KitchenOwl:跨平台智能购物清单的终极解决方案

KitchenOwl:跨平台智能购物清单的终极解决方案 【免费下载链接】kitchenowl KitchenOwl is a self-hosted grocery list and recipe manager. The backend is made with Flask and the frontend with Flutter. Easily add items to your shopping list before you g…

作者头像 李华
网站建设 2026/3/13 19:07:07

《Python 责任链模式实战指南:从设计思想到工程落地》

《Python 责任链模式实战指南:从设计思想到工程落地》 一、开篇引入:为什么要学习责任链模式? 在软件开发中,我们常常需要处理一系列请求:日志系统要根据不同级别输出信息;Web 框架要根据请求类型选择合适的…

作者头像 李华
网站建设 2026/4/2 2:09:23

永久免费的win系统垃圾清理软件 释放磁盘空间

软件简介→软件下载地址← Glary Disk Cleaner是一款永久免费的 Windows 磁盘清理工具,由 Glarysoft Ltd. 开发,专注于释放磁盘空间、提升系统性能和保护用户隐私。它通过快速扫描技术自动识别并清理系统垃圾文件,界面直观易用,无…

作者头像 李华
网站建设 2026/4/2 21:37:35

Webfunny性能监控系统架构设计与高效实施指南

Webfunny性能监控系统架构设计与高效实施指南 【免费下载链接】webfunny_monitor webfunny是一款轻量级的前端性能监控系统,也是一款埋点系统,私有化部署,简单易用。Webfunny is a lightweight front-end performance monitoring system and …

作者头像 李华
网站建设 2026/4/1 10:23:40

3大内存优化实战:让漏洞扫描性能提升80%的终极指南

3大内存优化实战:让漏洞扫描性能提升80%的终极指南 【免费下载链接】vuls Agent-less vulnerability scanner for Linux, FreeBSD, Container, WordPress, Programming language libraries, Network devices 项目地址: https://gitcode.com/gh_mirrors/vu/vuls …

作者头像 李华