AI智能体是否已准备好进入职场？新基准测试引发质疑-智慧文博士

距离微软CEO萨蒂亚·纳德拉预测AI将取代知识工作已经近两年了——这些白领工作包括律师、投资银行家、图书馆员、会计师、IT人员等职业。

尽管基础模型取得了巨大进展，但知识工作的变革却姗姗来迟。模型已经掌握了深度研究和智能体规划能力，但不知何故，大多数白领工作相对未受影响。

这是AI领域最大的谜团之一——而训练数据巨头Mercor的新研究终于为我们提供了一些答案。

新研究考察了领先的AI模型在执行真实白领工作任务时的表现，这些任务来自咨询、投资银行和法律领域。研究产生了一个名为Apex-Agents的新基准测试——到目前为止，每个AI实验室的成绩都不及格。面对真实专业人士的问题，即使是最优秀的模型也难以答对超过四分之一的问题。绝大多数情况下，模型都给出了错误答案或根本无法回答。

参与研究的研究员布伦丹·富迪表示，模型最大的障碍是跨多个领域追踪信息——这是人类执行大部分知识工作不可或缺的部分。

"这个基准测试的一大变化是我们构建了完整的环境，模拟真实的专业服务环境，"富迪告诉TechCrunch。"我们工作的方式并不是由某个人在一个地方为我们提供所有背景信息。在现实生活中，你需要在Slack、Google Drive和其他各种工具间操作。"对于许多智能体AI模型来说，这种跨领域推理仍然不稳定。

这些场景都来自Mercor专家市场的真实专业人士，他们既提出了问题，也设定了成功回答的标准。浏览这些在Hugging Face公开发布的问题，可以感受到任务的复杂程度。

法律部分的一个问题如下：

在欧盟生产中断的前48分钟内，Northstar的工程团队将一到两个包含个人数据的欧盟生产事件日志捆绑集导出到美国分析供应商……根据Northstar自身的政策，它能否合理地将这一到两次日志导出视为符合第49条？

正确答案是肯定的，但要得出这个结论需要深入评估公司自身的政策以及相关的欧盟隐私法。

这可能连见多识广的人类都会感到困惑，但研究人员试图模拟该领域专业人士的工作。如果大语言模型能够可靠地回答这些问题，它就能有效地取代今天许多律师的工作。"我认为这可能是经济中最重要的话题，"富迪告诉TechCrunch。"这个基准测试非常真实地反映了这些人所做的实际工作。"

OpenAI也尝试通过其GDPVal基准测试来衡量专业技能——但Apex Agents测试在重要方面有所不同。GDPVal测试跨广泛职业的一般知识，而Apex Agents基准测试衡量系统在少数高价值职业中执行持续任务的能力。结果对模型来说更困难，但也更贴近这些工作是否能被自动化。

虽然没有模型证明已经准备好接管投资银行家的工作，但有些明显更接近目标。Gemini 3 Flash在小组中表现最佳，一次性准确率为24%，GPT-5.2紧随其后，准确率为23%。其次，Opus 4.5、Gemini 3 Pro和GPT-5的得分都约为18%。

虽然初始结果不尽如人意，但AI领域有突破挑战性基准测试的历史。现在Apex测试已经公开，对于相信自己能做得更好的AI实验室来说，这是一个公开的挑战——富迪完全期待在未来几个月内看到改进。

"它正在快速改善，"他告诉TechCrunch。"现在可以说它像一个四分之一时间答对的实习生，但去年它是一个只有5%到10%时间答对的实习生。这种年复一年的改善能够如此迅速地产生影响。"

Q&A

Q1：什么是Apex-Agents基准测试？

A：Apex-Agents是由训练数据公司Mercor开发的新基准测试，用于评估AI模型在执行真实白领工作任务时的表现。测试场景来自咨询、投资银行和法律等领域的实际专业人士，重点考察AI在跨多个工具和领域处理复杂任务的能力。

Q2：目前AI模型在职场任务上的表现如何？

A：表现并不理想，即使是最优秀的AI模型也难以答对超过四分之一的专业问题。Gemini 3 Flash表现最佳，一次性准确率为24%，GPT-5.2为23%。大多数情况下，模型都给出错误答案或无法回答，距离取代专业人士还有很大差距。

Q3：AI模型在处理职场任务时的主要困难是什么？

A：最大的困难是跨多个领域追踪信息。在现实工作中，专业人士需要在Slack、Google Drive等多种工具间操作，整合不同来源的信息。而对于智能体AI模型来说，这种多领域推理和信息整合能力仍然不稳定，无法有效模拟真实的工作环境。

【课程设计/毕业设计】基于用户音乐个性化推荐系统基于springboot的个性化音乐推荐系统【附源码、数据库、万字文档】

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

李华

计算机Java毕设实战-基于springboot的电竞赛事中心设计系统基于SpringBoot的电竞赛事购票系统【完整源码+LW+部署说明+演示视频，全bao一条龙等】

李华

物联网(IoT)大数据运营：设备数据采集与分析

物联网(IoT)大数据运营实战：从设备数据采集到分析的全流程指南一、引言：你是否遇到过这些物联网数据痛点？凌晨3点，运维工程师小张被报警电话惊醒——某园区的空调设备突然宕机，导致10层楼的办公室温度飙升。等他赶到现场排查时发现：设备的温度数据早在2小时前就超过了…

李华

学术写作必备：9款论文查重工具及实用技巧详细排行

核心工具对比速览工具名称核心功能处理时间适配检测平台特色优势 aibiye 降AIGC查重 20分钟知网/格子达/维普保留学术术语的AI痕迹弱化 aicheck AIGC检测降重即时主流学术平台实时检测反馈精准降重 askpaper 学术AI优化 15-30分钟高校常用系统专…

李华

精选9款论文查重工具：高效检测软件与技巧全面解析

李华

论文查重软件排行榜：9款高效工具与优化技巧详解

李华