突破！LLM自我批评让规划能力暴涨89.3%！DeepMind新方法，不依赖外部验证，小白程序员也能轻松掌握！-智慧文博士

大家好，我是PaperAgent，不是Agent！

不借助外部验证器，只让 LLM 反复“自评 + 重写”，就能把 Blocksworld 准确率从 49.8% 飙到89.3%，刷新多项规划 benchmark 的记录。

Self-Critique 带来的暴涨

🖼️ 整体流程一图胜千言

图 1：迭代自评示意

图 1：LLM = 探险家，每轮先“画地图”（生成计划），再“检查地图”（自评），把失败扔进背包，下次再画新地图。

🔍 为什么“自我批评”突然灵了？

过往研究（Valmeekam’23、Huang’24）认为 LLM 自评=假阳性之王，原因：

不会真的“逐步验证”动作前提；
没有外部 Oracle 给反馈，越改越错。

本文对症下药：

显式状态追踪：强制模型每步输出“前提-结果”状态；
失败记忆池：把历史错误计划+批评拼回 prompt，避免重蹈覆辙；
自一致性投票：同一计划让模型评 5 次，多数表决降低误判。

⚙️ 方法拆解

算法 1 ：

plan_prompt：16-shot 手工示例（Blocksworld 用 PDDL 描述）
critique_prompt：零-shot，只给领域定义+“请逐步验证每条动作前提”

🧪 消融实验：哪个组件最值钱？

去掉的组件	准确率掉到	结论
逐步验证每条动作	57.5%	最值钱
去掉领域定义	74.4%	仍部分可用
去掉自一致性	85.5%	2-3 pp 差距

🌟 跨模型验证：不是 Gemini 一家独秀

模型	基线	Self-Critique	提升
GPT-4o	42.8%	64.2%	+21.4 pp
Claude 3.5 Sonnet	68.0%	89.5%	+21.5 pp
Gemma-2 27B	略	微升	小模型收益有限

💡 实用启示 & 未来方向

Prompt 即插件：零-shot 批评模板直接复用到新领域，无需重新训练。
成本可控：平均只需 6~14k tokens（≤10 轮迭代）即可收敛。
下一步：

把“自评”接入 MCTS/ToT 做树搜索；
在真实世界规划（旅行、项目管理）上试规模；
研究如何减少“假阳性”进一步逼近 Oracle。

🏁 结语

当 LLM 被“强迫”做一位严格的老师，给自己每份作业打红叉，它居然真能把错误率压到新低。
Intrinsic Self-Critique不仅刷新了规划 SOTA，更为“无监督自我提升”提供了一条极简却强大的新范式。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

【深度解析】2025大模型架构内卷升级！DeepSeek、Mistral、NVIDIA最新模型技术全攻略，小白也能看懂的LLM进化史

自最初的 GPT 架构被提出以来，已经过去了七年。乍一看，从 2019 年的 GPT-2 回顾，再展望 2024–2025 年的 DeepSeek V3 和 Llama 4，人们或许会惊讶地发现，这些模型在结构上依然高度相似。比较不同的大语言模型&#x…

李华

震惊！AI Agent已经能打败85%人类程序员了！10行代码实现你的第一个智能助手，小白也能逆袭大模型开发！

2024年,一场静悄悄的革命正在AI领域发生。当ChatGPT的用户还在手动复制粘贴信息时,AI Agent已经能自主规划任务、调用工具、完成复杂工作流。这不是科幻,而是正在改变世界的现实技术。 2025年1月,Anthropic宣布Claude可以控制你的电脑。OpenAI推出了具备联网搜索和代码执行能力…

李华

【CDA干货】5款神级AI数据分析工具，帮你搞定 80% 的工作难题！

在数字化运营的时代，AI已成为处理数据的更强大、高效且易于接近的解决方案。 AI 不仅改变了数据处理的速度和准确性，还极大地降低了数据分析的门槛，让普通用户也能轻松驾驭复杂的数据分析任务。一、AI在数据分析中的应用众所周知&#x…

李华

iOS免越狱个性化定制：Cowabunga Lite隐藏技巧与高阶玩法全解析

iOS免越狱个性化定制：Cowabunga Lite隐藏技巧与高阶玩法全解析【免费下载链接】CowabungaLite iOS 15 Customization Toolbox 项目地址: https://gitcode.com/gh_mirrors/co/CowabungaLite 厌倦了千篇一律的iOS界面？每次看到朋友的个性化iPhone都…

李华

Prompt（提示词工程）

一、基本概念 Prompt ⁠工程（Prompt Eng‌ineering）又叫提示词工程，简单来说，就是输入‎给 AI 的指令。比如下面‌这段内容，就是提示词： 能帮我写个数学题吗？AI 大模型生成⁠的内容是不确定的…

李华