爆火全球的《Agent AI》中文版来了！斯坦福李飞飞团队重磅发布，多模态交互的未来就看这一篇！-智慧文博士

2025年是agent爆发之年，集创堂AI实战教练育怡将在近期为大家带来一系列文章，全面呈现agent的工作原理和实用案例。

Agent是什么

简单说，AI Agent 是 “基于大模型（LLM）的智能体” —— 就像一个不用催的 “打工人”，给它一个目标，它能自己想办法完成，不用你步步指挥。

比如你说 “帮我规划周末带爸妈去杭州玩”，普通 AI 只会给景点列表，而 Agent 会：查爸妈喜欢的慢节奏路线、订近景区的酒店、算交通时间，甚至提醒带老人常用药 —— 直接给你一份 “能落地的完整攻略”。

Agent 的 “超能力”：5 个核心本事

Agent 能干活，全靠这 5 个能力撑着，每个都像 “人” 的本事：

自主性：不用人盯！比如让它写月度销售报告，它会自己从公司数据库扒数据、整理趋势，不用你逐条给信息；
交互性：能 “沟通协作”！游戏里的 AI 队友会跟你配合打怪，客服 Agent 能跟客户一来一回聊需求，不像机器人式回复；
目的性：“目标感极强”！你说 “搞定孩子生日派对”，它就围绕这个目标，订场地、买蛋糕、邀小朋友，不做无关的事；
适应性：会 “灵活变通”！本来订了户外派对，突然下雨，它会立刻改成室内场地，还同步通知嘉宾；
学习能力：能 “吃一堑长一智”！第一次写的方案你说 “太官方，要口语化”，下次写活动通知，就会自动调整语气。

Agent 怎么干活？4 步循环搞定任务

Agent 的工作流程像 “人解决问题”，分 4 步循环，拿 “帮你订出差机票” 举例：

感知环境：它从你聊天记录里看到 “下周三去上海开会”，还知道你怕早班机；
处理信息：调取你的出差偏好（靠窗位、选国航）、查周三上海天气（是否有延误风险）；
决策制定：选周三上午 10 点的国航航班，既不早又避开雷雨时段；
执行行动：自动下单、给你发确认短信，还同步把航班加进你日历。

核心公式记：AI Agent = 大脑（LLM）+ 做事方法（Planning）+ 工具（Tools）+ 记忆（Memory） —— 缺一个都干不了活。

一个LLM驱动的Agent架构如下图：它需要能够自主计划，使用工具，具有记忆能力，可以自主行动

简单来说：问⼀个问题不止得到答案，而是直接交付成果，可以是报告/网页/营销方案等信息的从准备到审批发布、也可以是实验/策略/旅行等方案的从规划分析到执行

拆解 Agent 的 “身体零件”：4 个关键模块

LLM：人的大脑，体现的是基础的智力，反应速度，基础知识，认知。
Planning：人的方法论、逻辑思考能力（分析、反思、检查），同样的智力，类似经过训练可以在奥数比赛中得分更高。
Memory：人的记忆 + 备忘录。
Tool：人的工具（电脑，手机，搜索引擎，计算器）。
Perception：人的眼睛，耳朵。（感知，接收信息输入）

1.大脑（LLM）：选对 “帮手” 是基础

LLM 是 Agent 的 “脑子”，选不同的大模型，就像找不同特长的帮手：

想写代码：找 DeepSeek R1（擅长代码生成）；
日常聊天、查本地信息：找豆包（中文理解超准）；
处理复杂多模态任务（比如视频分析）：找 ChatGPT 4O。

选对 “脑子”，Agent 才能高效干活。

维度	ChatGPT 5	ChatGPT 4O	DeepSeek R1
核心优势	专业领域深度、多模态生成	实时多模态交互、低延迟	数学推理、代码生成
适用场景	医疗 / 金融 / 战略决策	智能硬件 / 实时内容生成	开发工具 / 科学研究
成本	高	较高	中低
多模态	视频 + 音频 + 文本	音频 + 文本 + 图像	仅文本
回答效果	好（精简+结构化+准确）	好（精简+结构化+准确）	较好（结构化+准确）

维度	DeepSeek V3	豆包 thinking	豆包
核心优势	垂直领域优化、低成本	复杂推理、本土化	中文对话、场景整合
适用场景	企业应用 / 本地化服务	教育 / 供应链优化	客服 / 内容创作 / 政务
成本	低	中	低
多模态	文本 + 图像（代码生成）	仅文本	语音 + 文本 + 图像
回答效果	较好（结构化）	适中（内容长+准确度较差）	适中（内容长+准确度较差）

2.做事方法（Planning）：会 “拆解任务 + 反思改进”

定义

Planning 是 Agent 的 “方法论”—— 就像你解数学题要分步骤，Agent 也会拆任务、改错误。

比如算 “外卖员一天赚多少钱”：

它不会直接给答案，而是先拆步骤：算总收入（150 元 / 时 ×10 时 = 1500 元）→算电费（2 度 / 时 ×1 元 / 度 ×10 时 = 20 元）→算净收入（1500-20=1480 元）。

如果第一次算错电费，下次遇到类似问题，它会主动检查 “成本计算步骤”，避免再错 —— 这就是 “反思改进”。

System Prompt：（用户在这里告诉AI需要进行目标分解，并打开AI的“深度思考”模式）

代码块

1.您正在解决数学问题。

2.逐步推理，必要时使用计算器。

3.当您给出最终答案时，请提供解释，说明您是如何得出答案的。

User Prompt：（用户在这里告诉AI应用场景和必要信息）

代码块

1.一名外卖员每小时挣 150 元。如果他每天工作 10 小时，电动车每小时消耗 2 度电，每度电价格为 1 元。请问他一天可以赚多少钱？

LLM Output：（AI输出思考过程和结果）

代码块

1.首先，我们计算了总收入：

总收入 = 150 元/小时 × 10 小时 = 1500 元

2.然后，我们计算了每小时电费支出：每小时电费支出 = 2 度/小时 × 1 元/度 = 2 元

3.接着，我们计算了每天电费支出：每天电费支出 = 2 元/小时 × 10 小时 = 20 元

4.最后，我们计算了净收入：净收入 = 总收入 - 每天电费支出 = 1500 元 - 20 元 = 1480 元

5.因此，外卖员一天可以赚 1480 元。

3.记忆（Memory）：不 “健忘” 才靠谱

你有没有过这种体验：跟 AI 聊到一半，它突然忘了前面说的话？想让它帮你查公司旧文档、算复杂账单，它却一脸 “不会”？其实问题出在 AI 的两个关键能力上 ——记忆和工具。今天用大白话拆解，看完你就懂 AI 为啥越来越 “能干” 了。

短期记忆：AI 的 “即时脑容量”，记最近的事儿

短期记忆就像你跟朋友聊天时，脑子里临时记着 “刚说要去吃火锅”“对方不吃辣”——AI 的短期记忆，主要就是你们的对话历史。

比如你跟 AI 聊旅行：先说 “想找带沙滩的酒店”，接着问 “附近有海鲜大排档吗？”AI 能接得上，靠的就是短期记忆。不过它有 “脑容量上限”（叫 “上下文窗口长度”），多数 AI 默认存最近 20 条对话；如果是支持长上下文的模型（比如 GPT-4o），能多存点，就像你集中注意力时能多记几句对话。

但短期记忆有个缺点：“一断电就忘”。比如你关掉聊天窗口再重开，AI 大概率不记得之前聊的内容了 —— 这时候就得靠长期记忆补位。

长期记忆：AI 的 “外部硬盘”，存海量旧信息

长期记忆相当于给 AI 挂了个 “外部硬盘”，平时不用的信息（比如公司文档、你的个人偏好）都存在里面，需要时 AI 会 “主动搜”。

举个例子：你让 AI “整理咱们公司 2024 年新产品的卖点”，这些信息没在对话里提过，AI 就会调用长期记忆 —— 从你提前存好的本地文档库（专业叫 RAG 知识库）里，把文档变成 “数字标签”（叫 embedding 向量化），再快速匹配出 “2024 新产品” 相关的内容。

这就像你记不住某本书的细节时，会去书架上翻对应的书，而不是全靠脑子硬记。

4.AI 的 “工具”：给它装 “手脚”，能落地做事

光有记忆还不够，AI 像个 “光有脑子没手脚” 的人 —— 能想，但没法自己做事。这时候就需要 “工具”（Tool）来帮它落地执行。

简单说：LLM（大模型）是 “大脑”，负责想 “要做什么”；工具是 “手脚”，负责干 “具体怎么做”。

比如：

你让 AI “查北京明天的天气”：AI 大脑会发指令 “需要搜天气”，但它自己没法联网，这时候 “搜索引擎工具” 就会接手，执行 “搜索‘北京明天天气’” 的操作，再把结果反馈给 AI；
你让 AI“算这个月房租（4500）+ 水电费（380）+ 物业费（200）的总开销”：AI 大脑知道 “要算加法”，但它没法直接算精准数字，会调用 “计算器工具”，算出结果后再告诉你。

没有工具的 AI，只能跟你 “嘴炮聊天”；有了工具，它能联网查信息、算数据、甚至生成表格 —— 相当于从 “只会说” 变成 “能干活”。

Agent的自建工具和实践案例

多维表格和coze都可以实现快速搭建agent，支持低代码 / 无代码操作，仅需提示词或可视化配置；

多维表格搭建 Agent，支持批量处理任务，且搭建门槛低，借助思维链，用提示词直述需求就能完成；

Coze 搭建 Agent 更擅长单次复杂任务，不过门槛较高，需要通过提示词或工作流来约束过程。

多维表格工具-文章创作agent

该 Agent 通过模块化设计，将自然语言改写（适配小红书风格）、多模态生成（图片）、跨语言转换（英文翻译）三大能力封装

用户输入一段文案内容，文章创作agent就可以基于小红书博主风格进行文章改写、图片生成、甚至能翻译为英文语言。

Step 1 ：用户输入文案

Step 2: 文章创作Agent处理文案

Step 3: 文章创作Agent输出改写内容和图片

Coze工具-产品分析报告agent

用户输入一个产品名称，产品分析agent会基于预置的工作流程、分析思路和工具来进行全网检索和产品分析，最终输出一份产品分析报告

产品分析Agent输出的报告：

产品分析Agent输出的文本内容：

产品分析Agent背后的工作原理：

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。