news 2026/4/3 6:13:31

【干货】强化学习入门必读:深入解析PPO与GRPO,轻松掌握其核心原理与技巧!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【干货】强化学习入门必读:深入解析PPO与GRPO,轻松掌握其核心原理与技巧!

简介

文章通过小学考试比喻,生动解释了强化学习奖励机制从单纯使用绝对分数(Reward)到引入Critic降低方差,加入Clip防止更新过度,使用Reference Model防止极端策略的演进过程。最后重点介绍了GRPO创新方法,它通过多次采样平均Reward作为基线,避免了单独价值网络训练,使大型语言模型训练更高效稳定,同时保持了PPO原有的稳定性和合规性。

一、 开篇

在强化学习(RL)中,如果我们只知道“做对了能拿多少分”,那往往还不够,因为单纯追求高分可能带来种种副作用,比如过度搜索、模型不稳定、甚至“走捷径”而偏离合理范围。

为了解决这些问题,人们在 RL中设计了许多机制–Critic(价值函数)、Clip 操作、ReferenceModel、以及最近流行的GRPO(Group Relative PolicyOptimization)等。

为了把这些概念讲得更生动,我们不妨打个比方: 把RL模型的训练过程想象成小学里的考试场景。

我们(被训练的模型)就像努力考高分的学生,发奖品的人则像 Critic或者其他调控机制。

接下来就让我们循序渐进地看看,为什么只靠最终成绩是不够的,为什么需要一步步引入Critic、Clip、Reference Model,最后又是如何引出 GRPO 的思路。

二、只有 Reward 时的朴素做法: 为什么会有问题

假设我和我弟弟都在小学同一个班上课。老师改卷后给出一个“绝对分数”,我的成绩一般80分以上,弟弟成绩大概 30分左右。

然后我们把这个分数直接拿去找爸爸要零花钱–也就是用“分数本身”作为奖励(Reward)。谁考得分数高,零花钱就多。

一开始听上去没毛病,但结果就有两个问题:

1、不公平: 如果弟弟从 30分进步到60分,付出了非常大的努力,却依然比不过我平时随便考个 80+。他得不到有效激励。

2、不稳定: 我为了冲刺高分,可能会采取极端学习策略(比如疯狂刷题、考前通宵)偶尔考到 95分,偶尔只有 60分,成绩大起大落,导致奖励信号也忽上忽下

这样一来,只拿绝对分数当作 Reward,奖励信号波动很大,弟弟也会觉得不公平,久而久之,就没动力进步了。

数学对应

在强化学习里,如果我们只用:

也就是“把最终 Reward 直接拿来做优化目标”,就容易出现高方差、激励不充分等问题。

换言之,Actor得不到一个和自身水平相称的参考线(baseline),进而影响学习效率。

三、引入 Critic: 用“预期分数线”来改善奖励机制

针对上面的问题,爸爸很快意识到: “不能光看绝对分,而要看看每个人在自己水平线之上进步多少才是关键。

于是爸爸决定: 给我定一个“预期分数线”80分;给弟弟定一个“预期分数线”40分。

考试时只要超出自己那条线,就能得到更多零花钱;如果没有超出,那么零花钱就可能很少或者没有。

这样一来,弟弟如果努力从 30分考到60分,超出自己预期分数线20分,就能得到可观的奖学。

我如果还是 80 多分,增幅不明显,那就算分数比弟弟高,但并不一定多拿太多钱。

这样就鼓励了每个人以自己的水平为起点去进步,而不是一味比谁绝对分高。

当然,爸爸也很忙,不是说一旦定了分数线就一劳永逸–他得根据我们的学习状况来不断“自我调节”,因为如果弟弟水平已经到 60分了,再给他设 40分的线就不合理了。

反之,我要是一直考 85分没什么波动,也可能需要微调我的分数线。所以,爸爸也需要不断学习,只不过他需要学习的是我和弟弟的学习进度。

数学对应

有了这个“分数线”去做差,我们能降低训练过程中的方差,也让高于预期的动作拿到更大的梯度,低于预期的动作被抑制。

四、加入 Clip 与 min 操作: 防止更新过度

有了“分数线”以后,效果确实好了很多。

但新的问题出现了: 如果某一次考试我突然爆发,进了高分段,比如95或100分,爸爸会给我极高奖励,导致我在下一次考试前可能“走火入魔”,去尝试各种极端学习方法,成绩忽高忽低,奖励也随之剧烈波动。

为此,爸爸觉得要适度控制我更新学习策略的“步幅”—次性冲太高也不一定要给我成倍加零花钱。

给得太多,会让我产生极端探索心态,给得太少又会抑制热情。总之需要一个平衡。

数学对应

在 PPO(Proximal Policy Optimization)中,这个“平衡”靠“Clip”操作来完成。我们常见的 PPO 核心目标函数里,有这样一段:

用故事的话讲,就是: 我考到100分,可以多拿奖励,但爸爸会有个“封顶”的约束;下一次还要观察一下再做决定,这样保持学习的平稳性,防止出现一条极端的“歪路子”

五、Reference Model: 防止作弊、极端策略

即便如此,如果我为了追求高分,不惜采取非常规手段–比如考试作弊、威胁老师改卷之类,那不就轻松拿下满分了吗?

这显然是违反原则的。而且如果在语言模型场景,可能出现生成有害言论、编造事实等“走歪”的行为。

于是爸爸又提出一个附加约束:“无论如何,你不能偏离最初正常学习的方法太多。否则即使你考了高分,我也判你不合格,零花钱也不给。

这就好比我们在学期开始(也就是监督微调后)的“合规”状态那里画了一条“参照线”新的行为不能和这个初始策略差太远,否则就要受到惩罚。

数学对应

在 PPO里,这体现为对Reference Model(初始策略)的KL惩罚,具体可加到 Loss 中,比如:

六、GRPO: 用“多次模拟成绩平均值”代替价值函数

有一天,爸爸说:“我没空天天衡量你的学习水平了,不想再手动给你画分数线。

那你干脆先把试卷做5份模拟题,取这5次的平均分,这个平均分就是你的预期分数。

真正考试时,如果你比这个平均分高,就说明你表现超出你自己的期望,我就给奖励;不够的话,说明你的表现没到平均线。”

如此一来,弟弟、我,甚至更多同学都可以用“自己多次模拟考试”的均值来做分数线,不需要依赖一个外部(爸爸)不断微调的“价值网络”。

前面几个环节,我们已经看到了PPO的思路:Actor+Critic+Clip+KL惩罚。

但在实际应用尤其是大型语言模型(LLM)上,Critic(价值函数)通常需要跟Actor同等大小的网络去估计,否则很难评估到位,成本很高。

而且有些场景(比如只在回答末尾才有一个整体Reward)并不太适合训练出精细的价值函数。

这时候就出现了 Group Relative PolicyOptimization(GRPO)

它的要点是: 不用“学习”一个单独的价值网络当 Critic;而是对同一道题目、同一个状态,先用旧策略采样多条输出。

然后把这些输出的平均Reward 当作baseline;*超过平均值就相当于“正向 Advantage”,低于平均值就是“负向 Advantage”

在 GRPO 里,除了这一步,还保留了PPO中的 Clip 和对 Reference Model的KL正则,这些都可以保障更新的稳定性和合规性。

数学对应

DeepSeekMath的技术报告里给出了GRPO的目标函数(省略部分符号细节):

七、结语:回顾与展望

通过这个小学考试的比喻,我们逐步从只看绝对分数的朴素思路,演化到PPO的完整机制(Critic、Advantage、Clip、Reference Model)

再到GRPO的创新思路(用一组输出的平均得分当基线,省去价值函数的繁琐)。

以下几点值得再次强调:

1、Critic 的意义: 它为每个状态或阶段提供“合理预期”,大幅降低了训练方差

2、Clip&min 机制: 约束策略更新幅度,避免一次考试“爆发”带来的巨幅震荡

3、Reference Model: 限制“作弊”或极端行为,让策略不要过度偏离最初合规范围

GRPO的优点: 在大型语言模型中,省掉了价值网络,减少内存和计算负担,还与“对比式Reward Model”天然契合。

就像爸爸改用“让孩子自己多次模拟,然后以平均分当预期线”的思路一样,GRPO让我们不用再额外维护一个庞大的 Critic,也能获得类似的相对奖励信号。

从结果看,这既保持了PPO 原有的稳定性和合规性,又让训练更直接和高效。

八、如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份LLM大模型资料分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以扫描下方二维码领取🆓↓↓↓

学习路线

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/1 10:54:50

广播风格处理:让IndexTTS 2.0输出带有特定共鸣效果

广播风格处理:让IndexTTS 2.0输出带有特定共鸣效果 在短视频与虚拟内容爆发的今天,一段精准卡点、情绪饱满、音色统一的旁白,往往能决定一个视频作品的专业度。然而现实中,许多创作者仍面临“配音不搭画面”“语气单调”“请人录音…

作者头像 李华
网站建设 2026/4/1 9:18:35

M系列Mac运行Windows应用的终极方案:轻量级兼容方案深度解析

还在为M系列Mac运行Windows程序而烦恼吗?🤔 虚拟机资源占用大、启动缓慢,双系统切换又太麻烦。今天我要分享一款真正轻量级的跨平台兼容方案——Whisky,它让Windows应用在Apple Silicon上完美运行变得如此简单! 【免费…

作者头像 李华
网站建设 2026/3/13 3:25:35

百度网盘Mac版下载限速突破方案深度评测

百度网盘Mac版下载限速突破方案深度评测 【免费下载链接】BaiduNetdiskPlugin-macOS For macOS.百度网盘 破解SVIP、下载速度限制~ 项目地址: https://gitcode.com/gh_mirrors/ba/BaiduNetdiskPlugin-macOS 在当前的网络环境中,百度网盘作为国内主流的云存储…

作者头像 李华
网站建设 2026/3/26 17:57:21

XDU研究生论文LaTeX模板终极指南:快速上手的完整解决方案

XDU研究生论文LaTeX模板终极指南:快速上手的完整解决方案 【免费下载链接】xdupgthesis [停止维护 请使用note286/xduts]西安电子科技大学研究生学位论文XeLaTeX模板 项目地址: https://gitcode.com/gh_mirrors/xd/xdupgthesis 西安电子科技大学研究生学位论…

作者头像 李华
网站建设 2026/3/26 22:43:07

自动化测试用例设计:保障IndexTTS 2.0每次更新质量

自动化测试用例设计:保障 IndexTTS 2.0 每次更新质量 在 AIGC 技术席卷内容创作领域的今天,语音合成已不再是简单的“文字转声音”,而是迈向高可控、可编辑、零样本定制的新阶段。B站开源的 IndexTTS 2.0 正是这一趋势下的先锋之作——它不仅…

作者头像 李华