news 2026/4/4 10:32:29

CGPO:完美融合—用评审混合机制重塑RLHF

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CGPO:完美融合—用评审混合机制重塑RLHF

强化学习人类反馈(Reinforcement learning from human feedback,RLHF)已成为微调大语言模型(LLM)的主流方法。然而,RLHF在多任务学习(MTL)中存在局限性,原因在于奖励操纵(reward hacking)问题以及极端的多目标优化(即多个甚至有时相互冲突的目标之间的权衡)带来的挑战。当前在多任务学习中应用RLHF通常需要通过人工直觉仔细调整奖励模型权重和数据组合的比例,但这种方式难以泛化。

在本工作中,我们提出了一种新的后训练范式,称为约束生成策略优化(Constrained Generative Policy Optimization,CGPO)。CGPO的核心是评审混合机制(Mixture of Judges,MoJ),结合了具成本效益的分层约束策略优化方法,能够以原理化方式识别RLHF中的“完美融合”。CGPO具有强大的实证效果和理论保证,无需大量超参数调优,并可直接接入常见的后训练流程中。通过这种方式,CGPO能够检测并缓解奖励操纵行为,同时在极大量的优化目标上达到帕累托最优点。

我们的实验结果表明,CGPO在通用聊天、STEM问题、指令跟随、数学、编程和知识问答等多个任务上持续优于当前常用的RLHF最先进算法(如PPO和DPO)。具体而言,在AlpacaEval-2(通用聊天)上比PPO提高了7.4%,在Arena-Hard(STEM与推理)中提高了12.5%,在IFEval(指令跟随)中提高了2%,在MATH和GSM8K(数学与推理)中均提高了2%,在HumanEval(编程)中提高了5%,在ARC challenge(知识)中提高了2%。我们还观察到PPO在主流编程基准测试中出现了严重的奖励操纵行为,而CGP

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/4 0:11:14

MetaGPT:用 AI 模拟软件团队,探索智能协作的新可能

在大语言模型(LLM)快速发展的今天,如何让 AI 从“回答问题”走向“完成任务”,成为许多研究者和开发者共同关注的方向。2023 年,由 DeepWisdom(深度智慧)公司推出的开源项目 MetaGPT 提出了一种富有想象力的路径:让多个 LLM 智能体组成一个虚拟的软件团队,协同完成从需…

作者头像 李华
网站建设 2026/3/25 15:09:18

APT28重拳出击乌克兰网络前线:一场伪装成“登录提醒”的国家级钓鱼战

在俄乌战争进入第五个年头之际,战场早已不再局限于顿巴斯的泥泞与巴赫穆特的废墟。数字疆域——尤其是电子邮件、社交平台与政府通信系统——正成为另一条看不见硝烟却生死攸关的战线。近日,全球网络安全界再次将目光聚焦东欧:俄罗斯军事情报…

作者头像 李华
网站建设 2026/4/1 11:25:26

秒级失守!谷歌账户钓鱼进入“自动化收割”时代,你的Gmail还安全吗?

凌晨3点,程序员李明被手机震动惊醒。他收到一条来自“Google安全中心”的推送:“检测到您的账户在莫斯科有异常登录尝试,请立即验证身份。”页面UI与他每天使用的Gmail设置页如出一辙——熟悉的Material Design风格、蓝色主按钮、底部谷歌版权…

作者头像 李华
网站建设 2026/3/22 8:11:08

如何让VSCode瞬间提速3倍?:后台智能体配置的隐藏优化技巧

第一章:VSCode后台智能体性能优化的必要性 现代开发环境中,VSCode 已成为主流代码编辑器之一,其轻量级架构与强大的扩展生态深受开发者青睐。然而,随着项目规模扩大和智能功能(如 IntelliSense、代码导航、语言服务器协…

作者头像 李华
网站建设 2026/4/1 19:18:36

Claude在VSCode中总是崩溃?90%开发者忽略的4个性能陷阱

第一章:Claude在VSCode中总是崩溃?90%开发者忽略的4个性能陷阱许多开发者在使用Claude AI插件增强VSCode开发体验时,频繁遭遇编辑器无响应或直接崩溃的问题。这通常并非VSCode或Claude本身存在严重缺陷,而是配置不当触发了隐藏的性…

作者头像 李华
网站建设 2026/4/3 6:30:08

工业传感器采集项目中Keil5建工程方法详解

从零搭建工业传感器采集工程:Keil5实战全解析在工业自动化现场,你是否曾遇到这样的场景?新到一块STM32开发板,手头有温湿度、压力、振动多个传感器,急着要出数据,打开Keil5却卡在第一步——怎么创建一个真正…

作者头像 李华