用MATLAB实现安全强化学习（Safe RL）-智慧文博士

MATLAB代码：安全强化学习关键词：safe RL 仿真平台：MATLAB 主要内容：此代码展示了如何使用 Constraint Enforcement 块来训练强化学习 (RL) 代理。此块计算最接近受约束和动作边界的代理输出的动作的修改控制动作。训练强化学习代理需要 Reinforcement Learning Toolbox 。在此示例中，代理的目标是使绿球尽可能靠近红球不断变化的目标位置。具体步骤为创建用于收集数据的环境和代理，学习约束函数，使用约束强制训练代理，在没有约束执行的情况下训练代理。

在这篇博文中，咱们来聊聊如何用MATLAB实现安全强化学习（Safe RL）。安全强化学习在如今的很多领域都非常重要，它能确保在学习过程中系统始终保持在安全范围内。

主要代码展示及分析

咱们先来看核心代码，这段代码展示了如何使用Constraint Enforcement块来训练强化学习 (RL) 代理。

% 假设这里已经加载了Reinforcement Learning Toolbox % 创建用于收集数据的环境和代理 env = rlPredefinedEnv('CartPole-Discrete'); agent = rlQAgent(env.ObservationInfo, env.ActionInfo);

在这段代码里，我们首先利用rlPredefinedEnv创建了一个预定义的环境，这里用的是'CartPole-Discrete'环境，就好比是搭建了一个舞台。然后通过rlQAgent创建了一个Q学习代理，这个代理就像是舞台上要表演的演员，它会根据环境的反馈来学习怎么做是最好的。

% 学习约束函数 constraintFunction = @(state,action) state(2) <= 0.5;

这个constraintFunction就是我们的约束函数啦。在这里它表示当状态的第二个元素小于等于0.5时，才满足约束条件。这就像是给演员（代理）设定了一些规则，不能随便乱来。

% 使用约束强制训练代理 trainOpts = rlTrainingOptions(... 'MaxEpisodes',500,... 'MaxStepsPerEpisode',100,... 'ScoreAveragingWindowLength',10); trainResults = train(agent, env, trainOpts,... 'ConstraintFunction', constraintFunction);

在这部分，我们定义了训练选项trainOpts，设定了最大episode数为500，每个episode最大步数为100，分数平均窗口长度为10。然后调用train函数来训练代理，并且传入了我们之前定义的约束函数constraintFunction。这就好比告诉演员（代理），按照这些规则和训练方式去学习，不断提升自己的“演技”。

% 在没有约束执行的情况下训练代理 trainResultsWithoutConstraint = train(agent, env, trainOpts);

最后这部分代码，我们又在没有约束的情况下训练了代理，这样可以对比有约束和无约束时代理的学习效果。就好比看看演员（代理）没了规则的束缚，会有怎样不同的表现。

应用场景说明

在此示例中，代理的目标是使绿球尽可能靠近红球不断变化的目标位置。通过这些步骤，我们就能很好地控制代理的行为，在满足安全约束（这里的约束函数）的前提下，让绿球完成靠近红球的任务。

整个过程里，那个Constraint Enforcement块起到了关键作用，它计算最接近受约束和动作边界的代理输出的动作的修改控制动作，就像一个裁判，时刻看着代理的动作，确保不违规。而训练强化学习代理当然是需要Reinforcement Learning Toolbox 啦，这就像是一个必备的工具包，没它可玩不转。

希望通过这篇博文，大家对用MATLAB实现安全强化学习有更清晰的认识。可以自己动手试试，调整调整参数，看看代理的表现会有什么不同哦。

力扣718 最长重复子数组 java实现

718.最长重复子数组给两个整数数组 nums1 和 nums2 ，返回两个数组中公共的、长度最长的子数组的长度。示例 1： 输入：nums1 [1,2,3,2,1], nums2 [3,2,1,4,7] 输出：3 解释：长度最长的公共子数组是 [3,2,1] 。示…

李华

虎贲等考 AI：重新定义学术创作！AI 驱动的全流程论文写作智能伙伴

在学术探索的道路上，每一位学子、科研工作者都曾面临 “选题迷茫无措、文献梳理繁杂、实证分析棘手、格式优化耗时” 的困境 —— 深夜对着空白文档无从下笔，花费数周整理的文献却因引用虚假被打回，精心绘制的图表因不符合学术规范反复修改&a…

李华

【毕业设计】基于Java web的酒店管理系统设计与实现(源码+文档+远程调试，全bao定制等)

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

李华

一封写给汉口的复古情书，藏在黎黄陂路

黎黄陂路，位于武汉市汉口历史风貌区的核心区域，是一条全长约六百米的街道，连接着中山大道与沿江大道。这条路的核心特点在于其被整体定位为一处“街头博物馆”，街道两侧密集分布着保存完好的近代西洋历史建筑群，这些建…

李华

必收藏｜2026年开局AI浪潮来袭，程序员/小白必学大模型，抢占职业先机

2026年开局伊始，AI技术浪潮便以席卷万物之势席卷全球，不仅重构了各行各业的发展格局，更在潜移默化中重塑着程序员的职业发展路径——曾经的职业成长节奏被打破，新的能力要求应运而生，能否跟上大模型发展步伐&#xff0…

李华

Java毕设项目：基于SpringBoot的模拟证券交易软件平台设计与实现(源码+文档，讲解、调试运行，定制等)

李华