8.7 PPO中的Critic网络

二向箔不会思考 2023-01-13 03:36:47

课时名称	课时知识点
8.7 PPO中的Critic网络	详细介绍PPO算法中的重要技巧，使用critic网络

...全文

280 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

在去年的这个时候，我以deepspeed-chat的代码为例，解读了rlhf运作的流程。当时写这篇文章的目的，主要是想让读者在没有强化学习知识的情况下，能从直觉上快速理解这份代码，以便上手训练和修改。由于这篇文章侧重“直觉”上的解读，因此有很多描述不严谨的地方。所以去年我就想接着敲一篇比较严谨的介绍强化学习理论的文章（策略梯度->actor-critic -> PPO），但是由于敲公式真得太累了，所以一直delay到今天。所以今天这篇文章就来做这件事，我的主要参考资料是Sutton的这本强化学习导论(htt

核心发现：GSPO的创新在于将重要性比率从token级提升到序列级，这是一个重大的理论突破。策略优化是强化学习的核心，目标是让AI学会在不同情况下做出最好的决策。想象你在教一个机器人下棋： 1.3 核心思想对比 PPO：使用token级重要性比率和裁剪机制，需要价值网络估计优势函数 GRPO：使用token级重要性比率但采用群组归一化优势，去除价值网络依赖 GSPO：使用序列级重要性比率和序列级裁剪，解决token级方法的根本问题P(A∣B)=P(A∩B)P(B)P(A|B) = \frac{P(A \ca

在深度强化学习（Deep Reinforcement Learning, DRL）领域，训练稳定且泛化能力强的神经网络一直是研究者面临的主要挑战。当智能体（Agent）在复杂环境中探索时，状态分布的不断变化（非平稳分布）会导致神经网络的训练过程变得困难，出现梯度消失、训练震荡等问题。批量归一化（Batch Normalization, BN）技术通过标准化每一层的输入数据，有效缓解了这些问题，成为...

我们首先从简单的基于模型的方法开始我们的旅程，其中我们通过迭代贝尔曼方程来解决小的、离散的状态空间问题。接下来，我们讨论了使用蒙特卡罗和时间差分方法的无模型设置。然后，我们使用函数近似将分析扩展到大的或连续的状态空间。特别是，我们将 DQN 及其许多变体视为政策学习的途径。所有这些方法的核心思想是首先了解当前政策的价值，然后对政策进行迭代改进以获得更好的回报。这是使用广义政策迭代(GPI) *的一般框架完成的。

本文提出了一种基于深度强化学习（DRL）与网络功能虚拟化（NFV）的三位一体动态流量调度方法，用于优化医疗AI环境下的网络资源分配。通过马尔可夫决策过程建模，设计了PS-PDDPG算法，结合优先级经验回放和参数噪声技术，显著提升了训练效率（收敛步数减少29%）。创新性地采用"紧急度-数据量"二维优先级模型和LSTM流量预测，实现了急诊手术流时延降至85ms、频谱效率提升32%的效果。实验表明，该方法在保证医疗业务QoS的同时，有效降低了资源利用成本。

枫老师的课程社区_NO_1

2

社区成员

49

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章