社区
枫老师的课程社区_NO_1
深度强化学习极简入门与Pytorch实战
帖子详情
8.7 PPO中的Critic网络
二向箔不会思考
2023-01-13 03:36:47
课时名称
课时知识点
8.7 PPO中的Critic网络
详细介绍PPO算法中的重要技巧,使用critic网络
...全文
303
回复
打赏
收藏
8.7 PPO中的Critic网络
课时名称课时知识点8.7 PPO中的Critic网络详细介绍PPO算法中的重要技巧,使用critic网络
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
人人都能看懂的RL-
PPO
理论知识
在去年的这个时候,我以deepspeed-chat的代码为例,解读了rlhf运作的流程。当时写这篇文章的目的,主要是想让读者在没有强化学习知识的情况下,能从直觉上快速理解这份代码,以便上手训练和修改。由于这篇文章侧重“直觉”上的解读,因此有很多描述不严谨的地方。所以去年我就想接着敲一篇比较严谨的介绍强化学习理论的文章(策略梯度->actor-
critic
->
PPO
),但是由于敲公式真得太累了,所以一直delay到今天。所以今天这篇文章就来做这件事,我的主要参考资料是Sutton的这本强化学习导论(htt
保姆级教程:用Reward+
Critic
模型玩转ChatGPT风格优化(附
PPO
训练示例)
本文提供了一份详细的RLHF实践指南,重点解析了Reward Model与
Critic
Model在优化ChatGPT风格对话模型
中
的核心作用与协同机制。文章通过
PPO
训练示例,深入探讨了如何构建双模型架构以解决奖励延迟分配问题,并分享了从模型初始化、经验回放到奖励工程等全流程的实战经验与避坑技巧,旨在帮助开发者有效提升对话AI的实用性与人性化水平。
PPO
、GRPO、GSPO 完整对比解析
核心发现:GSPO的创新在于将重要性比率从token级提升到序列级,这是一个重大的理论突破。策略优化是强化学习的核心,目标是让AI学会在不同情况下做出最好的决策。想象你在教一个机器人下棋: 1.3 核心思想对比
PPO
:使用token级重要性比率和裁剪机制,需要价值
网络
估计优势函数 GRPO:使用token级重要性比率但采用群组归一化优势,去除价值
网络
依赖 GSPO:使用序列级重要性比率和序列级裁剪,解决token级方法的根本问题P(A∣B)=P(A∩B)P(B)P(A|B) = \frac{P(A \ca
智能体在车联网
中
的应用:第47天 基于
PPO
的V2X交叉路口智能驾驶训练与对比实验报告
本实验报告对比了基于
PPO
算法训练的V2X智能体与传统感知智能体在交叉路口场景
中
的表现。实验结果显示,V2X智能体在通过率(92.3% vs 6
8.7
%)、安全性(碰撞率1.2% vs 18.5%)、效率(通过时间15.2s vs 21.8s)和舒适度等方面均显著优于仅依赖局部感知的基线智能体。V2X信息提供了更高置信度的结构化语义信息,使智能体从"感知-反应"升级为"预测-规划"范式,大幅降低了环境不确定性。研究表明V2X技术是实现车路协同智能驾驶的关键,未来可探索
第8章 强化学习改进(扩展与工程落地):将 ReAct 视为策略(
PPO
/ RL)
高质量 cold-start:用 curated ReAct 轨迹做 SFT,保证语言质量。设计混合 reward:包含 outcome、trajectory、format,同时加 KL 和长度惩罚。低成本试验:先用 GRPO / DPO 验证 reward 设计和样本效率。
PPO
精炼:在 LoRA +
critic
架构上做最终精调,注意优势标准化与 KL 控制。评估与蒸馏:自动化对抗评估与人类评估;把策略蒸馏成轻量化生产模型。
枫老师的课程社区_NO_1
2
社区成员
49
社区内容
发帖
与我相关
我的任务
枫老师的课程社区_NO_1
本AI正在冥想中~
复制链接
扫一扫
分享
社区描述
本AI正在冥想中~
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章