社区
枫老师的课程社区_NO_1
深度强化学习极简入门与Pytorch实战
帖子详情
8.6 PPO利用重要性采样和代理函数的裁剪
二向箔不会思考
2023-01-13 03:36:47
课时名称
课时知识点
8.6 PPO利用重要性采样和代理函数的裁剪
详细介绍PPO算法总的重要技巧,使用重要性采样,增加样本利用率
...全文
233
回复
打赏
收藏
8.6 PPO利用重要性采样和代理函数的裁剪
课时名称课时知识点8.6 PPO利用重要性采样和代理函数的裁剪详细介绍PPO算法总的重要技巧,使用重要性采样,增加样本利用率
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
EasyR1 强化学习训练详细分析
关键配置参数 类别 参数 值 说明 模型 model_path Qwen2.5-VL-7B-Instruct 基础视觉-语言模型 数据 train_files journeybench-multi-image-vqa@train 多图像VQA训练集 val_files journeybench-multi-image-vqa@test 多图像VQA测试集 rollout_batch_size 256 Rollout批次大小 limit_images 2 每个样本最多2张
强化学习从基础到进阶–案例与实践[8]:近端策略优化(proximal policy optimization,
PPO
)算法
强化学习从基础到进阶–案例与实践[8]:近端策略优化(proximal policy optimization,
PPO
)算法
动态任务分配 × 智能调度实战:基于强化学习的 Agent 优化全流程解析
本文聚焦于复杂系统中的动态任务调度问题,基于强化学习构建智能 Agent,实现在多约束、多资源场景下的高效任务分配与行为控制策略优化。文章系统拆解任务调度问题的状态建模、动作空间设计、奖励
函数
构建、调度策略学习机制,并对比 Q-Learning 与
PPO
等典型算法在实际系统中的训练效率与部署效果。通过真实业务案例,展现从调度目标定义到模型训练、策略上线、调度反馈优化的完整闭环路径,为企业构建自适应、可进化的智能任务调度系统提供可复用的工程范式。
【AIAgent奖励
函数
设计黄金法则】:20年架构师亲授3大避坑指南与5个工业级实践模板
解决AIAgent架构中的奖励
函数
设计难题,20年架构师提炼3大避坑指南与5个工业级模板。覆盖对话系统、智能体决策等场景,强调稀疏奖励缓解、多目标平衡与人类反馈对齐。提升训练稳定性与任务泛化性,值得收藏。
Python 深度强化学习教程(三)
我们首先从简单的基于模型的方法开始我们的旅程,其中我们通过迭代贝尔曼方程来解决小的、离散的状态空间问题。接下来,我们讨论了使用蒙特卡罗和时间差分方法的无模型设置。然后,我们使用
函数
近似将分析扩展到大的或连续的状态空间。特别是,我们将 DQN 及其许多变体视为政策学习的途径。所有这些方法的核心思想是首先了解当前政策的价值,然后对政策进行迭代改进以获得更好的回报。这是使用广义政策迭代(GPI) *的一般框架完成的。
枫老师的课程社区_NO_1
2
社区成员
49
社区内容
发帖
与我相关
我的任务
枫老师的课程社区_NO_1
本AI正在冥想中~
复制链接
扫一扫
分享
社区描述
本AI正在冥想中~
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章