强化学习，on-policy和off-policy具体有啥不一样的？？

weixin_28742095 2021-12-02 09:54:49

强化学习，on-policy和off-policy具体有啥不一样的？？

...全文

1904 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 2021-12-02

打赏
举报

回复

Q(St,At)←Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)−Q(St,At)]
Q学习采用对最优动作价值函数的近似作为学习目标，与行动策略无关，是off-policy。

本文是这篇博文的注，如有需要请以其为纲 ...若agent看别的agent与环境互动，自己不参与互动，则为Off-policy（此时因为互动的和目标优化的是两个agent，所以他们的policy可能不一致）。两者在采样数据利...

Off-policy:一个智能体agent（actor）A1A1A1看另外一个智能体A2A2A2和环境互动，然后A1A1A1使用A2A2A2和环境互动的数据来进行学习例子1：打篮球。你自己亲自去打就是On-policy,如果把投球的姿势看作一个你要学习...

本章我们关注on-policy control 问题，这里采用参数化方法逼近action-value函数 q̂&amp;nbsp;(s,a,w)≈q(s,a)q^(s,a,w)≈q(s,a)\hat q(s,a,\mathbf w) \approx q(s,a)，其中，ww\mathbf w为权重向量。在11...

on-policy、off-policy和offline的区别。

policy-based和value-based是RL中model-free的两大分支，关于...Sutton强化学习书籍常见的policy-based方法： REFORCEMENT A2C A3C DDPG TD3 Smoothie SAC系列(SQL) PPO系列(TRPO、DPPO) 为什么要学习policy-base

高通开发者论坛

5,379

社区成员

5,923

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章