不理解为什么强化学习过程中需要分别计算V(s)和A(s,a)这两个参数呢？

Kirara绵绵冰 2021-12-02 09:56:38

不理解为什么强化学习过程中需要分别计算V(s)和A(s,a)这两个参数呢？

...全文

2044 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 2021-12-02

打赏
举报

回复

通过解耦估计，DDQN可以直观地了解哪些状态是（或不是）有价值的，而不必了解每个状态下每个动作的效果（因此，还是需要计算V(s)的）。使用原版的 DQN，需要计算某个状态state下每个动作的值。但如果该状态state不好，这样就做有什么意义呢？通过解耦计算 V(s)，找出对于那些任何行为都不会被影响的状态尤其有用。在这种情况下，不必计算每个动作的值。

强化学习里面的概念、公式，相比ML/DL特别多，初学者刚学RL时，很容易被接连不断的概念、公式给绕晕，而且经常忘记概念与公式符号表达的一一对应(包括我自己在1.10日之前对好多满是概念/公式的RL书完全看不下去，如今都看得懂了，故如果读文本之前，你正在被RL各种公式困扰，相信看完这篇RL极简入门后就完全不一样了)。

强化学习 主要参考西瓜书和一些网上视频加上个人理解，欢迎互动。 强化学习的model如下图所示，机器在当前状态下做出动作a，然后环境反馈给机器下一个状态和一个奖励。假定状态空间X，每一个状态x∈X，动作空间A，每一个动作a∈A，奖赏函数为R，P为状态转移函数，那么强化学习对应了四元组E=<X,A,P,R>。此处以西瓜浇水为例：机器通过在环境中不断尝试来学得一个最...

【强化学习】什么强化学习算法？一、强化学习解决什么问题？二、强化学习如何解决问题？2.1、强化学习的基本框架2.2、强化学习系统的要素2.3、强化学习与监督学习的区别2.4、强化学习与非监督学习的区别三、强化学习实例3.1、训练Tic-Tac-Toe游戏玩家的强化学习理解3.2、训练Tic-Tac-Toe游戏玩家的python代码参考资料本博文通过参考《深入浅出强化学习原理入门》的第一章与《Re...

强化学习笔记（一）马尔可夫决策过程参考资料正文Q1: RtR_{t}Rt, GtG_{t}Gt, V(St)V(S_{t})V(St)都有奖励或收获的含义，它们有什么区别？Q2：为什么GtG_{t}Gt使用那样的衰减公式？Q3：贝尔曼方程的作用？Q4：π(a∣s)\pi(a|s)π(a∣s)和Pss′aP_{ss'}^{a}Pss′a的区别？Q5： Vπ(s)V_\pi(s)Vπ(s)和qπ(s,a)q_\pi(s,a)qπ(s,a)的关系？Q6: 不同的策略产生不同的Vπ(s)V_{\pi}

强化学习（RL）学习笔记（一）MDP 本人在研究生阶段选择通过深度强化学习实现自动驾驶作为毕业项目，今后将分享一些在学习强化学习过程中的心得，还请各位大牛多多指教。学习过程中的参考文献及链接将附在每篇文章的结尾。什么是强化学习 强化学习，就是使我们的智能体Agent获得独立自主的完成某项任务的能力。智能体学习和做出行动的地方，就是我们的环境。这些Agent在于环境互动的过程中，会因为不同的行为产生不同的奖励Reward，在与环境的不断交互中不断改进。如图，感知-行动-学习循环（perception-ac

高通开发者论坛

5,379

社区成员

5,923

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章