为什么 Agent 的目标是最大化预期的累积奖励？

weixin_28747029 2021-12-02 09:55:15

为什么 Agent 的目标是最大化预期的累积奖励？

...全文

1951 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 2021-12-02

打赏
举报

回复

实际上，强化学习是基于奖励假设的想法。所有目标都可以通过预期累积奖励的最大化来描述。

文档描述 https://blog.csdn.net/weixin_46059110/article/details/120227858

强化学习与游戏AI_深度Q网络DQN_双深度Q网络DDQN_神经网络_状态预处理_奖励设计_可视化工具_基于强化学习的超级玛丽游戏智能代理训练系统_用于探索强化学习算法在经典游戏中.zip

23-24-提交-强化学习-1.pdf

新版增强学习导论草稿，英文版第二版。全面介绍了增强学习的知识，入门必备。

中英文翻译-《强化学习》-第三章，控制方向的毕业设计翻译的最佳选择。

高通开发者论坛

5,379

社区成员

5,923

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章