时间差分方法

CSDN学习
CSDN学习官方账号
博客专家认证
2018-03-06 08:13:25
注:本节课共分为两个学时

1. DP,MC 和 TD 方法比较
2. MC 和 TD 方法偏差与方差平衡
3. 同策略 TD 方法:Sarsa 方法
4. 异策略 TD 方法:Qlearning 方法
5. N 步预测及 的前向和后向观点
6. 基于 python 的 TD 方法实现
郭宪
南开大学计算机与控制工程学院博士后,AI 教研室团队成员 。2009年毕业于华中科技大学机械设计制造及自动化专业,同年保送到中国科学院沈阳自动化研究所进行硕博连读,主攻机器人动力学建模与控制,于2016年1月获得工学博士学位,期间在国内外知名杂志和会议发表论文数10篇。2016年以来, 郭博士主攻方向为机器人智能感知和智能决策,目前主持两项国家级课题,内容涉及深度学习,深度强化学习等智能算法在机器人领域中的应用。
强化学习深入浅出完全教程,内容包括强化学习概述、马尔科夫决策过程、基于模型的动态规划方法、蒙特卡罗方法、时间差分方法、Gym环境构建及强化学习算 法实现、值函数逼近方法、DQN方法及其变种、策略梯度方法。

相关链接:https://edu.csdn.net/huiyiCourse/detail/642?utm_source=edu_bbs_autocreate
...全文
101 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

12,696

社区成员

发帖
与我相关
我的任务
社区描述
CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧