注:本节课共分为两个学时
1. DP,MC 和 TD 方法比较
2. MC 和 TD 方法偏差与方差平衡
3. 同策略 TD 方法:Sarsa 方法
4. 异策略 TD 方法:Qlearning 方法
5. N 步预测及 的前向和后向观点
6. 基于 python 的 TD 方法实现
郭宪
南开大学计算机与控制工程学院博士后,AI 教研室团队成员 。2009年毕业于华中科技大学机械设计制造及自动化专业,同年保送到中国科学院沈阳自动化研究所进行硕博连读,主攻机器人动力学建模与控制,于2016年1月获得工学博士学位,期间在国内外知名杂志和会议发表论文数10篇。2016年以来, 郭博士主攻方向为机器人智能感知和智能决策,目前主持两项国家级课题,内容涉及深度学习,深度强化学习等智能算法在机器人领域中的应用。
强化学习深入浅出完全教程,内容包括强化学习概述、马尔科夫决策过程、基于模型的动态规划方法、蒙特卡罗方法、时间差分方法、Gym环境构建及强化学习算 法实现、值函数逼近方法、DQN方法及其变种、策略梯度方法。
相关链接:
https://edu.csdn.net/huiyiCourse/detail/642?utm_source=edu_bbs_autocreate