深度强化学习极简入门与Pytorch实战
社区首页 (3643)
请编写您的帖子内容
社区频道(2)
显示侧栏
卡片版式
深度强化学习极简入门与Pytorch实战
【深度强化学习落地指南】RL环境开发+PPO训练
最新发布
最新回复
标题
阅读量
内容评分
精选

3616
评分
19
深度强化学习极简入门与Pytorch实战
课程名称适应人群深度强化学习极简入门与Pytorch实战想学习深度强化学习的高年本科生、低年级硕博学生;对深度强化学习感兴趣的工业界同学。 强化学习作为行为主义人工智能学派的典型代表,近几年与深度神经网络相结合形成的深度强化学习(DRL),达到了令人
复制链接 扫一扫
分享

230
评分
4
4.4 MC估计玩二十一点游戏代码讲解
课时名称课时知识点4.4 MC估计玩二十一点游戏代码讲解详细领读使用MC估计玩二十一点游戏的代码
复制链接 扫一扫
分享

173
评分
回复
3.5 Numpy计算库使用基础
课时名称课时知识点3.5 Numpy计算库使用基础介绍强大的python计算库Numpy,并介绍其常用的类型和函数
复制链接 扫一扫
分享

183
评分
回复
8.5 PPO如何解决REINFORCE算法的缺点
课时名称课时知识点8.5 PPO如何解决REINFORCE算法的缺点介绍REINFORCE算法存在的问题以及解决方向
复制链接 扫一扫
分享

280
评分
回复
8.7 PPO中的Critic网络
课时名称课时知识点8.7 PPO中的Critic网络详细介绍PPO算法中的重要技巧,使用critic网络
复制链接 扫一扫
分享

209
评分
回复
8.9 经验池实现和神经网络更新
课时名称课时知识点8.9 经验池实现和神经网络更新介绍PPO算法核心部分的编程实现,重点介绍代理函数的构造
复制链接 扫一扫
分享

181
评分
回复
8.8 PPO智能体结构设计和实现
课时名称课时知识点8.8 PPO智能体结构设计和实现详细介绍PPO智能体的设计原理和要点,并使用神经网络建模
复制链接 扫一扫
分享

192
评分
回复
3.6 Matplotlib绘图基础
课时名称课时知识点3.6 Matplotlib绘图基础介绍如何使用Matplotlib进行绘图,掌握论文中精美插图的绘制
复制链接 扫一扫
分享

181
评分
回复
4.6 MC算法的增量实现
课时名称课时知识点4.6 MC算法的增量实现详细介绍蒙特卡洛估计价值函数的增量实现版本
复制链接 扫一扫
分享

201
评分
回复
6.4 编程实战:波士顿房价预测
课时名称课时知识点6.4 编程实战:波士顿房价预测编程实战:使用深度神经网络完成波士顿房价预任务
复制链接 扫一扫
分享

199
评分
回复
8.6 PPO利用重要性采样和代理函数的裁剪
课时名称课时知识点8.6 PPO利用重要性采样和代理函数的裁剪详细介绍PPO算法总的重要技巧,使用重要性采样,增加样本利用率
复制链接 扫一扫
分享

223
评分
回复
8.4 REINFORCE编程实现
课时名称课时知识点8.4 REINFORCE编程实现详细解读如何实现REINFOR算法,并分析算法性能
复制链接 扫一扫
分享

298
评分
回复
4.3 Gym环境以及二十一点游戏
课时名称课时知识点4.3 Gym环境以及二十一点游戏蒙特卡洛方法部分的编程实战,介绍OpenAI Gym环境和二十一点游戏
复制链接 扫一扫
分享

204
评分
回复
3.2 Python中的变量与list
课时名称课时知识点3.2 Python中的变量与list介绍Python中常用的变量以及list类型
复制链接 扫一扫
分享

181
评分
回复
3.4 Python中的函数和类
课时名称课时知识点3.4 Python中的函数和类介绍Python中函数和类的使用以及注意点
复制链接 扫一扫
分享

215
评分
回复
4.2 MC估计价值函数
课时名称课时知识点4.2 MC估计价值函数介绍使用蒙特卡洛估计方法估计价值函数,包含epsilon-greesy策略、Q值表、MC估计、MC增量估计等内容。
复制链接 扫一扫
分享

184
评分
回复
3.3 python中常用于RL的变量类型
课时名称课时知识点3.3 python中常用于RL的变量类型介绍Python中常用于强化学习编程开发中的接种类型数据
复制链接 扫一扫
分享

181
评分
回复
4.5 MC算法伪代码
课时名称课时知识点4.5 MC算法伪代码详细介绍蒙特卡洛方法估计价值函数的算法流程
复制链接 扫一扫
分享

252
评分
回复
9.4 PPO算法对环境进行学习
课时名称课时知识点9.4 PPO算法对环境进行学习使用spinningUp中的PPO训练智能体学会在网格世界中寻找目标。
复制链接 扫一扫
分享

191
评分
回复
8.2 基于策略的方法
课时名称课时知识点8.2 基于策略的方法详细介绍基于策略的方法工作原理,以及和基于价值的方法的区别
复制链接 扫一扫
分享

267
评分
2
7.2 DQN实战-实现月球车着陆
课时名称课时知识点7.2 DQN实战-实现月球车着陆编程实战:实现DQN算法,并使用DQN智能体控制月球车着陆
复制链接 扫一扫
分享
为您搜索到以下结果:
2
社区成员
49
社区内容
发帖
与我相关
我的任务
枫老师的课程社区_NO_1
本AI正在冥想中~
复制链接 扫一扫
分享确定
社区描述
本AI正在冥想中~
加入社区
获取链接或二维码
- 近7日
- 近30日
- 至今
加载中
社区公告
暂无公告