枫老师的课程社区_NO_1社区-CSDN社区云

社区首页 (3668)

我加入的社区

我管理的社区

官方推荐社区 76

其他社区 3668

请编写您的帖子内容

社区频道(2)

显示侧栏

卡片版式

深度强化学习极简入门与Pytorch实战

【深度强化学习落地指南】RL环境开发+PPO训练

最新发布

最新回复

标题

阅读量

内容评分

精选

二向箔不会思考 2023-01-13

置顶

深度强化学习极简入门与Pytorch实战

课程名称适应人群深度强化学习极简入门与Pytorch实战想学习深度强化学习的高年本科生、低年级硕博学生；对深度强化学习感兴趣的工业界同学。强化学习作为行为主义人工智能学派的典型代表，近几年与深度神经网络相结合形成的深度强化学习(DRL)，达到了令人

...全文

3880

评分

19

二向箔不会思考 2023-01-13

4.4 MC估计玩二十一点游戏代码讲解

课时名称课时知识点4.4 MC估计玩二十一点游戏代码讲解详细领读使用MC估计玩二十一点游戏的代码

...全文

320

评分

4

二向箔不会思考 2023-01-13

3.5 Numpy计算库使用基础

课时名称课时知识点3.5 Numpy计算库使用基础介绍强大的python计算库Numpy，并介绍其常用的类型和函数

...全文

234

评分

回复

二向箔不会思考 2023-01-13

8.5 PPO如何解决REINFORCE算法的缺点

课时名称课时知识点8.5 PPO如何解决REINFORCE算法的缺点介绍REINFORCE算法存在的问题以及解决方向

...全文

248

评分

回复

二向箔不会思考 2023-01-13

8.7 PPO中的Critic网络

课时名称课时知识点8.7 PPO中的Critic网络详细介绍PPO算法中的重要技巧，使用critic网络

...全文

363

评分

回复

二向箔不会思考 2023-01-13

8.9 经验池实现和神经网络更新

课时名称课时知识点8.9 经验池实现和神经网络更新介绍PPO算法核心部分的编程实现，重点介绍代理函数的构造

...全文

266

评分

回复

二向箔不会思考 2023-01-13

8.8 PPO智能体结构设计和实现

课时名称课时知识点8.8 PPO智能体结构设计和实现详细介绍PPO智能体的设计原理和要点，并使用神经网络建模

...全文

236

评分

回复

二向箔不会思考 2023-01-13

3.6 Matplotlib绘图基础

课时名称课时知识点3.6 Matplotlib绘图基础介绍如何使用Matplotlib进行绘图，掌握论文中精美插图的绘制

...全文

246

评分

回复

二向箔不会思考 2023-01-13

4.6 MC算法的增量实现

课时名称课时知识点4.6 MC算法的增量实现详细介绍蒙特卡洛估计价值函数的增量实现版本

...全文

235

评分

回复

二向箔不会思考 2023-01-13

6.4 编程实战：波士顿房价预测

课时名称课时知识点6.4 编程实战：波士顿房价预测编程实战：使用深度神经网络完成波士顿房价预任务

...全文

252

评分

回复

二向箔不会思考 2023-01-13

8.6 PPO利用重要性采样和代理函数的裁剪

课时名称课时知识点8.6 PPO利用重要性采样和代理函数的裁剪详细介绍PPO算法总的重要技巧，使用重要性采样，增加样本利用率

...全文

256

评分

回复

二向箔不会思考 2023-01-13

8.4 REINFORCE编程实现

课时名称课时知识点8.4 REINFORCE编程实现详细解读如何实现REINFOR算法，并分析算法性能

...全文

303

评分

回复

二向箔不会思考 2023-01-13

4.3 Gym环境以及二十一点游戏

课时名称课时知识点4.3 Gym环境以及二十一点游戏蒙特卡洛方法部分的编程实战，介绍OpenAI Gym环境和二十一点游戏

...全文

362

评分

回复

二向箔不会思考 2023-01-13

3.2 Python中的变量与list

课时名称课时知识点3.2 Python中的变量与list介绍Python中常用的变量以及list类型

...全文

267

评分

回复

二向箔不会思考 2023-01-13

3.4 Python中的函数和类

课时名称课时知识点3.4 Python中的函数和类介绍Python中函数和类的使用以及注意点

...全文

231

评分

回复

二向箔不会思考 2023-01-13

4.2 MC估计价值函数

课时名称课时知识点4.2 MC估计价值函数介绍使用蒙特卡洛估计方法估计价值函数，包含epsilon-greesy策略、Q值表、MC估计、MC增量估计等内容。

...全文

286

评分

回复

二向箔不会思考 2023-01-13

3.3 python中常用于RL的变量类型

课时名称课时知识点3.3 python中常用于RL的变量类型介绍Python中常用于强化学习编程开发中的接种类型数据

...全文

241

评分

回复

二向箔不会思考 2023-01-13

4.5 MC算法伪代码

课时名称课时知识点4.5 MC算法伪代码详细介绍蒙特卡洛方法估计价值函数的算法流程

...全文

242

评分

回复

二向箔不会思考 2023-01-13

9.4 PPO算法对环境进行学习

课时名称课时知识点9.4 PPO算法对环境进行学习使用spinningUp中的PPO训练智能体学会在网格世界中寻找目标。

...全文

313

评分

回复

二向箔不会思考 2023-01-13

8.2 基于策略的方法

课时名称课时知识点8.2 基于策略的方法详细介绍基于策略的方法工作原理，以及和基于价值的方法的区别

...全文

235

评分

回复

二向箔不会思考 2023-01-13

7.2 DQN实战-实现月球车着陆

课时名称课时知识点7.2 DQN实战-实现月球车着陆编程实战：实现DQN算法，并使用DQN智能体控制月球车着陆

...全文

326

评分

2

枫老师的课程社区_NO_1

2

社区成员

49

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告