4.3 Gym环境以及二十一点游戏

二向箔不会思考 2023-01-13 03:36:46

课时名称	课时知识点
4.3 Gym环境以及二十一点游戏	蒙特卡洛方法部分的编程实战，介绍OpenAI Gym环境和二十一点游戏

...全文

331 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

1. 要点手动编环境是一件很耗时间的事情, 所以如果有能力使用别人已经编好的环境, 可以节约我们很多时间. OpenAI gym 就是这样一个模块, 他提供了我们很多优秀的模拟环境. 我们的各种 RL 算法都能使用这些环境. 不过 OpenAI gym 暂时只支持 MacOS 和 Linux 系统. Windows 已经支持, 但是听说还没有全面支持, 大家时不时查看下官网, 可能就有惊喜. 实在等不及Windows更新了, 用 tkinter 来手动编写一下环境也行. 这里有我制作的很好的tkin..

最近在研究强化学习相关的内容，浏览网站，发现大多都是关于gym 的 env 环境搭建过程的，而对强化学习的算法构建环节只字不提。没办法，笔者研究只好研究相关资料，自行学习并构建了Q-learning算法下运用gym库进行强化学习的程序框架。目前能够完成基础的强化学习任务。在本次实践中，我们着手研究gym的环境搭建和环境frozen_lake的源程序结构，在了解其游戏规则和回报计算方式的基础上，尝试自行构建Q-learning强化学习算法并将其运用到该游戏问题中。

包装器是一种便捷的方法，可以在不直接修改底层代码的情况下修改现有环境。让我们看一个例子：有时（尤其是在我们无法控制奖励时，因为它是内在的），我们希望将奖励剪裁到一个范围内，以获得一些数值稳定性。如果你有一个包装过的环境，并希望获取所有包装层下的未包装环境（以便手动调用函数或更改环境的一些底层方面），可以使用。然而，有时你可能需要实现一个包装器来进行一些更复杂的修改（例如，基于信息中的数据修改奖励）。智能体在环境中执行一些动作（通常是向环境传递一些控制输入，例如电机的扭矩输入）并观察环境状态的变化。

作者：禅与计算机程序设计艺术 1.简介 OpenAI gym是一个强大的机器学习工具包，它提供了许多可以用于开发和测试强化学习、机器学习和其他对抗性问题的环境。其主要特点包括： Open-source：可以免费下载、使用、修改和商用，源代码完全

你还在为如何定义强化学习环境的状态和动作而困惑吗？训练AIagent时是否常因空间定义不当导致模型不收敛？本文将通过gym开源库的核心实现，带你3步掌握状态空间(Space)与动作空间的设计精髓，从代码层面理解离散/连续空间的底层逻辑，并通过CartPole与FrozenLake两大经典环境实战，让你的强化学习模型构建效率提升40%。读完本文你将获得： - 空间定义的3大核心要素（维度/类型/...

枫老师的课程社区_NO_1

2

社区成员

49

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章