NVIDIA 技术博客:自主人工智能超越大赛车世界冠军

nvdev 2022-11-10 11:08:21

这篇文章最初发表在 NVIDIA 技术博客上。有关此类的更多内容,请参阅最新的 概括 新闻和教程。

得益于索尼 AI 、索尼互动娱乐( SIE )以及 GT Sport 的开发者 Polyphony Digital Inc .的最新合作, Gran Turismo ( GT ) Sport 的竞争对手正面临一个新的、 AI 超级强大的竞争者。

被称为 Gran Turismo Sophy ( GT Sophy )的自主人工智能赛车代理最近击败了 GT 运动领域的世界最佳车手。发表在 Nature, 上的 工作 介绍了一种新的深度强化学习平台,用于创建 GT Sophy ,并可能为全球玩家带来新的人工智能体验。

索尼集团公司董事长、总裁兼首席执行官吉田健一郎在一份 发布. 的声明中说:“索尼的目的是‘通过创造力和技术的力量,让世界充满情感’,而大图里斯莫·索菲就是这一点的完美体现。”

“我们为游戏玩家打造了一款游戏 AI ,这是索尼作为一家创意娱乐公司的独特之处。它标志着 AI 发展的重大飞跃,同时也为全球 GT 粉丝提供了增强的体验。”

Smart gaming

人工智能对游戏来说并不新鲜。 2017 年,来自 DeepMind 的 Alpha Zero 项目在学会玩和征服国际象棋、日本象棋和使用深度强化学习( deep RL )围棋时成为新闻

作为机器学习的一种补偿, deep RL 在基本术语中使用计算 RL 代理通过试错来做出决策,以解决问题。在算法中引入深度学习后,智能体从非常大的数据集做出决策,并决定有效地实现其目标的行动。

Alpha Zero 程序使用了一种算法,一个未经训练的神经网络对自己进行了数百万次游戏,并根据其结果调整游戏。

然而,赛车人工智能对来自不同汽车、赛道、驾驶员、天气和对手的无数变量提出了更复杂的推理需求。作为最逼真的驾驶模拟器之一, GT Sport 使用真实的赛车和赛道尺寸,通过考虑空气阻力和轮胎摩擦等因素再现比赛环境。

强化良好行为

该团队创建了一个能够适应实时因素的赛车代理,并使用新开发的 deep RL 算法对 GT Sophy 进行了赛车控制、赛车战术和赛车礼仪三项具体技能的培训。根据 project’s website ,该算法使用最新的强化学习技术,根据赛车经纪人的行为对其进行奖励或惩罚。

研究人员在研究报告中写道:“使用 deep RL 开发赛车代理的优点之一是,工程师无需编程如何以及何时执行赢得比赛所需的技能,只要它暴露在正确的条件下,代理通过反复试验学会做正确的事。”。

该团队定制了一个基于网络的分布式异步部署和培训( DART )平台,使用 SIE 的全球云基础设施研究人员在 PlayStation 4 控制台上培训 GT Sophy ,然后使用 DART 收集培训数据并评估代理的版本。

使用这个系统,研究人员指定一个实验,自动运行,并在网络浏览器中查看数据。每个实验都在一个计算节点上使用一个培训师,该培训师使用 cuDNN 加速的 TensorFlow 深度学习框架和 NVIDIA V100 GPUNVIDIA A100 GPU 的一半,再加上大约 8 个 CPU 和 55 个 记忆的碎片。

project’s website 报道,“该系统允许索尼人工智能的研究团队无缝地同时运行数百个实验,同时探索将 GT Sophy 提升到下一个水平的技术。”。

增压燃气轮机

在 2021 ,世界上最好的 GT 赛车手中有四人在两个单独的比赛中与 GT Suffy 竞争。这些比赛包括三个赛马场、四名 GT Sophy 经纪人和赛车。在首次亮相时, GT Sophy 在计时赛中表现出色,但在同一赛道上挑战赛车手时表现不佳。

该队在第一场比赛结果的基础上进行了改进,升级了训练体系,增加了网络规模,调整了特征和奖励,增强了对手。

这一结果造就了一名赛车经纪人,他可以在急转弯处超越一名人类驾驶员,处理拥挤的起跑,在滑流中进行弹弓传球,并执行防守动作。经纪人这样做的同时,也遵守了人类驾驶员理解和实践的微妙的体育道德考虑。在计时赛和 FIA 认证的格兰赛车锦标赛系列赛中,它也击败了顶尖的人力车手。

据报道, GT Sophy 在短短几个小时内就学会了绕道而行。在大约两天的时间里,它可以击败大约 95% 的人类玩家。给它 10 到 12 天,大约 45 , 00 个驾驶小时, GT Sophy 就等于或超过了世界顶级车手。

凭借其赛车实力, GT Sophy 的目标是让 GT 运动更有趣、更具竞争力和教育性。一些与 GT Sophy 竞争的专家报告说,他们学习了转弯和驾驶技术的新方法。

研究人员还发现, deep RL 有可能改善协作机器人、无人机或自动驾驶车辆等系统的实际应用。

这个 近似 Python 代码 可在本研究的补充信息部分获得。

 

Nature 中的 读报纸 。>>
阅读更多 。>>

 

阅读原文

...全文
197 回复 打赏 收藏 举报
写回复
回复
切换为时间正序
请发表友善的回复…
发表回复
相关推荐
发帖
NVIDIA 企业开发者社区

825

社区成员

NVIDIA 开发者技术交流
人工智能 企业社区
社区管理员
  • nvdev
  • GayeZ
  • 活动通知
加入社区
帖子事件
创建了帖子
2022-11-10 11:08