社区
人工智能旅行团
交流讨论
帖子详情
【RL】我的强化学习代理
AI大视野
领域专家: 人工智能技术领域
2023-08-01 01:58:19
【RL】我的强化学习代理_无水先生的博客-CSDN博客
...全文
12
回复
打赏
收藏
【RL】我的强化学习代理
【RL】我的强化学习代理_无水先生的博客-CSDN博客
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
强化学习
RL
简介:从基本概念到核心算法
1.背景介绍
强化学习
(Reinforcement Learning,简称
RL
)是一种机器学习方法,它通过与环境的交互来学习如何做出最佳决策。在这篇文章中,我们将从基本概念到核心算法的原理和具体操作步骤,以及最佳实践、实际应用场景、工具和资源推荐,一起来深入了解
强化学习
。 1. 背景介绍
强化学习
起源于1980年代,是人工智能领域的一个热门研究方向。它解决了许多复杂的决策问题,如自动驾驶、机...
RL
— 深度
强化学习
简介
深度
强化学习
是关于从我们看到和听到的东西中采取最好的行动。不幸的是,
强化学习
强化学习
在学习概念和术语方面存在很高的障碍。在本文中,我们将介绍深度
强化学习
,并概述一般情况。然而,我们不会回避方程式和术语。它们提供了更深入地理解概念的基础知识。我们不会呼吁您只需要 20 行代码即可解决
RL
问题。官方答案应该是一个!但我们将努力使它平易近人。
【Easy
RL
】Easy
RL
蘑菇书全书学习笔记
【Easy
RL
】Easy
RL
蘑菇书全书学习笔记 第一章
强化学习
基础 1.1
强化学习
概述 监督学习
强化学习
与监督学习的不同之处 二者的区别总结
强化学习
的特征
强化学习
的优越性 预演(rollout)和 轨迹(trajectory)的概念 端到端的概念 深度
强化学习
(deep reinforcemet learning) sim2real 1.2序列决策 基本概念 状态和观测的关系 环境信息完全可观测-->马尔科夫决策过程 环境信息部分可观测-->部分可观测马尔可夫决策过程
详解主流的
强化学习
框架slime,包括和其他主流
RL
框架的优劣和异同对比,再解释下online
RL
在线
强化学习
的概念和原理
slime是清华 THUDM 团队开源的一套面向大模型后训练(post-training)的
强化学习
框架,主打“
RL
Scaling”(让
RL
训练在大模型、长周期、海量并发的场景里跑得起来、跑得快)。官方给出的两大能力是:通过(训练)与SGLang(推理/采样)的原生打通,提供高性能训练;提供可定制的数据生成(rollout)接口与服务化采样引擎,方便把任意 agent/环境接进来做大规模
RL
。GitHub+1。
人工智能旅行团
2
社区成员
331
社区内容
发帖
与我相关
我的任务
人工智能旅行团
从事图像处理和人工智能十年以上,从事人工智能教学7年以上;擅长数学,能熟练应用泛函分析、随机过程、逼近论、射影几何等数学理论。
复制链接
扫一扫
分享
社区描述
从事图像处理和人工智能十年以上,从事人工智能教学7年以上;擅长数学,能熟练应用泛函分析、随机过程、逼近论、射影几何等数学理论。
计算机视觉
数据挖掘
自然语言处理
个人社区
北京·房山区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章