在做强化学习时，似乎和一般的深度学习有所不同，强化学习是梯度上升而不是梯度下降？

詹姆斯巴恩斯 2021-12-02 09:57:40

在做强化学习时，似乎和一般的深度学习有所不同，强化学习是梯度上升而不是梯度下降？

...全文

2043 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 2021-12-02

打赏
举报

回复

因为要在错误函数中使用梯度下降来求最小值。但是得分函数不是错误函数，它要求最大值的，所以使用梯度上升。

深度学习、强化学习和深度强化学习是机器学习的三个重要子领域。它们有着各自独特的应用场景和研究目标，虽然都属于机器学习的范畴，但各自的实现方式和侧重点有所不同。

梯度下降法是什么，梯度下降法的种类及优化。

引文机器学习之路路阻且长，在我从本科到研究生期间也见过很多机器学习的算法，像很多都是CNN,ANN什么什么NN啥的。在刚开始入门深度强化学习的时候，我也觉得深度强化学习（Deep Reinforcement Learing）是一个很高级的东西，在网上查到谷歌的Deepmind搞出来的Alphago就是利用深度强化学习算法搞出来的。但是对于刚开始入门深度强化学习之前无任何机器学习经验的同学来说，可能就略显生疏，所以本篇博文就从我自己的理解来看让同学们快速对深度强化学习有一个表面认识。本文可...

1.背景介绍 强化学习（Reinforcement Learning，RL）是一种机器学习方法，它通过与环境的互动来学习如何取得最佳行为。强化学习的目标是找到一种策略，使得在环境中执行的动作能够最大化累积的回报。深度策略梯度（Deep Q-Network，DQN）和深度学习优化算法（Deep Learning Optimization Algorith

深度学习之强化学习（1）强化学习案例强化学习案例1. 平衡杆游戏2. 策略网络3. 梯度更新4. 平衡杆游戏实战完整代码人工智能=深度学习+强化学习——David Silver 强化学习时机器学习领域除有监督学习、无监督学习外的另一个研究分支，它主要利用智能体与环境进行交互，从而学习到能获得良好结果的策略。与有监督学习不同，强化学习的动作并没有明确的标注信息，只有来自环境的反馈的奖励信息，它通常具有一定的滞后性，用于反映动作的“好与坏”。随着深度学习神经网络的兴起，强化学习这一领域也获得了蓬勃的发展

高通开发者论坛

5,379

社区成员

5,923

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章