在做强化学习时,似乎和一般的深度学习有所不同,强化学习是梯度上升而不是梯度下降?
因为要在错误函数中使用梯度下降来求最小值。但是得分函数不是错误函数,它要求最大值的,所以使用梯度上升。
2,852
社区成员
5,758
社区内容
加载中
试试用AI创作助手写篇文章吧