为什么 Agent 的目标是最大化预期的累积奖励?
实际上,强化学习是基于奖励假设的想法。所有目标都可以通过预期累积奖励的最大化来描述。
4,654
社区成员
5,842
社区内容
加载中
试试用AI创作助手写篇文章吧