为什么 Agent 的目标是最大化预期的累积奖励?
实际上,强化学习是基于奖励假设的想法。所有目标都可以通过预期累积奖励的最大化来描述。
2,852
社区成员
5,758
社区内容
加载中
试试用AI创作助手写篇文章吧