为什么 Agent 的目标是最大化预期的累积奖励?
实际上,强化学习是基于奖励假设的想法。所有目标都可以通过预期累积奖励的最大化来描述。
5,379
社区成员
5,923
社区内容
加载中
试试用AI创作助手写篇文章吧