强化学习,on-policy和off-policy具体有啥不一样的??
Q(St,At)←Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)−Q(St,At)]Q学习采用对最优动作价值函数的近似作为学习目标,与行动策略无关,是off-policy。
2,537
社区成员
5,685
社区内容
加载中
试试用AI创作助手写篇文章吧