强化学习,使用相同的参数(权重)来估计目标和Q值。结果是,TD目标与正在改变的参数(w)之间存在很大的相关性。这意味着在训练的每一步,Q值都会发生变化,但目标值也会发生变化。导致训练的大振荡,如何才能避免这个问题的发生??
用具有固定参数的单独网络(让我们称之为w-)来估计TD目标。在每个Tau步骤,我们从DQN网络复制参数以更新目标网络。因为目标函数保持固定一段时间,将有更稳定的学习过程。
2,852
社区成员
5,758
社区内容
加载中
试试用AI创作助手写篇文章吧