学习率会对训练结果产生很大影响,但是好难找到合适的学习率?
多数深度学习框架会启用梯度裁剪(Clipping Gradient)。这可以防止训练过程中出现的梯度爆炸。它会在每一步中强制改变权重,让权重发生最大限度的改变。这在数据中含有大量异常时尤为有效。但是,开启这个选项也会让用户难以手动找到最佳的学习率。关掉梯度裁剪。找到不会发生错误的最高学习率,并稍稍降低一些数值。这将十分靠近最佳学习率。
2,851
社区成员
5,758
社区内容
加载中
试试用AI创作助手写篇文章吧