为什么RNN 训练的时候Loss波动很大

呵呵呵呵呵喝 2022-04-26 09:51:52

为什么RNN 训练的时候Loss波动很大

...全文

3199 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 2022-04-28

打赏
举报

回复

由于RNN特有的memory会影响后期其他的RNN的特点，梯度时大时小，learning rate没法个性化的调整，导致RNN在train的过程中，Loss会震荡起伏。为了解决RNN的这个问题，在训练的时候，可以设置临界值，当梯度大于某个临界值，直接截断，用这个临界值作为梯度的大小，防止大幅震荡。

DeepLearning 深度学习经验总结

循环神经网络（Recurrent Neural Network, RNN）是深度学习中的一种强大模型，专门设计用来处理序列数据。它在自然语言处理（NLP）、语音识别、时间序列分析等领域发挥着重要作用。与传统的神经网络相比，RNN的独特之处在于它可以处理任意长度的序列数据，这使得它特别适合处理像句子、语音信号或者股票价格这样的时间序列数据。 RNN的核心思想是利用内部状态（隐藏状态）来捕捉序列之间的依赖关系。在处理序列的每个时间点时，RNN都会根据当前输入和之前的隐藏状态计算出新的隐藏状态。这种机制允许RNN在处理当前输入时，能够记住并利用之前的信息。因此，RNN能够展现出时间动态行为，并能够预测未来的事件或状态。在自然语言处理中，RNN被广泛用于语言模型、文本生成、机器翻译和情感分析等任务。例如，RNN可以基于前面的单词来预测句子中下一个单词，或者根据前面的句子来生成新的句子。这种能力使得RNN在生成文本或翻译文本方面表现出色。在语音识别中，RNN能够处理连续的语音信号，并识别出其中的语音命令或指令。它通过分析时间上的序列特征来识别说话内容，使得语音识别更加准确和高效。尽

解决这些问题的方法包括使用改进型的 RNN 架构（如LSTM、GRU）、使用梯度剪裁来解决梯度爆炸问题、使用正则化技术、调整学习率和优化器等。需要注意的是，不同问题和数据可能需要不同的解决方法，因此在实际应用中，可能需要进行多次实验和调试，找到最适合的方法来解决Loss波动问题。设置一个阈值，当梯度的范数超过阈值时，将其缩放到阈值以内，从而控制梯度的大小。不同优化器有不同的梯度更新策略，可能需要根据情况选择合适的优化器。如果可能，可以考虑对输入序列进行截断，避免处理过长的序列，从而减少长期依赖带来的问题。

用LSTM做时间序列预测时发现训练刚开始时loss（MSE）下降很快，accuracy（调整R方）上升也很快，但到后面loss总体上下降变慢，并且时有波动，accuracy甚至会经常出现负值，然后又回弹至正值。经查阅资料和反复调试，发现是batch size太小的问题，原来的batch size是2，现在改成4 batch size为2时loss的变化如下 batch size 为4时loss的变化如下，虽然也有波动，比如在910epoch左右loss冲到了0.06，但总体上比batch size稳定

高通开发者论坛

7,111

社区成员

6,146

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章