这几个常见的激活函数： ReLU、Sigmoid、Tanh ，它们各自的优缺点是什么？

熬夜代码 2025-03-26 17:09:07

这几个常见的激活函数： ReLU、Sigmoid、Tanh ，它们各自的优缺点是什么？

...全文

848 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 03-27

打赏
举报

回复

在神经网络里，激活函数的作用是给网络引入非线性因素，让网络能够学习复杂的函数映射。以下是ReLU、Sigmoid、Tanh这几个常见激活函数的优缺点分析。

ReLU（Rectified Linear Unit）

优点
- 计算简单：ReLU的表达式为$f(x) = \max(0, x)$，只需进行简单的比较操作，相较于其他复杂的激活函数，计算速度快，能有效减少训练时间。
- 有效缓解梯度消失：当输入为正数时，其导数恒为1，在反向传播过程中不会出现梯度消失的问题，使得深层网络的训练更加容易。
- 稀疏性：对于小于0的输入，ReLU输出为0，这会使一部分神经元处于不激活状态，产生稀疏性，有助于减少过拟合，并且在一定程度上模拟了生物神经元的特性。
缺点
- 神经元死亡问题：如果某个神经元的输入始终为负数，那么它的输出将一直为0，在反向传播时梯度也为0，导致该神经元无法更新参数，永久“死亡”。
- 不是零中心的：ReLU的输出值始终为非负数，这会导致神经元的输出在更新时只能沿着一个方向进行，可能会影响收敛速度。

Sigmoid

优点
- 输出范围在(0, 1)之间：这个特性使得Sigmoid函数非常适合用于二分类问题的输出层，其输出可以被解释为概率值。
- 平滑可导：Sigmoid函数是连续可导的，这使得它在反向传播算法中可以方便地计算梯度。
缺点
- 梯度消失问题：Sigmoid函数的导数在输入值较大或较小时趋近于0，当网络层数较深时，经过多次求导后，梯度会变得非常小，导致参数更新缓慢，甚至无法更新。
- 计算复杂度高：Sigmoid函数涉及到指数运算，计算量较大，尤其是在大规模数据的训练中，会增加计算时间和资源消耗。
- 不是零中心的：Sigmoid函数的输出值始终为正数，这会导致在反向传播过程中，参数更新只能朝着一个方向进行，可能会影响收敛速度。

Tanh（双曲正切函数）

优点
- 零中心：Tanh函数的输出范围是(-1, 1)，相较于Sigmoid函数，它是零中心的，这使得在反向传播过程中，参数更新可以在正负两个方向上进行，有助于加快收敛速度。
- 平滑可导：和Sigmoid函数一样，Tanh函数也是连续可导的，便于在反向传播算法中计算梯度。
缺点
- 梯度消失问题：虽然Tanh函数在一定程度上缓解了Sigmoid函数的梯度消失问题，但仍然存在这个问题，尤其是在输入值较大或较小时，导数仍然趋近于0。
- 计算复杂度高：Tanh函数同样涉及到指数运算，计算量较大，会增加训练时间和资源消耗。

有点长，仅供参考。

第一个图展示 Sigmoid 函数本身的非线性特性（将输入映射到 (0,1) 区间）；第二个图展示 Sigmoid 导数的分布特性（中间大、两边小，易导致梯度消失）。

不同的激活函数有不同的输出范围，比如Sigmoid函数的输出在(0, 1)之间，Tanh函数的输出在(-1, 1)之间，ReLU函数的输出在[0, ∞)之间。在神经网络的基本结构中，每个神经元接收输入信号，对其进行加权求和后加上偏置项，然后将这个结果通过激活函数进行转换，得到神经元的输出。由于大多数实际问题都是非线性的，非线性激活函数使得神经网络能够拟合复杂的函数映射关系，从而解决非线性问题。：某些激活函数（如ReLU）具有计算效率高的优点，因为它们的计算只涉及到基本的算术操作，而不需要昂贵的指数运算。

1、激活函数的作用什么是激活函数？　　在神经网络中，输入经过权值加权计算并求和之后，需要经过一个函数的作用，这个函数就是激活函数（Activation Function）。 激活函数的作用？　　首先我们需要知道，如果在神经网络中不引入激活函数，那么在该网络中，每一层的输出都是上一层输入的线性函数，无论最终的神经网络有多少层，输出都是输入的线性组合；其一般也只能应用于线性分类问题中，例如非常典型的多层感知机。若想在非线性的问题中继续发挥神经网络的优势，则此时就需要通过添加激活函数来对每一层的输出

深度学习的激活函数 ：加粗样式sigmoid、tanh、ReLU 、Leaky Relu、RReLU 激活函数可以分为两大类：饱和激活函数： sigmoid、 tanh 非饱和激活函数: ReLU 、Leaky Relu 、ELU【指数线性单元】、PReLU【参数化的ReLU 】、RReLU【随机ReLU】相对于饱和激活函数，使用“非饱和激活函数”的优势在于两点： 1.首先，“非饱和激活函数”能解决深度神经网络【层数非常多！！】的“梯度消失”问题，浅层网络【三五层那种】才用sigmoid 作为激

激活函数ReLu、sigmoid、tanh的区别三种常见的非线性激活函数有：relu、sigmoid、tanh 对应的公式分别为： ReLu：y = max(0, x) ∀y∈(0,无穷)\quad\forall y\in\mathbb (0,无穷)∀y∈(0,无穷) sigmoid：y = 1/(1 + e-x) ∀y∈(0,1)\quad\forall y\i...

高通开发者论坛

5,312

社区成员

5,922

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章