机器学习基础:梯度下降
一般来说其步长的选择比梯度下降法的步长要小一点,因为梯度下降法使用的 是准确梯度,所以它可以朝着全局最优解(当问题为凸问题时)较大幅度的迭代下去,但是随机梯度法不行,因为它使用的是 近似梯度,或者对于全局来说有时候它走的也许根本不是梯度下降的方向,故而它走的比较缓,同样这样带来的好处就是相比于梯度下降法,它不是那么容易陷入到局部最优解中去。凸函数的局部极小值就是全局最小值,而非凸函数没有很好的解决最小值的方法,所以我们定义损失函数时尽量将其定义为凸优化问题或转换为等价凸优化问题,从而有助于求解。