3,022
社区成员




为什么L1正则化可以产生稀疏模型(L1是怎么让系数等于零的),以及为什么L2正则化可以防止过拟合?
假设有如下带L1正则化的损失函数:
J=J0+α∑∣w∣
其中J0是原始的损失函数,加号后面的一项是L1正则化项,α是正则化系数。J的优化问题可以转化为在L1正则化项这个约束条件下的求最小值问题。注意到L1正则化是权值的绝对值之和,它造成的约束区域是一个直线拼成的平面,一般J0会在这个平面的尖角的地方(坐标轴上)取得极值,而在这些角上,会有很多权值等于0,这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。这些极值点的可以采用在该点处左导数和右导数异号来证明。