二、显式约束正则化
可以通过添加一个显式约束来实现正则化: 。其中 为一个常数。
可以通过构建广义拉格朗日函数来求解该约束最优化问题。
定义广义拉格朗日函数: 。则上述约束最优化问题的解由下式给出:
假设 的解为 ,固定 则: 。
这和参数范数正则化是相同的,因此可以将参数范数正则化视为对参数强加的约束:
- 如果 是 范数,则权重就是被约束在一个 球中。
- 如果 是 范数,则权重就是被约束在一个 限制的区间中。
也可以通过重投影来求解该约束最优化问题。此时需要修改梯度下降算法:首先计算 的下降步,然后将 投影到满足 的最近点。
使用显式约束,而不是使用范数正则化有两个好处:
采用范数正则化后,当 较小时容易使得非凸优化的过程陷入局部极小值。
- 当使用权重范数的正则化时,较小的权重可能是局部最优的。
- 当使用显式约束时,算法不鼓励权重接近原点,因此工作的较好。
使用显式约束对优化过程增加了一定的稳定性。
如:当使用了较高的学习率时,很可能进入了正反馈:较大的权重产生了较大的梯度,较大的梯度诱发权重的更大的更新。
如果这些更新持续增加了权重的大小,则 就会迅速增大直到溢出。显式约束可以防止这种反馈环引起的权重的无限制持续增加。
Srebro and Shraibman
提供了一种正则化策略:约束神经网络的权重矩阵每列的范数,而不是限制整个权重矩阵的Frobenius
范数。分别限制每一列的范数可以防止某一个隐单元有非常大的权重。在实践中,列范数的限制总是通过重投影的显式约束来实现。