二、显式约束正则化

  1. 可以通过添加一个显式约束来实现正则化:二、显式约束正则化 - 图1 。其中 二、显式约束正则化 - 图2 为一个常数。

  2. 可以通过构建广义拉格朗日函数来求解该约束最优化问题。

    定义广义拉格朗日函数: 二、显式约束正则化 - 图3 。则上述约束最优化问题的解由下式给出:

    二、显式约束正则化 - 图4

    假设 二、显式约束正则化 - 图5 的解为 二、显式约束正则化 - 图6,固定 二、显式约束正则化 - 图7 则:二、显式约束正则化 - 图8

    这和参数范数正则化是相同的,因此可以将参数范数正则化视为对参数强加的约束:

    • 如果 二、显式约束正则化 - 图9二、显式约束正则化 - 图10 范数,则权重就是被约束在一个 二、显式约束正则化 - 图11 球中。
    • 如果 二、显式约束正则化 - 图12二、显式约束正则化 - 图13 范数,则权重就是被约束在一个 二、显式约束正则化 - 图14 限制的区间中。
  3. 也可以通过重投影来求解该约束最优化问题。此时需要修改梯度下降算法:首先计算 二、显式约束正则化 - 图15 的下降步,然后将 二、显式约束正则化 - 图16 投影到满足 二、显式约束正则化 - 图17 的最近点。

  4. 使用显式约束,而不是使用范数正则化有两个好处:

    • 采用范数正则化后,当 二、显式约束正则化 - 图18 较小时容易使得非凸优化的过程陷入局部极小值。

      • 当使用权重范数的正则化时,较小的权重可能是局部最优的。
      • 当使用显式约束时,算法不鼓励权重接近原点,因此工作的较好。
    • 使用显式约束对优化过程增加了一定的稳定性。

      如:当使用了较高的学习率时,很可能进入了正反馈:较大的权重产生了较大的梯度,较大的梯度诱发权重的更大的更新。

      如果这些更新持续增加了权重的大小,则 二、显式约束正则化 - 图19 就会迅速增大直到溢出。显式约束可以防止这种反馈环引起的权重的无限制持续增加。

  5. Srebro and Shraibman提供了一种正则化策略:约束神经网络的权重矩阵每列的范数,而不是限制整个权重矩阵的Frobenius范数。分别限制每一列的范数可以防止某一个隐单元有非常大的权重。

    在实践中,列范数的限制总是通过重投影的显式约束来实现。