一、参数范数正则化

  1. 一些正则化方法通过对目标函数 一、参数范数正则化 - 图1 添加一个参数范数正则化项 一、参数范数正则化 - 图2 来限制模型的容量capacity

    正则化之后的目标函数为 一、参数范数正则化 - 图3一、参数范数正则化 - 图4

    • 一、参数范数正则化 - 图5 为正则化项的系数,它衡量正则化项 一、参数范数正则化 - 图6 和标准目标函数 一、参数范数正则化 - 图7 的比重。

      • 一、参数范数正则化 - 图8 则没有正则化。
      • 一、参数范数正则化 - 图9 越大则正则化项越重要。
    • 如果最小化 一、参数范数正则化 - 图10,则会同时降低 一、参数范数正则化 - 图11 和参数 一、参数范数正则化 - 图12 的规模。
  2. 参数范数正则化可以缓解过拟合。

    如果 一、参数范数正则化 - 图13 设置的足够大,则参数 一、参数范数正则化 - 图14 就越接近零。这意味着模型变得更简单,简单的模型不容易过拟合(但是可能欠拟合)。

    对于神经网络,这意味着很多隐单元的权重接近0,于是这些隐单元在网络中不起任何作用。此时大的神经网络会变成一个小的网络。

    一、参数范数正则化 - 图15 从 零逐渐增加的过程中存在一个中间值,使得参数 一、参数范数正则化 - 图16 的大小合适,即一个合适的模型。

  3. 选择不同的 一、参数范数正则化 - 图17 的形式会产生不同的解,常见的形式有 一、参数范数正则化 - 图18 正则化和 一、参数范数正则化 - 图19 正则化。

1.1 L2 正则化

  1. 一、参数范数正则化 - 图20 正则化通常被称作岭回归或者Tikhonov正则化。

    • 正则化项为 一、参数范数正则化 - 图21。系数 一、参数范数正则化 - 图22 是为了使得导数的系数为 1。
    • 该正则化形式倾向于使得参数 一、参数范数正则化 - 图23 更接近零。
  2. 假设 一、参数范数正则化 - 图24 参数就是权重 一、参数范数正则化 - 图25,没有偏置参数,则:一、参数范数正则化 - 图26

    对应的梯度为:一、参数范数正则化 - 图27

    使用梯度下降法来更新权重,则权重的更新公式为:一、参数范数正则化 - 图28 。即:

    一、参数范数正则化 - 图29

    一、参数范数正则化 - 图30 正则化对于梯度更新的影响是:每一步执行梯度更新之前,会对权重向量乘以一个常数因子来收缩权重向量。因此L2 正则化也被称作“权重衰减”。

1.1.1 整体影响

  1. 一、参数范数正则化 - 图31 ,它就是无正则化项时使得目标函数最小的权重向量。

    根据极小值的条件,有 一、参数范数正则化 - 图32 。于是在 一、参数范数正则化 - 图33 的邻域内泰勒展开 一、参数范数正则化 - 图34

    一、参数范数正则化 - 图35

    其中: 一、参数范数正则化 - 图36一、参数范数正则化 - 图37一、参数范数正则化 - 图38 处的海森矩阵; 一、参数范数正则化 - 图39一、参数范数正则化 - 图40 处的一个邻域。

    一、参数范数正则化 - 图41 的梯度为:一、参数范数正则化 - 图42

  2. 一、参数范数正则化 - 图43,它就是有正则化项时使得目标函数最小的权重向量。

    假设 一、参数范数正则化 - 图44, 即 一、参数范数正则化 - 图45一、参数范数正则化 - 图46 的一个邻域内,则有:一、参数范数正则化 - 图47

    根据极小值条件:一、参数范数正则化 - 图48 ,则有:

    一、参数范数正则化 - 图49

    一、参数范数正则化 - 图50 时, 一、参数范数正则化 - 图51

  3. 因为 一、参数范数正则化 - 图52 是实对称矩阵,对其进行特征值分解:一、参数范数正则化 - 图53。 其中特征值组成对角矩阵 一、参数范数正则化 - 图54,对应的特征向量组成正交矩阵 一、参数范数正则化 - 图55

    一、参数范数正则化 - 图56

    于是有:

    一、参数范数正则化 - 图57

    其中:

    一、参数范数正则化 - 图58

  4. 一、参数范数正则化 - 图59 正则化对模型整体的影响:沿着 一、参数范数正则化 - 图60 的特征向量所定义的轴来缩放 一、参数范数正则化 - 图61

    • 一、参数范数正则化 - 图62 的第 一、参数范数正则化 - 图63 个特征向量对应的 一、参数范数正则化 - 图64 分量根据 一、参数范数正则化 - 图65 因子缩放。
    • 沿着 一、参数范数正则化 - 图66 特征值较大的方向受到正则化的影响较小。
    • 一、参数范数正则化 - 图67 的方向对应的权重分量将被缩小到几乎为零。

1.1.2 物理意义

  1. 如下所示:实线椭圆表示 一、参数范数正则化 - 图68 的等值线,虚线圆表示正则化项 一、参数范数正则化 - 图69 的等值线。

    一、参数范数正则化 - 图70 点, 一、参数范数正则化 - 图71 取得最小值;在 一、参数范数正则化 - 图72 点(也就是图中的 一、参数范数正则化 - 图73 点),一、参数范数正则化 - 图74 和正则化项达到平衡(使得二者之和最小)。

    沿着 一、参数范数正则化 - 图75 方向(横向)的 一、参数范数正则化 - 图76 的曲率半径较大;曲率半径越大,曲率越小,特征值越小。

    • 曲率刻画曲线的弯曲程度。弯曲越厉害,则表示曲率半径越小、曲率越大。

      直线的曲率半径为 一、参数范数正则化 - 图77 ,曲率为0。

    • 曲率半径是曲率的倒数。对于椭圆 一、参数范数正则化 - 图78

      • 在左右顶点:沿着 一、参数范数正则化 - 图79 方向(纵向)的曲率半径为 一、参数范数正则化 - 图80
      • 在上下顶点:沿着 一、参数范数正则化 - 图81 方向(横向)的曲率半径为 一、参数范数正则化 - 图82
      • 海森矩阵的特征值为: 一、参数范数正则化 - 图83

    一、参数范数正则化 - 图84

  2. 在上图中:

    • 一、参数范数正则化 - 图85 的海森矩阵第一维 (一、参数范数正则化 - 图86 )的特征值很小。

      所以当从 一、参数范数正则化 - 图87 点水平移动时, 一、参数范数正则化 - 图88 不会增加太多。因为 一、参数范数正则化 - 图89 对这个方向没有强烈的偏好。所以正则化项对于该轴具有强烈的影响:正则化项将 一、参数范数正则化 - 图90 拉向零。

    • 一、参数范数正则化 - 图91 的海森矩阵第二维的特征值较大。

      一、参数范数正则化 - 图92 对于 一、参数范数正则化 - 图93 的变化非常敏感,因此正则化项对于该轴影响较小。

    • 因为沿着水平方向,一个较大的偏移只会对 一、参数范数正则化 - 图94 产生一个较小的变化。因此正则化项倾向于从 一、参数范数正则化 - 图95 点水平向零点移动。

  3. 一、参数范数正则化 - 图96 正则化表明:

    • 只有显著减小目标函数 一、参数范数正则化 - 图97 的那个方向的参数会相对保留下来。
    • 无助于减小目标函数 一、参数范数正则化 - 图98 的方向(该方向上一、参数范数正则化 - 图99 特征值较小,或者说该方向上 一、参数范数正则化 - 图100 的曲率较小,或者说该方向上 一、参数范数正则化 - 图101 的曲线更接近于直线),因为在这个方向上移动不会显著改变梯度,因此这个不重要方向上的分量会因为正则化的引入而被衰减掉。

1.1.3 示例

  1. 考虑线性回归的 一、参数范数正则化 - 图102 正则化,采用平方误差作为代价函数:

    一、参数范数正则化 - 图103

    这里忽略了线性回归的 一、参数范数正则化 - 图104 的影响,这是为了便于说明解的性质。

  2. 一、参数范数正则化 - 图105 的解析解为:一、参数范数正则化 - 图106

    一、参数范数正则化 - 图107 的解析解为:一、参数范数正则化 - 图108

    样本的协方差矩阵为 一、参数范数正则化 - 图109 (这里已经将样本进行了标准化:减去了均值), 一、参数范数正则化 - 图110 为样本数量。因此一、参数范数正则化 - 图111 的对角线对应于每个输入特征的方差,一、参数范数正则化 - 图112 在对角线上增加了 一、参数范数正则化 - 图113

    因此,一、参数范数正则化 - 图114 正则化使得:

    • 方差较小的特征对应的权重被收缩。
    • 方差远大于 一、参数范数正则化 - 图115 的特征受影响较小。
    • 只有方差接近甚至小于 一、参数范数正则化 - 图116 的特征受影响较大。

1.2 L1 正则化

  1. 模型参数 一、参数范数正则化 - 图117一、参数范数正则化 - 图118 的正则化形式为:一、参数范数正则化 - 图119 。即各个参数的绝对值之和。

  2. 一、参数范数正则化 - 图120 正则化后的目标函数 一、参数范数正则化 - 图121一、参数范数正则化 - 图122

    对应的梯度为 一、参数范数正则化 - 图123 。其中 一、参数范数正则化 - 图124 函数取自变量的符号:

    如果自变量大于零,则取值为 1;如果自变量小于零,则取值为 -1;如果自变量为零,则取值为零。

    使用梯度下降法来更新权重,给出权重的更新公式为:

    一、参数范数正则化 - 图125

    一、参数范数正则化 - 图126 正则化对于梯度更新的影响是:不再是线性地缩放每个 一、参数范数正则化 - 图127一、参数范数正则化 - 图128 正则化项的效果),而是减去与 一、参数范数正则化 - 图129 同号的常数因子。

1.2.1 整体效果

  1. 一、参数范数正则化 - 图130,它就是无正则化项时使得目标函数最小的权重向量。

    一、参数范数正则化 - 图131 正则化中的推导相同,在 一、参数范数正则化 - 图132 的邻域内泰勒展开:

    一、参数范数正则化 - 图133

    其中: 一、参数范数正则化 - 图134一、参数范数正则化 - 图135一、参数范数正则化 - 图136 处的海森矩阵; 一、参数范数正则化 - 图137一、参数范数正则化 - 图138 的邻域 一、参数范数正则化 - 图139内。

  1. 由于 一、参数范数正则化 - 图140 正则化项在一般的海森矩阵情况下无法得到直接的代数表达式。

    因此我们进一步假设海森矩阵是对角矩阵。即:

    一、参数范数正则化 - 图141

    其中 一、参数范数正则化 - 图142

    如果用于线性回归问题的数据已经被预处理(如使用PCA),去除了输入特征之间的相关性,则这一假设成立。

    于是:

    一、参数范数正则化 - 图143

  2. 考虑定义式,有:

    一、参数范数正则化 - 图144

    对于 一、参数范数正则化 - 图145 来讲 , 一、参数范数正则化 - 图146 为常量。因此 一、参数范数正则化 - 图147 的最小值由 一、参数范数正则化 - 图148 决定。

    考虑每一个维度 一、参数范数正则化 - 图149,可以考虑最优化目标:

    一、参数范数正则化 - 图150

    得到解析解:一、参数范数正则化 - 图151

  3. 考虑 一、参数范数正则化 - 图152 的情况。此时有两种可能:

    • 一、参数范数正则化 - 图153:则 一、参数范数正则化 - 图154。表示 一、参数范数正则化 - 图155 正则化项将 一、参数范数正则化 - 图156 推向 0 。
    • 一、参数范数正则化 - 图157:则 一、参数范数正则化 - 图158。此时 一、参数范数正则化 - 图159 正则化项并不会将 一、参数范数正则化 - 图160 推向 0,而是向零的方向推动了 一、参数范数正则化 - 图161 的距离。
  4. 考虑 一、参数范数正则化 - 图162 的情况。此时有两种可能:

    • 一、参数范数正则化 - 图163:则 一、参数范数正则化 - 图164。表示 一、参数范数正则化 - 图165 正则化项将 一、参数范数正则化 - 图166 推向 0 。
    • 一、参数范数正则化 - 图167:则 一、参数范数正则化 - 图168。此时 一、参数范数正则化 - 图169 正则化项并不会将 一、参数范数正则化 - 图170 推向 0,而是向零的方向推动了 一、参数范数正则化 - 图171 的距离。

    如果使用 一、参数范数正则化 - 图172 正则化,则解为 一、参数范数正则化 - 图173

1.2.2 物理意义

  1. 如下所示:实线椭圆表示 一、参数范数正则化 - 图174 的等值线,实线菱形表示正则化项 一、参数范数正则化 - 图175 的等值线。

    一、参数范数正则化 - 图176 点, 一、参数范数正则化 - 图177 取得最小值;在 一、参数范数正则化 - 图178 点(也就是图中的 一、参数范数正则化 - 图179 点),一、参数范数正则化 - 图180 和正则化项达到平衡(使得二者之和最小)。

    一、参数范数正则化 - 图181

    可以看到 一、参数范数正则化 - 图182 的等值线更容易与 一、参数范数正则化 - 图183 正则化项的等值线在坐标轴相交从而取得整体极小值。

  1. 一、参数范数正则化 - 图184 正则化项更容易产生稀疏(sparse)解,而 一、参数范数正则化 - 图185 正则化并不会导致稀疏解。

    • 一、参数范数正则化 - 图186 正则化中, 一、参数范数正则化 - 图187 的绝对值越小,该维的特征越容易被稀疏化。
    • 一、参数范数正则化 - 图188 正则化的这一性质已经被广泛地用作特征选择: 一、参数范数正则化 - 图189 正则化使得部分特征子集的权重为零,表明相应的特征可以被安全地忽略。

1.3 L1/L2正则化与最大后验估计

  1. 许多正则化策略可以被解释为最大后验估计MAP

    一、参数范数正则化 - 图190

    最大化后验估计等价于最小化代价函数。

    • 一、参数范数正则化 - 图191 正则化项:参数的先验分布为高斯分布:

      一、参数范数正则化 - 图192

      忽略 一、参数范数正则化 - 图193 项,因为它们与 一、参数范数正则化 - 图194 无关。

    • 一、参数范数正则化 - 图195 正则化项:参数的先验分布为各向同性拉普拉斯分布 :

      一、参数范数正则化 - 图196

      忽略 一、参数范数正则化 - 图197 项,因为它们与 一、参数范数正则化 - 图198 无关。

  2. 更复杂的正则化项可以通过先验分布为混合高斯分布得到。