二、POLY2 模型

  1. LR 模型只考虑特征之间的线性关系,而POLY2 模型考虑了特征之间的非线性关系。

    • 捕获非线性特征的一个常用方法是采用核技巧,如高斯核RBF,将原始特征映射到一个更高维空间。在这个高维空间模型是线性可分的,即:只需要考虑新特征之间的线性关系。

      但是核技巧存在计算量大、内存需求大的问题。

    • 论文 Training and Testing Low-degree Polynomial Data Mappings via Linear SVM 提出多项式映射 polynomially mapping 数据的方式来提供非线性特征,在达到接近核技巧效果的情况下大幅度降低内存和计算量。

  2. 设低维样本空间为 二、POLY2 模型 - 图1 维度,低维样本 二、POLY2 模型 - 图2

    多项式核定义为:二、POLY2 模型 - 图3 。其中 二、POLY2 模型 - 图4 为超参数,二、POLY2 模型 - 图5 为多项式的度degree

    根据定义,多项式核等于样本在高维空间向量的内积:

    二、POLY2 模型 - 图6

    其中 二、POLY2 模型 - 图7 是映射函数。

    二、POLY2 模型 - 图8 时,有:

    二、POLY2 模型 - 图9

    使用 二、POLY2 模型 - 图10 是为了 二、POLY2 模型 - 图11 的表达更简洁。

  3. 如果不用核技巧,仅仅考虑使用一个多项式映射,则我们得到:

    二、POLY2 模型 - 图12

    结合LR 模型,则得到 POLY2 模型:

    二、POLY2 模型 - 图13

    新增的组合特征一共有 二、POLY2 模型 - 图14 个。

  4. POLY2 模型的优缺点:

    • 优点:除了线性特征之外,还能够通过特征组合自动捕获二阶特征交叉产生的非线性特征。

    • 缺点:

      • 参数太多导致计算量和内存需求发生爆炸性增长。

        如计算广告场景中,原始样本特征可能达到上万甚至百万级别,则特征的交叉组合达到上亿甚至上万亿。

      • 数据稀疏导致二次项参数训练困难,非常容易过拟合。

        参数 二、POLY2 模型 - 图15 的训练需要大量的 二、POLY2 模型 - 图16 都非零的样本。而大多数应用场景下,原始特征本来就稀疏(非零的样本数很少),特征交叉之后更为稀疏(非零的样本数更少)。这使得训练 二、POLY2 模型 - 图17 的样本明显不足,很容易发生过拟合。