二、POLY2 模型
LR
模型只考虑特征之间的线性关系,而POLY2
模型考虑了特征之间的非线性关系。捕获非线性特征的一个常用方法是采用核技巧,如高斯核
RBF
,将原始特征映射到一个更高维空间。在这个高维空间模型是线性可分的,即:只需要考虑新特征之间的线性关系。但是核技巧存在计算量大、内存需求大的问题。
论文
Training and Testing Low-degree Polynomial Data Mappings via Linear SVM
提出多项式映射polynomially mapping
数据的方式来提供非线性特征,在达到接近核技巧效果的情况下大幅度降低内存和计算量。
设低维样本空间为 维度,低维样本 。
多项式核定义为: 。其中 为超参数, 为多项式的度
degree
。根据定义,多项式核等于样本在高维空间向量的内积:
其中 是映射函数。
当 时,有:
使用 是为了 的表达更简洁。
如果不用核技巧,仅仅考虑使用一个多项式映射,则我们得到:
结合
LR
模型,则得到POLY2
模型:新增的组合特征一共有 个。
POLY2
模型的优缺点:优点:除了线性特征之外,还能够通过特征组合自动捕获二阶特征交叉产生的非线性特征。
缺点:
参数太多导致计算量和内存需求发生爆炸性增长。
如计算广告场景中,原始样本特征可能达到上万甚至百万级别,则特征的交叉组合达到上亿甚至上万亿。
数据稀疏导致二次项参数训练困难,非常容易过拟合。
参数 的训练需要大量的 都非零的样本。而大多数应用场景下,原始特征本来就稀疏(非零的样本数很少),特征交叉之后更为稀疏(非零的样本数更少)。这使得训练 的样本明显不足,很容易发生过拟合。