三、PNN
在典型的推荐、广告任务中,大多数特征都是离散的
categorical
。一种常见做法是将这些离散特征进行one-hot
编码,从而转化为稀疏二元特征sparse binary feature
。传统模型非常依赖于特征工程从而捕获潜在的高阶模式,而
FM
等模型通过自动特征交叉捕获二阶交叉特征。论文
Product-based Neural Networks for User Response Prediction
提出了Product-based Neural Networks:PNN
模型,该模型构建了一个embedding
层来学习离散特征的分布式representation
,构建一个product
层来自动捕捉离散特征的潜在高阶模式。
3.1 模型
假设有 个
field
,one-hot
向量为 ,field i
在向量中的起始位置为 、终止位置为 (包含)。每个
field
生成一个embedding
向量。即field i
生成 。模型包含以下几层:
第 0 层输入层:
categorical
经过one-hot
编码之后作为输入第1层
embedding
层:模型从每个field
中学得各field
的embedding
表示。输入位置 仅仅与 相连,即:局部连接:
其中 为映射参数,它由 的第 到第 列组成。
第2层
product
层:由embedding
特征的一阶特征和二阶交叉特征拼接而成。其中 部分表示一阶特征, 部分表示二阶特征。为统一生成方式, 由常数1
和一阶特征交叉生成。表示成对特征交叉,当定义不同的 函数时,就定义了不同的
PNN
实现。该层的输出为:
其中 表示对提取的一阶特征和二阶特征通过 和 各自分别进行进一步的特征抽取的数量。 类似于
CNN
的卷积核,其尺寸为整个图片大小, 为卷积核的数量, 表示第 个卷积核。表示张量的内积,定义为:
第3层到第 层:全连接层。
最后一层:
sigmoid
输出层。
模型的损失函数为
logloss
:
3.1.1 IPNN
Inner Product-based neural network:IPNN
:IPNN
的特征交叉函数为:则有:
则计算 的复杂度为:
- 空间复杂度: 。
它们分别是计存储 的空间需求。
- 时间复杂度: 。
为降低复杂度,可以将 分解:
则有:
其中 。
则有:
则计算 的复杂度为:
- 空间复杂度:
- 时间复杂度:
仅仅是一阶分解,实际上可以进行更加通用的 阶分解:
其中 。此时有:
这种分解的代价更高,同时约束更弱。
3.1.2 OPNN
Outer Product-based neural network:OPNN
:OPNN
的特征交叉函数为:与内积产生标量不同,这里的外积产生一个矩阵。
则 。
计算 的复杂度为:
- 空间复杂度: 。它完全由 主导。
- 时间复杂度: 。它完全由 主导。
为降低复杂度,定义:
此时 。
则计算 的复杂度为:
空间复杂度: 。
它们分别是计存储 的空间需求。
时间复杂度: 。
3.1.3 讨论
当移除
product
层的 部分时,IPNN
和OPNN
完全相同。当采用
IPNN
时,IPNN
和FM
模型非常相似。FM
模型将抽取的一阶、二阶特征直接送入分类器IPMM
模型将抽取的一阶、二阶特征,首先使用类似CNN
的 “核函数” (由 给出)抽取 个特征,然后将抽取后的特征送入DNN
。
向量的内积可以视为一系列的 “乘法&加法” 操作,乘法类似于
AND
、加法类似于OR
。向量的外积只有乘法,类似于AND
。因此
product
层可以视为学习一系列的AND/OR
规则。
3.2 实验
数据集:
iPinYou
:该数据集是一个公开的、真实的展示广告数据集,包含 1950万曝光数据,其中点击数据 14790个。Criteo
:一个著名的广告benchmark
数据集,包含1TB
的点击日志。
论文采用连续的 7 天来训练,第 8 天数据来评估。
不同模型的评估结果如下所示,其中评估指标为
AUC,Logloss,RMSE,RIG
。RIG
表示相对信息增益Relative Information Gain
,它等于1-NE
,其中NE
为归一化的交叉熵。模型配置:
FM
模型的embedding
向量维度为 10 维。CCPM
模型有一个embedding
层、2个卷积层、1个最大池化层、1个隐层,一共五层。FNN
模型有1个embedding
层、3个隐层,一共四层。PNN
模型有1个embedding
层、1个produc
t 层、3个隐层,一共五层。PNN*
模型和IPNN,OPNN
相同,但是product
层是内积和外积的拼接。
另外:
LR,FM
使用L2
正则化;FNN,CCPM,PNN
使用dropout
(0.5的遗忘率) 。结论:
FM
模型战胜了LR
模型,说明FM
模型有效的捕捉到了特征交互。- 神经网络模型(
FNN,CCPM,IPNN,OPNN,PNN*
)战胜了LR
模型和FM
模型,说明神经网络模型捕捉到了更高阶的潜在模式latent pattern
。 - 总体而言
PNN
模型效果最好(包括IPNN
和OPNN
模型)。 - 融合了
IPNN
和OPNN
的PNN*
模型并没有显著的强于IPNN
和OPNN
,这说明IPNN
和OPNN
捕捉交互特征的能力已经足够强大。