2.1 调参指导
当出现过拟合时,有两类参数可以缓解:
- 第一类参数:用于直接控制模型的复杂度。包括
max_depth,min_child_weight,gamma
等参数 - 第二类参数:用于增加随机性,从而使得模型在训练时对于噪音不敏感。包括
subsample,colsample_bytree
你也可以直接减少步长
eta
,但是此时需要增加num_round
参数。- 第一类参数:用于直接控制模型的复杂度。包括
当遇到数据不平衡时(如广告点击率预测任务),有两种方式提高模型的预测性能:
如果你关心的是预测的
AUC
:- 你可以通过
scale_pos_weight
参数来平衡正负样本的权重 - 使用
AUC
来评估
- 你可以通过
如果你关心的是预测的正确率:
- 你不能重新平衡正负样本
- 设置
max_delta_step
为一个有限的值(如 1),从而有助于收敛