2.1 调参指导

  1. 当出现过拟合时,有两类参数可以缓解:

    • 第一类参数:用于直接控制模型的复杂度。包括max_depth,min_child_weight,gamma 等参数
    • 第二类参数:用于增加随机性,从而使得模型在训练时对于噪音不敏感。包括subsample,colsample_bytree

    你也可以直接减少步长eta,但是此时需要增加num_round 参数。

  2. 当遇到数据不平衡时(如广告点击率预测任务),有两种方式提高模型的预测性能:

    • 如果你关心的是预测的AUC

      • 你可以通过scale_pos_weight 参数来平衡正负样本的权重
      • 使用AUC 来评估
    • 如果你关心的是预测的正确率:

      • 你不能重新平衡正负样本
      • 设置max_delta_step 为一个有限的值(如 1),从而有助于收敛