一、泛化能力
为了评估机器学习算法的能力,必须给定其性能的衡量指标。
有些情况下,很难决定衡量指标是什么:
- 如:翻译任务中,应该衡量整个翻译结果的准确率,还是衡量每个单词翻译的准确率?
- 如:密度估计任务中,很多模型都是隐式地表示概率分布。此时计算样本空间某个点的真实概率是不可行的,因此也就无法判断该点的概率估计的准确率。
通常利用最小化训练误差来训练模型,但是真正关心的是测试误差。因此通过测试误差来评估模型的泛化能力。
- 训练误差是模型在训练集的平均损失,其大小虽然有意义,但是本质上不重要。
- 测试误差是模型在测试集上的平均损失,反应了模型对未知测试数据集的预测能力。
模型对未知数据的预测能力称作模型的泛化能力,它是模型最重要的性质。
泛化误差可以反映模型的泛化能力:泛化误差越小,该模型越有效。
假设训练集和测试集共同的、潜在的样本分布称作数据生成分布,记作 。则泛化误差定义为模型的期望风险,即:
- 通常泛化误差是不可知的,因为无法获取联合概率分布 以及无限的采样点。
- 现实中通常利用测试误差评估模型的泛化能力。由于测试数据集是有限的,因此这种评估结果不完全准确。
统计理论表明:如果训练集和测试集中的样本都是独立同分布产生的,则有 模型的训练误差的期望等于模型的测试误差的期望 。
机器学习的“没有免费的午餐定理”表明:在所有可能的数据生成分布上,没有一个机器学习算法总是比其他的要好。
- 该结论仅在考虑所有可能的数据分布时才成立。
- 现实中特定任务的数据分布往往满足某类假设,从而可以设计在这类分布上效果更好的学习算法。
- 这意味着机器学习并不需要寻找一个通用的学习算法,而是寻找一个在关心的数据分布上效果最好的算法。
正则化是对学习算法做的一个修改,这种修改趋向于降低泛化误差(而不是降低训练误差)。
- 正则化是机器学习领域的中心问题之一。
- 没有免费的午餐定理说明了没有最优的学习算法,因此也没有最优的正则化形式。