四、参数估计准则
4.1 最大似然估计
假设数据集 中的样本独立同分布地由 产生,但是该分布是未知的。
是一族由 参数控制的概率分布函数族,希望通过 来估计真实的概率分布函数 ,也就是要估计 参数。
最大似然估计最大化数据集 出现的概率。即:
- 由于概率的乘积会因为很多原因不便使用(如容易出现数值下溢出),因此转换为对数的形式: 。
- 因为 与 无关,因此它也等价于: 。
- 由于数据集的经验分布为: ,其中 为狄拉克函数。因此: 。
考虑数据集的经验分布 和真实分布函数的估计量 之间的差异,
KL
散度为:由于 与 无关,因此要使得 最小,则只需要最小化 。也就是最大化 。
因此:最大似然估计就是最小化数据集的经验分布 和真实分布函数的估计量 之间的差异 。
最大似然估计可以扩展到估计条件概率。
假设数据集 ,对应的观测值为 。则条件概率的最大似然估计为: 。
如果样本是独立同分布的,则可以分解成: 。
最大似然估计有两个很好的性质:
在某些条件下,最大似然估计具有一致性。这意味着当训练样本数量趋向于无穷时,参数的最大似然估计依概率收敛到参数的真实值。
这些条件为:
- 真实分布 必须位于分布函数族 中;否则没有估计量可以表示 。
- 真实分布 必须对应一个 值;否则从最大似然估计恢复出真实分布 之后,也不能解出参数 。
- 最大似然估计具有很好的统计效率
statistic efficiency
。即只需要较少的样本就能达到一个良好的泛化误差。
最大似然估计通常是机器学习中的首选估计准则。
当样本数量太少导致过拟合时,正则化技巧是最大似然的有偏估计版本。
4.2 贝叶斯估计
4.2.1 贝叶斯估计 vs 最大似然估计
在最大似然估计中,频率学派的观点是:真实参数 是未知的固定的值,而点估计 是随机变量。因为数据是随机生成的,所以数据集是随机的。
在贝叶斯估计中,贝叶斯学派认为:数据集是能够直接观测到的,因此不是随机的。而真实参数 是未知的、不确定的,因此 是随机变量。
对 的已知的知识表示成先验概率分布 :表示在观测到任何数据之前,对于参数 的可能取值的一个分布。
在机器学习中,一般会选取一个相当宽泛的(熵比较高)的先验分布,如均匀分布。
假设观测到一组数据 ,根据贝叶斯法则,有:
贝叶斯估计与最大似然估计有两个重要区别:
贝叶斯估计预测下,一个样本的分布为:
而最大似然估计预测下,一个样本的分布为:
贝叶斯估计会使得概率密度函数向着先验概率分布的区域偏移。
当训练数据有限时,贝叶斯估计通常比最大似然估计泛化性能更好。
当训练样本数量很大时,贝叶斯估计往往比最大似然估计计算代价较高。
4.2.2 最大后验估计
有时候希望获取参数 的一个可能的值,而不仅仅是它的一个分布。此时可以通过最大后验估计
MAP
选择后验概率最大的点:最大后验估计具有最大似然估计没有的优势:拥有先验知识带来的信息。该信息有助于减少估计量的方差,但是增加了偏差。
一些正则化方法可以被解释为最大后验估计,正则化项就是对应于 。
并非所有的正则化方法都对应为某个最大后验估计。
如:有些正则化项依赖于数据,则显然不是一个先验概率分布
最大后验估计估计
MAP
提供了一个直观的方法去设计复杂的、可解释的正则化项。更复杂的正则化项可以通过先验分布为混合高斯分布得到(而不仅仅是一个单独的高斯分布)。