四、训练模型 - 练习 - 《Sklearn 与 TensorFlow 机器学习实用指南》

练习

如果你有一个数百万特征的训练集，你应该选择哪种线性回归训练算法？
假设你训练集中特征的数值尺度（scale）有着非常大的差异，哪种算法会受到影响？有多大的影响？对于这些影响你可以做什么？
训练 Logistic 回归模型时，梯度下降是否会陷入局部最低点？
在有足够的训练时间下，是否所有的梯度下降都会得到相同的模型参数？
假设你使用批量梯度下降法，画出每一代的验证误差。当你发现验证误差一直增大，接下来会发生什么？你怎么解决这个问题？
当验证误差升高时，立即停止小批量梯度下降是否是一个好主意？
哪个梯度下降算法（在我们讨论的那些算法中）可以最快到达解的附近？哪个的确实会收敛？怎么使其他算法也收敛？
假设你使用多项式回归，画出学习曲线，在图上发现学习误差和验证误差之间有着很大的间隙。这表示发生了什么？有哪三种方法可以解决这个问题？
假设你使用岭回归，并发现训练误差和验证误差都很高，并且几乎相等。你的模型表现是高偏差还是高方差？这时你应该增大正则化参数 $\alpha$ ，还是降低它？
你为什么要这样做：
- 使用岭回归代替线性回归？
- Lasso 回归代替岭回归？
- 弹性网络代替 Lasso 回归？
假设你想判断一副图片是室内还是室外，白天还是晚上。你应该选择二个逻辑回归分类器，还是一个 Softmax 分类器？
在 Softmax 回归上应用批量梯度下降的早期停止法（不使用 Scikit-Learn）。

附录 A 提供了这些练习的答案。