六、历史小记
现代前馈网络的核心思想自20世纪80年代以来没有发生重大变化。
近年来神经网络性能的大部分改变可归因于两个因素:更大的数据集、更大的网络(由于硬件的强大和软件设施的发展)。
算法上的部分改变也显著改善了神经网络的性能:
用交叉熵代替均方误差作为损失函数。
均方误差在20世纪80年代和90年代流行,后来逐渐被交叉熵代替。交叉熵大大提高了
sigmoid
输出单元和softmax
输出单元的模型的性能。使用分段线性隐单元(如修正线性单元)来代替
sigmoid
隐单元。
修正线性单元描述了生物神经元的这些特性:
- 对于某些输入,生物神经元是完全不活跃的。
- 对于某些输入,生物神经元的输出和输入成比例。
- 大多数时间,生物神经元位于不活跃的状态。
2006-2012年,人们普遍认为:前馈神经网络如果没有其他模型的辅助,则表现不佳。现在已经知道:当具备合适的资源和工程实践,前馈网络表现的非常好。
前馈网络中基于梯度的学习被用作研究概率模型的工具,它也可以应用于许多其他机器学习任务。
在 2006年,业内使用无监督学习来支持监督学习;目前更常见的是使用监督学习来支持无监督学习。