十三、卷积神经网络 - LeNet-5 - 《Sklearn 与 TensorFlow 机器学习实用指南》

LeNet-5

LeNet-5 架构也许是最广为人知的 CNN 架构。如前所述，它是由 Yann LeCun 于 1998 年创建的，广泛用于手写数字识别（MNIST）。它由表 13-1 所示的层组成。

有一些额外的细节要注意：

MNIST 图像是28×28像素，但是它们被零填充到32×32像素，并且在被输入到网络之前被归一化。网络的其余部分不使用任何填充，这就是为什么随着图像在网络中的进展，大小不断缩小。
平均池化层比平常稍微复杂一些：每个神经元计算输入的平均值，然后将结果乘以一个可学习的系数（每个特征映射一个），并添加一个可学习的偏差项（每个特征映射一个），然后最后应用激活函数。
C3 图中的大多数神经元仅在三个或四个 S2 图（而不是全部六个 S2 图）中连接到神经元。有关详细信息，请参阅原始论文中的表 1。
输出层有点特殊：每个神经元不是计算输入和权向量的点积，而是输出其输入向量和其权向量之间的欧几里德距离的平方。每个输出测量图像属于特定数字类别的多少。交叉熵损失函数现在是首选，因为它更多地惩罚不好的预测，产生更大的梯度，从而更快地收敛。

Yann LeCun 的网站（“LENET”部分）展示了 LeNet-5 分类数字的很好的演示。