LeNet-5
LeNet-5 架构也许是最广为人知的 CNN 架构。 如前所述,它是由 Yann LeCun 于 1998 年创建的,广泛用于手写数字识别(MNIST)。 它由表 13-1 所示的层组成。
有一些额外的细节要注意:
- MNIST 图像是
28×28
像素,但是它们被零填充到32×32
像素,并且在被输入到网络之前被归一化。 网络的其余部分不使用任何填充,这就是为什么随着图像在网络中的进展,大小不断缩小。 - 平均池化层比平常稍微复杂一些:每个神经元计算输入的平均值,然后将结果乘以一个可学习的系数(每个特征映射一个),并添加一个可学习的偏差项(每个特征映射一个),然后最后应用激活函数。
- C3 图中的大多数神经元仅在三个或四个 S2 图(而不是全部六个 S2 图)中连接到神经元。有关详细信息,请参阅原始论文中的表 1。
- 输出层有点特殊:每个神经元不是计算输入和权向量的点积,而是输出其输入向量和其权向量之间的欧几里德距离的平方。 每个输出测量图像属于特定数字类别的多少。 交叉熵损失函数现在是首选,因为它更多地惩罚不好的预测,产生更大的梯度,从而更快地收敛。
Yann LeCun 的网站(“LENET”部分)展示了 LeNet-5 分类数字的很好的演示。