LeNet

LeNet是最早的卷积神经网络之一[1]。1998年,Yan LeCun第一次将LeNet卷积神经网络应用到图像分类上,在手写数字识别任务中取得了巨大成功。LeNet通过连续使用卷积和池化层的组合提取图像特征,其架构如 图1 所示,这里展示的是作者论文中的LeNet-5模型:

LeNet - 图1

图1:LeNet模型网络结构示意图

  • 第一轮卷积和池化:卷积提取图像中包含的特征模式(激活函数使用sigmoid),图像尺寸从32减小到28。经过池化层可以降低输出特征图对空间位置的敏感性,图像尺寸减到14。

  • 第二轮卷积和池化:卷积操作使图像尺寸减小到10,经过池化后变成5。

  • 第三轮卷积:将经过第3次卷积提取到的特征图输入到全连接层。第一个全连接层的输出神经元的个数是64,第二个全连接层的输出神经元个数是分类标签的类别数,对于手写数字识别其大小是10。然后使用Softmax激活函数即可计算出每个类别的预测概率。


【提示】:

卷积层的输出特征图如何当作全连接层的输入使用呢?

卷积层的输出数据格式是

LeNet - 图2 ,在输入全连接层的时候,会自动将数据拉平,

也就是对每个样本,自动将其转化为长度为

LeNet - 图3 的向量,

其中

LeNet - 图4 ,一个mini-batch的数据维度变成了 LeNet - 图5 的二维向量。