五、 历史和现状
5.1 历史
卷积神经网络是第一个解决重要商业应用的神经网络。
卷积神经网络是用反向传播训练的第一个有效的深度神经网络之一。
卷积神经网络提供了一种方法来特化神经网络,从而处理具有网格结构拓扑的数据。
这种方法在二维图像上是最成功的。
为了处理一维序列数据,往往采用另一种强大的特化网络:循环神经网络。
5.2 神经科学基础
图像传输到大脑的流程可以简化为:
- 图像从光到达眼睛并刺激视网膜。
- 视网膜中的神经元对图像进行一些简单的预处理,但是基本不改变图像的表达方式。
- 图像通过视神经,以及称作外侧膝状体的脑部区域。
- 然后大脑的 部分(也称作主要视觉皮层)开始处理图像。
神经生理学家
David Hubel
和Torsten Wiesel
观察了猫的脑内神经元的视觉响应发现:处于视觉系统较为前面的神经元对于特定的光模式反应最强烈,但是对于其它光模式几乎完全没有反应。卷积层被设计为描述 的三个性质:
分布在空间中。
它实际上具有二维结构来映射视网膜中的图像,视网膜下半部的光仅仅影响 相应的一半。
卷积网络通过用二维映射定义特征的方式来描述该特性。
包含许多简单细胞。
这些简单细胞的行为简单概括为:是在一个空间上小的、局部的接受域内的图像的线性函数。
卷积网络的卷积单元被设计为模拟简单细胞。
还包括许多复杂细胞。
复杂细胞对于特征的位置的微小偏移具有不变性。
这通过卷积网络的最大池化单元来刻画。
复杂细胞对于照明中的一些变化也是不变的。
它不能简单地通过在空间位置上池化来刻画。它也激发了卷积网络中的一些跨通道池化策略,如
maxout
单元。
一般认为:类似于 的原理也适用于视觉系统的其他区域。
在大脑中人们找到了响应一些特定概念的细胞,并且这种细胞对于输入的许多种变换都具有不变性。
这些细胞被称作祖母细胞,存在于内侧颞叶的区域。
一个人可能有这样的一个神经元,当他看到祖母的照片时,该神经元被激活。无论祖母出现在照片的哪个位置、无论是祖母的脸部还是全身、无论是光亮还是黑暗。
与卷积网络最后一层最接近的类比是:颞下皮质的脑区。
当查看一个对象时,信息从视网膜经过
LGN
流到 ,然后到 , ,然后是颞下皮质。这发生在瞥见对象的前
100ms
内。如果允许一个人继续观察对象更多的时间,那么信息将开始向后流动(即前面过程的反馈路径)。
因为大脑使用自上而下的反馈来更新较低级脑区中的激活。
如果打断人的注视,并且只观察前
100ms
内的大多数前向传播路径,则颞下皮质与卷积网络的最后一层非常相似。
动物的视觉系统与卷积网络的主要区别:
人眼大部分是非常低的分辨率,除了一个被称作中央凹的小块(手臂远的拇指大小的区域)。而大多数卷积网络实际上接收到的是一张高分辨率的照片。
虽然人们觉得可以看到高分辨率的整个场景,但是这是大脑的潜意识创建的错觉。因为大脑缝合了人们瞥见的若干个小区域。
人类大脑控制几次眼动(称作扫视),从而瞥见场景中最显眼的或者任务相关的部分。这称作注意力机制。
目前注意力机制在自然语言处理中大获成功。
人类视觉系统集成了许多其他感觉(如听觉,以及心情想法之类的因素),而卷积网络目前为止纯粹是视觉的。
人类视觉系统不仅用于识别对象,它还能够理解整个场景:包括多个对象、对象之间的关系、人们的身体与世界交互所需要的丰富的三维几何信息。而卷积神经网络在这些问题上还是起步阶段。
即使像 这样简单的大脑区域也受到来自较高级别的反馈的严重影响。虽然神经网络模型也探索反馈机制,但是目前没有提供引人瞩目的改进。
大脑可能使用非常不同的激活函数、卷积函数、池化函数。单个神经元的激活可能并不能通过单个线性过滤器的响应来很好的表征。