神经网络

译者:@小王子

校对者:@李子文

神经网络可以使用 torch.nn 包构建.

autograd 实现了反向传播功能, 但是直接用来写深度学习的代码在很多情况下还是稍显复杂, torch.nn 是专门为神经网络设计的模块化接口. nn 构建于 Autograd 之上, 可用来定义和运行神经网络. nn.Modulenn 中最重要的类, 可把它看成是一个网络的封装, 包含网络各层定义以及 forward 方法, 调用 forward(input) 方法, 可返回前向传播的结果.

例如, 看看这个分类数字图像的网络:

convnet

convnet

这是一个基础的前向传播(feed-forward)网络: 接收输入, 经过层层传递运算, 得到输出.

一个典型的神经网络训练过程如下:

  • 定义具有一些可学习参数(或权重)的神经网络
  • 迭代输入数据集
  • 通过网络处理输入
  • 计算损失(输出的预测值与实际值之间的距离)
  • 将梯度传播回网络
  • 更新网络的权重, 通常使用一个简单的更新规则: weight = weight - learning_rate * gradient

定义网络

让我们来定义一个网络:

  1. import torch
  2. from torch.autograd import Variable
  3. import torch.nn as nn
  4. import torch.nn.functional as F
  5. class Net(nn.Module):
  6. def __init__(self):
  7. super(Net, self).__init__()
  8. # 卷积层 '1'表示输入图片为单通道, '6'表示输出通道数, '5'表示卷积核为5*5
  9. # 核心
  10. self.conv1 = nn.Conv2d(1, 6, 5)
  11. self.conv2 = nn.Conv2d(6, 16, 5)
  12. # 仿射层/全连接层: y = Wx + b
  13. self.fc1 = nn.Linear(16 * 5 * 5, 120)
  14. self.fc2 = nn.Linear(120, 84)
  15. self.fc3 = nn.Linear(84, 10)
  16. def forward(self, x):
  17. #在由多个输入平面组成的输入信号上应用2D最大池化.
  18. # (2, 2) 代表的是池化操作的步幅
  19. x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
  20. # 如果大小是正方形, 则只能指定一个数字
  21. x = F.max_pool2d(F.relu(self.conv2(x)), 2)
  22. x = x.view(-1, self.num_flat_features(x))
  23. x = F.relu(self.fc1(x))
  24. x = F.relu(self.fc2(x))
  25. x = self.fc3(x)
  26. return x
  27. def num_flat_features(self, x):
  28. size = x.size()[1:] # 除批量维度外的所有维度
  29. num_features = 1
  30. for s in size:
  31. num_features *= s
  32. return num_features
  33. net = Net()
  34. print(net)

你只要在 nn.Module 的子类中定义了 forward 函数, backward 函数就会自动被实现(利用 autograd ). 在 forward 函数中可使用任何 Tensor 支持的操作.

网络的可学习参数通过 net.parameters() 返回, net.named_parameters 可同时返回学习的参数以及名称.

  1. params = list(net.parameters())
  2. print(len(params))
  3. print(params[0].size()) # conv1的weight

向前的输入是一个 autograd.Variable, 输出也是如此. 注意: 这个网络(LeNet)的预期输入大小是 32x32, 使用这个网上 MNIST 数据集, 请将数据集中的图像调整为 32x32.

  1. input = Variable(torch.randn(1, 1, 32, 32))
  2. out = net(input)
  3. print(out)

将网络中所有参数的梯度清零.

  1. net.zero_grad()
  2. out.backward(torch.randn(1, 10))

注解:

torch.nn 只支持小批量(mini-batches), 不支持一次输入一个样本, 即一次必须是一个 batch.

例如, nn.Conv2d 的输入必须是 4 维的, 形如 nSamples x nChannels x Height x Width.

如果你只想输入一个样本, 需要使用 input.unsqueeze(0) 将 batch_size 设置为 1.

在继续之前, 让我们回顾一下迄今为止所有见过的类.

概括:

  • torch.Tensor - 一个 多维数组.
  • autograd.Variable - 包装张量并记录应用于其上的历史操作. 具有和 Tensor 相同的 API ,还有一些补充, 如 backward(). 另外 拥有张量的梯度.
  • nn.Module - 神经网络模块. 方便的方式封装参数, 帮助将其移动到GPU, 导出, 加载等.
  • nn.Parameter - 一种变量, 当被指定为 Model 的属性时, 它会自动注册为一个参数.
  • autograd.Function - 实现 autograd 操作的向前和向后定义 . 每个 Variable 操作, 至少创建一个 Function 节点, 连接到创建 Variable 的函数, 并 编码它的历史.

在这一点上, 我们涵盖:

  • 定义一个神经网络
  • 处理输入并反向传播

还剩下:

  • 计算损失函数
  • 更新网络的权重

损失函数

损失函数采用 (output,target) 输入对, 并计算预测输出结果与实际目标的距离.

nn 包下有几种不同的 损失函数 . 一个简单的损失函数是: nn.MSELoss 计算输出和目标之间的均方误差

例如:

  1. output = net(input)
  2. target = Variable(torch.arange(1, 11)) # 一个虚拟的目标
  3. criterion = nn.MSELoss()
  4. loss = criterion(output, target)
  5. print(loss)

现在, 如果你沿着 loss 反向传播的方向使用 .grad_fn 属性, 你将会看到一个如下所示的计算图:

  1. input -> conv2d -> relu -> maxpool2d -> conv2d -> relu -> maxpool2d
  2. -> view -> linear -> relu -> linear -> relu -> linear
  3. -> MSELoss
  4. -> loss

所以, 当我们调用 loss.backward(), 整个图与损失是有区别的, 图中的所有变量都将用 .grad 梯度累加它们的变量.

为了说明, 让我们向后走几步:

  1. print(loss.grad_fn) # MSELoss
  2. print(loss.grad_fn.next_functions[0][0]) # Linear
  3. print(loss.grad_fn.next_functions[0][0].next_functions[0][0]) # ReLU

反向传播

为了反向传播误差, 我们所要做的就是 loss.backward(). 你需要清除现有的梯度, 否则梯度会累加之前的梯度.

现在我们使用 loss.backward(), 看看反向传播之前和之后 conv1 的梯度.

  1. net.zero_grad() # 把之前的梯度清零
  2. print('conv1.bias.grad before backward')
  3. print(net.conv1.bias.grad)
  4. loss.backward()
  5. print('conv1.bias.grad after backward')
  6. print(net.conv1.bias.grad)

现在, 我们已经看到了如何使用损失函数.

稍后阅读:

神经网络包包含各种模块和损失函数, 形成深度神经网络的构建模块. 完整的文件列表 在这里

接下来学习的唯一东西是:

  • 更新网络的权重

更新权重

实践中使用的最简单的更新规则是随机梯度下降( SGD ):

weight = weight - learning_rate * gradient

我们可以使用简单的 python 代码来实现这个:

  1. learning_rate = 0.01
  2. for f in net.parameters():
  3. f.data.sub_(f.grad.data * learning_rate)

然而, 当你使用神经网络时, 你需要使用各种不同的更新规则, 比如 SGD, Nesterov-SGD, Adam, RMSProp等. 为了实现这个功能, 我们建立了一个包: torch.optim 实现所有这些方法. 使用它非常的简单:

  1. import torch.optim as optim
  2. # 新建一个优化器, 指定要调整的参数和学习率
  3. optimizer = optim.SGD(net.parameters(), lr = 0.01)
  4. # 在训练过程中:
  5. optimizer.zero_grad() # 首先梯度清零(与 net.zero_grad() 效果一样)
  6. output = net(input)
  7. loss = criterion(output, target)
  8. loss.backward()
  9. optimizer.step() # 更新参数

注解:

观察如何使用手动设置梯度清零 optimizer.zero_grad() . 需要手动清零的原因在 Backprop_ 中已经说明了(梯度会累加之前的梯度).