PyTorch: Tensors

译者:@yongjay13@speedmancs

校对者:@bringtree

本例中的全连接神经网络有一个隐藏层, 后接ReLU激活层, 并且不带偏置参数. 训练时使用欧式距离平方来学习从x到y的映射.

实现中我们使用了PyTorch的张量来进行前向计算, 误差计算和后向传播.

PyTorch的张量Tensor基本上和numpy的数组一样, 也没有任何内置的深度学习函数, 不知道计算图的概念, 也无法求导, 作为一个通用的N维数组, 它只用做任意的数值计算.

和numpy数组最大的区别在于, PyTorch张量既可以跑在CPU上, 也可以在GPU上作运算. 为了在GPU上进行计算, 只要把张量类型转成cuda数据类型即可。

  1. import torch
  2. dtype = torch.FloatTensor
  3. # dtype = torch.cuda.FloatTensor # 取消注释以在GPU上运行
  4. # N 批量大小; D_in是输入尺寸;
  5. # H是隐藏尺寸; D_out是输出尺寸.
  6. N, D_in, H, D_out = 64, 1000, 100, 10
  7. # 创建随机输入和输出数据
  8. x = torch.randn(N, D_in).type(dtype)
  9. y = torch.randn(N, D_out).type(dtype)
  10. # 随机初始化权重
  11. w1 = torch.randn(D_in, H).type(dtype)
  12. w2 = torch.randn(H, D_out).type(dtype)
  13. learning_rate = 1e-6
  14. for t in range(500):
  15. # 正向传递:计算预测y
  16. h = x.mm(w1)
  17. h_relu = h.clamp(min=0)
  18. y_pred = h_relu.mm(w2)
  19. # 计算并打印loss
  20. loss = (y_pred - y).pow(2).sum()
  21. print(t, loss)
  22. # 反向传播计算关于损失的w1和w2的梯度
  23. grad_y_pred = 2.0 * (y_pred - y)
  24. grad_w2 = h_relu.t().mm(grad_y_pred)
  25. grad_h_relu = grad_y_pred.mm(w2.t())
  26. grad_h = grad_h_relu.clone()
  27. grad_h[h < 0] = 0
  28. grad_w1 = x.t().mm(grad_h)
  29. # 使用梯度下降更新权重
  30. w1 -= learning_rate * grad_w1
  31. w2 -= learning_rate * grad_w2