GradientClipByValue

class paddle.fluid.clip.GradientClipByValue(max, min=None, need_clip=None)[源代码]

将输入的多维Tensor

GradientClipByValue - 图1

的值限制在 [min, max] 范围。

输入的 Tensor 不是从该类里传入, 而是默认会选择 Program 中全部的梯度,如果 need_clip 不为None,则可以只选择部分参数进行梯度裁剪。

该类需要在初始化 optimizer 时进行设置后才能生效,可参看 optimizer 文档(例如: SGDOptimizer )。

给定一个 Tensor t ,该操作将它的值压缩到 minmax 之间

  • 任何小于 min 的值都被设置为 min
  • 任何大于 max 的值都被设置为 max

参数

  • max (foat) - 要修剪的最大值。
  • min (float,optional) - 要修剪的最小值。如果用户没有设置,将被自动设置为 -max (此时 max 必须大于0)。
  • need_clip (function, optional) - 类型: 函数。用于指定需要梯度裁剪的参数,该函数接收一个 Parameter ,返回一个 bool (True表示需要裁剪,False不需要裁剪)。默认为None,此时会裁剪网络中全部参数。

代码示例 1:静态图

  1. import paddle
  2. import paddle.fluid as fluid
  3. import numpy as np
  4. main_prog = fluid.Program()
  5. startup_prog = fluid.Program()
  6. with fluid.program_guard(
  7. main_program=main_prog, startup_program=startup_prog):
  8. image = fluid.data(
  9. name='x', shape=[-1, 2], dtype='float32')
  10. predict = fluid.layers.fc(input=image, size=3, act='relu') #可训练参数: fc_0.w.0, fc_0.b.0
  11. loss = fluid.layers.mean(predict)
  12. # 裁剪网络中全部参数:
  13. clip = fluid.clip.GradientClipByValue(min=-1, max=1)
  14. # 仅裁剪参数fc_0.w_0时:
  15. # 为need_clip参数传入一个函数fileter_func,fileter_func接收参数的类型为Parameter,返回类型为bool
  16. # def fileter_func(Parameter):
  17. # # 可以较为方便的通过Parameter.name判断(name可以在fluid.ParamAttr中设置,默认为fc_0.w_0、fc_0.b_0)
  18. # return Parameter.name=="fc_0.w_0"
  19. # clip = fluid.clip.GradientClipByValue(min=-1, max=1, need_clip=fileter_func)
  20. sgd_optimizer = fluid.optimizer.SGDOptimizer(learning_rate=0.1, grad_clip=clip)
  21. sgd_optimizer.minimize(loss)
  22. place = fluid.CPUPlace()
  23. exe = fluid.Executor(place)
  24. x = np.random.uniform(-100, 100, (10, 2)).astype('float32')
  25. exe.run(startup_prog)
  26. out = exe.run(main_prog, feed={'x': x}, fetch_list=loss)

代码示例 2:动态图

  1. import paddle
  2. import paddle.fluid as fluid
  3. with fluid.dygraph.guard():
  4. linear = fluid.dygraph.Linear(10, 10) #可训练参数: linear_0.w.0, linear_0.b.0
  5. inputs = fluid.layers.uniform_random([32, 10]).astype('float32')
  6. out = linear(fluid.dygraph.to_variable(inputs))
  7. loss = fluid.layers.reduce_mean(out)
  8. loss.backward()
  9. # 裁剪网络中全部参数:
  10. clip = fluid.clip.GradientClipByValue(min=-1, max=1)
  11. # 仅裁剪参数linear_0.w_0时:
  12. # 为need_clip参数传入一个函数fileter_func,fileter_func接收参数的类型为ParamBase,返回类型为bool
  13. # def fileter_func(ParamBase):
  14. # # 可以通过ParamBase.name判断(name可以在fluid.ParamAttr中设置,默认为linear_0.w_0、linear_0.b_0)
  15. # return ParamBase.name == "linear_0.w_0"
  16. # # 注:linear.weight、linear.bias能分别返回dygraph.Linear层的权重与偏差,可以此来判断
  17. # return ParamBase.name == linear.weight.name
  18. # clip = fluid.clip.GradientClipByValue(min=-1, max=1, need_clip=fileter_func)
  19. sgd_optimizer = fluid.optimizer.SGD(
  20. learning_rate=0.1, parameter_list=linear.parameters(), grad_clip=clip)
  21. sgd_optimizer.minimize(loss)