roi_pool
paddle.fluid.layers.roi_pool
(input, rois, pooled_height=1, pooled_width=1, spatial_scale=1.0)[源代码]
该OP实现了roi池化操作,对非均匀大小的输入执行最大池化,以获得固定大小的特征映射(例如7*7)。
该OP的操作分三个步骤:
- 用pooled_width和pooled_height将每个proposal区域划分为大小相等的部分;
- 在每个部分中找到最大的值;
- 将这些最大值复制到输出缓冲区。
Faster-RCNN使用了roi池化。roi池化的具体原理请参考 https://stackoverflow.com/questions/43430056/what-is-roi-layer-in-fast-rcnn
参数
- input (Variable) - 输入特征,维度为[N,C,H,W]的4D-Tensor,其中N为batch大小,C为输入通道数,H为特征高度,W为特征宽度。数据类型为float32或float64.
- rois (Variable) – 待池化的ROIs (Regions of Interest),维度为[num_rois,4]的2D-LoDTensor,lod level 为1。给定如[[x1,y1,x2,y2], …],其中(x1,y1)为左上点坐标,(x2,y2)为右下点坐标。lod信息记录了每个roi所属的batch_id。
- pooled_height (int,可选) - 数据类型为int32,池化输出的高度。默认值为1。
- pooled_width (int,可选) - 数据类型为int32,池化输出的宽度。默认值为1。
- spatial_scale (float,可选) - 数据类型为float32,用于将ROI coords从输入比例转换为池化时使用的比例。默认值为1.0。
返回
池化后的特征,维度为[num_rois, C, pooled_height, pooled_width]的4D-Tensor。
返回类型
Variable
代码示例
import paddle.fluid as fluid
import numpy as np
DATATYPE='float32'
place = fluid.CPUPlace()
#place = fluid.CUDAPlace(0)
input_data = np.array([i for i in range(1,17)]).reshape(1,1,4,4).astype(DATATYPE)
roi_data =fluid.create_lod_tensor(np.array([[1., 1., 2., 2.], [1.5, 1.5, 3., 3.]]).astype(DATATYPE),[[2]], place)
x = fluid.layers.data(name='input', shape=[1, 4, 4], dtype=DATATYPE)
rois = fluid.layers.data(name='roi', shape=[4], lod_level=1, dtype=DATATYPE)
pool_out = fluid.layers.roi_pool(
input=x,
rois=rois,
pooled_height=1,
pooled_width=1,
spatial_scale=1.0)
exe = fluid.Executor(place)
out, = exe.run(feed={'input':input_data ,'roi':roi_data}, fetch_list=[pool_out.name])
print(out) #array([[[[11.]]], [[[16.]]]], dtype=float32)
print(np.array(out).shape) # (2, 1, 1, 1)