Application应用

Kera的应用模块Application提供了带有预训练权重的Keras模型,这些模型可以用来进行预测、特征提取和finetune

模型的预训练权重将下载到~/.keras/models/并在载入模型时自动载入

可用的模型

应用于图像分类的模型,权重训练自ImageNet:XceptionVGG16VGG19ResNet50InceptionV3InceptionResNetV2MobileNetDenseNetNasNetMobileNetV2

所有的这些模型(除了Xception和MobileNet)都兼容Theano和Tensorflow,并会自动基于~/.keras/keras.json的Keras的图像维度进行自动设置。例如,如果你设置data_format="channel_last",则加载的模型将按照TensorFlow的维度顺序来构造,即“Width-Height-Depth”的顺序

Xception模型仅在TensorFlow下可用,因为它依赖的SeparableConvolution层仅在TensorFlow可用。MobileNet仅在TensorFlow下可用,因为它依赖的DepethwiseConvolution层仅在TF下可用。

以上模型(暂时除了MobileNet)的预训练权重可以在我的百度网盘下载,如果有更新的话会在这里报告

图片分类模型的示例

利用ResNet50网络进行ImageNet分类

  1. from keras.applications.resnet50 import ResNet50
  2. from keras.preprocessing import image
  3. from keras.applications.resnet50 import preprocess_input, decode_predictions
  4. import numpy as np
  5. model = ResNet50(weights='imagenet')
  6. img_path = 'elephant.jpg'
  7. img = image.load_img(img_path, target_size=(224, 224))
  8. x = image.img_to_array(img)
  9. x = np.expand_dims(x, axis=0)
  10. x = preprocess_input(x)
  11. preds = model.predict(x)
  12. # decode the results into a list of tuples (class, description, probability)
  13. # (one such list for each sample in the batch)
  14. print('Predicted:', decode_predictions(preds, top=3)[0])
  15. # Predicted: [(u'n02504013', u'Indian_elephant', 0.82658225), (u'n01871265', u'tusker', 0.1122357), (u'n02504458', u'African_elephant', 0.061040461)]

利用VGG16提取特征

  1. from keras.applications.vgg16 import VGG16
  2. from keras.preprocessing import image
  3. from keras.applications.vgg16 import preprocess_input
  4. import numpy as np
  5. model = VGG16(weights='imagenet', include_top=False)
  6. img_path = 'elephant.jpg'
  7. img = image.load_img(img_path, target_size=(224, 224))
  8. x = image.img_to_array(img)
  9. x = np.expand_dims(x, axis=0)
  10. x = preprocess_input(x)
  11. features = model.predict(x)

从VGG19的任意中间层中抽取特征

  1. from keras.applications.vgg19 import VGG19
  2. from keras.preprocessing import image
  3. from keras.applications.vgg19 import preprocess_input
  4. from keras.models import Model
  5. import numpy as np
  6. base_model = VGG19(weights='imagenet')
  7. model = Model(inputs=base_model.input, outputs=base_model.get_layer('block4_pool').output)
  8. img_path = 'elephant.jpg'
  9. img = image.load_img(img_path, target_size=(224, 224))
  10. x = image.img_to_array(img)
  11. x = np.expand_dims(x, axis=0)
  12. x = preprocess_input(x)
  13. block4_pool_features = model.predict(x)

在新类别上fine-tune inceptionV3

  1. from keras.applications.inception_v3 import InceptionV3
  2. from keras.preprocessing import image
  3. from keras.models import Model
  4. from keras.layers import Dense, GlobalAveragePooling2D
  5. from keras import backend as K
  6. # create the base pre-trained model
  7. base_model = InceptionV3(weights='imagenet', include_top=False)
  8. # add a global spatial average pooling layer
  9. x = base_model.output
  10. x = GlobalAveragePooling2D()(x)
  11. # let's add a fully-connected layer
  12. x = Dense(1024, activation='relu')(x)
  13. # and a logistic layer -- let's say we have 200 classes
  14. predictions = Dense(200, activation='softmax')(x)
  15. # this is the model we will train
  16. model = Model(inputs=base_model.input, outputs=predictions)
  17. # first: train only the top layers (which were randomly initialized)
  18. # i.e. freeze all convolutional InceptionV3 layers
  19. for layer in base_model.layers:
  20. layer.trainable = False
  21. # compile the model (should be done *after* setting layers to non-trainable)
  22. model.compile(optimizer='rmsprop', loss='categorical_crossentropy')
  23. # train the model on the new data for a few epochs
  24. model.fit_generator(...)
  25. # at this point, the top layers are well trained and we can start fine-tuning
  26. # convolutional layers from inception V3. We will freeze the bottom N layers
  27. # and train the remaining top layers.
  28. # let's visualize layer names and layer indices to see how many layers
  29. # we should freeze:
  30. for i, layer in enumerate(base_model.layers):
  31. print(i, layer.name)
  32. # we chose to train the top 2 inception blocks, i.e. we will freeze
  33. # the first 249 layers and unfreeze the rest:
  34. for layer in model.layers[:249]:
  35. layer.trainable = False
  36. for layer in model.layers[249:]:
  37. layer.trainable = True
  38. # we need to recompile the model for these modifications to take effect
  39. # we use SGD with a low learning rate
  40. from keras.optimizers import SGD
  41. model.compile(optimizer=SGD(lr=0.0001, momentum=0.9), loss='categorical_crossentropy')
  42. # we train our model again (this time fine-tuning the top 2 inception blocks
  43. # alongside the top Dense layers
  44. model.fit_generator(...)

在定制的输入tensor上构建InceptionV3

  1. from keras.applications.inception_v3 import InceptionV3
  2. from keras.layers import Input
  3. # this could also be the output a different Keras model or layer
  4. input_tensor = Input(shape=(224, 224, 3)) # this assumes K.image_data_format() == 'channels_last'
  5. model = InceptionV3(input_tensor=input_tensor, weights='imagenet', include_top=True)

模型信息

模型大小Top1准确率Top5准确率参数数目深度
Xception88MB0.7900.94522,910,480126
VGG16528MB0.7150.901138,357,54423
VGG19549MB0.7270.910143,667,24026
ResNet5099MB0.7590.92925,636,712168
InceptionV392MB0.7880.94423,851,784159
IncetionResNetV2215MB0.8040.95355,873,736572
MobileNet17MB0.6650.8714,253,86488
MobileNetV214MB0.7130.9013,538,98488
DenseNet12133MB0.7500.9238,062,504121
DenseNet16957MB0.7620.93214,307,880169
DenseNet20180MB0.7730.93620,242,984201
NASNetMobile23MB0.7440.9195,326,716-
NASNetLarge343MB0.8250.96088,949,818-

Xception模型

  1. keras.applications.xception.Xception(include_top=True, weights='imagenet',
  2. input_tensor=None, input_shape=None,
  3. pooling=None, classes=1000)

Xception V1 模型, 权重由ImageNet训练而言

在ImageNet上,该模型取得了验证集top1 0.790和top5 0.945的正确率

注意,该模型目前仅能以TensorFlow为后端使用,由于它依赖于"SeparableConvolution"层,目前该模型只支持channels_last的维度顺序(width, height, channels)

默认输入图片大小为299x299

参数

  • include_top:是否保留顶层的3个全连接网络
  • weights:None代表随机初始化,即不加载预训练权重。'imagenet'代表加载预训练权重
  • input_tensor:可填入Keras tensor作为模型的图像输出tensor
  • input_shape:可选,仅当include_top=False有效,应为长为3的tuple,指明输入图片的shape,图片的宽高必须大于71,如(150,150,3)
  • pooling:当include_top=False时,该参数指定了池化方式。None代表不池化,最后一个卷积层的输出为4D张量。‘avg’代表全局平均池化,‘max’代表全局最大值池化。

  • classes:可选,图片分类的类别数,仅当include_top=True并且不加载预训练权重时可用。

返回值

Keras 模型对象

参考文献

License

预训练权重由我们自己训练而来,基于MIT license发布

VGG16模型

  1. keras.applications.vgg16.VGG16(include_top=True, weights='imagenet',
  2. input_tensor=None, input_shape=None,
  3. pooling=None,
  4. classes=1000)

VGG16模型,权重由ImageNet训练而来

该模型再Theano和TensorFlow后端均可使用,并接受channels_first和channels_last两种输入维度顺序

模型的默认输入尺寸是224x224

参数

  • include_top:是否保留顶层的3个全连接网络
  • weights:None代表随机初始化,即不加载预训练权重。'imagenet'代表加载预训练权重
  • input_tensor:可填入Keras tensor作为模型的图像输出tensor
  • input_shape:可选,仅当include_top=False有效,应为长为3的tuple,指明输入图片的shape,图片的宽高必须大于48,如(200,200,3)

返回值

  • pooling:当include_top=False时,该参数指定了池化方式。None代表不池化,最后一个卷积层的输出为4D张量。‘avg’代表全局平均池化,‘max’代表全局最大值池化。
  • classes:可选,图片分类的类别数,仅当include_top=True并且不加载预训练权重时可用。

Keras 模型对象

参考文献

License

预训练权重由牛津VGG组发布的预训练权重移植而来,基于Creative Commons Attribution License

VGG19模型

  1. keras.applications.vgg19.VGG19(include_top=True, weights='imagenet',
  2. input_tensor=None, input_shape=None,
  3. pooling=None,
  4. classes=1000)

VGG19模型,权重由ImageNet训练而来

该模型在Theano和TensorFlow后端均可使用,并接受channels_first和channels_last两种输入维度顺序

模型的默认输入尺寸是224x224

参数

  • include_top:是否保留顶层的3个全连接网络
  • weights:None代表随机初始化,即不加载预训练权重。'imagenet'代表加载预训练权重
  • input_tensor:可填入Keras tensor作为模型的图像输出tensor
  • input_shape:可选,仅当include_top=False有效,应为长为3的tuple,指明输入图片的shape,图片的宽高必须大于48,如(200,200,3)
  • pooling:当include_top=False时,该参数指定了池化方式。None代表不池化,最后一个卷积层的输出为4D张量。‘avg’代表全局平均池化,‘max’代表全局最大值池化。
  • classes:可选,图片分类的类别数,仅当include_top=True并且不加载预训练权重时可用。

返回值

返回值

Keras 模型对象

参考文献

License

预训练权重由牛津VGG组发布的预训练权重移植而来,基于Creative Commons Attribution License

ResNet50模型

  1. keras.applications.resnet50.ResNet50(include_top=True, weights='imagenet',
  2. input_tensor=None, input_shape=None,
  3. pooling=None,
  4. classes=1000)

50层残差网络模型,权重训练自ImageNet

该模型在Theano和TensorFlow后端均可使用,并接受channels_first和channels_last两种输入维度顺序

模型的默认输入尺寸是224x224

参数

  • include_top:是否保留顶层的全连接网络
  • weights:None代表随机初始化,即不加载预训练权重。'imagenet'代表加载预训练权重
  • input_tensor:可填入Keras tensor作为模型的图像输出tensor
  • input_shape:可选,仅当include_top=False有效,应为长为3的tuple,指明输入图片的shape,图片的宽高必须大于197,如(200,200,3)
  • pooling:当include_top=False时,该参数指定了池化方式。None代表不池化,最后一个卷积层的输出为4D张量。‘avg’代表全局平均池化,‘max’代表全局最大值池化。
  • classes:可选,图片分类的类别数,仅当include_top=True并且不加载预训练权重时可用。

返回值

Keras 模型对象

参考文献

License

预训练权重由Kaiming He发布的预训练权重移植而来,基于MIT License

InceptionV3模型

  1. keras.applications.inception_v3.InceptionV3(include_top=True,
  2. weights='imagenet',
  3. input_tensor=None,
  4. input_shape=None,
  5. pooling=None,
  6. classes=1000)

InceptionV3网络,权重训练自ImageNet

该模型在Theano和TensorFlow后端均可使用,并接受channels_first和channels_last两种输入维度顺序

模型的默认输入尺寸是299x299

参数

  • include_top:是否保留顶层的全连接网络
  • weights:None代表随机初始化,即不加载预训练权重。'imagenet'代表加载预训练权重
  • input_tensor:可填入Keras tensor作为模型的图像输出tensor
  • input_shape:可选,仅当include_top=False有效,应为长为3的tuple,指明输入图片的shape,图片的宽高必须大于197,如(200,200,3)
  • pooling:当include_top=False时,该参数指定了池化方式。None代表不池化,最后一个卷积层的输出为4D张量。‘avg’代表全局平均池化,‘max’代表全局最大值池化。
  • classes:可选,图片分类的类别数,仅当include_top=True并且不加载预训练权重时可用。

返回值

Keras 模型对象

参考文献

License

预训练权重由我们自己训练而来,基于MIT License

InceptionResNetV2模型

  1. keras.applications.inception_resnet_v2.InceptionResNetV2(include_top=True, weights='imagenet', input_tensor=None, input_shape=None, pooling=None, classes=1000)

InceptionResNetV2网络,权重训练自ImageNet

该模型在Theano、TensorFlow和CNTK后端均可使用,并接受channels_first和channels_last两种输入维度顺序

模型的默认输入尺寸是299x299

参数

  • include_top:是否保留顶层的全连接网络
  • weights:None代表随机初始化,即不加载预训练权重。'imagenet'代表加载预训练权重
  • input_tensor:可填入Keras tensor作为模型的图像输出tensor
  • input_shape:可选,仅当include_top=False有效,应为长为3的tuple,指明输入图片的shape,图片的宽高必须大于197,如(200,200,3)
  • pooling:当include_top=False时,该参数指定了池化方式。None代表不池化,最后一个卷积层的输出为4D张量。‘avg’代表全局平均池化,‘max’代表全局最大值池化。
  • classes:可选,图片分类的类别数,仅当include_top=True并且不加载预训练权重时可用。

返回值

Keras 模型对象

参考文献

License

预训练权重基于the Apache License

MobileNet模型

  1. keras.applications.mobilenet.MobileNet(input_shape=None, alpha=1.0, depth_multiplier=1, dropout=1e-3, include_top=True, weights='imagenet', input_tensor=None, pooling=None, classes=1000)

MobileNet网络,权重训练自ImageNet

该模型仅在TensorFlow后端均可使用,因此仅channels_last维度顺序可用。当需要以load_model()加载MobileNet时,需要在custom_object中传入relu6DepthwiseConv2D,即:

  1. model = load_model('mobilenet.h5', custom_objects={
  2. 'relu6': mobilenet.relu6,
  3. 'DepthwiseConv2D': mobilenet.DepthwiseConv2D})

模型的默认输入尺寸是224x224

参数

  • include_top:是否保留顶层的全连接网络
  • weights:None代表随机初始化,即不加载预训练权重。'imagenet'代表加载预训练权重
  • input_tensor:可填入Keras tensor作为模型的图像输出tensor
  • input_shape:可选,仅当include_top=False有效,应为长为3的tuple,指明输入图片的shape,图片的宽高必须大于197,如(200,200,3)
  • pooling:当include_top=False时,该参数指定了池化方式。None代表不池化,最后一个卷积层的输出为4D张量。‘avg’代表全局平均池化,‘max’代表全局最大值池化。
  • classes:可选,图片分类的类别数,仅当include_top=True并且不加载预训练权重时可用。
  • alpha: 控制网络的宽度:
  • 如果alpha<1,则同比例的减少每层的滤波器个数
  • 如果alpha>1,则同比例增加每层的滤波器个数
  • 如果alpha=1,使用默认的滤波器个数
  • depth_multiplier:depthwise卷积的深度乘子,也称为(分辨率乘子)
  • dropout:dropout比例

返回值

Keras 模型对象

参考文献

License

预训练基于Apache License发布

DenseNet模型

  1. keras.applications.densenet.DenseNet121(include_top=True, weights='imagenet', input_tensor=None, input_shape=None, pooling=None, classes=1000)
  2. keras.applications.densenet.DenseNet169(include_top=True, weights='imagenet', input_tensor=None, input_shape=None, pooling=None, classes=1000)
  3. keras.applications.densenet.DenseNet201(include_top=True, weights='imagenet', input_tensor=None, input_shape=None, pooling=None, classes=1000)

DenseNet网络,权重训练自ImageNet

该模型既可以使用channels_first维度顺序(channels, height, width),也可以使用channels_last维度顺序(height, width, channels)

模型的默认输入尺寸是224x224

参数

  • include_top:是否保留顶层的全连接网络
  • weights:None代表随机初始化,即不加载预训练权重。'imagenet'代表加载预训练权重。或须载入的权重文件的路径。
  • input_tensor:可填入Keras tensor作为模型的图像输出tensor
  • input_shape:可选,仅当include_top=False有效,应为长为3的tuple,指明输入图片的shape,图片的宽高必须大于32,如(200,200,3)
  • pooling:当include_top=False时,该参数指定了池化方式。None代表不池化,最后一个卷积层的输出为4D张量。‘avg’代表全局平均池化,‘max’代表全局最大值池化。
  • classes:可选,图片分类的类别数,仅当include_top=True并且不加载预训练权重时可用。

返回值

Keras 模型对象

参考文献

License

预训练基于Apache License发布

NasNet模型

  1. keras.applications.nasnet.NASNetLarge(input_shape=None, include_top=True, weights='imagenet', input_tensor=None, pooling=None, classes=1000)
  2. keras.applications.nasnet.NASNetMobile(input_shape=None, include_top=True, weights='imagenet', input_tensor=None, pooling=None, classes=1000)

神经结构搜索(NasNet)网络,权重训练自ImageNet

NASNetLarge模型的默认输入尺寸是331x331,NASNetMobile模型的默认输入尺寸是224x224

参数

  • input_shape:可选,仅当include_top=False有效,应为长为3的tuple,指明输入图片的shape,图片的宽高必须大于32,如(200,200,3)
  • include_top:是否保留顶层的全连接网络
  • weights:None代表随机初始化,即不加载预训练权重。'imagenet'代表加载预训练权重
  • input_tensor:可填入Keras tensor作为模型的图像输出tensor
  • pooling:当include_top=False时,该参数指定了池化方式。None代表不池化,最后一个卷积层的输出为4D张量。‘avg’代表全局平均池化,‘max’代表全局最大值池化。
  • classes:可选,图片分类的类别数,仅当include_top=True并且不加载预训练权重时可用。

返回值

Keras 模型对象

参考文献

License

预训练基于Apache License发布

MobileNet模型

  1. keras.applications.mobilenetv2.MobileNetV2(input_shape=None, alpha=1.0, depth_multiplier=1, include_top=True, weights='imagenet', input_tensor=None, pooling=None, classes=1000)

MobileNet网络,权重训练自ImageNet

该模型仅channels_last维度顺序(height, width, channels)可用。

模型的默认输入尺寸是224x224

参数

  • input_shape:可选,仅当include_top=False有效,应为长为3的tuple,指明输入图片的shape,如(200,200,3)
  • alpha: 控制网络的宽度:
  • 如果alpha<1,则同比例的减少每层的滤波器个数
  • 如果alpha>1,则同比例增加每层的滤波器个数
  • 如果alpha=1,使用默认的滤波器个数
  • depth_multiplier:depthwise卷积的深度乘子,也称为(分辨率乘子)
  • include_top:是否保留顶层的全连接网络
  • weights:None代表随机初始化,即不加载预训练权重。'imagenet'代表加载预训练权重。或须载入的权重文件的路径。
  • input_tensor:可填入Keras tensor作为模型的图像输出tensor
  • pooling:当include_top=False时,该参数指定了池化方式。None代表不池化,最后一个卷积层的输出为4D张量。‘avg’代表全局平均池化,‘max’代表全局最大值池化。
  • classes:可选,图片分类的类别数,仅当include_top=True并且不加载预训练权重时可用。

返回值

Keras 模型对象

参考文献

License

预训练基于Apache License发布