CNN:图像分类
ImageNet
数据集:一个开源的图片数据集,包含超过 1400万张图片和图片对应的标签,包含2万多个类别。自从
2010
年以来,ImageNet
每年举办一次比赛,即:ImageNet
大规模视觉识别挑战赛ILSVRC
,比赛使用 1000 个类别图片。2017年7月,
ImageNet
宣布ILSVRC
于2017
年正式结束,因为图像分类、物体检测、物体识别任务中计算机的正确率都远超人类,计算机视觉在感知方面的问题基本得到解决,后续将专注于目前尚未解决的问题。ImageNet
中使用两种错误率作为评估指标:top-5
错误率:对一个图片,如果正确标记在模型输出的前 5 个最佳预测(即:概率最高的前5个)中,则认为是正确的,否则认为是错误的。最终错误预测的样本数占总样本数的比例就是
top-5
错误率。top-1
错误率:对一个图片,如果正确标记等于模型输出的最佳预测(即:概率最高的那个),则认为是正确的,否则认为是错误的。最终错误预测的样本数占总样本数的比例就是
top-1
错误率。
注:
feature map
的描述有两种:channel first
,如256x3x3
;channel last
,如3x3x256
。这里如果未说明,则默认采用channel last
描述。另外也可以显式指定,如:3x3@256
。