CNN:图像分类

  1. ImageNet 数据集:一个开源的图片数据集,包含超过 1400万张图片和图片对应的标签,包含2万多个类别。

    自从2010 年以来,ImageNet 每年举办一次比赛,即:ImageNet 大规模视觉识别挑战赛ILSVRC ,比赛使用 1000 个类别图片。

    2017年7月,ImageNet 宣布ILSVRC2017 年正式结束,因为图像分类、物体检测、物体识别任务中计算机的正确率都远超人类,计算机视觉在感知方面的问题基本得到解决,后续将专注于目前尚未解决的问题。

  2. ImageNet 中使用两种错误率作为评估指标:

    • top-5 错误率:对一个图片,如果正确标记在模型输出的前 5 个最佳预测(即:概率最高的前5个)中,则认为是正确的,否则认为是错误的。

      最终错误预测的样本数占总样本数的比例就是 top-5 错误率。

    • top-1 错误率:对一个图片,如果正确标记等于模型输出的最佳预测(即:概率最高的那个),则认为是正确的,否则认为是错误的。

      最终错误预测的样本数占总样本数的比例就是 top-1 错误率。

  3. 注:feature map 的描述有两种:channel first,如256x3x3channel last,如3x3x256 。这里如果未说明,则默认采用channel last描述。另外也可以显式指定,如:3x3@256