如何定义人类表现水平

假设你正在做一个医学成像应用程序,它可以自动依据X射线图像进行诊断。 除了一些基础的训练外,一个没有任何医学背景的人在该任务上的错误率为 15% . 一名新手医生的错误率为 10% ,而经验丰富的医生可以达到 5% . 如果由小型的医生团队对每一幅图像进行单独的讨论,错误率将降低至 2% . 上述的哪一种错误率可以定义为“人类表现水平”呢?

在该情景下,我将使用 2% 作为人类表现水平的代表来获得最优错误率。 你还可以将 2% 设置为期望的性能水平,因为与人类表现水平相比,前一章的所有三个理由都适用:

  • 易于从人为标签中获取数据。你可以让一组医生为你提供错误率为 2% 的标签。
  • 基于人类直觉进行误差分析。通过与医生讨论图像内容,你可以利用他们的直觉。
  • 使用人类表现水平来估计最优错误率,并设置可达到的“期望错误率”。 使用 2% 的误差作为我们对最优错误率的估计是合理的。最优错误率甚至可能低于 2%,但它不可能更高,因为一个医生团队就已经有可能达到 2% 的误差水平。相比之下,使用 5% 或 10% 作为最优错误率的估计就显得不合理了,因为我们知道这些估算值必然过高了。

当需要获得标签数据时,你可能不希望与整个团队讨论每一张图片,因为他们的时间很宝贵。或许你可以让新手医生给绝大多数的病例贴上标签,而把那些较难分析的病例交给更有经验的医生或医生团队。

如果你的系统目前的误差为 40%,那么不论是让初级医生(10% 误差)还是有经验的医生(5% 误差误)来给你的数据贴上标签,那都没有关系。是如果你的系统误差已经是 10%,那么将人类表现水平定义为 2% 将为你提供更好的途径来改进你的系统。