如何决定是否添加不一致的数据

假设你想要学习预测纽约市的房价。考虑房子的大小(输入特征 x),你需要预测价格(目的标签 y)。纽约市的房价非常高。假设你在密歇根州的底特律有第二个住房价格数据集,就会发现那里的房价要低得多。应该把这些数据包含在你的训练集里吗?

房子的大小 x 相同,而价格 y 明显不同,这取决于它是在纽约还是在底特律。如果你只关心预测纽约市的房价,把这两个数据集放在一起会影响算法的表现。在这种情况下,最好忽略不一致的底特律数据。

有一种方法可以解决底特律的数据与纽约市数据不一致的问题,即在每一个显示城市的训练样本中增加一个额外的特征。给定一个输入 x ——代表所在的城市—— 此时目标值 y 是明确的。然而在实践中,我并不经常看到这种情况。

纽约和底特律的样本与移动应用和互联网猫图片的样本有什么不同?

猫咪图像的样本和这有点不一样,因为给定一个输入图片 x ,你能可靠地预测出标签 y (是否有猫),即使不知道图像是网络图像还是移动应用图像。即有一个函数 f(x)可以从输入 x 映射到目标输出 y ,即使不知道 x 的来源。 因此,从互联网图像中识别的任务与移动应用图像识别的任务是“一致的”。这意味着,将所有的数据包括在内,几乎没有什么负面影响(除了计算成本),甚至还可能有一些积极的作用。相比之下,纽约和底特律的数据则不一致。考虑相同的 x(房子的大小),价格会根据房子的位置而不同。