直接学习更为丰富的输出

一个图像分类算法可以输入一个图像 直接学习更为丰富的输出 - 图1 ,并输出一个表示对象类别的整数。那么一个算法可以输出一个完整的句子来对图像进行描述吗?

举个例子——

输入 直接学习更为丰富的输出 - 图2 为:

直接学习更为丰富的输出 - 图3

输出 直接学习更为丰富的输出 - 图4 为:“一辆黄色的公共汽车在路上开着,背景是绿色的树和绿色的草。 ”

传统的监督学习应用学得一个函数:直接学习更为丰富的输出 - 图5 ,其中输出 直接学习更为丰富的输出 - 图6 通常是一个整数或者实数。例如:

问题XY
垃圾邮件分类邮件垃圾邮件/非垃圾邮件 (0/1)
图像识别图像整数值标签
房价预测房屋特征美元价格
产品推荐产品与用户特征购买机率

端到端深度学习中最令人兴奋的进展之一是,它让我们直接学习比数字复杂得多的 直接学习更为丰富的输出 - 图7 . 在上面的图像配字示例中,你可以使用一个神经网络输入一个图像(直接学习更为丰富的输出 - 图8),并直接输出一个标题(直接学习更为丰富的输出 - 图9).

下面有更多的例子:

问题XY文献引用
图像配字图像文本Mao et al., 2014
机器翻译英语文本法语文本Mao et al., 2014
问题回答(文本,问题)对回答文本Bordes et al., 2015
语音识别音频转录Hannun et al., 2015
文本转语音文本特征音频van der Oord et al., 2016

这体现了深度学习的高速变化趋势:当你有正确的(输入,输出)标签对的时候,有时可以进行端到端学习,即使输出是一个句子、图像、音频,或者其它的比一个数字更丰富的输出形式。