直接学习更为丰富的输出
一个图像分类算法可以输入一个图像 ,并输出一个表示对象类别的整数。那么一个算法可以输出一个完整的句子来对图像进行描述吗?
举个例子——
输入 为:
输出 为:“一辆黄色的公共汽车在路上开着,背景是绿色的树和绿色的草。 ”
传统的监督学习应用学得一个函数: ,其中输出 通常是一个整数或者实数。例如:
问题 | X | Y |
---|---|---|
垃圾邮件分类 | 邮件 | 垃圾邮件/非垃圾邮件 (0/1) |
图像识别 | 图像 | 整数值标签 |
房价预测 | 房屋特征 | 美元价格 |
产品推荐 | 产品与用户特征 | 购买机率 |
端到端深度学习中最令人兴奋的进展之一是,它让我们直接学习比数字复杂得多的 . 在上面的图像配字示例中,你可以使用一个神经网络输入一个图像(),并直接输出一个标题().
下面有更多的例子:
问题 | X | Y | 文献引用 |
---|---|---|---|
图像配字 | 图像 | 文本 | Mao et al., 2014 |
机器翻译 | 英语文本 | 法语文本 | Mao et al., 2014 |
问题回答 | (文本,问题)对 | 回答文本 | Bordes et al., 2015 |
语音识别 | 音频 | 转录 | Hannun et al., 2015 |
文本转语音 | 文本特征 | 音频 | van der Oord et al., 2016 |
这体现了深度学习的高速变化趋势:当你有正确的(输入,输出)标签对的时候,有时可以进行端到端学习,即使输出是一个句子、图像、音频,或者其它的比一个数字更丰富的输出形式。
当前内容版权归 吴恩达教授(Andrew Ng) 或其关联方所有,如需对内容或内容相关联开源项目进行关注与资助,请访问 吴恩达教授(Andrew Ng) .