半监督学习

半监督学习

给定有标记样本集合，和未标记样本集合，其中。

学习器自动地利用未标记的来提升学习性能，这就是半监督学习semi-supervised learning。
半监督学习的现实需求非常强烈，因为现实中往往能够容易地收集到大量未标记样本，但是对其标记需要耗费大量的人力、物力。如：在医学影像分析上，对影像的疾病标记需要专家人工进行。

因此可以通过专家人工标注少量的样本，然后采用半监督学习。
虽然未标记样本集没有直接包含标记信息，但是如果假设与带从同样的数据源独立同分布采样而来，则所包含的关于数据分布的信息对建立模型是有好处的。
要利用未标记样本，必然需要对未标记样本的分布与已标记样本的分布的关联做出假设。
- 最常见的假设是聚类假设cluster assumption：假设数据存在簇结构，同一个簇的样本属于同一个类别。
- 另一种常见假设是流形假设manifold assumption：假设数据分布在一个流形结构上，邻近的样本拥有相似的输出值。其中，邻近的程度用相似度来刻画。
- 流形假设可以看作是聚类假设的推广，但流形假设对于输出值没有限制（可以为类别，也可以为实数），因此比聚类假设的适用程度更广，可用于多类型的学习任务。
- 无论聚类假设还是流形假设，本质都假设是：相似的样本有相似的输出 。
半监督学习可以划分为：纯pure半监督学习和直推学习transduction learning 。
- 纯半监督学习：假定训练数据中的未标记样本集并非待预测的数据。
  
  纯半监督学习是开放性的，它学得的模型能够适用于额外的未观测数据。
- 直推学习：假定学习过程中考虑的未标记样本集就是待预测的数据，学习的目标就是在上获取最优泛化性能。
  
  直推学习是封闭性的，它学得的模型仅仅是针对学习过程中的未标记样本集。

12.半监督学习

半监督学习