一、基本概念
1.1 特征空间
输入空间 :所有输入的可能取值;输出空间 :所有输出的可能取值。
特征向量表示每个具体的输入, 所有特征向量构成特征空间。
特征空间的每一个维度对应一种特征。
可以将输入空间等同于特征空间,但是也可以不同。绝大多数情况下,输入空间等于特征空间。
模型是定义在特征空间上的。
1.2 样本表示
通常输入实例用 表示,真实标记用 表示,模型的预测值用 表示。
具体的输入取值记作 ;具体的标记取值记作 ;具体的模型预测取值记作 。
所有的向量均为列向量,其中输入实例 的特征向量记作 (假设特征空间为 维):
这里 为 的第 个特征的取值。第 个输入记作 ,它的意义不同于 。
训练数据由输入、标记对组成。通常训练集表示为: 。
- 输入、标记对又称作样本点。
- 假设每对输入、标记对是独立同分布产生的。
输入 和标记 可以是连续的,也可以是离散的。
- 为连续的:这一类问题称为回归问题。
- 为离散的,且是有限的:这一类问题称之为分类问题。
- 和 均为序列:这一类问题称为序列标注问题。