三、核化线性降维 KPCA
PCA
方法假设从高维空间到低维空间的映射是线性的,但是在不少现实任务中可能需要非线性映射才能找到合适的低维空间来降维。非线性降维的一种常用方法是基于核技巧对线性降维方法进行核化
kernelized
, 如核主成分分析Kernelized PCA:KPCA
,它是对PCA
的一种推广。假定原始特征空间中的样本点 通过映射 映射到高维特征空间的坐标为 ,即 。且假
设高维特征空间为 维的,即: 。假定要将高维特征空间中的数据投影到低维空间中,投影矩阵为 为 维矩阵。
根据
PCA
推导的结果,求解方程: 。其中 为 维矩阵。于是有: 。
通常并不清楚 的解析表达式,因此并不会直接得到 ,所以无法直接求解方程: 。
于是引入核函数: 。
定义核矩阵 :
则有: 。
定义 ,则 为 维行向量 。定义: 为 维矩阵
则有:
将 代入 ,有: 。
两边同时左乘以 ,再代入 有: 。
通常会要求核矩阵可逆,上式两边同时左乘以 ,则有: 。
同样该问题也是一个特征值分解问题,取 最大的 个特征值对应的特征向量组成 即可。
对于新样本 , 其投影后第 维的坐标为:
其中 为行向量 的第 个分量。
可以看到:为了获取投影后的坐标,
KPCA
需要对所有样本求和,因此它的计算开销较大。