二、MDS

  1. MDSscikit-learn实现的多维缩放模型,其原型为:

    1. class sklearn.manifold.MDS(n_components=2, metric=True, n_init=4, max_iter=300,
    2. verbose=0, eps=0.001, n_jobs=1, random_state=None, dissimilarity='euclidean')
    • metric:一个布尔值,指定度量类型。

      如果为True,则使用距离度量;否则使用非距离度量SMACOF

    • n_components:一个整数,指定降维后的维数。

    • n_init:一个整数,指定初始化的次数。

      在使用SMACOF算法时,会选择n_init次不同的初始值,然后选择这些结果中最好的那个作为最终结果。

    • max_iter:一个整数,指定在使用SMACOF算法时得到一轮结果需要的最大迭代次数。

    • eps:一个浮点数,用于指定收敛阈值。

    • n_jobs:一个整数,指定并行性。

    • random_state:一个整数或者一个RandomState实例,或者None,指定随机数种子。

    • dissimilarity:一个字符串值,用于定义如何计算不相似度。可以为:

      • 'euclidean':使用欧氏距离。
      • 'precomputed':由使用者提供距离矩阵。
  2. 属性:

    • embedding_:给出了原始数据集在低维空间中的嵌入矩阵。
    • stress_:一个浮点数,给出了不一致的距离的总和。
  3. 方法:

    • fit(X[, y, init]):训练模型。
    • fit_transform(X[, y, init]):训练模型并执行降维,返回降维后的样本集。
  4. 示例:鸢尾花数据集分别降低到4、3、2、1 维时,距离的误差之和分别为:

    1. stress(n_components=4) : 12.0577408711
    2. stress(n_components=3) : 17.8262808779
    3. stress(n_components=2) : 234.395807108
    4. stress(n_components=1) : 23691.9560412

    该指标并不能用于判定降维的效果的好坏,它只是一个中性指标。

    降到2维的样本分布图:

    MDS