聚类

  1. 模型的一些通用方法:

    • get_params([deep]):返回模型的参数。

      • deep: 如果为True,则可以返回模型参数的子对象。
    • set_params(**params):设置模型的参数。

      • params:待设置的关键字参数。
    • fit(X[, y, sample_weight]) :训练模型。

      • X :样本集合。通常是一个numpy array,每行代表一个样本,每列代表一个特征。
      • y :样本的标签集合。它与X 的每一行相对应。
      • sample_weight:样本的权重。其形状为 [n_samples,],每个元素代表一个样本的权重。
    • predict(X, sample_weight):返回每个样本所属的簇标记。

      • X :样本集合。通常是一个numpy array,每行代表一个样本,每列代表一个特征。
      • sample_weight:样本的权重。其形状为 [n_samples,],每个元素代表一个样本的权重。
    • fit_predict(X[, y, sample_weight]) :训练模型并执行聚类,返回每个样本所属的簇标记。

      • X :样本集合。通常是一个numpy array,每行代表一个样本,每列代表一个特征。
      • y :样本的标签集合。它与X 的每一行相对应。
      • sample_weight:样本的权重。其形状为 [n_samples,],每个元素代表一个样本的权重。
    • transform(X):将数据集 X 转换到cluster center space

      cluster center space 中,样本的维度就是它距离各个聚类中心的距离。

      • X :样本集合。通常是一个numpy array,每行代表一个样本,每列代表一个特征。
    • fit_transform(X[, y, sample_weight]):训练模型并执行聚类,将数据集 X 转换到cluster center space

      • X :样本集合。通常是一个numpy array,每行代表一个样本,每列代表一个特征。
      • y :样本的标签集合。它与X 的每一行相对应。
      • sample_weight:样本的权重。其形状为 [n_samples,],每个元素代表一个样本的权重。
  2. 模型的一些通用参数:

    • n_jobs:一个正数,指定任务并形时指定的 CPU数量。

      如果为 -1 则使用所有可用的 CPU

    • verbose:一个正数。用于开启/关闭迭代中间输出日志功能。

      • 数值越大,则日志越详细。
      • 数值为0或者None,表示关闭日志输出。
    • max_iter :一个整数,指定最大迭代次数。

      如果为None则为默认值(不同solver的默认值不同)。

    • tol:一个浮点数,指定了算法收敛的阈值。

    • random_state:一个整数或者一个RandomState实例,或者None

      • 如果为整数,则它指定了随机数生成器的种子。
      • 如果为RandomState实例,则指定了随机数生成器。
      • 如果为None,则使用默认的随机数生成器。