聚类
模型的一些通用方法:
get_params([deep])
:返回模型的参数。deep
: 如果为True
,则可以返回模型参数的子对象。
set_params(**params)
:设置模型的参数。params
:待设置的关键字参数。
fit(X[, y, sample_weight])
:训练模型。X
:样本集合。通常是一个numpy array
,每行代表一个样本,每列代表一个特征。y
:样本的标签集合。它与X
的每一行相对应。sample_weight
:样本的权重。其形状为[n_samples,]
,每个元素代表一个样本的权重。
predict(X, sample_weight)
:返回每个样本所属的簇标记。X
:样本集合。通常是一个numpy array
,每行代表一个样本,每列代表一个特征。sample_weight
:样本的权重。其形状为[n_samples,]
,每个元素代表一个样本的权重。
fit_predict(X[, y, sample_weight])
:训练模型并执行聚类,返回每个样本所属的簇标记。X
:样本集合。通常是一个numpy array
,每行代表一个样本,每列代表一个特征。y
:样本的标签集合。它与X
的每一行相对应。sample_weight
:样本的权重。其形状为[n_samples,]
,每个元素代表一个样本的权重。
transform(X)
:将数据集X
转换到cluster center space
。在
cluster center space
中,样本的维度就是它距离各个聚类中心的距离。X
:样本集合。通常是一个numpy array
,每行代表一个样本,每列代表一个特征。
fit_transform(X[, y, sample_weight])
:训练模型并执行聚类,将数据集X
转换到cluster center space
。X
:样本集合。通常是一个numpy array
,每行代表一个样本,每列代表一个特征。y
:样本的标签集合。它与X
的每一行相对应。sample_weight
:样本的权重。其形状为[n_samples,]
,每个元素代表一个样本的权重。
模型的一些通用参数:
n_jobs
:一个正数,指定任务并形时指定的CPU
数量。如果为
-1
则使用所有可用的CPU
。verbose
:一个正数。用于开启/关闭迭代中间输出日志功能。- 数值越大,则日志越详细。
- 数值为0或者
None
,表示关闭日志输出。
max_iter
:一个整数,指定最大迭代次数。如果为
None
则为默认值(不同solver
的默认值不同)。tol
:一个浮点数,指定了算法收敛的阈值。random_state
:一个整数或者一个RandomState
实例,或者None
。- 如果为整数,则它指定了随机数生成器的种子。
- 如果为
RandomState
实例,则指定了随机数生成器。 - 如果为
None
,则使用默认的随机数生成器。