模型
模型的一些通用方法:
get_params([deep])
:返回模型的参数。deep
: 如果为True
,则可以返回模型参数的子对象。
set_params(**params)
:设置模型的参数。params
:待设置的关键字参数。
fit(X,y[,sample_weight])
:训练模型。X
:训练集样本集合。通常是一个numpy array
,每行代表一个样本,每列代表一个特征。y
:训练样本的标签集合。它与X
的每一行相对应。sample_weight
: 每个样本的权重。它与X
的每一行相对应。
predict(x)
: 利用模型执行预测。返回一个预测结果序列。X
:测试集样本集合。通常是一个numpy array
,每行代表一个样本,每列代表一个特征。
score(X,y[,sample_weight])
:对模型进行评估,返回模型的性能评估结果。X
:验证集样本集合。通常是一个numpy array
,每行代表一个样本,每列代表一个特征。y
:验证集样本的标签集合。它与X
的每一行相对应。sample_weight
: 每个样本的权重。它与X
的每一行相对应。
对于分类模型,其评估的是
accuracy
;对于回归模型,其评估的是R2
。如果希望有其它的评估指标,则可以执行
predict()
方法,然后把预测结果、真实标记作为参数来调用一些打分函数即可。
模型的一些通用参数:
n_jobs
:一个正数,指定任务并形时指定的CPU
数量。如果为
-1
则使用所有可用的CPU
。verbose
:一个正数。用于开启/关闭迭代中间输出日志功能。- 数值越大,则日志越详细。
- 数值为0或者
None
,表示关闭日志输出。
warm_start
:一个布尔值。如果为True
,那么使用前一次训练结果继续训练。否则从头开始训练。max_iter
:一个整数,指定最大迭代次数。如果为
None
则为默认值(不同solver
的默认值不同)。random_state
:一个整数或者一个RandomState
实例,或者None
。- 如果为整数,则它指定了随机数生成器的种子。
- 如果为
RandomState
实例,则指定了随机数生成器。 - 如果为
None
,则使用默认的随机数生成器。
对于回归模型,其评估性能的指标为 。
假设验证集为 ,真实标签记作 ,预测值记作 ,则有:
其中 为所有真实标记的均值。
根据定义有:
- 不超过
1
,但是有可能小于0
。 - 越大,模型的预测性能越好。
- 不超过