随机森林

随机森林

功能介绍

随机森林是一种常用的树模型，由于bagging的过程，可以避免过拟合
随机森林组件支持稠密数据格式
支持带样本权重的训练

参数说明

| 名称 | 中文名称 | 描述 | 类型 | 是否必须？ | 默认值 || —- | —- | —- | —- | —- | —- || featureSubsamplingRatio | 每棵树特征采样的比例 | 每棵树特征采样的比例，范围为(0, 1]。 | Double | | 0.2 || numSubsetFeatures | 每棵树的特征采样数目 | 每棵树的特征采样数目 | Integer | | 2147483647 || numTrees | 模型中树的棵数 | 模型中树的棵数 | Integer | | 10 || subsamplingRatio | 每棵树的样本采样比例或采样行数 | 每棵树的样本采样比例或采样行数，行数上限100w行 | Double | | 100000.0 || treeType | 模型中树的类型 | 模型中树的类型，平均（gini，entropy均分），gini或者entropy | String | | “avg” || maxDepth | 树的深度限制 | 树的深度限制 | Integer | | 2147483647 || minSamplesPerLeaf | 叶节点的最小样本个数 | 叶节点的最小样本个数 | Integer | | 2 || createTreeMode | 创建树的模式。 | series表示每个单机创建单颗树，parallel表示并行创建单颗树。 | String | | “series” || maxBins | 连续特征进行分箱的最大个数 | 连续特征进行分箱的最大个数。 | Integer | | 128 || maxMemoryInMB | 树模型中用来加和统计量的最大内存使用数 | 树模型中用来加和统计量的最大内存使用数 | Integer | | 64 || featureCols | 特征列名 | 特征列名，必选 | String[] | ✓ | || labelCol | 标签列名 | 输入表中的标签列名 | String | ✓ | || categoricalCols | 离散特征列名 | 可选，默认选择String类型和Boolean类型作为离散特征，如果没有则为空 | String[] | | || weightCol | 权重列名 | 权重列对应的列名 | String | | null || maxLeaves | 叶节点的最多个数 | 叶节点的最多个数 | Integer | | 2147483647 || minSampleRatioPerChild | 子节点占父节点的最小样本比例 | 子节点占父节点的最小样本比例 | Double | | 0.0 || minInfoGain | 分裂的最小增益 | 分裂的最小增益 | Double | | 0.0 |

脚本示例

脚本代码

import numpy as np
import pandas as pd
from pyalink.alink import *
def exampleData():
    return np.array([
        [1.0, "A", 0, 0, 0],
        [2.0, "B", 1, 1, 0],
        [3.0, "C", 2, 2, 1],
        [4.0, "D", 3, 3, 1]
    ])
def sourceFrame():
    data = exampleData()
    return pd.DataFrame({
        "f0": data[:, 0],
        "f1": data[:, 1],
        "f2": data[:, 2],
        "f3": data[:, 3],
        "label": data[:, 4]
    })
def batchSource():
    return dataframeToOperator(
        sourceFrame(),
        schemaStr='''
    f0 double, 
    f1 string, 
    f2 int, 
    f3 int, 
    label int
    ''',
        op_type='batch'
    )
def streamSource():
    return dataframeToOperator(
        sourceFrame(),
        schemaStr='''
    f0 double, 
    f1 string, 
    f2 int, 
    f3 int, 
    label int
    ''',
        op_type='stream'
    )
trainOp = (
    RandomForestTrainBatchOp()
    .setLabelCol('label')
    .setFeatureCols(['f0', 'f1', 'f2', 'f3'])
)
predictBatchOp = (
    RandomForestPredictBatchOp()
    .setPredictionDetailCol('pred_detail')
    .setPredictionCol('pred')
)
(
    predictBatchOp
    .linkFrom(
        batchSource().link(trainOp),
        batchSource()
    )
    .print()
)
predictStreamOp = (
    RandomForestPredictStreamOp(
        batchSource().link(trainOp)
    )
    .setPredictionDetailCol('pred_detail')
    .setPredictionCol('pred')
)
(
    predictStreamOp
    .linkFrom(
        streamSource()
    )
    .print()
)
StreamOperator.execute()

脚本结果

批预测结果

    f0 f1  f2  f3  label  pred        pred_detail
0  1.0  A   0   0      0     0  {"0":1.0,"1":0.0}
1  2.0  B   1   1      0     0  {"0":1.0,"1":0.0}
2  3.0  C   2   2      1     1  {"0":0.0,"1":1.0}
3  4.0  D   3   3      1     1  {"0":0.0,"1":1.0}

流预测结果

f0    f1    f2    f3    label    pred    pred_detail
0    2.0    B    1    1    0    0    {"0":1.0,"1":0.0}
1    4.0    D    3    3    1    1    {"0":0.0,"1":1.0}
2    1.0    A    0    0    0    0    {"0":1.0,"1":0.0}
3    3.0    C    2    2    1    1    {"0":0.0,"1":1.0}

随机森林分类训练(batch)

随机森林

功能介绍

参数说明

脚本示例

脚本代码

脚本结果