1. 聚类算法

1.1. K均值([2.0] KMeans)

KMeans是一种常用的聚类算法,将无标签的数据聚成K个类。平台提供的KMeans算法实现了并行的k-means++的初始化算法

训练节点

  • 输入
    • 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段。
    • 训练数据格式:文本类型。
    • 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
    • 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a-b、c 或者它们的混合,用英文逗号分割(例如0-10,15,17-19表示第0到10列、15、17到19列总共15列作为特征)。
    • 验证数据:半自动调参时用于评估的数据,格式与训练数据一致。
  • 输出:ML 格式或者 PMML 格式的模型,保存在后台生成的路径下。
  • 算法参数
    • k:聚类类别数。
    • maxIter:最大迭代次数。
    • tol:容忍误差下界,低于该值的时候,算法停止迭代。
  • 半自动调参
    • 调参算法:默认贝叶斯调参,目前支持贝叶斯调参、网格调参和随机调参。
    • 评估方法:算法的评估方法,支持 ClustringEvaluator。
    • 评估指标:聚类评估指标 sllhouette。
    • k:离散整正整数参数,取值需要大于等于2。

预测节点

  • 输入
    • 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段。
    • 训练数据格式:文本类型。
    • 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
    • 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a-b、c 或者它们的混合,用英文逗号分割(例如0-10,15,17-19表示第0到10列、15、17到19列总共15列作为特征)。
  • 输出
    • 结果路径:路径。
    • 结果格式:结果数据格式,默认为 parquet。

1.2. 高斯混合([2.0] GaussianMixture)

GaussianMixture是高斯混合模型可用于聚类。

训练节点

  • 输入
    • 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段。
    • 训练数据格式:文本类型。
    • 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
    • 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a-b、c 或者它们的混合,用英文逗号分割,(例如0-10,15,17-19表示第0到10列、15、17到19列总共15列作为特征)。
    • 验证数据:半自动调参时用于评估的数据,格式与训练数据一致。
  • 输出:ML 格式的模型,保存在后台生成的路径下。
  • 算法参数
    • k:聚类类别数。
    • maxIter:最大迭代次数。
    • tol:容忍误差下界,低于该值的时候,算法停止迭代。
  • 半自动调参
    • 调参算法:默认贝叶斯调参,目前支持贝叶斯调参、网格调参和随机调参。
    • 评估方法:算法的评估方法,支持 ClustringEvaluator。
    • 评估指标:聚类评估指标 sllhouette。
    • k:离散整正整数参数,取值需要大于等于2。

预测节点

  • 输入
    • 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段
    • 训练数据格式:文本类型
    • 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择
    • 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填a-b或者c或者它们的混合,用英文逗号分割(例如0-10,15,17-19表示第0到10列、15、17到19列总共15列作为特征)。
  • 输出
    • 结果路径:路径。
    • 结果格式:结果数据格式,默认为 parquet。

1.3. 二分k均值([2.0] BisectingKMeans)

算法说明

二分K均值算法,属于层次聚类参考 官方文档

训练节点

  • 输入
    • 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段。
    • 训练数据格式:文本类型。
    • 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
    • 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a-b、c 或者它们的混合,用英文逗号分割(例如0-10,15,17-19表示第0到10列、15、17到19列总共15列作为特征)。
    • 验证数据:半自动调参时用于评估的数据,格式与训练数据一致。
  • 输出:ML 格式的模型,保存在后台生成的路径下。
  • 算法参数
    • k:聚类类别数。
    • maxIter:最大迭代次数。
  • 半自动调参
    • 调参算法:默认贝叶斯调参,目前支持贝叶斯调参、网格调参和随机调参。
    • 评估方法:算法的评估方法,支持 ClustringEvaluator。
    • 评估指标:聚类评估指标 sllhouette。
    • k:离散整正整数参数,取值需要大于等于2。

预测节点

  • 输入
    • 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段。
    • 训练数据格式:文本类型。
    • 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
    • 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a-b、c 或者它们的混合,用逗号分割(例如0-10,15,17-19表示第0到10列、15、17到19列总共15列作为特征)。
  • 输出
    • 结果路径:路径。
    • 结果格式:结果数据格式,默认为 parquet。