1. 聚类算法
1.1. K均值([2.0] KMeans)
KMeans
是一种常用的聚类算法,将无标签的数据聚成K
个类。平台提供的KMeans
算法实现了并行的k-means++
的初始化算法
训练节点
- 输入
- 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段。
- 训练数据格式:文本类型。
- 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
- 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a-b、c 或者它们的混合,用英文逗号分割(例如0-10,15,17-19表示第0到10列、15、17到19列总共15列作为特征)。
- 验证数据:半自动调参时用于评估的数据,格式与训练数据一致。
- 输出:ML 格式或者 PMML 格式的模型,保存在后台生成的路径下。
- 算法参数
- k:聚类类别数。
- maxIter:最大迭代次数。
- tol:容忍误差下界,低于该值的时候,算法停止迭代。
- 半自动调参
- 调参算法:默认贝叶斯调参,目前支持贝叶斯调参、网格调参和随机调参。
- 评估方法:算法的评估方法,支持 ClustringEvaluator。
- 评估指标:聚类评估指标 sllhouette。
- k:离散整正整数参数,取值需要大于等于2。
预测节点
- 输入
- 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段。
- 训练数据格式:文本类型。
- 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
- 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a-b、c 或者它们的混合,用英文逗号分割(例如0-10,15,17-19表示第0到10列、15、17到19列总共15列作为特征)。
- 输出
- 结果路径:路径。
- 结果格式:结果数据格式,默认为 parquet。
1.2. 高斯混合([2.0] GaussianMixture)
GaussianMixture
是高斯混合模型可用于聚类。
训练节点
- 输入
- 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段。
- 训练数据格式:文本类型。
- 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
- 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a-b、c 或者它们的混合,用英文逗号分割,(例如0-10,15,17-19表示第0到10列、15、17到19列总共15列作为特征)。
- 验证数据:半自动调参时用于评估的数据,格式与训练数据一致。
- 输出:ML 格式的模型,保存在后台生成的路径下。
- 算法参数
- k:聚类类别数。
- maxIter:最大迭代次数。
- tol:容忍误差下界,低于该值的时候,算法停止迭代。
- 半自动调参
- 调参算法:默认贝叶斯调参,目前支持贝叶斯调参、网格调参和随机调参。
- 评估方法:算法的评估方法,支持 ClustringEvaluator。
- 评估指标:聚类评估指标 sllhouette。
- k:离散整正整数参数,取值需要大于等于2。
预测节点
- 输入
- 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段
- 训练数据格式:文本类型
- 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择
- 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填a-b或者c或者它们的混合,用英文逗号分割(例如0-10,15,17-19表示第0到10列、15、17到19列总共15列作为特征)。
- 输出
- 结果路径:路径。
- 结果格式:结果数据格式,默认为 parquet。
1.3. 二分k均值([2.0] BisectingKMeans)
算法说明
二分K
均值算法,属于层次聚类参考 官方文档 。
训练节点
- 输入
- 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段。
- 训练数据格式:文本类型。
- 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
- 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a-b、c 或者它们的混合,用英文逗号分割(例如0-10,15,17-19表示第0到10列、15、17到19列总共15列作为特征)。
- 验证数据:半自动调参时用于评估的数据,格式与训练数据一致。
- 输出:ML 格式的模型,保存在后台生成的路径下。
- 算法参数
- k:聚类类别数。
- maxIter:最大迭代次数。
- 半自动调参
- 调参算法:默认贝叶斯调参,目前支持贝叶斯调参、网格调参和随机调参。
- 评估方法:算法的评估方法,支持 ClustringEvaluator。
- 评估指标:聚类评估指标 sllhouette。
- k:离散整正整数参数,取值需要大于等于2。
预测节点
- 输入
- 训练路径:路径或者库表,Dense 结构,每一列对应一个特征、标签或者不参与计算的字段。
- 训练数据格式:文本类型。
- 数据分隔符:数据分隔符,默认为空白符或者逗号,可通过下拉框选择。
- 特征列:作为训练特征的列,从0开始编号。对于库表可以直接勾选,对于普通路径,可填形式如 a-b、c 或者它们的混合,用逗号分割(例如0-10,15,17-19表示第0到10列、15、17到19列总共15列作为特征)。
- 输出
- 结果路径:路径。
- 结果格式:结果数据格式,默认为 parquet。