1. 特征转换

1.1. 二值化([2.0] Binarizer)

二值化是一个将数值特征转换为二值特征的处理过程。阈值参数表示决定二值化的阈值。 值大于阈值的特征二值化为1,否则二值化为0。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:经转换后的数据存储路径。
  • 输出数据格式:格式包括以下三种:

    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

选中的原始特征列会被删除,经过二值化的特征会 append 到数据的最后几列。

参数

  • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
  • 阈值:默认为0.5。值大于阈值的特征二值化为1,否则二值化为0。

1.2. 正则化([2.0] Normalizer)

正则化器缩放单个样本让其拥有单位 p 范数。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:经转换后的测试数据存储路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
  • P:范数。

1.3. 标准归一化([2.0] StandardScaler)

在原始的数据中,各变量的范围大不相同。对于某些机器学习的算法,若没有做过标准化,目标函数会无法适当的运作。举例来说,多数的分类器利用两点间的距离计算两点的差异, 若其中一个特征具有非常广的范围,那两点间的差异就会被该特征左右,因此,有些特征应该被标准化,这样才能使各特征按比例影响两点间的距离。另外一个做特征缩放的理由是他能使加速梯度下降法的收敛。标准归一化会使每个特征中的数值平均变为0(将每个特征的值都减掉原始数据中该特征的均值)、标准差变为1。

训练节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet

最后的结果中,选中的原始特征列会被删除,经过标准归一化的特征会 append 到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
    • 特征是否减去均值:默认选中。
    • 特征是否除以方差:默认不选中。

预测节点

  • 输入
    • 输入数据路径:输入测试文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的测试数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet

最后的结果中,选中的原始特征列会被删除,经过标准归一化的特征会append到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

1.4. 最大绝对值归一化([2.0] MaxAbsScaler)

最大绝对值归一化将每个特征调整到[-1,1]的范围,它通过每个特征内的最大绝对值来划分。 它不会移动和聚集数据,因此不会破坏任何的稀疏性。

训练节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet

最后的结果中,选中的原始特征列会被删除,经过最大绝对值归一化的特征会append到数据的最后几列。

  • 参数 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

预测节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet

最后的结果中,选中的原始特征列会被删除,经过最大绝对值归一化的特征会 append 到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

1.5. 最小最大归一化([2.0] MinMaxScaler)

最小最大归一化将每个特征调整到一个特定的范围(通常是[0,1))。

训练节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet

最后的结果中,选中的原始特征列会被删除,经过最小最大归一化的特征会 append 到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
    • min:默认是0。转换的下界,被所有的特征共享。
    • max:默认是1。转换的上界,被所有特征共享。

预测节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet

最后的结果中,选中的原始特征列会被删除,经过最小最大归一化的特征会append到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

1.6. 主成分分析([2.0] PCA)

主成分分析一种统计学的特征降维方法,将数据从原来的坐标系投影到新的坐标系,通过每个维度的方差大小来衡量该维度的重要性。从中选取重要性排在前K个的特征作为新的特征,达到数据降维的目的。

训练节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet

最后的结果中,选中的原始特征列会被删除,经过PCA的特征会append到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
    • k:降维后的特征维度。

预测节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet

最后的结果中,选中的原始特征列会被删除,经过PCA的特征会append到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

1.7. 向量索引([2.0] VectorIndexer)

向量索引把数据集中的类型特征转换为索引。它不仅可以自动的判断哪些特征可以类别化,也能将原有的值转换为类别索引。通过maxCategories参数来判断特征是否可以类别化。

训练节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet

最后的结果中,选中的原始特征列会被删除,经过向量索引的特征会append到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
    • maxCategories:拥有的不同值的数量小于等于maxCategories的特征被判断可以类别化。

预测节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet

最后的结果中,选中的原始特征列会被删除,经过向量索引的特征会append到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

1.8. 多项式展开([2.0] PolynomialExpansion)

多项式展开是一个将特征展开到多元空间的处理过程。 它通过 degree(阶)结合原始的维度来定义。比如设置 degree 为2就可以将 (x, y) 转化为 (x, x x, y, x y, y y)。

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet

最后的结果中,选中的原始特征列会被删除,经过多项式展开的特征会 append 到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
    • 阶(degree):展开阶数。

1.9. BoxCox转换([2.0] BoxCoxTransformer)

BoxCox转换通过lambda参数对数值特征列进行变换,将特征数据变换为服从正太分布的数据。

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 参数
    • 选择特征列:表示需要计算的特征所在列,从0开始计数。
    • 超参数(lambda):当lambda等于0时,相当于对特征进行对数变换,当lambda不等于0时,对特征进行 math.pow(y_t, lambda) / lambda变换。

1.10. 独热编码([2.0] OneHotEncoder)

将离散型特征的每一种取值都看成一种状态,若用户的这一特征中有N个不相同的取值,那么我们就可以将该特征抽象成N种不同的状态,独热编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1,其他状态位都是0。

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 参数
    • 选择特征列:表示需要计算的特征所在列,从0开始计数。

1.11. 字符串索引([2.0] StringIndexer)

字符串索引把数据集中的字符串特征转换为索引。字符串索引很多情况下会和独热编码一起使用。

训练节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet

最后的结果中,选中的原始特征列会被删除,经过字符串索引的特征会append到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,从0开始计数。
    • 处理非法值的方法:可以选择保持、忽略、报错三种处理方法。
    • 排序方式:对字符串进行索引的顺序,可以选择按频率倒序、按频率正序、按字母倒序、按字母正序四种方法。

预测节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet

最后的结果中,选中的原始特征列会被删除,经过字符串索引的特征会append到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,从0开始计数。

1.12. 索引转字符串([2.0] IndexToString)

将字符串转换为索引之后,我们很难分辨索引到底代表的是哪个类别,这时候我们可以用序列转字符串算子将序列再转换为原始的字符串。

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下三种:
      • csv: csv 文件
        • 输入数据包含header信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下三种:
      • csv: csv 文件
        • 输出数据包含header信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • text:文本文件
      • parquet:列式存储格式 parquet
  • 参数
    • 选择特征列:表示需要计算的特征所在列,从0开始计数。