1. 特征转换
- 1.1. 二值化（[2.0] Binarizer）
1.2. 正则化（[2.0] Normalizer）
1.3. 标准归一化（[2.0] StandardScaler）
- 训练节点
- 预测节点
1.4. 最大绝对值归一化（[2.0] MaxAbsScaler）
- 训练节点
- 预测节点
1.5. 最小最大归一化（[2.0] MinMaxScaler）
- 训练节点
- 预测节点
1.6. 主成分分析（[2.0] PCA）
- 训练节点
- 预测节点
1.7. 向量索引（[2.0] VectorIndexer）
- 训练节点
- 预测节点
1.8. 多项式展开（[2.0] PolynomialExpansion）
1.9. BoxCox转换（[2.0] BoxCoxTransformer）
1.10. 独热编码（[2.0] OneHotEncoder）
1.11. 字符串索引（[2.0] StringIndexer）
- 训练节点
- 预测节点
1.12. 索引转字符串（[2.0] IndexToString）

1. 特征转换

1.1. 二值化（[2.0] Binarizer）

二值化是一个将数值特征转换为二值特征的处理过程。阈值参数表示决定二值化的阈值。值大于阈值的特征二值化为1,否则二值化为0。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据路径：经转换后的数据存储路径。
输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

选中的原始特征列会被删除，经过二值化的特征会 append 到数据的最后几列。

参数

选择特征列：表示需要计算的特征所在列，例如“1-12,15”，表示取特征在表中的1到12列，15列，从0开始计数。
阈值：默认为0.5。值大于阈值的特征二值化为1,否则二值化为0。

1.2. 正则化（[2.0] Normalizer）

正则化器缩放单个样本让其拥有单位 p 范数。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据路径：经转换后的测试数据存储路径。
输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

参数

选择特征列：表示需要计算的特征所在列，例如“1-12,15”，表示取特征在表中的1到12列，15列，从0开始计数。
P：范数。

1.3. 标准归一化（[2.0] StandardScaler）

在原始的数据中，各变量的范围大不相同。对于某些机器学习的算法，若没有做过标准化，目标函数会无法适当的运作。举例来说，多数的分类器利用两点间的距离计算两点的差异，若其中一个特征具有非常广的范围，那两点间的差异就会被该特征左右，因此，有些特征应该被标准化，这样才能使各特征按比例影响两点间的距离。另外一个做特征缩放的理由是他能使加速梯度下降法的收敛。标准归一化会使每个特征中的数值平均变为0(将每个特征的值都减掉原始数据中该特征的均值)、标准差变为1。

训练节点

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet

最后的结果中，选中的原始特征列会被删除，经过标准归一化的特征会 append 到数据的最后几列。

参数
- 选择特征列：表示需要计算的特征所在列，例如“1-12,15”，表示取特征在表中的1到12列，15列，从0开始计数。
- 特征是否减去均值：默认选中。
- 特征是否除以方差：默认不选中。

预测节点

输入
- 输入数据路径：输入测试文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的测试数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet

最后的结果中，选中的原始特征列会被删除，经过标准归一化的特征会append到数据的最后几列。

参数
- 选择特征列：表示需要计算的特征所在列，例如“1-12,15”，表示取特征在表中的1到12列，15列，从0开始计数。

1.4. 最大绝对值归一化（[2.0] MaxAbsScaler）

最大绝对值归一化将每个特征调整到[-1,1]的范围,它通过每个特征内的最大绝对值来划分。它不会移动和聚集数据，因此不会破坏任何的稀疏性。

训练节点

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet

最后的结果中，选中的原始特征列会被删除，经过最大绝对值归一化的特征会append到数据的最后几列。

参数选择特征列：表示需要计算的特征所在列，例如“1-12,15”，表示取特征在表中的1到12列，15列，从0开始计数。

预测节点

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet

最后的结果中，选中的原始特征列会被删除，经过最大绝对值归一化的特征会 append 到数据的最后几列。

参数
- 选择特征列：表示需要计算的特征所在列，例如“1-12,15”，表示取特征在表中的1到12列，15列，从0开始计数。

1.5. 最小最大归一化（[2.0] MinMaxScaler）

最小最大归一化将每个特征调整到一个特定的范围（通常是[0,1））。

训练节点

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet

最后的结果中，选中的原始特征列会被删除，经过最小最大归一化的特征会 append 到数据的最后几列。

参数
- 选择特征列：表示需要计算的特征所在列，例如“1-12,15”，表示取特征在表中的1到12列，15列，从0开始计数。
- min：默认是0。转换的下界,被所有的特征共享。
- max：默认是1。转换的上界,被所有特征共享。

预测节点

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet

最后的结果中，选中的原始特征列会被删除，经过最小最大归一化的特征会append到数据的最后几列。

参数
- 选择特征列：表示需要计算的特征所在列，例如“1-12,15”，表示取特征在表中的1到12列，15列，从0开始计数。

1.6. 主成分分析（[2.0] PCA）

主成分分析一种统计学的特征降维方法，将数据从原来的坐标系投影到新的坐标系，通过每个维度的方差大小来衡量该维度的重要性。从中选取重要性排在前K个的特征作为新的特征，达到数据降维的目的。

训练节点

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet

最后的结果中，选中的原始特征列会被删除，经过PCA的特征会append到数据的最后几列。

参数
- 选择特征列：表示需要计算的特征所在列，例如“1-12,15”，表示取特征在表中的1到12列，15列，从0开始计数。
- k：降维后的特征维度。

预测节点

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet

最后的结果中，选中的原始特征列会被删除，经过PCA的特征会append到数据的最后几列。

参数
- 选择特征列：表示需要计算的特征所在列，例如“1-12,15”，表示取特征在表中的1到12列，15列，从0开始计数。

1.7. 向量索引（[2.0] VectorIndexer）

向量索引把数据集中的类型特征转换为索引。它不仅可以自动的判断哪些特征可以类别化,也能将原有的值转换为类别索引。通过maxCategories参数来判断特征是否可以类别化。

训练节点

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet

最后的结果中，选中的原始特征列会被删除，经过向量索引的特征会append到数据的最后几列。

参数
- 选择特征列：表示需要计算的特征所在列，例如“1-12,15”，表示取特征在表中的1到12列，15列，从0开始计数。
- maxCategories：拥有的不同值的数量小于等于maxCategories的特征被判断可以类别化。

预测节点

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet

最后的结果中，选中的原始特征列会被删除，经过向量索引的特征会append到数据的最后几列。

参数
- 选择特征列：表示需要计算的特征所在列，例如“1-12,15”，表示取特征在表中的1到12列，15列，从0开始计数。

1.8. 多项式展开（[2.0] PolynomialExpansion）

多项式展开是一个将特征展开到多元空间的处理过程。它通过 degree（阶）结合原始的维度来定义。比如设置 degree 为2就可以将 (x, y) 转化为 (x, x x, y, x y, y y)。

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet

最后的结果中，选中的原始特征列会被删除，经过多项式展开的特征会 append 到数据的最后几列。

参数
- 选择特征列：表示需要计算的特征所在列，例如“1-12,15”，表示取特征在表中的1到12列，15列，从0开始计数。
- 阶（degree）：展开阶数。

1.9. BoxCox转换（[2.0] BoxCoxTransformer）

BoxCox转换通过lambda参数对数值特征列进行变换，将特征数据变换为服从正太分布的数据。

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
参数
- 选择特征列：表示需要计算的特征所在列，从0开始计数。
- 超参数（lambda）：当lambda等于0时，相当于对特征进行对数变换，当lambda不等于0时，对特征进行 math.pow(y_t, lambda) / lambda变换。

1.10. 独热编码（[2.0] OneHotEncoder）

将离散型特征的每一种取值都看成一种状态，若用户的这一特征中有N个不相同的取值，那么我们就可以将该特征抽象成N种不同的状态，独热编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
参数
- 选择特征列：表示需要计算的特征所在列，从0开始计数。

1.11. 字符串索引（[2.0] StringIndexer）

字符串索引把数据集中的字符串特征转换为索引。字符串索引很多情况下会和独热编码一起使用。

训练节点

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet

最后的结果中，选中的原始特征列会被删除，经过字符串索引的特征会append到数据的最后几列。

参数
- 选择特征列：表示需要计算的特征所在列，从0开始计数。
- 处理非法值的方法：可以选择保持、忽略、报错三种处理方法。
- 排序方式：对字符串进行索引的顺序，可以选择按频率倒序、按频率正序、按字母倒序、按字母正序四种方法。

预测节点

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet

最后的结果中，选中的原始特征列会被删除，经过字符串索引的特征会append到数据的最后几列。

参数
- 选择特征列：表示需要计算的特征所在列，从0开始计数。

1.12. 索引转字符串（[2.0] IndexToString）

将字符串转换为索引之后，我们很难分辨索引到底代表的是哪个类别，这时候我们可以用序列转字符串算子将序列再转换为原始的字符串。

输入
- 输入数据路径：输入训练文件所在路径。
- 输入文件类型：格式包括以下三种：
  - csv： csv 文件
    - 输入数据包含header信息
    - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
输出
- 输出数据路径：经转换后的训练数据存储路径。
- 输出数据格式：格式包括以下三种：
  - csv： csv 文件
    - 输出数据包含header信息
    - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
  - text：文本文件
  - parquet：列式存储格式 parquet
参数
- 选择特征列：表示需要计算的特征所在列，从0开始计数。

4.3.9. 特征转换

1. 特征转换

1.1. 二值化（[2.0] Binarizer）

输入

输出

参数

1.2. 正则化（[2.0] Normalizer）

输入

输出

参数

1.3. 标准归一化（[2.0] StandardScaler）

训练节点

预测节点

1.4. 最大绝对值归一化（[2.0] MaxAbsScaler）

训练节点

预测节点

1.5. 最小最大归一化（[2.0] MinMaxScaler）

训练节点

预测节点

1.6. 主成分分析（[2.0] PCA）

训练节点

预测节点

1.7. 向量索引（[2.0] VectorIndexer）

训练节点

预测节点

1.8. 多项式展开（[2.0] PolynomialExpansion）

1.9. BoxCox转换（[2.0] BoxCoxTransformer）

1.10. 独热编码（[2.0] OneHotEncoder）

1.11. 字符串索引（[2.0] StringIndexer）

训练节点

预测节点

1.12. 索引转字符串（[2.0] IndexToString）