- 1. 特征转换
- 1.2. 正则化([2.0] Normalizer)
- 1.3. 标准归一化([2.0] StandardScaler)
- 1.4. 最大绝对值归一化([2.0] MaxAbsScaler)
- 1.5. 最小最大归一化([2.0] MinMaxScaler)
- 1.6. 主成分分析([2.0] PCA)
- 1.7. 向量索引([2.0] VectorIndexer)
- 1.8. 多项式展开([2.0] PolynomialExpansion)
- 1.9. BoxCox转换([2.0] BoxCoxTransformer)
- 1.10. 独热编码([2.0] OneHotEncoder)
- 1.11. 字符串索引([2.0] StringIndexer)
- 1.12. 索引转字符串([2.0] IndexToString)
1. 特征转换
1.1. 二值化([2.0] Binarizer)
二值化是一个将数值特征转换为二值特征的处理过程。阈值参数表示决定二值化的阈值。 值大于阈值的特征二值化为1,否则二值化为0。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据路径:经转换后的数据存储路径。
输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
选中的原始特征列会被删除,经过二值化的特征会 append 到数据的最后几列。
参数
- 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
- 阈值:默认为0.5。值大于阈值的特征二值化为1,否则二值化为0。
1.2. 正则化([2.0] Normalizer)
正则化器缩放单个样本让其拥有单位 p 范数。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据路径:经转换后的测试数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
参数
- 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
- P:范数。
1.3. 标准归一化([2.0] StandardScaler)
在原始的数据中,各变量的范围大不相同。对于某些机器学习的算法,若没有做过标准化,目标函数会无法适当的运作。举例来说,多数的分类器利用两点间的距离计算两点的差异, 若其中一个特征具有非常广的范围,那两点间的差异就会被该特征左右,因此,有些特征应该被标准化,这样才能使各特征按比例影响两点间的距离。另外一个做特征缩放的理由是他能使加速梯度下降法的收敛。标准归一化会使每个特征中的数值平均变为0(将每个特征的值都减掉原始数据中该特征的均值)、标准差变为1。
训练节点
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
最后的结果中,选中的原始特征列会被删除,经过标准归一化的特征会 append 到数据的最后几列。
- 参数
- 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
- 特征是否减去均值:默认选中。
- 特征是否除以方差:默认不选中。
预测节点
- 输入
- 输入数据路径:输入测试文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的测试数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
最后的结果中,选中的原始特征列会被删除,经过标准归一化的特征会append到数据的最后几列。
- 参数
- 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
1.4. 最大绝对值归一化([2.0] MaxAbsScaler)
最大绝对值归一化将每个特征调整到[-1,1]的范围,它通过每个特征内的最大绝对值来划分。 它不会移动和聚集数据,因此不会破坏任何的稀疏性。
训练节点
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
最后的结果中,选中的原始特征列会被删除,经过最大绝对值归一化的特征会append到数据的最后几列。
- 参数 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
预测节点
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
最后的结果中,选中的原始特征列会被删除,经过最大绝对值归一化的特征会 append 到数据的最后几列。
- 参数
- 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
1.5. 最小最大归一化([2.0] MinMaxScaler)
最小最大归一化将每个特征调整到一个特定的范围(通常是[0,1))。
训练节点
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
最后的结果中,选中的原始特征列会被删除,经过最小最大归一化的特征会 append 到数据的最后几列。
- 参数
- 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
- min:默认是0。转换的下界,被所有的特征共享。
- max:默认是1。转换的上界,被所有特征共享。
预测节点
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
最后的结果中,选中的原始特征列会被删除,经过最小最大归一化的特征会append到数据的最后几列。
- 参数
- 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
1.6. 主成分分析([2.0] PCA)
主成分分析一种统计学的特征降维方法,将数据从原来的坐标系投影到新的坐标系,通过每个维度的方差大小来衡量该维度的重要性。从中选取重要性排在前K个的特征作为新的特征,达到数据降维的目的。
训练节点
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
最后的结果中,选中的原始特征列会被删除,经过PCA的特征会append到数据的最后几列。
- 参数
- 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
- k:降维后的特征维度。
预测节点
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
最后的结果中,选中的原始特征列会被删除,经过PCA的特征会append到数据的最后几列。
- 参数
- 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
1.7. 向量索引([2.0] VectorIndexer)
向量索引把数据集中的类型特征转换为索引。它不仅可以自动的判断哪些特征可以类别化,也能将原有的值转换为类别索引。通过maxCategories参数来判断特征是否可以类别化。
训练节点
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
最后的结果中,选中的原始特征列会被删除,经过向量索引的特征会append到数据的最后几列。
- 参数
- 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
- maxCategories:拥有的不同值的数量小于等于maxCategories的特征被判断可以类别化。
预测节点
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
最后的结果中,选中的原始特征列会被删除,经过向量索引的特征会append到数据的最后几列。
- 参数
- 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
1.8. 多项式展开([2.0] PolynomialExpansion)
多项式展开是一个将特征展开到多元空间的处理过程。 它通过 degree(阶)结合原始的维度来定义。比如设置 degree 为2就可以将 (x, y) 转化为 (x, x x, y, x y, y y)。
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
最后的结果中,选中的原始特征列会被删除,经过多项式展开的特征会 append 到数据的最后几列。
- 参数
- 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
- 阶(degree):展开阶数。
1.9. BoxCox转换([2.0] BoxCoxTransformer)
BoxCox转换通过lambda参数对数值特征列进行变换,将特征数据变换为服从正太分布的数据。
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 参数
- 选择特征列:表示需要计算的特征所在列,从0开始计数。
- 超参数(lambda):当lambda等于0时,相当于对特征进行对数变换,当lambda不等于0时,对特征进行 math.pow(y_t, lambda) / lambda变换。
1.10. 独热编码([2.0] OneHotEncoder)
将离散型特征的每一种取值都看成一种状态,若用户的这一特征中有N个不相同的取值,那么我们就可以将该特征抽象成N种不同的状态,独热编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1,其他状态位都是0。
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 参数
- 选择特征列:表示需要计算的特征所在列,从0开始计数。
1.11. 字符串索引([2.0] StringIndexer)
字符串索引把数据集中的字符串特征转换为索引。字符串索引很多情况下会和独热编码一起使用。
训练节点
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
最后的结果中,选中的原始特征列会被删除,经过字符串索引的特征会append到数据的最后几列。
- 参数
- 选择特征列:表示需要计算的特征所在列,从0开始计数。
- 处理非法值的方法:可以选择保持、忽略、报错三种处理方法。
- 排序方式:对字符串进行索引的顺序,可以选择按频率倒序、按频率正序、按字母倒序、按字母正序四种方法。
预测节点
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
最后的结果中,选中的原始特征列会被删除,经过字符串索引的特征会append到数据的最后几列。
- 参数
- 选择特征列:表示需要计算的特征所在列,从0开始计数。
1.12. 索引转字符串([2.0] IndexToString)
将字符串转换为索引之后,我们很难分辨索引到底代表的是哪个类别,这时候我们可以用序列转字符串算子将序列再转换为原始的字符串。
- 输入
- 输入数据路径:输入训练文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 输出
- 输出数据路径:经转换后的训练数据存储路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
- 参数
- 选择特征列:表示需要计算的特征所在列,从0开始计数。