1. 数据预处理
1.1. 按比例采样([2.0] DataSampling)
算法说明
按比例采样是一种常用的数据预处理算法。它提供了从原数据集里随机抽取特定的比例小样本数据的方法。该模块常用于抽取小样本用于数据的可视化。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
参数
- 抽样率:范围是0~1.0,表示抽取样本的比例,默认值为0.5。
1.2. 按样本数采样([2.0] ExactSampling)
算法说明
按样本数采样是一种常用的数据预处理算法。它提供了从原数据集里随机抽取特定数量小样本数据的方法。该模块常用于抽取小样本用于数据的可视化。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
参数
- 采样数量:默认是1000。
- 有放回采样:默认是。可选择是和否。
1.3. 上采样([2.0] OverSampling)
算法说明
上采样是一种常用的处理不平衡数据的一种预处理方法。它是把小数据量的类别复制多份。上采样后的数据集中会反复出现一些样本,训练出来的模型会有一定的过拟合。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
参数
- 标签列:指定标签所在的列,从0开始计数。
- 采样类别:需要采样的类别值(数量少的类别),如类别 0.0。
- 目标类别:数量多的类别,如类别 1.0。
- 类别比率阈值:如果(目标类别 / 采样类别)比类别比率阈值小,那么说明数据是平衡的,不做任何处理。如果(目标类别 / 采样类别)比类别比率阈值大, 那么会对采样类别进行采样,采样率为 (目标类别 / 采样类别)/ 类别比率阈值。
1.4. 下采样([2.0] DownSampling)
算法说明
下采样是一种常用的处理不平衡数据的一种预处理方法。下采样是从大众类中剔除一些样本,或者说只从大众类中选取部分样本。下采样的缺点显而易见,那就是最终的训练集丢失了数据,模型只学到了部分数据的特征。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
参数
- 标签列:指定标签所在的列,从0开始计数。
- 采样类别:需要采样的类别值(数量多的类别),如类别 0.0。
- 目标类别:数量多的类别,如类别 1.0。
- 类别比率阈值:如果(采样类别 / 目标类别)比类别比率阈值小,那么说明数据是平衡的,不做任何处理。如果(采样类别 / 目标类别)比类别比率阈值大,那么会对采样类别进行采样,采样率为 类别比率阈值 / (采样类别 / 目标类别)。
1.5. 数据切分([2.0] Spliter)
算法说明
数据切分是另外一种常用的数据预处理算法。在机器学习建模过程中,通常需要训练数据集和验证数据集两类数据集。该方法将数据集按照一定的比例切分为训练数据集和验证数据集。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 第一部分输出结果:第一份数据的输出,如切分比例为0.7,该份结果占总数据的0.7。
- 第二部分输出结果:第二份数据的输出,如切分比例为0.7,该份结果占总数据的0.3。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
参数
切分比例:数据切分的比例。
1.6. 数据去重([2.0] DropDuplicates)
算法说明
该算法用于将数据集中的重复样本进行去重处理。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
1.7. 自动生成 ID 列([2.0] GenerateIDColumn)
算法说明
该算法自动生成一列 ID 列,ID列各行的数据各不相同。生成的ID列会放到输出数据的最后一列。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
参数
- 生成的列名:ID 列的列名,默认是“id”。
1.8. 缺失值替换([2.0] ReplaceMissing)
算法说明
该算法对数据中某列数据存在的缺失值进行替换。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
参数
- 特征列:处理的特征列序号,如0-1,从0开始计数。
- 填充方法:
- zero:填充0值
- minimum:填充最小值
- maximum:填充最大值
- average: 填充均值
- median: 填充中位数
- value:填充某一指定的固定值(主要针对字符串特征)
1.9. 选择列([2.0] SelectColumn)
算法说明
该算法选择参与建模的数据集的列。类似数据库中的select功能。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
参数
- 选择列:表示需要计算的数据所在列,例如“1-10,12,15”,表示取在表中的1到10列,12列,15列,从0开始计数。
1.10. 修改列名([2.0] RenameColumn)
算法说明
该算法修改数据中某一列的列名。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下三种:
- csv: csv 文件
- 输入数据包含header信息
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
输出
- 输出数据格式:格式包括以下三种:
- csv: csv 文件
- 输出数据包含header信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
- text:文本文件
- parquet:列式存储格式 parquet
- csv: csv 文件
参数
- 选择列:选择修改列名的列,从0开始计数。
- 列名:修改后的列名。