1. Step4 数据预处理
操作步骤
- 数据准备完成后,将数据预处理(此处为SelectColumn选择特征列、ReplaceMissing缺失值填充、StringIndexer字符串索引以及Spliter数据切分)拖动至画布中,并右键重命名组件,拼接如下实验。
- 点击选择特征列,在画布右侧设置区进行参数设置,输入相应特征列序号,并以逗号隔开。
- 点击缺失值填充,在画布右侧设置区进行参数设置,选择特征列和相应的填充方式。
- 点击字符串索引,在初始的数据集中,需要将字符串转换为数值的形式,以用于后续的建模。
在这里我们需要对数据中的“sex”和“embarked”列分别做字符串索引,点击相应组件,并在画布右侧的参数设置区中,选择相应的特征列。
点击数据切分,在画布右侧的参数设置区中,输入切分比例0.8,80%作为模型训练集,20%作为模型测试集。
点击菜单栏中的运行按钮,数据预处理成功运行。