DataSampling

DataSampling 是一种常用的数据预处理方法,通常可作为其他算法的前提。它提供了从原数据集里随机抽取特定的比例或者特定数量的小样本的方法。其他常见的算法模块可以通过配置抽样率完成数据抽样的功能,无需单独使用该模块;该模块常用于抽取小样本用于数据的可视化。

输入

  • 数据形式:Dense 或 libsvm。
  • 格式:| features |

输出

  • 格式:|features|
  • 说明:格式与输入数据一致。

参数说明

  • 抽样率:范围为0 - 1.0,表示抽取样本的比例。
  • 抽样量:抽样数目。
  • 并行数:训练数据的分区数、Spark 的并行数。

最终抽样的比例是 min(抽样率,抽样量/总数据量)。因此如果抽样量参数为1000,最终的抽样量不一定是精确的1000。

Spliter

Spliter 对数据按比例进行随机划分,使原始样本数据被划分成两个数据集:第一份输出结果(output1)和第二份输出结果(output2)。例如,划分比例为0.7,则第一份输出数据的个数占原始数据总个数的70%,第二份数据的占30%。

输入

  • 数据形式:Dense 或 libsvm
  • 格式:| features |

输出

  • 第一输出结果:第一份数据的输出
    • 格式:| features |
    • 说明:格式与输入数据一致。
  • 第二输出结果:第二份数据的输出
    • 格式:| features |
    • 说明:格式与输入数据一致。

参数说明

  • fraction:数据的划分比例。
  • 并行数:训练数据的分区数、Spark 的并行数。