核心概念
MLeap 通过多个核心构件(Building Block)来实现 Pipeline 的轻松部署。
概念 | 说明 |
---|---|
Data Frames | 用于存储将被转换的数据,类似于 SQL 表。 |
Transformers | 从 Data Frame 中提取数据,对数据应用某些操作,并输出新的字段到 Data Frame 中。 |
Pipelines | 使用 Pipeline 来对 Data Frame 执行一系列 Transformer 的操作。 |
特征联合(Feature Unions,仅适用于 Scikit Learn) | 使用特征联合来并行执行包含 Transformer 的多个 Pipeline,并在结束后结合(Join)产出的结果。 |
MLeap Bundles | 以通用的 JSON 和 Protobuf 等序列化格式来存储 ML Pipeline。 |
MLeap Runtime | 在 JVM 中以轻量级的数据结构来执行 ML Pipeline。 |
虽然本章的目的是为不熟悉 Pipeline 和 Data Frame 等机器学习基础的人提供的一份入门指导,但是关于 MLeap Bundle 和 MLeap Runtme 的章节也适用于所有人。