设计目标

功能指标

Baidu Bigflow(以下简称Bigflow)能够将Baidu Spark(以下简称Spark)作为底层支持的引擎之一, 更加具体地:

  • 当前Bigflow的多语言版本API均可以使用:Bigflow Python和C++ API
  • 除指定Pipeline(引擎的抽象,例如Pipeline.create(“Hadoop”)修改为Pipeline.create(“Spark”)) 的代码外,现有的使用Bigflow写出的计算任务,均可以不加修改地运行在Spark平台上
  • 支持的范围尚不包括未正式发布的流式计算接口(这部分对应于Spark Streaming)

性能指标

Bigflow on Spark的作业运行性能应当尽可能高效

  • Bigflow Python API性能应当明显地优于PySpark
  • Bigflow C++ API写出的逻辑应当与Spark Scala API性能相仿