Bigflow On Spark 设计Bigflow On Spark 设计 背景名次解释设计目标 功能指标性能指标 整体架构开发环境 项目规范 设计思路及折衷 需要利用Spark的哪些机制 数据计算方式Cache机制 Spark RDD与Bigflow RuntimeWorker的交互方式访问Peta等存储的方式内存管理Bigflow在Spark平台的作业分发 模块设计 Core API(LogicalPlan)SparkPlanner 逻辑计划定义(proto描述)Planner策略–LogicalOptimizingPlanner策略–TopologicalOptimizingPlanner翻译–RuntimeProcedurePlanner翻译–TranslationProcedure SparkRuntime Runtime(client):Runtime(Worker):Cache机制其他相关问题:构建、部署和依赖 测试相关 功能测试性能测试与PySpark的Benchmark Case 示例 示例1 – 单Stage(‘map-only’)作业示例2 – WordCount