SummarySummary Introduction快速上手 Spark Shell独立应用程序开始翻滚吧! 编程指南 引入 Spark初始化 SparkSpark RDDs 并行集合外部数据集RDD 操作 传递函数到 Spark使用键值对TransformationsActions RDD持久化 共享变量从这里开始 Spark Streaming 一个快速的例子基本概念 关联初始化StreamingContext离散流输入DStreamsDStream中的转换DStream的输出操作缓存或持久化Checkpointing部署应用程序监控应用程序 性能调优 减少批数据的执行时间设置正确的批容量内存调优 容错语义 Spark SQL 开始数据源 RDDsparquet文件JSON数据集Hive表 性能调优其它SQL接口编写语言集成(Language-Integrated)的相关查询Spark SQL数据类型 GraphX编程指南 开始属性图图操作符Pregel API图构造者顶点和边RDDs图算法例子 部署 独立运行Spark在yarn上运行Spark Spark配置 RDD 持久化