来源:华校专
浏览 858
扫码
分享
2020-06-07 18:26:50
一、概述
spark sql
是用于操作结构化数据的程序包
- 通过
spark sql
,可以使用SQL
或者 HQL
来查询数据,查询结果以Dataset/DataFrame
的形式返回 - 它支持多种数据源,如
Hive
表、Parquet
以及 JSON
等 - 它支持开发者将
SQL
和传统的RDD
变成相结合
Dataset
:是一个分布式的数据集合
- 它是
Spark 1.6
中被添加的新接口 - 它提供了
RDD
的优点与Spark SQL
执行引擎的优点 - 它在
Scala
和Java
中是可用的。Python
不支持Dataset API
。但是由于Python
的动态特性,许多DataSet API
的优点已经可用
DataFrame
:是一个Dataset
组成的指定列。
- 它的概念等价于一个关系型数据库中的表
- 在
Scala/Python
中,DataFrame
由DataSet
中的 RowS
(多个Row
) 来表示。
- 在
spark 2.0
之后,SQLContext
被 SparkSession
取代。
当前内容版权归
华校专 或其关联方所有,如需对内容或内容相关联开源项目进行关注与资助,请访问
华校专 .