Drill介绍
Drill 是 Apache 开源的,用于大数据探索的 SQL 查询引擎。她在大数据应用中,面对结构化数据和变化迅速的数据,她能够去兼容,并且高性能的去分析,同时,还提供业界都熟悉的标准的查询语言,即:ANSI SQL 生态系统。Drill 提供即插即用,在现有的 Hive 和 HBase中可以随时整合部署。
Apache Drill 1.3 和 1.4 的新特性?
这些版本修复了一些问题并且添加了一些改进,内容包含一下几点:
- 支持 Amazon S3。
- 类型多样化支持从一个数据类型演变为另一个数据类型的列。
- 文本文件的header。
- 支持二进制文件。
- 增强查询 Hive 表,MongoDB集合以及 Avro 文件。
Apache Drill 1.2 的新特性?
这些版本修复了一些问题并且添加了一些改进,内容包含一下几点:
- 支持 JDBC 数据源,例如:MySQL,通过新的 JDBC 存储插件。
- 改进 Drill 的 JDBC 驱动,包含 Javadocs 和其兼容性。
- 改善 Avro 文件的格式
- 支持复杂数据类型,例如:UNION 和 MAP。
- 优化 Avro 文件的处理(block-wise)。
- 分区修改改进。
- 一批新的 SQL 窗口函数
- NTILE
- LAG 和 LEAD
- FIRST_VALUE 和 LAST_VALUE
- HTTPS 支持 Web Console的操作
- 提高 HBASE 的查询性能,其中包含命令字节编码
- 优化读取 Parquet-backed,Hive 表
- 在 Hive 和 Impala中使用 CONVERT_FROM 函数解码 timestamp 时,读的时候支持 Parquet INT96 类型和新的 TIMESTAMP_IMPALA 类型
- Parquet 的元数据缓存用来提高对大量文件的查询性能
- DROP TABLE 命令
- 改进的相关子查询
- Union Distinct
- 改进 LIMIT 的处理过程
Apache Drill 1.1 的新特性?
在 Apache Drill 1.1 中改善的内容,关键点有以下:
- SQL 的窗口函数
- 在 CTAS 命令中,数据分区使用新的分区
- 授予 Hive 模拟功能
- 支持 UNION 和 UNION ALL 以及更优化的计划,其中包含 UNION
Apache Drill 1.0 的新特性?
Apache Drill 1.0 提供以下新特性:
- 对多种执行计划进行改进。
- 更新 Drill Shell,格式化查询结果。
- 在 Drillbit 上获取查询历史记录要通过日志审核。
- 改进连接处理。
- 在 Web UI 界面,添加新的 Tab 栏 Profiles,便于故障排除和分布式存储。
- 支持新的存储插件输入格式:Avro。在这个版本中,Drill 禁用了 DECIMAL 数据类型,包含转换成 DECIMAL 和读取 DECIMAL 类型从 Parquet 和 Hive 中。你可以启动 DECIMAL 类型,但是不推荐你这么做。
Apache Drill 关键特性
Apache Drill 的关键特性如下:
- 低延时的 SQL 查询。
- 动态查询在自定义数据文件(例如:JSON,Parquet,text)和 HBase 表中,不需要在 Hive 元数据中定义。
- ANSI SQL
- 支持数据嵌套。
- 整合 Apache Hive(查询 Hive 表和视图,支持所有 Hive 文件格式和 Hive 的 UDFS)。
- 使用标准的 JDBC 和 ODBC 驱动整合 BI 和 SQL 工具。