Drill介绍

Drill介绍

Drill 是 Apache 开源的，用于大数据探索的 SQL 查询引擎。她在大数据应用中，面对结构化数据和变化迅速的数据，她能够去兼容，并且高性能的去分析，同时，还提供业界都熟悉的标准的查询语言，即：ANSI SQL 生态系统。Drill 提供即插即用，在现有的 Hive 和 HBase中可以随时整合部署。

Apache Drill 1.3 和 1.4 的新特性？

这些版本修复了一些问题并且添加了一些改进，内容包含一下几点：

支持 Amazon S3。
类型多样化支持从一个数据类型演变为另一个数据类型的列。
文本文件的header。
支持二进制文件。
增强查询 Hive 表，MongoDB集合以及 Avro 文件。

Apache Drill 1.2 的新特性？

这些版本修复了一些问题并且添加了一些改进，内容包含一下几点：

支持 JDBC 数据源，例如：MySQL，通过新的 JDBC 存储插件。
改进 Drill 的 JDBC 驱动，包含 Javadocs 和其兼容性。
改善 Avro 文件的格式
- 支持复杂数据类型，例如：UNION 和 MAP。
- 优化 Avro 文件的处理（block-wise）。
分区修改改进。
一批新的 SQL 窗口函数
- NTILE
- LAG 和 LEAD
- FIRST_VALUE 和 LAST_VALUE
HTTPS 支持 Web Console的操作
提高 HBASE 的查询性能，其中包含命令字节编码
优化读取 Parquet-backed，Hive 表
在 Hive 和 Impala中使用 CONVERT_FROM 函数解码 timestamp 时，读的时候支持 Parquet INT96 类型和新的 TIMESTAMP_IMPALA 类型
Parquet 的元数据缓存用来提高对大量文件的查询性能
DROP TABLE 命令
改进的相关子查询
Union Distinct
改进 LIMIT 的处理过程

Apache Drill 1.1 的新特性？

在 Apache Drill 1.1 中改善的内容，关键点有以下：

SQL 的窗口函数
在 CTAS 命令中，数据分区使用新的分区
授予 Hive 模拟功能
支持 UNION 和 UNION ALL 以及更优化的计划，其中包含 UNION

Apache Drill 1.0 的新特性？

Apache Drill 1.0 提供以下新特性：

对多种执行计划进行改进。
更新 Drill Shell，格式化查询结果。
在 Drillbit 上获取查询历史记录要通过日志审核。
改进连接处理。
在 Web UI 界面，添加新的 Tab 栏 Profiles，便于故障排除和分布式存储。
支持新的存储插件输入格式：Avro。在这个版本中，Drill 禁用了 DECIMAL 数据类型，包含转换成 DECIMAL 和读取 DECIMAL 类型从 Parquet 和 Hive 中。你可以启动 DECIMAL 类型，但是不推荐你这么做。

Apache Drill 关键特性

Apache Drill 的关键特性如下：

低延时的 SQL 查询。
动态查询在自定义数据文件（例如：JSON，Parquet，text）和 HBase 表中，不需要在 Hive 元数据中定义。
ANSI SQL
支持数据嵌套。
整合 Apache Hive（查询 Hive 表和视图，支持所有 Hive 文件格式和 Hive 的 UDFS）。
使用标准的 JDBC 和 ODBC 驱动整合 BI 和 SQL 工具。