Drill介绍

Drill 是 Apache 开源的,用于大数据探索的 SQL 查询引擎。她在大数据应用中,面对结构化数据和变化迅速的数据,她能够去兼容,并且高性能的去分析,同时,还提供业界都熟悉的标准的查询语言,即:ANSI SQL 生态系统。Drill 提供即插即用,在现有的 Hive 和 HBase中可以随时整合部署。

Apache Drill 1.3 和 1.4 的新特性?

这些版本修复了一些问题并且添加了一些改进,内容包含一下几点:

  • 支持 Amazon S3。
  • 类型多样化支持从一个数据类型演变为另一个数据类型的列。
  • 文本文件的header。
  • 支持二进制文件。
  • 增强查询 Hive 表,MongoDB集合以及 Avro 文件。

Apache Drill 1.2 的新特性?

这些版本修复了一些问题并且添加了一些改进,内容包含一下几点:

  • 支持 JDBC 数据源,例如:MySQL,通过新的 JDBC 存储插件。
  • 改进 Drill 的 JDBC 驱动,包含 Javadocs 和其兼容性。
  • 改善 Avro 文件的格式
    • 支持复杂数据类型,例如:UNION 和 MAP。
    • 优化 Avro 文件的处理(block-wise)。
  • 分区修改改进。
  • 一批新的 SQL 窗口函数
    • NTILE
    • LAG 和 LEAD
    • FIRST_VALUE 和 LAST_VALUE
  • HTTPS 支持 Web Console的操作
  • 提高 HBASE 的查询性能,其中包含命令字节编码
  • 优化读取 Parquet-backed,Hive 表
  • 在 Hive 和 Impala中使用 CONVERT_FROM 函数解码 timestamp 时,读的时候支持 Parquet INT96 类型和新的 TIMESTAMP_IMPALA 类型
  • Parquet 的元数据缓存用来提高对大量文件的查询性能
  • DROP TABLE 命令
  • 改进的相关子查询
  • Union Distinct
  • 改进 LIMIT 的处理过程

Apache Drill 1.1 的新特性?

在 Apache Drill 1.1 中改善的内容,关键点有以下:

  • SQL 的窗口函数
  • 在 CTAS 命令中,数据分区使用新的分区
  • 授予 Hive 模拟功能
  • 支持 UNION 和 UNION ALL 以及更优化的计划,其中包含 UNION

Apache Drill 1.0 的新特性?

Apache Drill 1.0 提供以下新特性:

  • 对多种执行计划进行改进。
  • 更新 Drill Shell,格式化查询结果。
  • 在 Drillbit 上获取查询历史记录要通过日志审核。
  • 改进连接处理。
  • 在 Web UI 界面,添加新的 Tab 栏 Profiles,便于故障排除和分布式存储。
  • 支持新的存储插件输入格式:Avro。在这个版本中,Drill 禁用了 DECIMAL 数据类型,包含转换成 DECIMAL 和读取 DECIMAL 类型从 Parquet 和 Hive 中。你可以启动 DECIMAL 类型,但是不推荐你这么做。

Apache Drill 关键特性

Apache Drill 的关键特性如下:

  • 低延时的 SQL 查询。
  • 动态查询在自定义数据文件(例如:JSON,Parquet,text)和 HBase 表中,不需要在 Hive 元数据中定义。
  • ANSI SQL
  • 支持数据嵌套。
  • 整合 Apache Hive(查询 Hive 表和视图,支持所有 Hive 文件格式和 Hive 的 UDFS)。
  • 使用标准的 JDBC 和 ODBC 驱动整合 BI 和 SQL 工具。