Drill 默认输出格式

你可以定义一个默认的输入格式,以告诉 Drill 在文件系统中的工作区中存在的文件类型。

通常,当搜素工作区间时,Drill 会根据文件扩展名和整数常量决定文件类型。整数常量的数字文件签名,Drill 用来识别 Parquet 文件。如果无法识别文件类型的扩展名和整数常量,查询失败。定义一个默认的输入格式可以防止在不确定该文件类型的情况下防止进行查询。

如果不定义工作区中的默认文件类型,或是定义的文件类型不正确,Drill 不能确定文件类型,查询失败。你可以定义每个工作区的一个默认的输入格式。你可以定义一个默认的输入格式,用于任何类型的文件类型。目前,Drill 支持以下输入类型:

  • Avro
  • CSV,TSV,或 PSV
  • Parquet
  • JSON
  • Hadoop 二进制文件

在你定义默认的输入格式之前,你必需有一个定义工作区间。

为了定义默认的输入格式到工作区间:

  1. 定位到 Drill Web 控制台。在连接到 Drill Web 控制台时,Drillbit 进程必需处于运行。
  2. 在工具条中,选择 “Storage”。
  3. 点击 “Update” 应用插件到工作区间。
  4. 在配置区域,改变 defaultInputFormat 属性为任何支持的文件格式。

定义默认的输入格式

  1. {
  2. "type": "file",
  3. "enabled": true,
  4. "connection": "hdfs://",
  5. "workspaces": {
  6. "root": {
  7. "location": "/drill/testdata",
  8. "writable": false,
  9. "defaultInputFormat": "csv"
  10. },
  11. "local" : {
  12. "location" : "/max/proddata",
  13. "writable" : true,
  14. "defaultInputFormat" : "json"
  15. }