MaxCompute 是阿里云上的企业级 SaaS(Software as a Service)模式云数据仓库。

什么是 MaxCompute

使用须知

  1. Max Compute Catalog 基于Max Compute Tunnel SDK开发。查询性能有一定限制。
  2. 在一次查询中,每个 Scan 都会创建 Max Compute 的 DownloadSession 对象,并行访问 Max Compute 时性能会下降,建议使用 Max Compute Catalog 时,尽量减少查询的分区数量和数据大小。

连接 Max Compute

  1. CREATE CATALOG mc PROPERTIES (
  2. "type" = "max_compute",
  3. "mc.region" = "cn-beijing",
  4. "mc.default.project" = "your-project",
  5. "mc.access_key" = "ak",
  6. "mc.secret_key" = "sk"
  7. );
  • mc.region:MaxCompute 开通的地域。可以从 Endpoint 中找到对应的 Region,参阅Endpoints
  • mc.default.project:MaxCompute 项目。可以在MaxCompute 项目列表中创建和管理。
  • mc.access_key:AccessKey。可以在 阿里云控制台 中创建和管理。
  • mc.secret_key:SecretKey。可以在 阿里云控制台 中创建和管理。
  • mc.public_access: 当配置了"mc.public_access"="true",可以开启公网访问,建议测试时使用。

限额

连接 MaxCompute 时,按量付费的 Quota 查询并发和使用量有限,如需增加资源,请参照 MaxCompute 文档。参见配额管理.

列类型映射

和 Hive Catalog 一致,可参阅 Hive Catalog列类型映射 一节。

自定义服务地址

默认情况下,Max Compute Catalog 根据 region 去默认生成公网的 endpoint。

除了默认的 endpoint 地址外,Max Compute Catalog 也支持在属性中自定义服务地址。

使用以下两个属性:

  • mc.odps_endpoint:Max Compute Endpoint。
  • mc.tunnel_endpoint: Tunnel Endpoint,Max Compute Catalog 使用 Tunnel SDK 获取数据。

Max Compute Endpoint 和 Tunnel Endpoint 的配置请参见各地域及不同网络连接方式下的 Endpoint

示例:

  1. CREATE CATALOG mc PROPERTIES (
  2. "type" = "max_compute",
  3. "mc.region" = "cn-beijing",
  4. "mc.default.project" = "your-project",
  5. "mc.access_key" = "ak",
  6. "mc.secret_key" = "sk"
  7. "mc.odps_endpoint" = "http://service.cn-beijing.maxcompute.aliyun-inc.com/api",
  8. "mc.tunnel_endpoint" = "http://dt.cn-beijing.maxcompute.aliyun-inc.com"
  9. );