阿里云 MaxCompute

MaxCompute是阿里云上的企业级SaaS(Software as a Service)模式云数据仓库。

什么是 MaxCompute

使用须知

  1. Max Compute Catalog基于Max Compute Tunnel SDK开发。查询性能有一定限制。
  2. 在一次查询中,每个Scan都会创建Max Compute的DownloadSession对象,并行访问Max Compute时性能会下降,建议使用Max Compute Catalog时,尽量减少查询的分区数量和数据大小。

连接 Max Compute

  1. CREATE CATALOG mc PROPERTIES (
  2. "type" = "max_compute",
  3. "mc.region" = "cn-beijing",
  4. "mc.default.project" = "your-project",
  5. "mc.access_key" = "ak",
  6. "mc.secret_key" = "sk"
  7. );
  • mc.region:MaxCompute开通的地域。可以从Endpoint中找到对应的Region,参阅Endpoints
  • mc.default.project:MaxCompute项目。可以在MaxCompute项目列表中创建和管理。
  • mc.access_key:AccessKey。可以在 阿里云控制台 中创建和管理。
  • mc.secret_key:SecretKey。可以在 阿里云控制台 中创建和管理。
  • mc.public_access: 当配置了"mc.public_access"="true",可以开启公网访问,建议测试时使用。

限额

连接MaxCompute时,按量付费的Quota查询并发和使用量有限,如需增加资源,请参照MaxCompute文档。参见配额管理.

列类型映射

和 Hive Catalog 一致,可参阅 Hive Catalog列类型映射 一节。

自定义服务地址

默认情况下,Max Compute Catalog根据region去默认生成公网的endpoint。

除了默认的endpoint地址外,Max Compute Catalog也支持在属性中自定义服务地址。

使用以下两个属性:

  • mc.odps_endpoint:Max Compute Endpoint。
  • mc.tunnel_endpoint: Tunnel Endpoint,Max Compute Catalog使用Tunnel SDK获取数据。

Max Compute Endpoint和Tunnel Endpoint的配置请参见各地域及不同网络连接方式下的Endpoint

示例:

  1. CREATE CATALOG mc PROPERTIES (
  2. "type" = "max_compute",
  3. "mc.region" = "cn-beijing",
  4. "mc.default.project" = "your-project",
  5. "mc.access_key" = "ak",
  6. "mc.secret_key" = "sk"
  7. "mc.odps_endpoint" = "http://service.cn-beijing.maxcompute.aliyun-inc.com/api",
  8. "mc.tunnel_endpoint" = "http://dt.cn-beijing.maxcompute.aliyun-inc.com"
  9. );