Google Compute Engine设置

本文档提供了有关如何在Google Compute Engine群集上使用Hadoop 1或Hadoop 2完全自动设置Flink的说明这是通过Google的bdutil实现的,它启动了一个集群并使用Hadoop部署了Flink。要开始使用,请按照以下步骤 算子操作。

先决条件

安装Google Cloud SDK

请按照有关如何设置Google Cloud SDK的说明进行 算子操作特别是,请务必使用以下命令对Google Cloud进行身份验证:

  1. gcloud auth login

安装bdutil

目前,尚未发布包含Flink扩展的bdutil版本。但是,您可以从GitHub获得Flink支持的最新版本的bdutil

  1. git clone https://github.com/GoogleCloudPlatform/bdutil.git

下载源后,切换到新创建的bdutil目录并继续执行后续步骤。

在Google Compute Engine上部署Flink

设置一个桶

如果尚未这样做,请为bdutil配置和暂存文件创建一个存储桶。可以使用gsutil创建一个新存储桶:

  1. gsutil mb gs://<bucket_name>

调整bdutil配置

要使用bdutil部署Flink,请至少调整bdutil_env.sh中的以下变量。

  1. CONFIGBUCKET="<bucket_name>"
  2. PROJECT="<compute_engine_project_name>"
  3. NUM_WORKERS=<number_of_workers>
  4. # set this to 'n1-standard-2' if you're using the free trial
  5. GCE_MACHINE_TYPE="<gce_machine_type>"
  6. # for example: "europe-west1-d"
  7. GCE_ZONE="<gce_zone>"

bdutil的Flink扩展为您处理配置。您可以另外调整配置变量extensions/flink/flink_env.sh如果您想进一步配置,请查看配置Flink使用bin/stop-cluster更改其配置后,您将不得不重新启动Flink bin/start-cluster

要在Google Compute Engine上显示Flink群集,请执行:

  1. ./bdutil -e extensions/flink/flink_env.sh deploy
  1. ./bdutil shell
  2. cd /home/hadoop/flink-install/bin
  3. ./flink run ../examples/batch/WordCount.jar gs://dataflow-samples/shakespeare/othello.txt gs://<bucket_name>/output

关闭群集

关闭集群就像执行一样简单

  1. ./bdutil -e extensions/flink/flink_env.sh delete