使用Dask扩展
DaskExecutor
允许您在Dask分布式集群中运行Airflow任务。
Dask集群可以在单个机器上运行,也可以在远程网络上运行。有关完整详细信息,请参阅分布式文档 。
要创建集群,首先启动一个Scheduler:
# 一个本地集群的默认设置
DASK_HOST=127.0.0.1
DASK_PORT=8786
dask-scheduler --host $DASK_HOST --port $DASK_PORT
接下来,在任何可以连接到主机的计算机上启动至少一个Worker:
dask-worker $DASK_HOST:$DASK_PORT
编辑airflow.cfg
以将执行程序设置为DaskExecutor
并在[dask]
部分中提供Dask Scheduler地址。
请注意:
- 每个Dask worker必须能够导入Airflow和您需要的任何依赖项。
- Dask不支持队列。如果使用队列创建了Airflow任务,则会引发警告,但该任务会被提交给集群。