部署 Kettle 集群
1 准备工作
DataEase 本身并不需要 Kettle 组成集群模式,多个独立的 Kettle 节点也可以由 DataEase 内部的调用策略来分配使用。
1.1 服务器准备
此处搭建三个 Kettle 节点,节点规划如下:
- kettle-1 节点,IP 为 10.1.11.55
- kettle-2 节点,IP 为 10.1.11.178
- kettle-3 节点,IP 为 10.1.11.68
所有服务器的操作系统均为 CentOS 7,这里使用的是 CentOS 7.7,服务器硬件配置视数据规模而定。
其他信息:
- NFS 节点,IP 为 10.1.11.64,用于 Kettle 的挂载路径为 /opt/kettle
1.2 软件准备
下载 Kettle 安装包,此处使用的是 pdi-ce-8.3.0.0-371.zip,链接地址:https://pan.baidu.com/s/106CxFdc0n_kYOHRT4M5ZaQ 提取码:spzf 。
1.3 防火墙
此处我们会在 18080 端口运行 Kettle,所以需要保证 18080 端口可被外部访问,可以执行以下命令打开防火墙的 18080 端口:
firewall-cmd --zone=public --add-port=18080/tcp --permanent
firewall-cmd --reload
2 安装 NFS
由于 Kettle 需要使用通过 DataEase 上传的 Excel 文件,此处采用了 NFS 方案。
# 安装 NFS 相关软件包
yum install -y nfs-utils
# 创建要挂载的目录
mkdir -p /opt/dataease/data/kettle
# 修改 /etc/fstab 文件
echo "10.1.11.64:/opt/kettle /opt/dataease/data/kettle nfs defaults 0 0" >> /etc/fstab
# 挂载
mount -a
3 安装 JDK 1.8
执行命令安装 OpenJDK 1.8:
yum install -y java-1.8.0-openjdk
4 安装 Kettle
4.1 解压安装包
执行命令将安装包解压到 /opt/kettle 目录下:
unzip -d /opt/kettle pdi-ce-8.3.0.0-371.zip
4.2 安装驱动
Kettle 需要通过数据库驱动程序来连接各类数据源,官方提供的安装包内驱动程序并不齐全,此处需要额外添加几个驱动,可以通过百度网盘进行下载:
链接: https://pan.baidu.com/s/1bTpL1MtFnebaOv1wqKhulQ?pwd=ltvj 提取码: ltvj
解压后的数据库驱动文件,拷贝到 Kettle 应用的安装位置,例如:/opt/kettle/data-integration/lib 目录下,然后重启 Kettle 即可。
4.3 创建配置文件
创建 Kettle 运行时的配置文件,将数据目录指向 NFS 路径:
mkdir -p /opt/kettle/conf/.kettle
cat > /opt/kettle/conf/.kettle/repositories.xml <<EOF
<?xml version="1.0" encoding="UTF-8"?>
<repositories>
<repository>
<id>KettleFileRepository</id>
<name>repo</name>
<description>File repository</description>
<is_default>false</is_default>
<base_directory>/opt/dataease/data/kettle</base_directory>
<read_only>N</read_only>
<hides_hidden_files>N</hides_hidden_files>
</repository>
</repositories>
EOF
4.4 配置环境变量
设置环境变量 KETTLE_HOME:
echo "KETTLE_HOME=/opt/kettle/conf" >> /etc/profile
source /etc/profile
4.5 运行 Kettle
执行启动命令:
nohup /opt/kettle/data-integration/carte.sh 0.0.0.0 18080 &