一次性HDFS协议安装
按下列步骤安装并配置与gphdfs一起使用的Hadoop:
- 在所有Greenplum数据库主机上安装Java 1.7或者更高的版本,包括Master、Segment以及后备Master。
在所有主机上安装一个兼容的Hadoop发布。该发布在所有的主机上都应该相同。Hadoop安装信息可以参考Hadoop发布文档。
有关兼容的Hadoop发布的信息,请见Greenplum数据库发行注记。
安装后,确保Greenplum系统用户(gpadmin)对Hadoop库或者Greenplum的MR客户端具有读和执行权限。
在所有Segment上设置下列环境变量:
- JAVA_HOME – Java主目录
- HADOOP_HOME – Hadoop主目录
例如,增加下面这样的行到gpadmin用户的.bashrc配置中。
export JAVA_HOME=/usr/java/default
export HADOOP_HOME=/usr/lib/gphd
这些变量必须在~gpadmin/.bashrc或者~gpadmin/.bash_profile文件中设置,这样gpadmin用户的shell环境才能定位Java和Hadoop的主目录。
设置下列Greenplum数据库服务器配置参数并且重启Greenplum数据库。
表 1. Hadoop目标的服务器配置参数 配置参数 描述 默认值 设置级别 gp_hadoop_target_version Hadoop目标。选择下列之一。 cdh5
cdh4.1
hdp2
gpmr-1.2
hadoop2
gphd-1.1 master session
reloadgp_hadoop_home 如果有Pivotal HD,这个参数指定Hadoop的安装目录。例如,默认的安装目录是/usr/lib/gphd。 在使用Greenplum HD 1.2或者更早的版本时,指定与HADOOP_HOME环境变量相同的值。
NULL master session
reload
例如,下列命令使用Greenplum数据库工具gpconfig以及gpstop来设置服务器参数并且重启Greenplum数据库:
gpconfig -c gp_hadoop_target_version -v "'hdb2'"
gpstop -u
有关Greenplum数据库工具gpconfig和gpstop的信息,请见Greenplum数据库工具指南。
如果需要,确保$GPHOME/lib/hadoop/hadoop_env.sh文件在每一个Greenplum数据库主机上生成的CLASSPATH环境变量包含gphdfs所需的Java类所在的JAR文件的路径。
例如,如果gphdfs返回一个类为找到异常,确保含有该类的JAR文件在每一个Greenplum数据库主机上并且更新$GPHOME/lib/hadoop/hadoop_env.sh文件,这样该文件生成的CLASSPATH环境变量将包含该JAR文件。
上级主题: 使用Hadoop分布式文件系统(HDFS)表