扩容Greenplum系统

为了放大性能和存储能力,通过向集群增加主机来扩容用户的Greenplum系统。

随着额外的数据被收集以及现有数据的保留时间增加,数据仓库会随着时间而长大。 有时,有必要增加数据库能力来联合不同的数据仓库到一个数据库中。 也可能需要额外的计算能力(CPU)来适应新增加的分析项目。 尽管在系统被初始定义时就留出增长的空间是最为明智的,但是通常不太可能在提前太多在资源上投资。 因此,用户应该寄望于定期地执行一次数据库扩容项目。

由于Greenplum的MPP架构,在用户增加资源到系统时,得到的容量和性能就好像该系统一开始就用增加后的资源实现一样。 和要求大量停机时间来转储和恢复数据的数据仓库系统不同,扩容一个Greenplum数据库系统是一种最小化停机时间的分阶段处理。 在数据被重新分布时,常规和特别负载可以继续并且事务一致性也能被维护。 管理员可以安排分布活动以适合正在进行的操作并且可以按需暂停和继续。 表可以被排名,这样数据集可以以一种优先序列的方式被重新分布,从而确保关键性的负载能很快从扩容后的能力受益,或者释放所需的磁盘空间来重新分布非常大的表。

扩容处理使用标准的Greenplum数据库操作,因此它是透明的并且管理员易于排查错误。 Segment镜像和任何复制机制就地保持活动,因此容错性没有打折扣并且灾难恢复措施也保持有效。

  • 系统扩容概述
    用户可以最小化停机时间,通过增加节点实例和节点主机来扩容Greenplum数据库。
  • 规划Greenplum系统扩容
    细心的规划将帮助确保一个成功的Greenplum扩容项目。
  • 准备并增加节点
    验证用户的新节点已经准备好整合到现有的Greenplum系统中。
  • 初始化新节点
    使用gpexpand工具创建并初始化新节点实例,并创建扩容schema。
  • 重分布表
    重新分布表让现有数据在新扩容后的集群上得以平衡。
  • 移除扩容Schema
    要在扩容Greenplum集群后进行清理,需要移除扩容Schema。

Parent topic: 管理一个Greenplum系统