gpfdist://协议

gpfdist://协议被用在一个URI中引用一个正在运行的gpfdist实例。gpfdist工具从一个文件主机上的目录中把外部数据文件并行提供给Greenplum数据库的所有Segment。

gpfdist位于Greenplum数据库的Master主机以及每个Segment主机上的$GPHOME/bin目录。

在外部数据文件所在的主机上运行gpfdist。gpfdist会自动解压gzip(.gz)和bzip2(.bz2)文件。用户可以使用通配符(*)或者其他C风格的模式匹配来表示要读取的多个文件。指定的文件都被假定是相对于启动gpfdist实例时指定的目录。

所有的主要Segment并行地访问外部文件,Segment的数量服从gp_external_max_segments服务器配置参数中设置的数量。在CREATE EXTERNAL TABLE语句中使用多个gpfdist数据源可以放大外部表的扫描性能。更多有关配置gpfdist的信息,请见使用Greenplum的并行文件服务器(gpfdist)

更多有关通过gpfdist使用外部表的信息,请见gpfdist的参考文档。

上级主题: 使用基于文件的外部表