gpfdist://协议
gpfdist://协议被用在一个URI中引用一个正在运行的 gpfdist实例。
gpfdist工具从一个文件主机上的目录中把外部数据文件并行提供给Greenplum数据库的所有Segment。
gpfdist位于Greenplum数据库的Master主机以及每个Segment主机上的$GPHOME/bin目录。
在外部数据文件所在的主机上运行gpfdist。 gpfdist 会自动解压 gzip (.gz) 和 bzip2 (.bz2)。用户可以使用通配符(*)或者其他C风格的模式匹配来表示要读取的多个文件。指定的文件都被假定是相对于启动 gpfdist实例时指定的目录。
所有的主Segment并行地访问外部文件,Segment的数量服从gp_external_max_segments服务器配置参数中设置的数量。 在CREATE EXTERNAL TABLE语句中使用多个gpfdist数据源可以放大外部表的扫描性能。
gpfdist支持数据转换。你可以写一个转换进程将外部数据转入或转出到一个不被Greenplum数据库外部表直接支持的格式。
更多关于gpfdist的配置, 参考使用Greenplum并行文件服务器(gpfdist).
参考gpfdist相关文档了解更多关于使用gpfdist处理外部表的信息。
Parent topic: 定义外部表