分布式排序
分布式排序允许对超过query.max-memory-per-node
的数据排序。分布式排序通过协调节点的etc/config.properties
中设置的distributed_sort
会话属性或distributed-sort
配置属性集启用。分布式排序默认启用。
当启用分布式排序时,排序算子在集群中的多个节点上并行执行。每个openLooKeng工作节点的已部分排序数据随后被流式传输到单个工作节点以进行最终合并。该技术允许利用多个openLooKeng工作节点的内存进行排序。分布式排序的主要目的是允许对通常不适合单节点内存的数据集进行排序。可以预期性能将得到提升,但是这种提升不会随着节点数的增多而线性增长,因为数据需要由单个节点合并。